编程神器Trae:当我用上后,才知道自己的创造力被低估了多少

news/2025/3/26 19:22:56/文章来源:https://www.cnblogs.com/anai/p/18790489

"AI会让每个人都能成为工具创造者,打破你能力边界,有时候只需要一个想法。"

AI粉嫩特攻队,2025年3月23日。

前几天参加了一场行业闭门研讨会,满满1个半小时的干货演讲让我收获颇丰。会后,我迫不及待地想将录音整理成文字,方便日后回顾。却被提示"文件过大"、"超出免费额度"、"需要登录账号"...

"难道就没有一款既快速又准确,还能离线随时使用的音频转文字工具吗?"

突然想起我曾经写过如何用coze搭建AI笔记生成工具,但前提是要有文本。后来就有小伙伴问我有没有好用的音频转文本工具,我决定好好对待一下这个需求。

市面上的音频转文本工具其实很多,但大多存在这些问题:

  • 需要将音频上传到网上(对隐私敏感的用户不友好)

  • 上传大小有限制(通常不大于500MB,或更小)

  • 免费额度有限

  • ...

一番搜索之后,我发现了buzz,它支持whisper的多个模型和离线使用,但实测whisper-tiny比我最终选用的模型慢7~10倍,且识别准确度有待提高。比如它把"可能会有付费"识别成了"可能会有副肺"🤣

图片

除了转换慢和偶尔出现错别字外,buzz还是不错的,尤其是支持导出srt和vtt字幕文件。但我的需求更简单:快速准确地将课程录播、会议录音等转成文本,然后用AI笔记工具整理,方便随时回顾。

再一番调研之后,我选中了这个开源项目:

SenseVoice
https://github.com/FunAudioLLM/SenseVoice

SenseVoice是一个语音基础模型,具有多种功能,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。

对我来说,重要的是它能离线将中文音频快速准确地转成文字,而且在音频时长增加的情况下,处理时间增加不明显!实测用时如下:

不同硬件配置下,2.5w~5w字、1.5小时、1.9G大小的音频文件处理速度对比:

  • CPU 12th Gen Intel(R) Core(TM) i9-12900KS:耗时5分钟

  • NVIDIA GTX 1660Ti 6G显存:耗时2分钟

  • NVIDIA RTX 3090 24G显存:耗时10~15秒

基于SenseVoice项目,我决定开发一个桌面工具,感觉这样比较方便更多人使用,毕竟不是每个人都知道如何将这个开源项目部署到本地,并且快速的用起来。通常桌面应用开发是会让我望而却步的,但自从有了cursor和trae这样的AI编码神器,情况开始不一样了!

首先,trae是字节开发的AI编程神器,分为海外版和国内版。我用的是海外版,因为可以免费使用Claude 3.5和3.7,而国内版只能用DeepSeek等国内大模型。

访问https://www.trae.ai/下载trae海外版:

图片

安装后打开trae,界面如下:

图片

注册登录后,安装Python相关插件:

图片

然后就可以开始开发了,我先下载了SenseVoice开源项目的源码,然后在trae中打开,然后仅保留需要的核心文件(音频转文字功能),其它文件可以先删掉。

图片

然后,下载两个模型文件,放到新建的models目录中:

  • speech_fsmn_vad_zh-cn-16k-common-pytorch(用于检测有效语音)

  • SenseVoiceSmall(用于将语音转成文字)

图片

然后,新建一个mydata目录,用于存放输入的音频文件和输出的txt文件。

图片

然后,安装依赖包:

--extra-index-url https://download.pytorch.org/whl/cu118
torch==2.0.1+cu118
torchvision==0.15.2
torchaudio==2.0.2
modelscope==1.20.1
huggingface==0.0.1
huggingface_hub==0.26.3
funasr>=1.1.3
numpy<=1.26.4
gradio==5.7.1
fastapi>=0.111.1
PyQt5>=5.15.0
PyInstaller>=5.0.0

(PyQt5和PyInstaller两个依赖包是我在下面与trae提供的claude聊天过程,自动添加进去的。其它依赖是SenseVoice 开源项目本身需要的。)

接下来打开trae的chat界面,选择Claude 3.5.

图片

提出我的要求:"帮我写一个桌面应用程序,支持批量上传音频文件,然后点击转换后可以看到进度条,转换成功后的文本可以显示出来,并提供保存成本地文件的功能。"

AI很快生成了app.py和build-script.py两个文件,并自动安装了PyQt5和PyInstaller依赖。执行app.py测试,很强,居然一次成功!

再试一下用build-script.py打包成exe文件,执行打包后的exe文件,果然还是报错了。

无妨,我不断把错误信息发给trae,大概3轮左右,就可以运行打包好的exe程序了。得到的界面效果如下:

图片

本来到这应该就可以了,但是突然感觉这个界面有点太普通了。我继续让Claude帮我改改皮肤美化美化:"重新设计这个代码中的皮肤,改为AI科技多巴胺风格,符合当下年轻人的审美,让人用的舒服。"AI再次惊艳到我,甚至帮我加了启动画面的代码!

图片

接着我又让它帮我修改了一些细节,比如添加了一个最小化的按钮,加了一些申明,都是直接提要求,AI会自己思考加在哪里更合适,基本都是满意的。然后,我又得到了下面这个界面:

图片

测试上传多个音频文件并转换,一切正常,文本显示和保存功能都没问题。没得说,没得说,只能哇塞了。

写在最后

回顾整个开发过程,我不禁再次感叹AI工具带来的变革。曾经,开发一款桌面应用对我这样的非专业开发者来说是非常难,更别说这种炫酷的效果了。而现在,借助trae这样的AI编码神器,我只需描述需求,AI就能生成符合预期的代码。

这不仅仅是技术的进步,更是创造力的解放。AI拓宽了我们创造工具的边界,让我们敢于尝试曾经觉得困难的事情。每个人都可以成为创造者,用自己的想法解决实际问题。

正如这次我用AI开发的音频转文字AI工具,它解决了离线转换大音频文件的痛点,也许正是你一直在寻找的答案。技术的意义,不正是为了让生活变得更美好吗?

我相信,随着AI工具的不断发展,我们将看到更多“外行”人创造出的惊艳作品。这就是AI的魅力所在——它不是替代人类,而是赋能我们,让不可能变为可能。

如果你也有音频转文字的需求,不妨试试这款用trae开发的AI音频转文字小工具,希望它能为你带来便利!

AI音频转文字小工具下载:微信回复"AI音频转录工具",获取网盘下载地址和提取码。
你用trae做出过哪些好玩的作品?欢迎评论区留言。

以上,既然看到这里了,如果觉得不错,随手点个赞、分享、推荐三连吧,你的鼓励是我持续创作的动力,我们,下次再见。

AI粉嫩特攻队,内卷不灭,奋斗不止!🚀关注我,帮你把时间还给创造!✨
作者:秋水,AI粉嫩特攻队员之一,AI技术应用探索者和实践者,善于发现日常痛点并用AI技术解决问题,热衷于分享AI技术应用心得与成果。

互动交流,请联系邮箱:fennenqiushui@qq.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/905088.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20244212喻浩川《Python程序设计》实验一报告

课程:《Python程序设计》 班级: 2442 姓名: 喻浩川 学号:20244212 实验教师:王志强 实验日期:2025年3月25日 必修/选修: 公选课 1.实验内容 (1)熟悉Python开发环境; (2)练习Python运行、调试技能; (3)编写程序,练习变量和类型、字符串、对象、缩进和注释等; (4)编写…

龙哥量化:deepseek写公式是需要思路的, 我整理的公式思路,请点赞收藏, 我持续更新ing

龙哥微信:Long622889代写技术指标_选股公式: 通达信,同花顺,东方财富,大智慧,文华,博易,飞狐代写量化策略: TB交易开拓者,文华8,金字塔AI写代码,很多朋友都试过了 deepseek,腾讯元宝,通义千问,豆包,chatgpt,通达信内嵌AI写公式,同花顺内嵌AI写公式,等等,写…

SciTech-EECS-Circuits-电路稳定性: 温度补偿 的几种方式对比: 响应时问、精度、动态范围、线性度、稳定度

电路稳定性: 温度稳定性 测试的几种方式:电吹风加热 冰箱(-5度) + 烤箱(50度/70度)改进 "文氏电桥振荡" 电路 的“热稳定性温度补偿” 网上找来找去,都是用FET(场效应管)做成"压控电阻"控制 "振荡器"的"增益",达到稳幅的目的。 但电…

SpringBoot3+Vue3实现查询功能

安装axios封装前后端对接数据工具npm i axios -S通过requst.js工具类发起请求import axios from "axios"; import {ElMessage} from "element-plus";const request = axios.create({baseURL:http://localhost:8080,//后端统一的请求地址timeout:30000 //后…

Apache Echarts 入门学习 -2025/3/24

介绍 一种数据可视化技术echats官方文档: https://echarts.apache.org/handbook/zh/get-started/ <!DOCTYPE html> <html> <head><meta charset="utf-8"><title>第一个 ECharts 实例</title><!-- 引入 echarts.js --><…

[数据资产/数据标准/行标] 电力数据交易分类分级管理规范(团体标准)

发布单位: 广东省网络空间安全协会附录A (资料性) 数据分类示例附录B (资料性) 数据分级示例附录C (规范性) 数据分级安全保护要求X 参考文献【团标】电力数据交易分类分级管理规范 - Weixin/数据工匠俱乐部本文作者:千千寰宇本文链接:https://www.cnblogs.com/johnnyzen关于…

Netty源码—5.Pipeline和Handler

大纲 1.Pipeline和Handler的作用和构成 2.ChannelHandler的分类 3.几个特殊的ChannelHandler 4.ChannelHandler的生命周期 5.ChannelPipeline的事件处理 6.关于ChannelPipeline的问题整理 7.ChannelPipeline主要包括三部分内容 8.ChannelPipeline的初始化 9.ChannelPipeline添加…

A important person

When I saw this title,the first “person” that came to mind was my little sister, my puppy dog called LaiBao. I still remember the first day I saw her. My mom bought it on internet and the solder took her to us. She was too small at that time. She curled…

模型2汇率的数据预处理环节

数据来源:中国银行官网 数据项:货币名称【欧元】、汇率、时间 数据预处理围绕四个方面展开:重复值、异常值、归一化、缺失值 由于数据来源于官方网站,本身不存在缺失值及异常值,通过观察样本数据可知,数据的波动范围在7.800~8.000之间【数据保存三位小数】,波动范围较小…

SciTech-EECS-Circuits-AGC(Auto Gain Control, 自动增益控制)电路 的几种方式对比: 响应时问、精度、动态范围、线性度、稳定度

参考 https://www.elecfans.com/article/83/116/2010/20101201227060.html AGC 的几种方式"误差放大器" 的 AGC(自动增益控制): 放大量小了,稳压效果不好,放大量大了,容易自激。 AGC重点参数: 响应时问、精度、动态范围、线性度、稳定度.用“直流电压负反馈方式”…

昆明理工大学25冶金工程考研预计调剂169人

--冶金工程考研809冶金物理化学有色冶金学有色金属冶金冶金过程及设备F002钢铁冶金学冶金调剂

平衡树-入门

本文有一只奶龙编写,有借鉴会在其中说明。 平衡树 要了解平衡树是什么,我们需要先了解一个东西:二叉搜索树(也称二叉查找树)。二叉搜索/查找树(BST)如果我们有一颗二叉树可以进行查找,那么就可以说明其中的节点一定又有一个能够区分大小的“键值”。我们有节点来存储这…