百度语音识别开发笔记

目录

简述

开发环境

1、按照官方文档步骤开通短语音识别-普通话

2、创建应用

3、下载SDK

4、SDK集成

5、相关接口简单说明

5.1权限和key

5.2初始化

5.3注册回调消息

5.4开始转换

5.5停止转换

6、问题


简述

最近想做一些语音识别的应用,对比了几个大厂提供的语音合成,其中有些提供了几个月免费试用,对于我想长期使用的显然是不合适,其中百度的语音识别可以按照调用量进行收费,对于我这种厂期小使用量非常合适,一条才3里,3条才1分。所以就做一下百度语音识别的集成,这里只讲一下最简单的使用,很多参数可以设置,需要自己去研究了。

开发环境

android studio:Android Studio Jellyfish | 2023.3.1
语音识别版本:bdasr_V3_20210628_cfe8c44

1、按照官方文档步骤开通短语音识别-普通话

语音技术 (baidu.com)

2、创建应用

这里顺便打开文档和下载SDK

创建后会得到appid,api key,secret key

3、下载SDK

语音技术 (baidu.com)

例程和相关文档在这个压缩包中。

4、SDK集成

语音技术 (baidu.com)

将core/libs/bdasr_V3_xxxxx_xxxxx.jar 复制到您的项目的同名目录中。

下面这篇文章讲了如何导入jar包到工程中,使用方法二。

android studio 导入第三方的jar包,add as library的位置-腾讯云开发者社区-腾讯云 (tencent.com)

其实就是在BaiduSpeechRecognition\app\build.gradle.kts中

将 core/src/main/jniLibs 下armeabi等包含so文件的5个目录,复制合并到BaiduSpeechRecognition\app\src\main\jniLibs目录中。

经过上面步骤后就已经集成好了SDK,当然百度的文档里使用了另一个方法集成,也可以使用。

5、相关接口简单说明

部分接口说明在压缩包的 demo_development_doc.md文件里

5.1权限和key

在您的core\src\main\AndroidManifest.xml文件里 替换您的appId appKey secretKey

添加权限

<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
<uses-permission android:name="android.permission.INTERNET" />
<uses-permission android:name="android.permission.MANAGE_EXTERNAL_STORAGE"tools:ignore="ScopedStorage" />

如果你的开始识别时使用的不自己设置参数,需要在AndroidManifest.xml中添加meta-data

5.2初始化

初始化EventManager对象

val asr: EventManager = EventManagerFactory.create(LocalContext.current, "asr")

5.3注册回调消息

val yourListener = // 自定义输出事件类EventListener { name, params, data, offset, length ->if (name == SpeechConstant.CALLBACK_EVENT_ASR_READY) {// 引擎就绪,可以说话,一般在收到此事件后通过UI通知用户可以说话了Log.e(TAG, "CALLBACK_EVENT_ASR_READY")}if (name == SpeechConstant.CALLBACK_EVENT_ASR_PARTIAL) {// 一句话的临时结果,最终结果及语义结果Log.e(TAG, "CALLBACK_EVENT_ASR_PARTIAL $params $data")// {"results_recognition":["开始"],"result_type":"partial_result","best_result":"开始","origin_result":{"err_no":0,"result":{"word":["开始"],"confident":[99]},"raf":112,"corpus_no":7363482792138232974,"sn":"09cd77b2-2c14-4d89-9673-68279c3a4567","product_id":1537,"product_line":"open","result_type":"TS_RESULT_TYPE_MIDDLE"},"error":0}// {"results_recognition":["开始说话说话说话来了来我操。"],"result_type":"final_result","best_result":"开始说话说话说话来了来我操。","origin_result":{"err_no":0,"result":{"word":["开始说话说话说话来了来我操。"],"confident":[0]},"corpus_no":7363482792138232974,"sn":"09cd77b2-2c14-4d89-9673-68279c3a4567","product_id":1537,"product_line":"open","result_type":"TS_RESULT_TYPE_ONEBSET"},"error":0}}// ... 支持的输出事件和事件支持的事件参数见“输入和输出参数”一节}
// 注册自己的输出事件类
asr.registerListener(yourListener)

5.4开始转换

/*** 基于SDK集成2.2 发送开始事件* 点击开始按钮* 测试参数填在这里*/
private fun start(asr: EventManager) {val params: MutableMap<String, Any> = AuthUtil.getParam().toMutableMap()val event: String = SpeechConstant.ASR_START // 替换成测试的event// 基于SDK集成2.1 设置识别参数params[SpeechConstant.ACCEPT_AUDIO_VOLUME] = false// params.put(SpeechConstant.NLU, "enable");// params.put(SpeechConstant.BDS_ASR_ENABLE_LONG_SPEECH, true);//长语音  优先级高于VAD_ENDPOINT_TIMEOUT// params.put(SpeechConstant.VAD_ENDPOINT_TIMEOUT, 0); // 长语音// params.put(SpeechConstant.IN_FILE, "res:///com/baidu/android/voicedemo/16k_test.pcm");// params.put(SpeechConstant.VAD, SpeechConstant.VAD_DNN);// params.put(SpeechConstant.PID, 1537); // 中文输入法模型,有逗号/* 语音自训练平台特有参数 */// params.put(SpeechConstant.PID, 8002);// 语音自训练平台特殊pid,8002:模型类似开放平台 1537  具体是8001还是8002,看自训练平台页面上的显示// params.put(SpeechConstant.LMID,1068);// 语音自训练平台已上线的模型ID,https://ai.baidu.com/smartasr/model// 注意模型ID必须在你的appId所在的百度账号下/* 语音自训练平台特有参数 *//* 测试InputStream*/// InFileStream.setContext(this);// params.put(SpeechConstant.IN_FILE,// "#com.baidu.aip.asrwakeup3.core.inputstream.InFileStream.createMyPipedInputStream()");// 请先使用如‘在线识别’界面测试和生成识别参数。 params同ActivityRecog类中myRecognizer.start(params);// 复制此段可以自动检测错误
//    AutoCheck(getApplicationContext(), object : Handler() {
//        fun handleMessage(msg: Message) {
//            if (msg.what === 100) {
//                val autoCheck: AutoCheck = msg.obj as AutoCheck
//                synchronized(autoCheck) {
//                    val message: String =
//                        autoCheck.obtainErrorMessage() // autoCheck.obtainAllMessage();
//                    txtLog.append(message + "\n")
//                    // 可以用下面一行替代,在logcat中查看代码
//                }
//            }
//        }
//    }, enableOffline).checkAsr(params)val json: String? =(params as Map<*, *>?)?.let { JSONObject(it).toString() }  // 可以替换成自己的json // 这里可以替换成你需要测试的jsonasr.send(event, json, null, 0, 0)// 如果这里的json是“{}”,会到AndroidMainfest.xml中查找meta-data去填充id和ak,sk
//    asr.send(event, "{}", null, 0, 0)Log.i(TAG, "输入参数:$json")
}

5.5停止转换

/*** 点击停止按钮* 基于SDK集成4.1 发送停止事件*/
private fun stop(asr: EventManager) {Log.i(TAG, "停止识别:ASR_STOP")asr.send(SpeechConstant.ASR_STOP, null, null, 0, 0) //
}

6、问题

报错,并且不进行识别

2024-05-06 10:23:35.801  7712-7736  ASREngine               com.example.baiduspeechrecognition   E  EVoiceRecognitionClientWorkStatusError errorDomain : 20 errorCode : 1 desc : VAD start: start error. mLastRecognitionResult: 
2024-05-06 10:23:35.802  7712-7736  ASREngine               com.example.baiduspeechrecognition   D  generateErrorResult errDomain = 20 errCode = 1

解决

百度语音识别开发问题及解决方法_e/asrengine: evoicerecognitionclientworkstatuserro-CSDN博客

解决办法在这篇文章的留言里。

******百度智能云工程师: 您好您这边在AndroidManifest文件application标签增加android:extractNativeLibs="true"

浅谈extractNativeLibs_android:extractnativelibs-CSDN博客

这篇文章讲了这个选项的用处,这个选项是打包时候是否压缩so,需要设置为压缩,这可能与百度编译库的时候的选项相关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/669755.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“给力”用日语怎么说?柯桥成人日语培训

在日语中,给力这个词可以翻译成几个不同的表达方式,具体取决于语境。以下我将给出几个常见的日语翻译以及例句帮助理解: スゴイ 这个词意思为“太棒了”,是表达给力的最常见说法。 例如: これはスゴイ映画だね。这电影太给力了! 最高 意思为“最棒的”,也可以用来表达给力。 例…

华中科技大学雷达站部署

一&#xff1a;项目地址 GitHub - HUSTLYRM/HUST_Radar_2023: 华中科技大学狼牙战队 RoboMaster 2023赛季 雷达站 二&#xff1a;安装依赖 2.1创建虚拟环境 首先是程序是基于python3.8完成&#xff0c;所以创建虚拟环境的时候&#xff0c;选择3.8的虚拟环境 conda create -…

五款优秀的局域网监控软件推荐:实时监控电脑屏幕的神器

在现代社会&#xff0c;计算机和网络已经成为工作中不可或缺的部分。随着局域网的普及&#xff0c;如何有效地监控和管理局域网内的电脑成为了许多企业和管理者关心的问题。本文将为您推荐五款优秀的局域网监控软件&#xff0c;帮助您实时监控电脑屏幕&#xff0c;提高工作效率…

pubg绝地求生吃鸡加速器推荐 pubg吃鸡加速器免费低延迟

《绝地求生》(PUBG) 是由韩国Krafton工作室开发的一款战术竞技型射击类沙盒游戏。2022年1月12日&#xff0c;该游戏于主机和PC上可免费下载游玩。绝地求生已经上线了好久的时间&#xff0c;仍然保持的很好的热度&#xff0c;无时无刻都在涌入新手玩家。游戏有多张地图可供玩家选…

通过Matlab实现Hermite基函数进行信号拟合,可应用于信号降噪

利用Hermite基函数的Hermite近似&#xff0c;在不牺牲精度的情况下&#xff0c;实现对时序信号的降噪&#xff0c;文中图片以心电信号QRS波群滤除高频干扰为例。 1.知识背景 Hermite正交多项式是一类重要的正交多项式&#xff0c;它们起源于数学中的Hermite函数和特殊函数理论…

Unity Shader中获取像素点深度信息

1.顶点着色器中对深度进行计算 v2f vert(appdata v) {v2f o;o.pos UnityObjectToClipPos(v.vertex);o.uv TRANSFORM_TEX(v.uv, _MainTex);o.depth (o.pos.z / o.pos.w 1.0) * 0.5; // Normalize depth to [0, 1]return o; }但是达不到预期&#xff0c;最后返回的值一直大于…

Python-VBA函数之旅-pow函数

目录 一、pow函数的常见应用场景 二、pow函数使用注意事项 三、如何用好pow函数&#xff1f; 1、pow函数&#xff1a; 1-1、Python&#xff1a; 1-2、VBA&#xff1a; 2、推荐阅读&#xff1a; 个人主页&#xff1a;神奇夜光杯-CSDN博客 一、pow函数的常见应用场景 Py…

Q1保健品线上市场分析(一):护眼需求不减,叶黄素软糖卖爆!

如今网络时代的高速发展&#xff0c;用眼过度逐渐成为国人的常态&#xff0c;无论是儿童还是青少年、成年人、老年人&#xff0c;都可能面临眼部健康的问题。 在这样的大环境下&#xff0c;预防大于治疗的概念不断深入日常生活&#xff0c;进而推动了护眼产品市场的高速发展&a…

本地部署eXtplorer文件管理器并安装内网穿透构建私人云存储服务器

文章目录 1. 前言2. eXtplorer网站搭建2.1 eXtplorer下载和安装2.2 eXtplorer网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1. 前言 通过互联网传输文件&#xff0c;是互联网最重要的应用之一&#xff0c;无论是…

国产数据库的发展势不可挡

前言 新的一天又开始了&#xff0c;光头强强总不紧不慢地来到办公室&#xff0c;准备为今天一天的工作&#xff0c;做一个初上安排。突然&#xff0c;熊二直接进入办公室&#xff0c;说&#xff1a;“强总老大&#xff0c;昨天有一个数据库群炸了锅了&#xff0c;有一位姓虎的…

【精品毕设推荐】搜索引擎的设计与实现

点击免费下载原文及代码 摘要 我们处在一个大数据的时代&#xff0c;伴随着网络信息资源的庞大&#xff0c;人们越来越多地注重怎样才能快速有效地从海量的网络信息中&#xff0c;检索出自己需要的、潜在的、有价值的信息&#xff0c;从而可以有效地在日常工作和生活中发挥作…

盲盒一番赏小程序开发:开启你的惊喜之旅

一、揭秘未知&#xff0c;探寻宝藏 在平凡的生活中&#xff0c;总有一些小确幸能带给我们无尽的快乐。盲盒一番赏小程序&#xff0c;正是这样一个充满未知与惊喜的宝藏之地。我们精心策划&#xff0c;汇聚了各类热门商品&#xff0c;只为给你带来一场别开生面的赏玩体验。 二…