[chatgpt+Azure]unity AI二次元小女友之使用微软Azure服务实现RestfulApi->语音识别+语音合成

1.简述

        如题所述,这个小项目是在unity引擎端,使用了chatgpt+微软azure的一个AI二次元女友对话的项目,实现原理也比较简单,即在unity端实现AI二次元女友的交互界面,接入chatgpt-3.5-turbo的api接口,借助chatgpt的自然语言生成能力,作为这个项目的聊天引擎。聊天功能也比较简单,通过接入微软Azure的语音识别api,在unity客户端接入麦克风采集说话的声音,调用语音识别api返回识别的文本,再通过拼接prompt,调用chatgpt接口,得到回复信息文本之后,再调用azure的语音合成接口,得到音频,最后播放出来,关联live2d模型的口型同步,这样基本上就实现了我希望的效果。这个项目我已经在Gitee开源有一段时间了,本来也有计划要写一些相关文档的,一直没有时间,这次就抽时间把项目里涉及到的Azure语音服务部分的代码整理成文档,也方面想学习这个小伙伴一个参考。

2.微软Azure

        微软 Azure是微软基于云计算的操作系统,是微软“软件和服务”技术的名称。Windows Azure的主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、Web和PC上的应用程序。 说这么多,其实Azure就是微软提供给开发者各种云服务,其中就包括了AI相关的服务,比如语音服务。

Azure地址传送门:

云计算服务 | Microsoft Azure

        关于Azure服务的使用,需要首先申请一个Azure的账号,申请账号成功之后,就可以申请使用Azure的各种服务了。Azure提供了不少免费的服务,对于白嫖党来说简直就是福利。但是这里有一点需要说明了,就是申请Azure账号的时候,需要填写一个visa或万事达的信用卡账号,如果没有的话,就申请不了账号了,这个可能会是一个门槛。注册成功之后,微软会给你的账号赠送200美元的体验金,这个有效期有一年的时间,也算是一个相当好的福利了,就是信用卡的问题,必须解决,这里算是一个经验提示吧。

        在申请语音服务的订阅过程,第一个月可以申请试用的订阅,有效期是一个月的时间,可以免费提供50万字的语音合成额度,基本上自己用完全无压力。到第二个月就需要更新订阅了,更新完订阅,语音服务依然可以选择免费的F0订阅,享受50万字每月的额度。

3.Azure语音合成的代码实现

        在Azure语音的代码实现方面,微软官方实际上提供有sdk,其中也有适用unity的插件包可用,插件的传送门如下:

安装语音 SDK - Azure Cognitive Services | Microsoft Learn

        不过本文所介绍的代码实现并不是使用上述插件的代码实现,主要是因为之前我用这个sdk发现发布到webgl就不可用了,只能windows使用,这个有点坑,所以就查阅了Azure的官方文档,找到了restful api的实现方式,所以就实现了调用restful api实现语音识别和语音合成的代码,在这边文章做一下记录和分享,下面,分享一下具体的代码实现。

3.1.Azure语音识别

        实现语音识别这部分功能,首先在unity端是有获取麦克风声音的接口,可以直接获取电脑接入的麦克风,采集声音信息的功能的,所以只需要关注如何使用restful api调用Azure语音识别api的方法就可以了。

        Azure语音识别的api地址:

        https://{region}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=zh-CN

        这里面,region的值就是你在Azure语音服务里订阅的地区码,比如我订阅的是东亚地区的,所以这个地区码就是“eastasia”。

public string subscriptionKey = string.Empty;//服务令牌
public string serviceRegion = string.Empty;//地区码
public string language = string.Empty;//语言 /// <summary>/// 识别语音/// </summary>/// <param name="audioData"></param>/// <param name="_callback"></param>/// <returns></returns>private IEnumerator SendAudioData(byte[] audioData, Action<string> _callback){// Construct the request URLstring url = "https://" + serviceRegion + ".stt.speech.microsoft.com/speech/recognition/" +mode + "/cognitiveservices/v1?language=" + language;// Create the request objectUnityWebRequest request = UnityWebRequest.Post(url, "application/octet-stream");request.SetRequestHeader("Ocp-Apim-Subscription-Key", subscriptionKey);request.SetRequestHeader("Content-Type", "audio/wav; codec=audio/pcm; samplerate=44100");// Attach the audio data to the requestrequest.uploadHandler = new UploadHandlerRaw(audioData);request.uploadHandler.contentType = "application/octet-stream";// Send the request and wait for the responseyield return request.SendWebRequest();// Check for errorsif (request.result != UnityWebRequest.Result.Success){Debug.LogError("Speech recognition request failed: " + request.error);yield break;}// Parse the response JSON and extract the recognition resultstring json = request.downloadHandler.text;SpeechRecognitionResult result = JsonUtility.FromJson<SpeechRecognitionResult>(json);string recognizedText = result.DisplayText;// Display the recognized text in the consoleDebug.Log("Recognized text: " + recognizedText);_callback(recognizedText);}

用到的工具类:

[System.Serializable]
public class SpeechRecognitionResult
{public string RecognitionStatus;public string DisplayText;
}
using UnityEngine;
using System.IO;public static class WavUtility
{/// <summary>/// Converts an AudioClip to a byte array containing a WAV file./// </summary>public static byte[] FromAudioClip(AudioClip clip){// Create a new WAV fileMemoryStream stream = new MemoryStream();BinaryWriter writer = new BinaryWriter(stream);// Write the WAV headerwriter.Write(new char[4] { 'R', 'I', 'F', 'F' });writer.Write(36 + clip.samples * 2);writer.Write(new char[4] { 'W', 'A', 'V', 'E' });writer.Write(new char[4] { 'f', 'm', 't', ' ' });writer.Write(16);writer.Write((ushort)1);writer.Write((ushort)clip.channels);writer.Write(clip.frequency);writer.Write(clip.frequency * clip.channels * 2);writer.Write((ushort)(clip.channels * 2));writer.Write((ushort)16);writer.Write(new char[4] { 'd', 'a', 't', 'a' });writer.Write(clip.samples * 2);// Write the audio datafloat[] samples = new float[clip.samples];clip.GetData(samples, 0);int intMax = 32767; // max value for a 16-bit signed integerfor (int i = 0; i < clip.samples; i++){writer.Write((short)(samples[i] * intMax));}// Clean upwriter.Close();byte[] wavBytes = stream.ToArray();stream.Close();return wavBytes;}
}

3.2.Azure语音合成

        Azure语音合成部分的功能,需要将合成的文本,POST到Azure语音合成的restful api服务即可实现语音的合成功能,代码示例如下:

public string subscriptionKey = string.Empty;//服务令牌
public string serviceRegion = string.Empty;//地区码
public string language = string.Empty;//语言 /// <summary>/// 朗读的角色/// </summary>[Header("朗读声音设置")]public string voiceName = "zh-CN-XiaomoNeural";/// <summary>/// 情绪/// </summary>[Header("朗读的情绪设置" +"")]public string style = "chat";//chat  cheerful  angry  excited  sad/// <summary>/// restful api语音合成/// </summary>/// <param name="_msg"></param>/// <param name="_callback"></param>/// <returns></returns>private IEnumerator GetVoice(string _msg, Action<AudioClip> _callback){string textToSpeechEndpoint = string.Format("https://{0}.tts.speech.microsoft.com/cognitiveservices/v1", serviceRegion);//发送报文string textToSpeechRequestBody = GenerateTextToSpeech(language, voiceName, style, 2, _msg);using (UnityWebRequest speechRequest = new UnityWebRequest(textToSpeechEndpoint,"POST")){byte[] data = System.Text.Encoding.UTF8.GetBytes(textToSpeechRequestBody);speechRequest.uploadHandler = (UploadHandler)new UploadHandlerRaw(data);speechRequest.downloadHandler = (DownloadHandler)new DownloadHandlerAudioClip(speechRequest.uri, AudioType.MPEG);speechRequest.SetRequestHeader("Ocp-Apim-Subscription-Key", subscriptionKey);speechRequest.SetRequestHeader("X-Microsoft-OutputFormat", "audio-16khz-32kbitrate-mono-mp3");speechRequest.SetRequestHeader("Content-Type", "application/ssml+xml");yield return speechRequest.SendWebRequest();if (speechRequest.responseCode == 200){AudioClip audioClip = DownloadHandlerAudioClip.GetContent(speechRequest);_callback(audioClip);}else{Debug.LogError("语音合成失败: " + speechRequest.error);}}}

        语音合成设置参数中,涉及到朗读的声音,具体的声音编码可已到Azure的官方文档查阅,有详细的介绍,这里需要注意,有些声音的选择需要同步修改语言编码,这个根据官方文档来就可以了。官方文档地址:

Text to speech overview - Speech service - Azure Cognitive Services | Microsoft Learn

4.结束语

        本文介绍了一下微软Azure语音服务的restful api的使用代码示例。我在自己的开源项目AI二次元小姐姐聊天机器人里使用到了相关的技术,只停留在应用方面。当然在服务调用方法方面,官方也提供有多个不同语言的代码示例以及SDK,大家可以根据自己的实际需求选择技术方案。

        上述的代码示例并不是完整可以直接执行的代码,我只是将我的项目代码中,涉及到微软语音服务的关键部分提取出来了,源码还有部分unity客户端的代码逻辑,所以上面的代码实现仅供有编码基础的朋友参考,不要直接丢到自己的项目里使用。

        对我这个项目感兴趣的朋友,可以上我的B站号查看,我也做有详细的教程,相关源码可以在的哔哩哔哩主站找到相关视频,在视频介绍以及评论区获取。

【chatGPT+unity+Azure+VRoid】AI女友对话,源码分享,零基础手搓二次元妹子,打造专属的AI女友不是梦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/22214.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW和Web Service交互方式?LabVIE本地项目如何发布到互联网上让外网访问

LabVIEW全称Laboratory Virtual Instrument Engineering Workbench&#xff0c; 是一种图形化编程语言(通常称为G语言)&#xff0c;即实验室虚拟仪器集成环境。LabVIEW 经过多年的持续创新&#xff0c;已经从单纯的仪器控制软件发展成为面向设计、测量和控制的综合性图形化开发…

【详解】C语言冷门知识点之--位段

文章目录 一&#xff0c; 位段的解释二&#xff0c; 位段的声明和使用位段的声明&#xff1a;位段的使用&#xff1a; 三&#xff0c;位段的空间大小计算第一个例子&#xff1a;第二个例子&#xff1a;注意&#xff1a; 四&#xff0c; 位段的内存分配五&#xff0c;位段的跨平…

Visual Studio下2022Opencv的配置

Visual studio2022 opencv的配置 先从官网下载opencv &#xff1a; opencv releases 下载 ​ 我这里的开发环境是window版本&#xff0c;我们选择Windows版本进行下载 点开下载的文件&#xff0c;输入需要保存的路径 记住你保存的路径(我这里安装再F:) 安装需要时间静等安装…

基于单片机的盲人导航智能拐杖老人防丢防摔倒发短息定位

功能介绍 以STM32单片机作为主控系统&#xff1b; OLED液晶当前实时距离&#xff0c;安全距离&#xff0c;当前经纬度信息&#xff1b;超声波检测小于设置的安全距离&#xff0c;蜂鸣器报警提示&#xff1a;低于安全距离&#xff01;超声波检测当前障碍物距离&#xff0c;GPS进…

综合小实验

第一步&#xff1a;计划IP R1的环回&#xff1a;192.168.1.0/28 R2的环回&#xff1a;192.168.1.16/28 R123的O/O/0接口&#xff1a;192.168.1.32/28 R3-4&#xff1a;192.168.1.128/30 Vlan2&#xff1a;192.168.1.48/28 vlan3&#xff1a;192.168.1.64/28 192.168.1.0/24 0区…

深度学习——优化器Optimizer

代码以及详细注释&#xff1a; import torch import torch.utils.data as Data import torch.nn.functional as F import matplotlib.pyplot as plt# torch.manual_seed(1) # reproducible """超参数 """ # 学习率 LR 0.01 # 批大小 BATCH_…

Java中abstract关键字

文章目录 由来语法格式使用说明应用举例 由来 举例1&#xff1a; 随着继承层次中一个个新子类的定义&#xff0c;类变得越来越具体&#xff0c;而父类则更一般&#xff0c;更通用。类的设计应该保证父类和子类能够共享特征。有时将一个父类设计得非常抽象&#xff0c;以至于它…

【模式识别目标检测】——基于机器视觉的无人机避障RP-YOLOv3实例

目录 引入 一、YOLOv3模型 1、实时目标检测YOLOv3简介 2、改进的实时目标检测模型 二、数据集建立&结果分析 1、数据集建立 2、模型结果分析 三、无人机避障实现 参考文献&#xff1a; 引入 目前对于障碍物的检测整体分为&#xff1a;激光、红外线、超声波、雷达、…

【超全面】Linux嵌入式干货学习系列教程

文章目录 一、前言二、Linux基础篇三、数据结构与算法基础三、Linux应用篇四、Linux网络篇五、ARM篇六、Linux系统移植篇七、Linux驱动篇八、Linux特别篇九、Linux项目篇 一、前言 博主学习Linux也有几个月了&#xff0c;在这里为广大朋友整理出嵌入式linux的学习知识&#xff…

Matplotlib入门与实践(一)

Matplotlib 是一个 Python 的 2D绘图库&#xff0c;它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过 Matplotlib&#xff0c;开发者可以仅需要几行代码&#xff0c;便可以生成绘图&#xff0c;直方图&#xff0c;功率谱&#xff0c;条形图&#xff0c;错误…

oceanbase基础

与mysql对比 分布式一致性算法 paxos 存储结构&#xff08;引擎&#xff09;用的是两级的 数据库自动分片功能&#xff0c;提供独立的obproxy路由写入查询等操作到对应的分片 多租户 方便扩展 存储层 http://www.hzhcontrols.com/new-1391864.html LSM tree&#xff0c;is very…

渲染流程(上):HTML、CSS和JavaScript,是如何变成页面的?

在上一篇文章中我们介绍了导航相关的流程&#xff0c;那导航被提交后又会怎么样呢&#xff1f; 就进入了渲染阶段。这个阶段很重要&#xff0c;了解其相关流程能让你“看透”页面是如何工作的&#xff0c;有了这些知识&#xff0c;你可以解决一系列相关的问题&#xff0c;比如…