万万没想到,我用文心一言开发了一个儿童小玩具

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说,大会当天百度还会发布文心4.0版本,估计要炸一波街。

在这里插入图片描述

作为一名对人工智能技术深感兴趣的开发者,我相信这次大会将带来各种新颖的想法和独特的观点,激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野,进一步认识到AI技术带给我们的巨大机遇。

想法由来

文心大模型覆盖了很多AI应用场景,有NLP大模型、CV大模型、跨模态大模型等等。今年3月,百度发布了大模型服务平台文心千帆,纳入管理包括文心大模型在内的国内外主流大模型,对于除文心大模型之外的第三方大模型,千帆平台不只是简单的接入,还提供中文增强、性能增强、上下文增强等能力。比如,原来要用英文对话效果才好的 Llama2 等国外大模型,现在用中文也一样好。

看到文心提供的强大功能,感觉不做点什么都觉得对不起它。想到最近工作比较忙,没时间陪伴自己的女儿,她现在正是需要益智小游戏的年龄段,于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

实现流程构想

  • 程序弹出小动物的图片;
  • 孩子发出“小动物名字”的语音;
  • 程序识别语音并告知孩子是否回答正确;
  • 正确则切换下一张图片,错误则告知孩子请重新作答;

小游戏应用实现流程

准备工作:SDK安装及使用流程

(1)安装SDK

pip install qianfan

这里需要注意:目前支持 Python >= 3.7版本。且调用SDK前,需确保已完成SDK安装。

(2)调用SDK(具体操作步骤)

  • 步骤一,在百度千帆大模型平台创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
  • 步骤二,初始化AK 和 SK。
  • 步骤三,调用SDK。

第一步,随机展示动物图片

我们先搜集几张不同的动物图片,然后用动物的名字来命名,将它们放在程序的固定路径下。

from PIL import Image
import os
import random# 指定图片文件夹路径
img_folder = "path/to/image/folder"# 获取图片列表
img_list = os.listdir(img_folder)# 从列表中随机选择一张图片
img_name = random.choice(img_list)# 打开并显示选中的图片
img_path = os.path.join(img_folder, img_name)
img = Image.open(img_path)
img.show()

在这里插入图片描述

第二步,完成图像识别

首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

def get_access_token():# 使用 AK,SK 生成鉴权签名(Access Token)# return: access_token,或是None(如果错误)url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))

然后根据图片获取到对应的base64编码:

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

最后调用图片识别接口,获取图片识别的动物名称

def get_result():url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()# 获取图片的base64编码payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)headers = {'Content-Type': 'application/x-www-form-urlencoded','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

{"result": [{"score": "0.948385","name": "斑马"},{"score": "0.0410539","name": "平原斑马"},{"score": "0.00519192","name": "细纹斑马"},{"score": "0.000554136","name": "斑马驴"},{"score": "0.000273289","name": "斑驴"},{"score": "0.000155838","name": "孟加拉虎"}],"log_id": "1710925525288202877"
}

第三步,识别小朋友的语音

在这里插入图片描述
在孩子看到图片之后用语音的方式说出动物的名字,此时我们需要将孩子的语音文件进行 base64 转码处理。

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

然后需要将该语音文件转化为文本:

def get_text():url = "https://vop.baidu.com/server_api"speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)payload = json.dumps({"format": "pcm","rate": 16000,"channel": 1,"cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4","token": get_access_token(),"speech": speech,"len": 36414})headers = {'Content-Type': 'application/json','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,我们根据返回的结果将 result 中的数据取出来,即“斑马”。

{"corpus_no": "7287496064443398818","err_msg": "success.","err_no": 0,"result": ["斑马"],"sn": "928281938221696752399"
}

最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对,如果一致就切换下一张图片,不一致则告知孩子请重新作答。

到这儿,我的创意就全部实现了,虽然只是简单的软件层面的实现,但是我希望以后儿童玩具厂商可以把它来最终落地,毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢?让程序告诉小朋友吧。

最后多啰嗦几句,很期待在百度世界大会上看到更多的AI原生应用,包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验,推动产业升级和社会进步。同时,我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中,共同推动人工智能技术向前发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/129731.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

回归算法全解析!一文读懂机器学习中的回归模型

目录 一、引言回归问题的重要性文章目的和结构概览 二、回归基础什么是回归问题例子: 回归与分类的区别例子: 回归问题的应用场景例子: 三、常见回归算法3.1 线性回归数学原理代码实现输出例子: 3.2 多项式回归数学原理代码实现输…

黑盒测试方法:原理+实战

目录 一、如何设计测试用例 二、黑盒测试常用方法 1、基于需求进行测试用例的设计 2、等价类 3、边界值 4、判定表分析法(因果分析法) 5、正交表 6、场景设计法 三、案例补充 1、使用Fiddler模拟弱网 2、针对一个接口该如何测试 一、如何设计测试…

VR酒店虚拟仿真情景实训教学演示

在传统的酒店管理教学过程中,学生往往缺乏实践操作经验,难以将理论知识与实际工作相结合。而VR酒店虚拟仿真情景实训教学应用可以为学生提供一个逼真的、沉浸式的酒店管理环境,使学生能够在模拟实践中掌握酒店管理的各项技能。 VR酒店虚拟仿真…

【网络安全】如何保护IP地址?

使用防火墙是保护IP地址的一个重要手段。防火墙可以监控和过滤网络流量,并阻止未经授权的访问。一家网络安全公司的研究显示,超过80%的企业已经部署了防火墙来保护他们的网络和IP地址。 除了防火墙,定期更新操作系统和应用程序也是保护IP地址…

[架构之路-235]:目标系统 - 纵向分层 - 数据库 - 数据库系统基础与概述(快速入门、了解核心概念):概念模型、逻辑模型、物理模型

目录 一、核心概念 1.1 什么是数据与信息 1.2 数据与数据库的关系 1.3 什么是数据库 1.4 数据库中的数据的特点 1.5 数据库与数据结构的关系 1.6 什么是数据库管理系统 1.7 什么是数据库系统 1.8 数据库的主要功能 1.9 Excel表格是数据库吗? 1.10 Excel表…

服务器启用SGX(以PowerEdge R750为例)

一、检查处理器是否支持SGX 在shell中输入以下命令查看CPU型号 cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c在Product Specifications中找到对应的处理器参数信息,如果支持SGX,可以在Security & Reliability中看到如下信息 二、以“软…

设计模式 - 行为型模式考点篇:模板方法模式(概念 | 案例实现 | 优缺点 | 使用场景)

目录 一、行为型模式 1.1、模板方法模式 1.1.1、概念 1.1.2、案例实现 1.1.3、优缺点 1.1.4、使用场景 一、行为型模式 一句话概括行为型模式 行为型模式:类或对象间如何交互、如何划分职责,从而更好的完成任务. 1.1、模板方法模式 1.1.1、概念 …

LabVIEW(一)简介

LabVIEW(Laboratory Virtual Instrument Engineering Workbench)是一种程序开发环境,是由美国国家仪器(NI)公司研制开发的。LabVIEW与其他计算机语言的显著区别是:其他计算机语言都是采用基于文本的语言产生…

JavaEE初阶学习:HTTP协议和Tomcat

1. HTTP协议 HTTP协议是一个非常广泛的应用层协议~~ 应用层协议 —> TCP IP 协议栈 应用层 —> 关注数据怎么使用~ 传输层 —> 关注的是整个传输的起点和终点 网络层 —> 地址管理 路由选择 数据链路层 —> 相邻节点之间的数据转发 物理层 —> 基础设置,硬…

聚观早报 | 三星与游戏开发商合作;长城汽车销量超86万辆

【聚观365】10月10日消息 三星与游戏开发商合作 长城汽车销量超86万辆 国产特斯拉三季度交付22万辆 苹果开始下一代Vision Pro研发 上半年加速服务器市场GPU服务器占88% 三星与游戏开发商合作 据外媒报道,包括Epic Games和Krafton在内的游戏开发商已宣布与三星…

嵌入式学习笔记(51)X210板载gsensor介绍

10.4.1原理图查询 (1)gsensor的供电由PWMTOUT3引脚控制。当PWMTOUT3输出低电平时gsensor无电不工作;当输出高电平时gsensor才会工作。 (2)gsensor的SDA和SCL接的是S5PV210的I2C端口0。 (3)将来编程时在gsensor init函数中要去初始化相关的GPIO。要把相应的GPIO设…

如何列出 Ubuntu 和 Debian 上已安装的软件包

当你安装了 Ubuntu 并想好好用一用。但在将来某个时候,你肯定会遇到忘记曾经安装了那些软件包。 这个是完全正常。没有人要求你把系统里所有已安装的软件包都记住。但是问题是,如何才能知道已经安装了哪些软件包?如何查看安装过的软件包呢&a…