WebGPU 版 Kokoro:浏览器端零成本使用高质量 TTS;苹果 ELEGNT 台灯机器人:赋予非人形机器人「情感」

news/2025/2/8 19:24:38/文章来源:https://www.cnblogs.com/Agora/p/18705242

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq,@鲍勃

01 有话题的技术

1、DeepSeek GitHub 平台热门项目星数超 OpenAI 最热门项目

 

 

截至 2 月 7 日下午,DeepSeek 在 GitHub 平台的热门项目「DeepSeek -V3」的点星数已达到 7 万加,超过了 GitHub 上 OpenAI 最热门项目 Whisper。DeepSeek-V3 模型于 2024 年 12 月 26 日发布,官方表示,DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。该模型的多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

 

此外,官方表示,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。(@APPSO)

 

2、谷歌推出 Imagen 3 API,价格 0.03 美元/张

 

近日,谷歌正式推出其最新的图像生成模型 ——Imagen3,现已在 Gemini API 上可供开发者使用。该模型在视觉效果上表现出色,能够生成各种风格的高质量图像,包括超现实主义作品、印象派风景、抽象作品以及动漫角色。Imagen3 不仅提升了图像的清晰度和构图能力,还通过简化的文本提示,帮助用户更轻松地将创意转化为图像。

 

 

初期,Imagen3 将只对付费用户开放,预计不久后将向免费用户逐步推出。 根据官方介绍,用户只需支付每幅图像 0.03 美元,就可以享受 Imagen3 的强大功能。 同时,用户在生成图像时,可以自由控制图像的宽高比以及生成的选项数量,满足不同的需求。

 

 

为了打击虚假信息和不当归属,Imagen3 生成的所有图像都带有不可见的数字水印 SynthID,这个水印可识别图像为人工智能生成的作品。此外,开发者还可以通过 Python 代码轻松实现图像生成,具体的代码示例也已在官方文档中提供。用户只需简单地设置 API 密钥、输入提示词,就能生成想要的图像,体验这一新技术的便利。

 

为了让用户更好地了解 Imagen3 的能力,官方还展示了一系列生成的图像样本,涵盖了多种风格与主题。随着技术的不断进步,谷歌计划在不久的将来将更多的生成媒体模型整合到 Gemini API 中,进一步推动生成媒体与语言模型的结合,助力开发者创造更多有趣的应用。(@AIbase 基地)

 

3、Meta 发布全新 AI 模型 SeamlessM4T,支持 101 种语言即时翻译,迈向「巴别鱼」时代

 

 

(图片来源:MIT Technology Review)

 

近日,Meta 推出了一款名为 SeamlessM4T 的 AI 模型,能够实现 101 种语言的语音和文本即时翻译。这一模型不仅支持语音到语音的直接翻译,还涵盖了语音到文本、文本到语音等多种翻译模式。SeamlessM4T 在翻译准确性上较现有系统提升了 23%,并能够有效过滤背景噪音,适应不同说话者的语调和特点。

 

该模型的核心技术包括深度学习和神经网络,结合生成对抗网络和变分自编码器等前沿算法,能够高效处理大量语言数据。与传统翻译系统相比,SeamlessM4T 省略了从语音到文本再到语音的繁琐步骤,直接实现语音到语音的翻译,大大提升了用户体验。

 

SeamlessM4T 的推出有望在商务、旅游、教育等多个领域带来革命性影响,让语言不再成为沟通的壁垒。然而,该模型在某些低资源语言上的翻译效果仍有待优化,研究团队也在探索应对语言资源不均衡的策略。(@麻省理工科技评论 APP)

 

2、使用 WebGPU 在浏览器运行 Kokoro v1.0,本地零成本实现高质量文本转语音

 

由 WebGPU 提供支持的 Kokoro v1.0 已经发布,这是一款仅有 82M 参数的多语言文本转语音(TTS)模型,采用 Apache 2.0 许可,完全由浏览器中的 WebGPU 提供支持。

 

Kokoro v1.0 实现了完全离线运行,100% 本地处理,并支持英语、西班牙语、法语、意大利语、日语和普通话六种语言。

 

得益于 ONNXRuntimeWeb 的支持,Kokoro v1.0 能够在浏览器中直接工作,并提供超快的推理速度。

 

开发者只需通过 npm i kokoro-js 即可轻松集成 Kokoro。(@Vaibhav (VB) Srivastav@X)

02 有亮点的产品

1、苹果展示 ELEGNT 台灯机器人:赋予非人形机器人「情感」

 

近日,苹果在其机器学习网站公布了一项名为 ELEGNT 的机器人研究成果,并展示了一款具备情感表达能力的台灯形态设备。ELEGNT 的全称为「Expressive and functionaL movEment desiGn for Non-anthropomorphic robot」,即「用于非拟人化机器人的表达性和功能性运动设计框架」。其核心技术在于让非人形机器人通过「肢体语言」 展现情感,使人机交互更具生命感。

 

ELEGNT 如何「赋予」机器人情感?

 

与传统机器人精准执行指令的机械方式不同,ELEGNT 采用更自然的「曲线式」交互模式,增强机器人表达意图、显示注意力、展示态度和表达情绪的能力。例如:

 

  • 在用户发出指令时,ELEGNT 会「看着」用户,并通过点头或歪头等动作表现出「认真聆听」的姿态。

  • 当用户询问天气时,它会 先探头「看向」窗户 ,然后再给出答案,尽管实际上它只是从互联网获取数据。

  • 若识别不到某个物体,它会低头并摇头,表现出一种「遗憾」或「困惑」的情绪。

  • 在播放音乐时,它还能随节奏摇摆,展现出「跟着音乐舞动」的趣味性。

 

这些自然的动态细节,让 ELEGNT 机器人比普通机器人更具互动性和亲和力,也让科技产品不再只是冷冰冰的执行工具,而更像一个「有性格」的伙伴。

 

ELEGNT 的智能交互得益于 大语言模型人机交互优化技术 ,能够根据不同的场景调整动作,甚至在交互中学习并优化自身行为。目前,该技术已能生成 10 种不同的肢体语言序列 ,并能 在情感表达和任务完成效率之间找到平衡 。(@爱范儿)

 

2、GitHub Copilot 重磅更新:新增 AI Agent,实现超强自动化编程

 

全球最大开源平台 GitHub 宣布,其 AI 编程助手 Copilot 迎来重大更新,新增 AI Agent 模式,可自动迭代代码、识别并修复 BUG。同时,GitHub 还发布了 Project Padawan 预览版,协助开发人员自动执行重复繁琐的开发流程,如设置开发环境、运行测试、合并代码等。

 

此外,去年 10 月推出的 Copilot Edits 功能正式上线,其内联聊天功能可直接在代码编辑器中显示 Copilot 的回复,极大提升开发和调试效率。开发者可在 Agent 模式下,让 Copilot 自动识别代码问题并提出解决方案,甚至直接修改代码。例如,要求 Copilot 构建 Web 应用程序时,Agent 模式不仅生成初始代码,还会检查逻辑、修复漏洞并重构代码。

 

Project Padawan 则可自主完成从代码生成到审查的全流程。例如,为电商购物车功能添加错误处理模块时,Padawan 会自动设置开发环境、生成代码、进行测试和代码检查,并创建拉取请求供开发者审查。同时,开发者还可通过「人机协作开发模式」全程指导 Padawan。

 

Copilot Edits 还支持跨文件内联修改功能,开发者可通过自然语言指令让其修改多个文件中的代码,甚至修复复杂代码逻辑中的漏洞,极大提升了大型项目开发的效率和准确性。(@AIGC 开放社区)

 

3、PromptLayer:为非技术用户打造的 AI 应用开发新工具

 

随着生成式人工智能(GenAI)的快速崛起,PromptLayer 作为一家位于纽约的初创公司,迅速进入了提示工程这一新兴领域。提示工程是指为 AI 聊天机器人提供精确指令,以获取有用的输出。PromptLayer 的创始人贾里德・佐内拉赫(Jared Zoneraich)和乔纳森・佩多恩(Jonathan Pedoeem)最初开发了一个工具,用于跟踪他们自己使用 AI 聊天机器人的提示,意外获得了市场的热烈反响。经过两年的发展,PromptLayer 已成功推出一款完整的提示管理平台,帮助企业更有效地利用大型语言模型(LLMs)。

 

PromptLayer 的核心产品是一个 「提示注册中心」,它相当于一个内容管理系统(CMS),提供版本控制功能,帮助用户管理不同版本的提示,并进行对比测试。这使得即使是非技术用户,也能轻松地评估和优化他们的提示,从而在各种应用场景中取得最佳效果。

 

与许多技术工具制造商不同,PromptLayer 将目光投向了非技术用户。贾里德表示,他们的目标是让各个领域的专业人士 —— 如医疗、法律和教育 —— 在应用开发中占据主导地位,利用其领域知识来进行提示工程。PromptLayer 希望通过其直观的界面和工具,帮助这些领域的专家与工程师进行有效合作。(@AIbase 基地)

03 有态度的观点

1、朱啸虎:DeepSeek 让我见到 iPhone 3 时刻

 

 

2 月 7 日,腾讯新闻发布了与金沙江创投主管合伙人朱啸虎的对话。在一年前的访谈中,朱啸虎表态绝不会投资 6 家中国大模型创业公司中的任何一家。而在时隔一年之后,朱啸虎在访谈中反反复复用「太优美了」、「非常有深度」来评价 DeepSeek 与自己的交互,他表示「DeepSeek 快让我相信 AGI 了。」朱啸虎在谈话中表示,「DeepSeek 是 App 增速全球历史第一,不需要任何限定语。如果真的是建立一个全球类似安卓的开源生态的话,那绝对是一个很大的机会。」另外,他还表示,DeepSeek 让他见到了 AI 时代的 iPhone 3 时刻 :「我从 DeepSeek 的回复上,看到这么优美的文字,这么深刻的想法——确实已经见到 iPhone 3 时刻,见到让人惊艳的时刻了。」(@APPSO)

 

2、Greylock:我们处于 DeepSeek 时刻

 

 

(图片来源:Greylock)

 

Greylock Partners 在其最新报告中指出,DeepSeek-R1 的发布标志着人工智能领域的一个关键转折点。DeepSeek-R1 通过强化学习技术显著提升了推理能力,其性能在关键基准测试中与 OpenAI 的最新模型相当,但占用空间更小。这一进展被认为缩小了开源模型与闭源模型之间的差距,为开源 AI 的发展带来了新的机遇。

 

Greylock 投资组合中的多位 AI 基础设施公司创始人对 DeepSeek-R1 的发布表示高度关注。Predibase 创始人 Devvret Rishi 认为,DeepSeek-R1 是开源 AI 的分水岭,标志着开源模型开始商品化模型层的拐点。Baseten 创始人 Tuhin Srivastava 指出,DeepSeek 改变了 AI 基础设施的竞争格局,使得企业可以在完全控制模型的情况下获得前沿的模型性能。Braintrust 创始人 Ankur Goyal 则认为,DeepSeek 的发布将推动大模型市场的竞争,为企业提供更多的选择和灵活性。Snorkel AI 创始人 Alex Ratner 强调,DeepSeek 将加速企业 AI 的专门化趋势,使企业能够根据自身数据和专业知识评估和优化高性能的 LLM 选项。

 

此外,DeepSeek-R1 的改进还开启了大规模人工智能推理的新应用,包括自主 AI 代理、高度专业化的规划系统以及企业人工智能助手等。LlamaIndex 创始人 Jerry Liu 指出,尽管 DeepSeek 的出现不会减少对 GPU 算力的需求,但其更高效、更低成本的特性将加速自主应用的开发和采用。

 

在生成式人工智能的经济学方面,DeepSeek 推动了更便宜、更高效的推理和后训练趋势,显著降低了部署成本。这使得企业能够更广泛地使用 AI,微调和部署多个特定领域的模型,从而解锁更多以前在财务上不可行的用例。(@Z Potentials)

04 社区项目推荐

1、Felo iOS 应用发布新功能「语音备忘录」:会议记录与实时翻译更高效

 

近日,Felo 应用推出了全新的「语音备忘录」功能,旨在提升会议、授课和讲座中的沟通效率。该功能具备以下亮点:

 

  • 实时文字转写: Felo 能够将会议中的语音内容即时转换为文字,生成高精度的实时字幕,方便用户快速记录和回顾会议内容。

  • 即时提问应答: 在会议过程中,用户可以随时提问,Felo 会实时回答问题,且文字转写不会中断,确保会议记录的连贯性。

  • 会议内容快速摘要: Felo 可以自动总结发言内容,快速提取要点,帮助用户制作会议记录,节省时间和精力。

 

Felo 的「语音备忘录」功能特别适用于国际会议、学术讲座和多语言环境下的沟通场景,能够帮助用户跨越语言障碍,实现高效沟通。(@Felo@X)

 

 

更多 Voice Agent 学习笔记:

 

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/880935.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

尝试使用阿里云计算巢部署 DeepSeek-R1

记录一下用阿里云计算巢部署 DeepSeek-R1 的经过。进入阿里云计算巢控制台的服务目录,选择 DeepSeek 社区版,点击「开始部署」,选择最便宜的 ECS 实例 GRID 虚拟化4核30G,费用是 1.748/小时。点击「立即创建」,然后控制台会显示正在部署的状态。部署完成后,控制台会显示公…

未来已来:云手机+AI如何重塑Facebook、Google的智能营销生态

未来已来:云手机+AI如何重塑Facebook、Google的智能营销生态 在数字化浪潮奔涌的当下,科技融合正以令人惊叹的速度重塑各个行业,智能营销领域更是首当其冲。云手机与AI自动化工具的深度融合,为Facebook、Google构建的庞大智能营销生态带来了颠覆性的变革,开拓出全新的发展…

Burp Suite 2024激活汉化

转载自https://blog.csdn.net/m0_52985087/article/details/140299827 前言在项目即将上线阶段,迈入生产环境之际,确保其安全性成为我们不可忽视的首要任务。为筑起一道坚不可摧的安全防线,我们借助业界公认的网络安全利器——Burp Suite,我们将展开一场全面的安全测试,旨…

清华权威出品!104页《DeepSeek从入门到精通》免费领,解锁AI时代的核心竞争力!

引言: 在AI技术席卷全球的今天,如何高效驾驭大模型工具已成为个人与企业脱颖而出的关键。清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室余梦珑博士后团队倾力打造的《DeepSeek从入门到精通》电子书重磅发布!全书104页,从基础操作到高阶技巧,手把手教你玩转国产顶…

win11家庭中文版登录应用提示:“为了对电脑进行保护,已经阻止此应用”

1.家庭中文版组策略里面禁用:以管理员批准模式运行所有管理员 win11打不开组策略,需要复制文本内容到记事本,修改为bat后缀执行 @echo off pushd "%~dp0" dir /b c:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum …

4种比常见的线程池和线程同步买票问题

线程池 所谓的线程池:其实就是线程对象的容器。 可以根据需要,在启动时,创建1个或者多个线程对象。 java中有4种比较常见的线程池。 1.固定数量的线程对象。 2.根据需求动态创建线程:动态创建线程:根据需求来创建线程的个数,会自动给我们分配合适的线程个数来完成任务。 3.…

12. Makefile文件

一、什么是Makefile文件Makefile 文件时一种用于管理和自动化软件编译过程的文本文件。它通常包含了一系列规则,这些规则描述了如何根据源代码文件生成可执行文件或者其它目标文件。Makefile 的核心概念是规则和依赖关系,规则定义了如何生成一个或多个目标文件,而依赖关系则…

busybox 设置登录用户名及密码

1、配置 busybox2、替换新的 /bin/busybox,建立 /bin/login、/sbin/getty 软链接ln -sf /bin/busybox ./bin/login ln -sf /bin/busybox ./sbin/getty3、设置 /etc/inittab 不需要登录:ttyS0::respawn:/bin/ash -l -i需要登录:ttyS0::respawn:/sbin/getty 115200 ttyS04、设…

DoIP 协议详解

转载:车载以太网DoIP 协议,万字长文详解_doip协议-CSDN博客 一、前言 DoIP(Diagnostic Communication over Internet Protocol) 协议是一种用于汽车诊断通信的协议,它允许通过IP网络(如以太网)进行诊断操作。 DoIP协议的设计初衷是为了解决传统基于CAN (Controller Area N…

2025:白手起家,两娃的爸准备创业

前言 2024年陆陆续续听到老东家几个同事被裁的消息,倒有些后悔2023年自己主动提出离职,结束北漂回老家。算了下,损失个小几十万。 2024年6月份来了一场彻彻底底的自我反思,找不到明确目标,于是稀里糊涂定了两个计划:每天读书,围绕技术、文学、创业类。 粉丝数涨到150。工…

【Java Mail】 使用java mail发送邮件

465端口和587端口差异对比可参考:https://liaoxuefeng.com/books/java/spring/integration/javamail/index.html特别注意写在最前面:1.SMTP邮箱服务 有两个端口SMTP 端口号(SSL)465 SMTP 端口号(starttls)587所以,在发送邮件时,一定要注意 不同端口,配置Properties细节…