Kyutai开源端侧模型Helium -1 preview;FoloToy内测「超级智能体」,支持联网查询和语音调整音量语速

news/2025/1/14 18:12:25/文章来源:https://www.cnblogs.com/Agora/p/18671366

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq,@Suna,@鲍勃

01有话题的新闻

1、小红书位居美国 App Store 下载榜第一

 

 

昨日(1 月 13 日),美区 App Store 的 Top 2 分别为字节版小红书 Lemon8 以及小红书,同时「小红书美国 appstore 下载榜第一」这一词条也登上热搜。

 

在小红书上搜索「Tiktok Refugee」的关键词,可以看到有大量美国 ip 的用户发帖。而这一情况的出现,或与 TikTok 禁令有关。

 

据彭博社近期的报道指出,美国最高法院在听证会时曾表示,如果 TikTok 的中国母公司未在 1 月 19 日前出售该平台,很可能会维持一项禁止这款短视频应用在美国运营的法律。

 

因此,部分的 TikTok 创作者正在通过迁移到小红书来制定应急计划。截至发稿前,小红书位居美区 App Store 榜首。(@ APPSO)

 

2、索尼新专利可解决游戏延迟问题

 

 

近日,索尼获批一项新专利,其旨在通过 AI 模型解决多人游戏中的延迟问题。据公开的专利文件显示,索尼计划利用摄像头捕捉玩家的动作(如手柄操控动作),并通过 AI 模型实时分析、预测玩家所输入的动作指令,提前判断玩家所发出的动作意图,进而在游戏中提前执行相关的指令。

 

据了解,该专利目前命名为「TIMED INPUT/ACTION RELEASE(定时输入/动作释放)」,其中还提到,系统还会通过分析玩家未完成的操控动作,来完成预测,并非完全依赖摄像头。

 

此外,索尼还在专利中提到,该 AI 模型也可以针对特定玩家进行定制化训练,以便对玩家的行为进行更准确的推断。(@ APPSO)

 

3、潞晨科技发布全新 Video Ocean V2.0:免费视频生成模型再进化,20 秒高清大片一键成型

 

潞晨科技最新发布 Video Ocean V2.0,这款源自开源项目 Open Sora 的视频生成模型,已经在开发者社区收获 23,000 多枚星标。网友们用它创作的作品令人惊艳:从攀爬长城的巨型熊猫,到与鱼尾狮互动的趣味场景,每一帧画面都栩栩如生,动作细节的还原度令人叹为观止。

 

本次升级的核心亮点集中在三个方面:首先是画质的全面提升,无论是人物的面部细节、光影变化,还是与环境的互动,都达到了超高的真实感。其次是动作幅度的重大突破,从日常动作到极限运动,都能实现流畅自然的呈现。最后在创作风格上,覆盖了从 3D 写实到 2D 动画、从电影质感到赛博朋克等多种画风。

 

使用方式也十分便捷,支持文生视频、图生视频和角色生视频三种模式。用户只需输入文字提示或上传参考图片,就能生成最长 20 秒的高质量视频。如果对效果不满意,系统支持无限重试直到达到预期效果。新版本还优化了操作界面,真正做到了让专业人士和普通用户都能轻松上手。

 

无论是自媒体创作者、电影工作者、还是普通爱好者,都能免费使用这一强大工具。值得一提的是,潞晨科技在底层算力上的优化,让这款工具即使在配置一般的设备上也能实现不错的效果。(@ AIbase 基地)

 

4、Codestral 25.01:轻量级、快速以及精通 80 多种编程语言编程辅助模型

 

 

Codestral 25.01 是由 Mistral AI 推出的一款先进的编程辅助模型,它代表了当前编程模型领域的前沿技术。

 

该模型具有轻量级、快速以及精通 80 多种编程语言的特点,专为低延迟、高频率的使用场景进行了优化,并支持诸如代码填充(FIM)、代码纠正和测试生成等任务。Codestral 25.01 在架构和分词器方面进行了改进,代码生成和补全速度比前代产品快约 2 倍,成为了同级别中编程任务的领导者,尤其在 FIM 用例中表现突出。其主要优点包括高效的架构、快速的代码生成能力以及对多种编程语言的精通,对于提升开发者的编程效率具有重要意义。

 

Codestral 25.01 目前通过 Continue.dev 等 IDE/IDE 插件合作伙伴向全球开发者推出,并支持本地部署,以满足企业对于数据和模型驻留的需求。(@ AIbase 基地)

 

5、Kyutai 发布端侧小模型 Helium-1 preview

 

 

Helium-1 preview 是 Kyutai 发布的 2B 多语言 LLM,该模型针对边缘和移动设备,根据 CC-BY 许可发布。

 

Helium 目前支持 6 种语言(英语、法语、德语、意大利语、葡萄牙语和西班牙语),不久将扩展到更多语言。

 

Helium 在多语言基准测试中取得了不错的表现,接下来开发者还将发布完整的模型、技术报告,并将开源用于训练模型和复现数据集的代码。(@ kyutai@X)

02有亮点的产品

1、Refly:一站式 AI 创作工具,缩短创作时间至分钟级

 

Refly 是一个基于自由画布的 AI 原生创作引擎,旨在通过多线程对话、知识库集成、上下文记忆和智能搜索技术,帮助用户将创意转化为高质量内容。

 

该平台覆盖了超过 20 种专业场景模板,包括学术研究和技术文档,利用 AI 分析主题,智能构建研究框架,并基于个人知识库持续积累,建立深度思维连接。

 

Refly 的主要优势在于其强大的 AI 辅助功能和个性化创作环境,提升了学术和技术写作的效率,同时确保专业输出的质量。(@ Refly)

 

2、梅赛德斯:奔驰与谷歌联手推出智能汽车语音助手 MBUX

 

 

在 2024 年消费电子展(CES)上,梅赛德斯 - 奔驰宣布了与谷歌合作的全新汽车虚拟助手。这款助手基于谷歌云最新推出的汽车 AI 智能体平台,能够在用户驾驶过程中 「继续对话并参考信息」。

 

首款搭载该助手的车型是全新的梅赛德斯 CLA,这款车配备了下一代 MB.OS 操作系统和升级版的 MBUX 虚拟助手。

 

目前,梅赛德斯的 MBUX 语音助手系统可以通过 「嘿,梅赛德斯」 触发约 20 个语音指令。而此次升级后,MBUX 助手将借助 OpenAI 的 ChatGPT 和微软 Bing 的结果,进一步增强其智能性。

 

新款 MBUX 虚拟助手将具备四种 「个性特征」,包括自然、预测、个人化和同理心。这意味着助手不仅能理解用户的基本需求,还能通过提问获取更多信息,以提供更准确的服务。

 

此外,谷歌的 AI 智能体能够利用谷歌地图数据为用户寻找兴趣点,查找餐厅评论,提供推荐,并回答后续问题。谷歌表示,MBUX 虚拟助手的用户将享受到 「几乎实时」 的谷歌地图更新,并能够处理复杂的多轮对话。(@ AIbase 基地)

 

2、Topview 2.0 Product Avatar:AI 驱动的产品展示工具

 

Topview 2.0 Product Avatar 是一款创新的 AI 驱动产品展示工具,专为电子商务和数字营销领域设计。其核心价值主张是通过 AI 技术生成高质量的产品展示视频,让数字化虚拟人物完美地展示和介绍产品。该产品主要面向需要高效、专业产品展示方案的电商卖家和营销人员,解决了传统产品拍摄耗时耗力的痛点。

 

在功能方面,Topview 2.0 突出了 AI 虚拟人物生成、产品图像智能整合以及一键式视频制作三大特点。用户只需上传产品图片,AI 就能自动创建虚拟人物手持并展示产品的视频,大大简化了产品展示流程。产品的差异化优势在于其高度自动化和个性化的视频生成能力,为用户提供了快速、经济且专业的产品展示解决方案。

 

从用户体验角度来看,Topview 2.0 注重操作简便性和输出质量,使得即使是没有视频制作经验的用户也能轻松创建吸引人的产品展示内容。(@ Z Potentials)

03有态度的观点

1、扎克伯格:苹果通过压榨用户和开发者来赚钱

 

1 月 11 日,Meta CEO 马克·扎克伯格在做客播客节目 Joe Rogan Experience 时,对苹果的封闭生态系统进行抨击。

 

在节目中他谈及了对于 Vision Pro 的看法:「他们推出了一款售价 3500 美元的产品,我认为还不如我们售价 300 或 400 美元的产品好。」

 

同时,他还直接表示「苹果已经很久没有发明什么真正伟大的东西了。」他认为,史蒂夫·乔布斯发明了 iPhone,而现在苹果只是在这个成就上躺了 20 年。「实际上,我觉得他们的 iPhone 销量可能在下降。」

 

扎克伯格认为,苹果赚更多钱的方式,就是通过压榨用户来实现的。比如向开发者收取 30% 的税费,让用户购买更多外设和配件。(@ APPSO)

 

2、前 OpenAI 首席研究官万字对谈:AGI 真正到来时或显得平淡无奇

 

前 OpenAI 首席研究官近期参加了一次访谈,在访谈中,他提到了自己对 AGI 的看法。他提出:「想要实现 GPT-4 到 GPT-5 的完整跃迁,还需要时间。人们往往忽视了从 GPT-3 到 GPT-3.5 再到 GPT-4 的逐步迭代过程。接下来,我们可能会先经历一个计算力提升 10 倍的过渡阶段,而不是直接迎来下一代大模型。」

 

「可靠性比过去显得更加重要。」他认为可以用一个经验法则来理解:从 90%的可靠性提高到 99%,可能需要 10 倍的计算力,而从 99%提升到 99.9%,则需要再增加一个数量级。每提高一个百分点都需要巨大的模型性能飞跃。这种 10 倍的跨越通常需要 1 到 2 年的时间来完成。

 

「今天一个 PT-3 级别的语言模型生成一个 token 的成本,已经比 GPT-3 刚推出时低了 100 倍。」他相信 Sora 视频模型也会遵循相同的轨迹——我们将看到这些逼真、精美的视频生成不仅质量更高,而且成本几乎可以忽略。这种性能和成本的同步提升,将使视频生成技术变得更加普及和易用,真正改变用户的创作方式。(@ Z Potentials)

04社区项目推荐

1、FoloToy 超级智能体

 

产品亮点:

 

播放音乐: 根据聊天内容,随机播放适合的音乐风格。

 

查询天气: 快速获取天气预报,告别天气困扰,出门穿衣更轻松。

 

联网查询新闻: 关注最新新闻动态?FoloToy 为你提供全天候新闻更新。

 

语音指令调整音量/语速: 想要更高音量或更慢语速?只需发出语音指令,FoloToy 瞬间调整。

 

隐藏功能: 用特别的语句触发播放特殊的歌曲!只需输入特定指令,FoloToy 会播放独特的音乐。

 

使用方法:

 

在我们的 WebApp(https://webapp.folotoy.cn) 或小程序(在微信搜索 「FoloToy」) ,只需将角色的大语音模型切换到 「FoloToy 超级智能体」,即可立即体验这一全新智能体的强大功能。

 

注意:目前处于 Beta 版,如果遇到任何问题或有建议,欢迎随时联系我们,我们会尽力为你提供帮助!

 

以上信息由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。

 

有意投稿者请联系微信 creators2022 ,请备注身份和来意。

 

 

更多 Voice Agent 学习笔记:

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/869180.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多模态大模型InterVL2.5使用记录

本文记录在本地安装和测试InterVL2.5(26B版本) 论文:https://arxiv.org/abs/2412.05271 Huggingface模型权重下载页:https://huggingface.co/collections/OpenGVLab/internvl25-673e1019b66e2218f68d7c1c Github: https://github.com/OpenGVLab/InternVL 本地硬件:RTX3090 1…

JR九州列车播放收听

JR Kyushu 是一款用VB.NET开发的软件。启动软件时大约需要等待10分钟。 以树形结构显示各个站台,鼠标点击每个节点,可以听到播放声音。 效果图如下

英语语法(修饰词)

形容词简介 冠词(例如 the、a 和 an 等词) 定冠词和不定冠词 副词简介 关系副词 形容词顺序例子: 逗号和形容词 例子: 比较级和最高级简介 形成比较级和最高级修饰语 例子: 强化词和程度副词 例子:

RunMacro2003

这是一款基于XML数据生成Excel / Word / PPT 2003 工具栏界面的COM加载项。 在Excel 2003的COM 加载项勾选“RunMacro2003”,就可以看到自定义工具栏。 示例XML内容如下:<CommandBars><CommandBar Name="Worksheet Menu Bar"><!--内置菜单栏-->&…

mysqlworkbench如何导出查询结果

步骤一:找到本地文件导出权限位置show variables like %secure%; ##用于查看本地文件导入权限是否开启 set global local_infile =1; ##打开权限 show global variables like %secure_file_priv%;##找到权限的目录 步骤二:导出查询结果查询语句 INTO OUTFILE C:/ProgramDat…

【附源码】JAVA房屋租赁系统源码+SpringBoot+VUE+前后端分离

学弟,学妹好,我是爱学习的学姐,今天带来一款优秀的项目:房屋租赁系统 。 本文介绍了系统功能与部署安装步骤,如果您有任何问题,也请联系学姐,偶现在是经验丰富的程序员! 一. 系统演示 截图 二. 系统概述 技术栈 后端 : JDK8 , SpringBoot , SpringMVC , Myba…

uni-app 本地打包

1.前言打包分为2个部分:App资源替换和打包配置(包名,应用名称,版本号,图标,证书等),目前整包升级存在问题2.配置包名包名怎么获取:包名就是appid,可以通过编辑器或者开发者后台管理中心看到配置包名:文件路径(HBuilder-Integrate-AS\simpleDemo\src\main\assets\data…

‌OCP英文全称是什么

在数据库领域,OCP全称为Oracle Certified Professional,是Oracle公司提供的Oracle数据库中级认证,专门针对数据库管理员(Database Administrator,简称DBA)和数据库开发人员。以下是关于OCP认证的详细介绍: 认证领域与级别: OCP认证主要与Oracle数据库管理相关,涵盖了数据…

MD5生成器

MD5生成器是我用VB6开发的。 可以把一个字符串转换为MD5加密文本,也可以把电脑中的一个文件转换为MD5文本。 第一个路线: 字符串→字节数组→MD5 第二个路线:文件→字节数组→MD5 效果如下:

批量生成并打印文档Excel2Word

Excel2Word是一款利用Excel数据生成Word文档的工具。 使用过程主要分为 两部分:Word模板制作 批量生成Word(生成、保存、打印 可选)其中Word模板制作,是在Word模板中插入书签,并且与Excel标题行的列名关联。 批量生成Word,是在Excel中选中多行,然后点击 生成 即可。以下…

一种基于具身化、符号嵌入、因果学习和记忆原则的通用人工智能(AGI)框架

Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图:通用 AGI 系统的功能框图。概念模型由以下部分组成:(1)核心框架、体现,提供与世界接口和交互的物理本质和必要机制; (2)记忆,由不同的记忆子系统组成——感…

简历生成器ResumeGenerator

使用VB6的画图方法自动创建表格。 空白界面如下: 文件/打开,选择预先准备好的 ini格式文件(记事本可以编辑)。 简历效果如下: