开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 社区项目推荐
1、SpeechGPT 2.0-preview:迈向情景智能推出的第一个拟人化实时交互系统。
SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型,它具有拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 较好的对齐了语音和文本两个模态:一方面展现出了一定的风格泛化能力,能够精准捕捉用户指令,实现多情感、多风格、多音色的精准控制与智能切换;拥有不错的角色扮演能力,能够模拟各类角色的语气和情感状态;它还具备多种语音才艺,能够进行诗歌朗诵、故事讲述、说方言等;另一方面,它在具备语音表现力的同时有不错的智商与文本能力,从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。SpeechGPT 2.0-preview 目前只在中文语音数据上做了训练,没有混英文语音数据训练,因此目前模型还没有英文对话能力。
本项目实时音频传输服务由声网和 RTE 开发者社区支持。
「RTE 开发者陪跑计划」助力更多优秀 Real-Time AI 和 Voice Agent 项目成长,申请计划:
https://www.rtecommunity.dev/t/t_dSuzw47cPBCv8C
02 有话题的技术
1、百川智能开源全模态模型 Omni-1.5 上线,称多项能力超越 GPT-4o mini
1 月 26 日,百川智能宣布正式上线 Baichuan-Omni-1.5 开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini。
官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。
Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。
其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。
据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。(@界面新闻)
2、支持 100 万 Tokens 上下文的 Qwen2.5-1M 开源模型来了
今天,Qwen 正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。本次发布的亮点:
开源模型: 本次发布了两个新的开源模型,分别是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,这是 Qwen 首次将开源的 Qwen 模型的上下文扩展到 1M 长度。
推理框架: 为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍。
技术报告: Qwen 团队还分享了 Qwen2.5-1M 系列背后的技术细节,包括训练和推理框架的设计思路以及消融实验的结果。
另外,最近也推出了 Qwen Chat (https://chat.qwenlm.ai/) ,一个基于 Qwen 系列的 AI 助手。用户可以与他对话、编程、生成图像与视频,使用搜索以及调用工具等功能。除此之外,还可以在 Qwen Chat 中与使用上下文长度同样为 1M 的 Qwen2.5-Turbo 模型进行长序列处理。(@通义千问 Qwen)
3、DeepSeek AI 助手登顶苹果商店:低成本、高效率,中国 AI 崛起引发全球关注
(图片来源:量子位)
中国人工智能公司 DeepSeek 近日发布其推理模型 R1 的开放版本,迅速在科技界引发热议。其惊人的突破性成就不仅令风险投资家马克·安德森惊叹为「我见过的最令人惊叹、最令人印象深刻的突破之一」,更在 AI 基准测试中展现出匹敌甚至超越 OpenAI o1 模型的实力。
尤其引人关注的是,DeepSeek 声称其模型训练成本仅为 560 万美元,而美国领先企业则需要数亿美元,这无疑颠覆了人们对 AI 模型开发成本的认知。
Y Combinator 首席执行官 Garry Tan 认为 DeepSeek 的成功将促使 AI 推理需求加速,从而带动整个行业发展。Meta 首席人工智能科学家 Yann LeCun 也强调,DeepSeek 的成功并非是中美竞争的体现,而是「开源模型正在超越专有模型」的有力证明。他认为 DeepSeek 的发展得益于开源研究和开源工具,并促进了技术的进一步发展,最终让所有人受益。
值得一提的是,DeepSeek 的 AI 助手在发布后迅速走红。截至周日下午,该应用已超越 ChatGPT,登顶苹果 App Store 免费应用榜首,进一步显示了其受欢迎程度。(@AIbase 基地)
4、Video Depth Anything:字节开源首款 10 分钟级长视频深度估计模型,性能 SOTA
Video Depth Anything 工作来自字节跳动智能创作 AR 团队与豆包大模型团队。字节跳动智能创作 AR 团队致力于建设领先的计算机视觉、音视频编辑、特效处理、3D 视觉与增强现实(AR)等技术。豆包大模型团队成立于 2023 年,致力于开发先进的 AI 大模型技术,成为业界一流的研究团队。
近期,字节智能创作 AR 团队联合豆包大模型团队开发的 Video Depth Anything(VDA)基于 Depth Anything V2,它融合了高效的时空头、精简的时域一致性损失函数,以及新颖的基于关键帧长视频推理策略,甚至可面向 10 分钟级的视频,完成深度估计任务。
在不牺牲泛化能力、细节生成能力和计算效率前提下,VDA 实现了时序稳定的深度估计,且无需引入复杂视频生成先验知识,为单目深度估计在视频领域应用提供全新解决方案。(@机器之心)
5、今年贺岁档电影 AI 起来了,《唐探 1900》还没上线,AI 大模型让它先火了一把
从《唐探 1900》官方微博发布的消息来看,这是电影圈里首款 AI 动态海报,效果之灵动,斩获了一众网友们的好评,不止是在网上,甚至是在北京王府井、上海南京路,以及成都春熙路上,都已经开始播放这个 AI 海报。
而视频背后的 AI,正是百度智能云千帆大模型平台刚刚上新的图生视频组件(联合生数科技)。
可以说,这是影视圈和科技圈双顶流之间的一次合作。(@量子位)
03 有态度的观点
1、图灵奖得主杨立昆谈 DeepSeek 及 AGI:开源即一切
在 DeepSeek 激起千层浪的时刻,作为技术开源最忠实的拥趸,杨立昆为 Deepseek 发声:「与其说是中国在人工智能上超越美国,正确的看法应该是开源代码正在超越私有模式。DeepSeek 从开放研究和开放源码中受益(例如来自 Meta 的 PyTorch 和 Llama),提出了新想法,并将它们建在其他人的工作之上。而因为他们的作品也是开源的,每个人都可以从中获益。这就是开放研究和开放源代码的力量。」杨立昆一直不遗余力地强调 AI 竞争中「开源」的重要性,在前阵子他参加由约翰霍普金斯大学举办的讲座上,面对硅谷知名记者 Kara Swisher,他仍然用到了 PyTorch 和 Llama 作为例子。同时,他的语出惊人也没有改变,分享了许多别具一格的观点:
-
一昧给 AI 研究和开发加限制,企图用这种方式避免危害,是一种适得其反的做法,是出于 AI 技术的错误理解。
-
人类认为语言是智能的顶峰有点违反直觉。它实际上很简单,因为它只是一系列离散的符号。人工智能不应该局限于语言。
-
目前为训练大模型而烧的钱不冤枉,那是面向未来的长期投资。(@ APPSO)
更多 Voice Agent 学习笔记:
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻