杨立昆谈 Deepseek:开源正在超越私有;SpeechGPT 2.0-preview:情景智能拟人化实时交互系统

news/2025/1/27 13:49:16/文章来源:https://www.cnblogs.com/Agora/p/18692570

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq,@鲍勃

01 社区项目推荐

1、SpeechGPT 2.0-preview:迈向情景智能推出的第一个拟人化实时交互系统。

 

SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型,它具有拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 较好的对齐了语音和文本两个模态:一方面展现出了一定的风格泛化能力,能够精准捕捉用户指令,实现多情感、多风格、多音色的精准控制与智能切换;拥有不错的角色扮演能力,能够模拟各类角色的语气和情感状态;它还具备多种语音才艺,能够进行诗歌朗诵、故事讲述、说方言等;另一方面,它在具备语音表现力的同时有不错的智商与文本能力,从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。SpeechGPT 2.0-preview 目前只在中文语音数据上做了训练,没有混英文语音数据训练,因此目前模型还没有英文对话能力。

 

本项目实时音频传输服务由声网和 RTE 开发者社区支持。

 

「RTE 开发者陪跑计划」助力更多优秀 Real-Time AI 和 Voice Agent 项目成长,申请计划:

 

https://www.rtecommunity.dev/t/t_dSuzw47cPBCv8C

02 有话题的技术

1、百川智能开源全模态模型 Omni-1.5 上线,称多项能力超越 GPT-4o mini

 

1 月 26 日,百川智能宣布正式上线 Baichuan-Omni-1.5 开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini。

 

官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。

 

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。

 

 

其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。

 

据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。(@界面新闻)

 

2、支持 100 万 Tokens 上下文的 Qwen2.5-1M 开源模型来了

 

今天,Qwen 正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。本次发布的亮点:

 

开源模型: 本次发布了两个新的开源模型,分别是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,这是 Qwen 首次将开源的 Qwen 模型的上下文扩展到 1M 长度。

 

推理框架: 为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍。

 

技术报告: Qwen 团队还分享了 Qwen2.5-1M 系列背后的技术细节,包括训练和推理框架的设计思路以及消融实验的结果。

 

另外,最近也推出了 Qwen Chat (https://chat.qwenlm.ai/) ,一个基于 Qwen 系列的 AI 助手。用户可以与他对话、编程、生成图像与视频,使用搜索以及调用工具等功能。除此之外,还可以在 Qwen Chat 中与使用上下文长度同样为 1M 的 Qwen2.5-Turbo 模型进行长序列处理。(@通义千问 Qwen)

 

3、DeepSeek AI 助手登顶苹果商店:低成本、高效率,中国 AI 崛起引发全球关注

 

 

(图片来源:量子位)

 

中国人工智能公司 DeepSeek 近日发布其推理模型 R1 的开放版本,迅速在科技界引发热议。其惊人的突破性成就不仅令风险投资家马克·安德森惊叹为「我见过的最令人惊叹、最令人印象深刻的突破之一」,更在 AI 基准测试中展现出匹敌甚至超越 OpenAI o1 模型的实力。

 

尤其引人关注的是,DeepSeek 声称其模型训练成本仅为 560 万美元,而美国领先企业则需要数亿美元,这无疑颠覆了人们对 AI 模型开发成本的认知。

 

Y Combinator 首席执行官 Garry Tan 认为 DeepSeek 的成功将促使 AI 推理需求加速,从而带动整个行业发展。Meta 首席人工智能科学家 Yann LeCun 也强调,DeepSeek 的成功并非是中美竞争的体现,而是「开源模型正在超越专有模型」的有力证明。他认为 DeepSeek 的发展得益于开源研究和开源工具,并促进了技术的进一步发展,最终让所有人受益。

 

值得一提的是,DeepSeek 的 AI 助手在发布后迅速走红。截至周日下午,该应用已超越 ChatGPT,登顶苹果 App Store 免费应用榜首,进一步显示了其受欢迎程度。(@AIbase 基地)

 

4、Video Depth Anything:字节开源首款 10 分钟级长视频深度估计模型,性能 SOTA

 

Video Depth Anything 工作来自字节跳动智能创作 AR 团队与豆包大模型团队。字节跳动智能创作 AR 团队致力于建设领先的计算机视觉、音视频编辑、特效处理、3D 视觉与增强现实(AR)等技术。豆包大模型团队成立于 2023 年,致力于开发先进的 AI 大模型技术,成为业界一流的研究团队。

 

近期,字节智能创作 AR 团队联合豆包大模型团队开发的 Video Depth Anything(VDA)基于 Depth Anything V2,它融合了高效的时空头、精简的时域一致性损失函数,以及新颖的基于关键帧长视频推理策略,甚至可面向 10 分钟级的视频,完成深度估计任务。

 

在不牺牲泛化能力、细节生成能力和计算效率前提下,VDA 实现了时序稳定的深度估计,且无需引入复杂视频生成先验知识,为单目深度估计在视频领域应用提供全新解决方案。(@机器之心)

 

5、今年贺岁档电影 AI 起来了,《唐探 1900》还没上线,AI 大模型让它先火了一把

 

从《唐探 1900》官方微博发布的消息来看,这是电影圈里首款 AI 动态海报,效果之灵动,斩获了一众网友们的好评,不止是在网上,甚至是在北京王府井、上海南京路,以及成都春熙路上,都已经开始播放这个 AI 海报。

 

而视频背后的 AI,正是百度智能云千帆大模型平台刚刚上新的图生视频组件(联合生数科技)。

 

可以说,这是影视圈和科技圈双顶流之间的一次合作。(@量子位)

03 有态度的观点

1、图灵奖得主杨立昆谈 DeepSeek 及 AGI:开源即一切

 

 

在 DeepSeek 激起千层浪的时刻,作为技术开源最忠实的拥趸,杨立昆为 Deepseek 发声:「与其说是中国在人工智能上超越美国,正确的看法应该是开源代码正在超越私有模式。DeepSeek 从开放研究和开放源码中受益(例如来自 Meta 的 PyTorch 和 Llama),提出了新想法,并将它们建在其他人的工作之上。而因为他们的作品也是开源的,每个人都可以从中获益。这就是开放研究和开放源代码的力量。」杨立昆一直不遗余力地强调 AI 竞争中「开源」的重要性,在前阵子他参加由约翰霍普金斯大学举办的讲座上,面对硅谷知名记者 Kara Swisher,他仍然用到了 PyTorch 和 Llama 作为例子。同时,他的语出惊人也没有改变,分享了许多别具一格的观点:

 

  • 一昧给 AI 研究和开发加限制,企图用这种方式避免危害,是一种适得其反的做法,是出于 AI 技术的错误理解。

  • 人类认为语言是智能的顶峰有点违反直觉。它实际上很简单,因为它只是一系列离散的符号。人工智能不应该局限于语言。

  • 目前为训练大模型而烧的钱不冤枉,那是面向未来的长期投资。(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/876227.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【nginx】界面化管理Nginx站点的两种方式

前言 之前在文章🧲NginxUI:界面化管理Nginx的工具中简单介绍了NginxUI工具和搭建,本文则探讨怎么使用NginxUI来做界面化的站点管理。 使用docker启一个nginx-ui用于测试,启动命令: docker run -dit \--name=nginx-ui \--restart=always \-e TZ=Asia/Shanghai \-v /mnt/us…

20250127_C++高级编程

对象初始化1 类的4个常见的构造函数1.1 类对象初始化的3个函数1.1.1 默认构造函数 FunctionClass(int data = 10) :m_data(data) {cout << "FunctionClass(int)" << endl; }1.1.2 拷贝构造函数 FunctionClass::FunctionClass(const FunctionClass&…

vsCreator笔记_I/O控制

1, I/O接口端子说明 2, I/O接口功能分配 3, 以上为默认设置, 也可通过vsCreator环境设置\I/O端子设置 4, 输入信号接线示意图5, 输出信号接线示意图

Windows bat批处理读取文件增加行号

前言全局说明Windows bat批处理读取文件增加行号一、说明 1.1 环境: Windows 11 家庭版 23H2 22631.3737 Microsoft Windows [版本 10.0.22631.4751]二、文件内容 2.1 来源文件内容 文件名:source.ini a bCdE2.2 批处理内容 文件名:line_num.bat @echo offset "INI_FILE…

Linux 中 如何将time命令输出的时间信息保存在文件中

001、 通常做法[root@localhost test]# time seq 10 > a.txt 2> xxx ## 完全追加至xxxreal 0m0.002s user 0m0.000s sys 0m0.002s [root@localhost test]# ls a.txt xxx [root@localhost test]# cat a.txt 1 2 3 4 5 6 7 8 9 10 [root@localhost test]# c…

ABCDE:一个使用Kotlin编写的OpenHarmony逆向工具包

ABCDE是一个使用Kotlin编写的OpenHarmony逆向工具包,目前已经实现的功能为解析方舟字节码文件中 的类信息、方法信息、字面量数组信息以及对方法进行反汇编,解析资源索引文件等功能。 该工具核心功能由纯kotlin(jvm)实现,因此可以提供平台无关的jar包供java工程引用并二次…

【Linux性能】Linux系统中进程运行时间的五大精准检测法

在Linux操作系统的复杂而精细的运行环境中,准确了解各个进程的运行时间对于系统管理员和开发人员而言至关重要。这不仅有助于监控系统性能,还能为调试问题提供关键线索,进而实现对系统资源的高效管理。本文将深入探讨五种在Linux中检查进程运行时间的有效方法,每种方法都具…

VS Code 报错 __float128 is not supported on this target 解决方法

最近在使用 VS Code 时,每一个 cpp 文件都会有如下报错:在中文互联网上并没有搜索到很好的解决方案,但是在 stack overflow 上找到了一个比较好的回答:This problem may be caused by your VSCode using clang-tidy as the C/C++ extension. clang-tidy does not support _…

A Critique of ANSI SQL Isolation Levels.18687395

原文:A critique of ANSI SQL isolation levels摘要:ANSI SQL-92[MS, ANSI]使用脏读、不可重复读以及幻读现象(phenomena)定义了隔离级,本论文展示了这些现象,以及ANSI SQL定义并无法合适的描述众多流行的隔离级别,包括(ANSI标准)所涵盖的级别的标准锁实现。我们还介绍…

0127人工智能创新型教师培育计划(第一期) 试题

# 试题 http://site01.openhydra.net:30012/evt/uploadcode人工智能创新型教师培育计划(第一期)​ 【活动进展每日更新1月26日】​活动更新(1月26日 22:00更新): Python作业​教师AI基础考核作业(见下面介绍),或者可以下载word文件 查看。 1月31日中午24:00前提交, 作…