通义发布语音模型 MinMo：全双工、多口音；MiniCPM-o ：端侧 GPT-4o 级视觉、语音、多模态实时流式大模型-编程知识

通义发布语音模型 MinMo：全双工、多口音；MiniCPM-o ：端侧 GPT-4o 级视觉、语音、多模态实时流式大模型

news/2025/1/15 15:44:00/文章来源:https://www.cnblogs.com/Agora/p/18673167

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01有话题的技术

1、MiniCPM-o ：端侧可用的 GPT-4o 级视觉、语音、多模态实时流式大模型

MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型能够以端到端的方式，接受图像、视频、文本、音频作为输入，生成高质量文本和输出语音。自 2024 年 2 月以来，开发团队以实现高性能和高效部署为目标，发布了 6 个版本的模型。

目前系列中最值得关注的模型包括：

MiniCPM-o 2.6：MiniCPM-o 系列最新、性能最佳的模型。总参数量 8B，视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中，MiniCPM-o 2.6 支持可配置声音的中英双语语音对话，还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

MiniCPM-V 2.6：MiniCPM-V 系列中性能最佳的模型。总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等的单图理解表现，并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。(@ OpenBMB@X)

2、8B 多模态语音大模型 MinMo，全双工、强情感、多口音「声情并茂 · 入戏走心」

阿里通义实验室最新的一款多模态模型：MinMo。它主打「可无缝语音交互」，在语音对话场景中，用起来更自然、更贴近人类的说话方式，还能支持不同的语气或方言。当用英语与 MinMo 聊天，讨论电影时：全双工语音交互意味着用户和系统同时说话也不会乱，MinMo 可以在 100 毫秒左右将语音转成文本，并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下，完成双向交流。

换句话说，问一句未完，MinMo 已经在分析并给出反馈，过程几乎没有停顿。更有趣的是，它对语音生成也进行了大幅升级。用户可以指定情感、方言、说话风格，甚至是模仿某人的声音。与 MinMo 用中文聊天，同时控制 MinMo 的口音（四川话、粤语等）在对话中：用中文与 MinMo 聊天，指导 MinMo 进行情感互动和角色扮演：这种多样化的可控生成，让它在语音对话、多语言识别、多语言翻译、情感识别、说话人分析、音频事件分析等任务上表现不错。

官方还透露，他们有 140 万小时的语音数据训练，模型大约有 80 亿参数，但依然能保持原本文本 LLM 的理解能力。

目前看来，MinMo 专注的仍是「无缝语音聊天」，让人机对话像真人交流一样自然顺畅。与此同时，它也保有对指令的良好跟随能力：可以基于文本或者语音的提示，实现中英文或方言的切换，情绪、声线的选择与模拟。对那些想快速原型或做智能客服、语音助理的开发者而言，这似乎是个值得追踪的进展。在整体趋势上，大模型们正竞争着给用户带来「更真实的对话体验」。（@AI 进修生）

3、英伟达开源图像生成模型 Sana ，1 秒生图、支持中英文和 emoji

近日，英伟达开源了一款名为 Sana 的图像生成模型，这一模型仅有 0.6 亿个参数，极大降低了运行门槛。

据了解，Sana 能够生成 4096×4096 分辨率的图像，并且可以在 16GB 的显卡上运行，不到 1 秒的时间内生成 1024×1024 分辨率的高质量图片，这一速度在同类模型中表现突出。

研究团队引入了一种深度压缩自编码器（DC-AE），相比于传统的自编码器，Sana 的压缩比高达 32 倍，大大减少了潜在标记的数量，这对于生成超高分辨率图像至关重要。其次，Sana 采用了线性扩散变换器（DiT），用线性注意力取代了传统的二次注意力，从而将复杂度降低到 O （N），并通过 3×3 深度卷积提升了局部信息的捕捉能力。这样的设计使得 Sana 在生成 4K 图像时延迟提高了 1.7 倍。

在文本编码方面，Sana 选择了小型的解码器专用大语言模型 Gemma，取代了传统的 T5 模型。Gemma 在理解和执行复杂指令方面表现更为出色，增强了图像与文本之间的对齐能力。此外，Sana 还优化了训练和推理策略，通过自动标记和选择高 CLIP 评分的描述，提升了文本与图像的一致性。新提出的 Flow-DPM-Solver 算法将推理步骤减少到了 14-20 步，显著提高了性能。

综合性能方面，Sana 在多个先进的文本到图像扩散模型中表现优异。在 512×512 分辨率下，Sana-0.6 的吞吐量是 PixArt-Σ 的 5 倍，并且在图像生成质量方面表现出色。而在 1024×1024 分辨率下，Sana-0.6B 在小于 3 亿参数的模型中也有着显著的优势。

Sana-0.6B 不仅性能强劲，还可以在 16GB 的笔记本 GPU 上快速生成图像，助力内容创作者高效地实现创作目标。据称，Sana0.6B 性能上和 Flux-12B 也具备竞争力，参数量只有其 1/20，速度却是整整快 100 倍。

有趣的是，Sana 提示词支持英文、中文和 emoji。用户可以输入中文诗句，生成与之相关的艺术图像。此外，Sana 还具有一定的安全性，当用户输入不当词汇时，系统会自动用红心图案❤️替代，从而避免不适内容的生成。

值得一提的是，Sana 已获得官方对 ComfyUI 的支持，并配备了 Lora 训练工具。（@ AIbase 基地）

4、月之暗面海外产品负责人的 AI Coding 项目被投资人抢爆了，新一轮估值 8000 万美元

（图片来源：月之暗面）

根据蓝鲸新闻报道，由前月之暗面海外产品 Noisee 创始人明超平发起的 AI Coding 项目「新言意码」已完成两轮融资，目前公司估值已达到 8000 万美元。此次融资吸引了包括五源资本、高榕资本、真格基金、高瓴创投和 IDG 资本等在内的多家顶级投资机构。

高榕资本、FunPlus（游戏公司趣加）、五源资本和真格基金为新言意码第一轮融资的投资方。目前，公司主要与前月之暗面的股东进行沟通，尚未广泛接触其他潜在投资者。

新言意码定位为 AI coding 应用，瞄准类似于美国智能代码生成产品 Cursor 的市场，而 Cursor 当前估值已达 25 亿美元。国内 AI coding 赛道同样活跃，已有如 aiXcoder、AIGCode 和 Babel 等多家公司浮现，进一步推动该领域的发展。

此前，月之暗面曾曝出多位出海产品负责人离职创业，并在 9 月停更了两款出海 to C 产品 Ohai 和 Noisee，转而专注于 Kimi 产品的开发。此举不仅是战略收缩，亦体现了月之暗面对产品聚焦的决心。随着 Noisee 的部分功能迁移至 Kimi，月之暗面显然在为多模态产品的未来布局。

这并不是第一次月之暗面的产品负责人离职。据公开信息显示，月之暗面大模型产品负责人王冠已于年初创办 ONE2X。创业方向为 AI 视频，已经获得了顶级机构的天使轮投资。

前 Ohai 产品负责人也于近期离职创业。Ohai 是月之暗面对标 Character.ai 的情感陪伴类产品，24 年 2 月在海外上线。(@ Z Finance )

02有亮点的产品

1、Level AI：突破了传统关键词匹配的局限，实现了对客服对话的深度理解。

Level AI 将先进的 AI 技术与实际的业务场景紧密结合。其核心产品建立在语义智能的基础之上，突破了传统关键词匹配的局限，实现了对客服对话的深度理解。

产品亮点： 实时理解客户意图，实现自然交互和准确响应

差异化 1： 语义智能（semantic intelligence）

Level AI 采用更深层的语义智能（semantic intelligence）方案，能够真正理解对话的上下文和意图。同时，Level AI 的场景管理功能提供了一组预构建的场景，同时允许用户创建特定于业务需求的自定义场景。

差异化 2： 动态调整内容（Dynamic Content Adaptation）

动态调整内容是一种先进的智能交互系统功能，它通过持续监控和分析对话流程，实时调整回应的专业度和表达方式。这种系统能够精准识别用户的专业水平和需求特点，并据此提供相应的服务内容。

在技术支持中，系统能根据用户的表达方式调整解决方案：面对普通用户报告「网络连不上」时，提供简单的重启步骤；而当技术用户提到「DNS 解析失败」时，则直接给出专业的网络诊断方案。

在产品咨询时，系统会根据用户特征调整介绍重点：向普通消费者重点展示手机的外观和易用性，而对专业用户则详细说明技术参数；对摄影爱好者着重介绍相机功能，对游戏玩家则侧重性能分析。

在客服场景中，系统能识别用户情绪并相应调整：对情绪激动的客户，采用简洁安抚的方式快速处理；对理性客户，则提供完整的政策解释和流程说明。

差异化 3： 客服质量管理（Quality control）

Level AI 构建了涵盖服务指标、专业度评估和情感分析的综合评估体系，并通过预警机制帮助企业及时发现潜在问题，同时系统的模块化设计既确保了部署灵活性，也强化了数据安全和隐私保护，为企业客服智能化转型提供了可靠的技术支持。(@ Z Potentials )

2、ChatGPT 新功能：Tasks 可设未来任务提醒

今天，OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能，该功能允许用户安排未来的行动和提醒事项。

比如你想要在早上 7 点得到每日天气预报，或者需要一个关于护照到期的提醒，又或者只是在睡前给孩子讲一个敲敲门的笑话…… 现在，ChatGPT 可以通过安排一次性或重复性任务来处理所有这些事务。

「在聊天界面或者通过个人资料菜单下的 Task 页面，你可以安排希望 ChatGPT 执行的任务，比如每周发送全球新闻简报，获取每天个性化的 15 分钟锻炼计划，或者为将来需要做的事情设置提醒。」

这项功能从今天开始向 Plus、Team 和 Pro 订阅者推出，旨在使聊天机器人更接近于传统的数字助手，你可以把它想象成拥有 ChatGPT 更高级语言能力的谷歌助手或 Siri。该功能同时支持了网页端和 App 端。（@36 氪）

3、MiniMax 发布 MiniMax-01 系列模型，强化超长文本处理能力

MiniMax 近日宣布推出并开源其 MiniMax-01 系列模型。这一系列模型专为处理超长文本上下文及提升 AI 代理开发而设计。

MiniMax-Text-01 是该系列中的一款重要模型，其上下文窗口可支持高达 400 万个标记（tokens），这相当于一个小型图书馆的书籍量。在大型语言模型（LLM）中，上下文窗口是指模型在一次输入/输出交换中能处理的信息量，其中单词和概念被表示为数值标记，这是 LLM 对其训练数据的内部数学抽象。

此前，谷歌的 Gemini 1.5 Pro 模型以 200 万个标记的上下文窗口领先，而 MiniMax-Text-01 则将此容量翻倍。MiniMax 表示，MiniMax-01 能有效处理高达 400 万个标记，是其他主流模型容量的 20 至 32 倍，预计能支持未来一年内代理相关应用的激增，因为这些应用越来越需要扩展上下文处理能力和持续内存。

目前，这些模型已在 Hugging Face 和 GitHub 上以 MiniMax 自定义许可的形式提供下载，用户可以直接在 Hailuo AI Chat（ChatGPT、Gemini、Claude 的竞争对手）上试用，也可通过 MiniMax 的应用程序编程接口（API）接入，供第三方开发者将其独特应用与这些模型链接。

MiniMax 为文本和多模态处理提供 API，价格具有竞争力：每 100 万个输入标记 0.2 美元，每 100 万个输出标记 1.1 美元。相比之下，OpenAI 的 GPT-4o 通过其 API 每 100 万个输入标记收费 2.5 美元，价格高出 12.5 倍。

此外，MiniMax 集成了包含 32 个专家的混合专家（MoE）框架，以优化可扩展性。这种设计在保持关键基准测试上的竞争性能的同时，平衡了计算和内存效率。

MiniMax-01 的核心是闪电注意力（Lightning Attention）机制，这是一种创新的变压器架构替代方案。该设计显著降低了计算复杂性，模型包含 456 亿个参数，每次推理激活 459 亿个。闪电注意力结合了线性和传统 SoftMax 层，为长输入实现了近线性复杂性。

MiniMax 重建了其训练和推理框架，以支持闪电注意力架构，关键改进包括：MoE 全对全通信优化，减少了 GPU 间通信开销；变长环形注意力，最小化了长序列处理的计算浪费；高效内核实现，定制的 CUDA 内核提高了闪电注意力的性能。这些进步使 MiniMax-01 模型在实际应用中更具可行性，同时保持了成本效益。

在主流文本和多模态基准测试中，MiniMax-01 与 GPT-4 和 Claude-3.5 等顶级模型相媲美，特别是在长上下文评估中表现出色。MiniMax-Text-01 在 400 万个标记上下文的「针入草堆」任务中实现了 100%的准确率，且随着输入长度的增加，性能下降微乎其微。(@ ATYUN)