YC 孵化项目 Pinch:实时语音翻译视频会议平台;Mistral OCR:能处理多语言多模态复杂文档丨日报

news/2025/3/8 18:57:11/文章来源:https://www.cnblogs.com/Agora/p/18758129

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

 

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq,@鲍勃

01、有话题的技术

1、腾讯混元「图生视频模型」正式发布并开源

 

3 月 6 日,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及 2K 高质量视频。官方介绍,基于图生视频的能力,用户只需上传一张图片并简短描述,混元即可按照用户要求让图片动起来,变成 5 秒的短视频,还能自动配上合适的背景音效。此外,上传一张人物图片,并输入希望「对口型」的文字或音频,图片中的人物即可「说话」或「唱歌」;如果选择动作模版,还能一键生成同款跳舞视频。

 

腾讯混元表示,此次开源的图生视频模型,是混元文生视频模型开源工作的延续,模型总参数量保持 130 亿,适用于多种类型的角色和场景。开源内容包含权重、推理代码和 LoRA 训练代码,支持开发者基于混元训练专属 LoRA 等衍生模型。目前用户通过混元 AI 视频官网即可体验,企业和开发者可在腾讯云申请使用 API 接口使用;同时,混元视频生成开源模型目前在 Github、HuggingFace 等主流开发者社区均可下载体验。( @APPSO)

 

2、阿里发布开源模型 QwQ-32B,消费级显卡实现满血版性能

 

3 月 6 日凌晨,阿里云发布并开源全新的推理模型通义千问 QwQ-32B。官方称,这个新模型仅仅拥有 320 亿参数,但在性能上比肩 6710 亿参数的满血版 DeepSeek R1。

 

 

目前,阿里云并未发布还完整技术报告,但官方数据显示,QwQ-32B 仅在编程竞赛(LiveCodeBench)和美国数学竞赛(AIME24)两项略逊于满血的 DeepSeek-R1,其余三项则全面超越。此外更是碾压完全超越了 OpenAI-o1-mini。

 

阿里云解释称,团队此次基于 Qwen2.5-32B 模型,探索了扩展强化学习(RL)的技术方案,并发现强化学习训练能够持续提升模型性能,尤其在数学与编程任务中表现显著。该团队还提到,通过持续扩展强化学习训练的规模,中型模型也可以实现与巨型混合专家模型(MoE)相媲美的性能。

 

此外,QwQ-32B 还满足更低的资源消耗需求,适合快速响应或对数据安全要求高的应用场景,开发者和企业可以在消费级显卡上将其部署到本地设备中,进一步打造高度定制化的 AI 解决方案。阿里称,QwQ-32B 已多个平台基于宽松的 Apache2.0 协议开源,所有人都可免费下载模型进行本地部署,或者通过阿里云百炼平台直接调用模型 API 服务。

 

值得一提的是,此前 OpenAI 曾因遇到技术瓶颈,将原来的 GPT5.0 降格为 GPT4.5 进行发布,之后还透露将降低强化学习训练的优先级,转向监督学习(SSL)和语言模型(LM)为核心的技术路线。而 QwQ-32B 的发布则证明了强化学习路线仍有潜力,可以继续提升模型的性能。

 

千问 QwQ-32B 模型中还集成了与智能体 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。(@网易新闻)

 

3、NotaGen 古典音乐生成模型

 

 

NotaGen 是一个专注于生成高品质古典音乐的模型。它采用了类似 LLM 的训练范式,在超过 160 万首音乐作品上进行预训练而来。

 

就在昨天,官方开源了模型和代码。本次开源还包括了一个受 DeepSeekR1 启发的模型 Notagen-X,本地部署需要 24G 显存。

 

值得注意的是,该模型输出的不是音频文件,而是 ABC & xml 文件。(@三花 AI )

 

4、沉寂很久的 Mistral AI 推出号称世界最强 OCR

 

欧洲 AI 明星公司 Mistral AI 今日发布 Mistral OCR,一款号称「世界最佳文档理解 API」的全新产品。

 

Mistral OCR 是一款光学字符识别(OCR)API,但它远不止于简单的文字识别。与其他模型不同,Mistral OCR 能够全面理解文档的每一个元素,包括媒体、文本、表格、公式等,并展现出前所未有的准确性和认知能力。它支持图像和 PDF 作为输入,并能从中提取出有序的、交错的文本和图像内容。

 

这种强大的理解能力使得 Mistral OCR 成为与 RAG(检索增强生成)系统结合使用的理想模型,尤其擅长处理多模态文档,例如幻灯片或复杂的 PDF 文件。

 

亮点

 

1. 顶尖的复杂文档理解能力: Mistral OCR 擅长理解复杂的文档元素,包括交错的图像、数学表达式、表格以及 LaTeX 等高级排版格式。这使得模型能够更深入地理解富文档,例如包含图表、图形、公式和图像的科学论文。

 

2. 原生多语言和多模态支持: Mistral OCR 天生具备多语言和多模态处理能力,能够处理多种语言和不同类型的内容。

 

4. 顶级的基准测试表现: Mistral OCR 在多项基准测试中都取得了领先地位,展现了其卓越的性能

 

5. 同类产品中最快速度: Mistral OCR 的轻量化设计使其速度远超同类模型,单节点每分钟可处理高达 2000 页的文档。快速的处理能力确保了即使在高吞吐量环境下也能持续学习和改进。

 

6. 「文档即提示」的结构化输出: Mistral OCR 创新性地引入了「文档即提示」的概念,用户可以使用文档作为提示,实现更强大、更精确的指令。它允许用户从文档中提取特定信息,并将其格式化为 JSON 等结构化输出。用户可以将这些结构化输出串联到下游函数调用和构建代理中。

 

8. 选择性提供自托管部署: 对于有严格数据隐私要求的组织,Mistral OCR 提供自托管选项。这确保了敏感或机密信息在您自身的基础设施内保持安全,符合监管和安全标准。(@AI 寒武纪)

02、有亮点的产品

1、Beats 联手 Sandy Liang 推出限量版 Solo 4 耳机

 

 

近日,Beats 联手 Sandy Liang 推出限量版 Solo 4 耳机。据官方信息公布,联名款 Beats Solo 4 将采用银粉配色,耳机头梁部分加入粉色「蝴蝶结」设计。据了解,Beats Solo 4 采用定制的 40mm 音频单元,支持个性化空间音频和动态头部追踪;采用 USB-C 接口,支持 Fast Fuel 闪充技术,充电 10 分钟,即可持续播放 5 小时。目前联名限量版 Beats Solo 4 已上架苹果美区官网,售价为 199.99 美元。(@APPSO)

 

2、Captiwate:一款实现网站访客即时视频通话的销售工具

 

 

(图片来源:Product Hunt)

 

Captiwate 是一个创新的销售和营销平台,其核心价值在于实现与高价值潜在客户的即时视频通话。该产品主要面向寻求提高销售效率和转化率的 B2B 企业和销售团队。Captiwate 解决了传统销售流程中无法及时把握客户意向的痛点,为用户提供了在最佳时机捕捉潜在客户的解决方案。在功能方面,产品的亮点包括即时视频通话功能和针对高价值潜在客户的精准定位。Captiwate 的差异化优势在于其能够在网站访客浏览时直接发起视频通话,大大提高了销售机会的把握。用户体验上,该产品强调赋能销售开发代表(SDRs),提高销售效率。

 

网站链接: https://www.captiwate.com/?ref=producthunt

 

( @Z Potentials)

 

3、Pinch:一款提供实时语音翻译的跨语言视频会议平台

 

Pinch 是一个创新的虚拟会议平台,其核心价值在于实现无障碍的跨语言沟通。该产品主要面向需要进行国际交流的企业、团队和个人用户。Pinch 解决了传统视频会议中语言障碍的痛点,为用户提供了一个能够实时翻译并让参与者听起来像母语使用者的解决方案。在功能方面,产品的亮点包括支持超过 30 种语言的实时语音翻译,以及沉浸式的会议体验。Pinch 的差异化优势在于其能够让用户在视频会议中以母语水平展现自己,大大提高了跨语言沟通的效率和自然度。

 

网站链接: https://startpinch.com/( @Z Potentials)

02、有态度的观点

1、Anthropic CPO:AI 将进化为「智能引导者」

 

 

近日,Anthropic CPO Mike Krieger 接受播客 20VC 采访,其透露了不少 未来方向的思考。Mike 在采访中提到 AI 将超越「工具」或「助手」的局限,突破优秀的提示词工程的限制,并进化为「智能引导者」,主动洞察用户需求,指引方向,辅助决策,成为用户达成最重要目标的关键伙伴。Mike 还表示,未来软件开发人员需要掌握的技能,首先是跨学科的,或者说是多面手的。

 

并且他想象了未来三年软件开发工作的面貌:提出正确的想法,进行正确的人机交互设计,弄清楚如何正确地委托任务,然后弄清楚如何大规模地审查代码。此外,Mike 还与主持人谈及了 DeepSeek。Mike 表示,DeepSeek 从默默无闻到如今的火爆程度,令他不得不深思到底是哪一步有所失误;同时,他认为 DeepSeek 让更多人接触到了全新的 AI 体验过程,他也反思,Claude 也应该早点意识到并去努力实现。(@APPSO)

 

 

更多 Voice Agent 学习笔记:

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/895166.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Atcoder beginner contest 394(ABCD,补E

atcoder beginner contest 394 (ABCD补E) A:模拟 B:模拟 C:小模拟 idea:根据样例WWA,发现更新第一个WA为AC时,序列变为WAC,此时又出现一个WA,再次更新为ACC,所以每次找到WA时,往前更新W为AC即可 #include<bits/stdc++.h> using namespace std; typedef long lon…

宝塔项目PHP调用kafka消息队列简单案例

一、在软件商店安装kafka 二、php扩展开启rdkafka,调用phpinfo确认扩展开启成功: 三、建立一个生产者和一个消费者,例如生产者producer.php 消费者consumer.php 以及一个调用生产者往队列放入消息的方法,例如test.php1.producer.php内容: <?php function produceKaf…

炒股事实监看?电脑远程观看、操作,使用ToDesk软件

对于绝大多数人来说,单单依靠打工所得的固定工资其实很难实现财富积累,而通过基金、股票等投资,却能在追求刺激的同时兴许有幸达成理财增值的目的。 当然,这并非是鼓励大家茫然入局,其中是需要很多专业性的信息分析并掌握一定的交易技术才可行;而在同样的付出基础上如何炒…

微软工程师偷偷在用!这款SSH工具让Windows操控CentOS比Mac还优雅!

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注基本原理 为什么要远程登录Linux? 你总不会把买来的服务器背在背上吧~ 所以无论我们身在何处,只要有…

地平线5、荒野大镖客、赛博朋克2077被嘲太贵?todesk云游戏早就搞定了

当《极限竞速:地平线5》《荒野大镖客:救赎2》《赛博朋克2077》等顶级3A游戏凭借震撼的画面与沉浸式玩法持续霸榜,但其动辄200元起步的定价始终是玩家热议的焦点。 "高价游戏是否值得买单"的争议愈演愈烈,小编搜罗了一番玩家评论,一起来看看大家到底怎么说的吧~《…

破防了!原来CentOS联网设置竟藏在这个路径?网友:5年运维都白干了!

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注默认情况下,我们按照刚刚安装好的CentOS是不能进行直接上网的 比如我们也可以打开系统自带的Firefox…

记录---一个网页打造自己的天气预报

🧑‍💻 写在开头 点赞 + 收藏 === 学会🤣🤣🤣 概念解释通过数据接口,简化功能开发。天气数据从哪里来?如果是自己采集,不光要写后端代码,最难的是维护啊,所以必须《天气预报》此类APP特别适合 前后端分离的,以下用一个简单的例子快速打通前后端的调用前端使用H…

从零开始:deepseek本地部署教程,小白也能玩转!

最近deepseek非常火热,很多小伙伴想要使用它,但是却找不到入口,即使找到了在线网页端,也会在意自己的数据的安全性和隐私保护,特别是在处理敏感信息或机密数据,不想让其他人在使用浏览器的时候看到这些信息。 那么将deepseek部署到本地就可以很好解决这一问题,怎么部署呢…

SoK: History is a Vast Early Warning System: Auditing the Provenance of System Intrusions 论文笔记

简介 审计能力就被认为是任何资源共享系统中检测违规和渗透尝试的关键。Lampson 将访问控制“黄金标准”的三大支柱确定为授权、身份验证和审计。当授权和身份验证等主动安全措施失败时,审计构成了所有形式的反应性安全的基础,使系统防御者能够在入侵升级之前识别并减轻入侵 …

寻找通义灵码 AI 程序员 {头号玩家} ,体验 QwQ-Plus、DeepSeek 满血版的通义灵码

2025 年 1 月,通义灵码 AI 程序员全面上线,同时支持 VS Code、JetBrains IDEs,是国内首个真正落地的 AI 程序员。近期,通义灵码能力再升级全新上线模型选择功能,目前已经支持 QwQ-plus、DeepSeek 满血版模型,用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件…

从“零”到“联”:Profinet转Ethernet/IP网关搞定发那科机器手臂

从“零”到“联”:Profinet转Ethernet/IP网关搞定发那科机器手臂 在电子制造行业,产品更新换代迅速,对生产效率和精度的要求近乎严苛。一家专注于智能手机零部件制造的企业,面临着生产流程优化与设备协同的重大挑战。传统设备多采用EthernetIP协议,而新引入的发那科机器人…

聊聊突然爆火的Manus

昨天号称全球首款通用人工智能的产品Manus横空出世,开始全网刷屏。我看到很多技术社群的讨论话题从DeepSeek变成了Manus,甚至网上已经有人在卖Manus的资料和邀请码,流量属性拉满。 Manus号称支持直接交付完整的任务结果(官网有展示Use case),还宣称在GAIA评分中超越了OpenA…