开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、字节开源 Midscene.js:AI 驱动的 E2E 测试框架迎来突破
随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动 web-infra 团队最新开源的 Midscene.js 和独立开发者推出的 Shortest 等工具,正在改变传统的测试方式。
Midscene.js 采用多模态大语言模型,能够直观「理解」用户界面并执行相应操作。该框架最大的特点是提供了一个便捷的浏览器插件,让用户无需编写代码就能通过自然语言与网页进行交互。该插件支持三种核心功能:交互、提取和断言,显著简化了测试流程。
与此同时,创业团队开发的 Shortest 同样展示了 AI 在测试领域的潜力。通过结合自然语言处理和界面截图分析,Shortest 能够直接生成 E2E 测试用例,大幅减少团队在重复性测试工作上的时间投入。
业内专家指出,随着 AI 的编码和多模态能力日益成熟,基础 E2E 测试场景的自动化水平已达到相当完善的程度。这些创新工具的出现,不仅提高了测试效率,更推动了整个软件开发流程的优化。(@AIbase 基地)
2、阿里发布多模态推理模型 QVQ-72B!视觉、语言能力双提升
阿里巴巴最近推出的 QVQ-72B 多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态 AI 领域的重大突破,提供了新的工具和思路来解决复杂问题,推动各行业的智能化升级。(@AIbase 基地)
3、OpenAI 正在研发实体机器人
近日,据 The Information 报道,OpenAI 正在研发实体智能机器人,并且重新启动了解散 4 年的内部机器人开发团队。
据悉,目前 OpenAI 已经投资了 Figure AI、1X、Physical Intelligence 三家实体机器人公司,在软件方面也为其提供 GPT 系列模型支持,足以看出其对领域的兴趣。
FigureAI 成立于 2020 年,旨在开发自主通用型人形机器人,目标是解决劳动力短缺,代替人类做不受欢迎或危险的工作。最新发布的 Figure 02 实体机器人,已经在仓库领域进行应用。
1X 为一家挪威实体机器人公司,主要应用领域在家庭服务。而今年其发布的机器人由于过于逼真引起了巨大轰动。
PhysicalIntelligence 是一家专注通用人工智能的实体机器人公司,总部位于旧金山。主要用于执行各种繁琐的业务流程。
前不久,OpenAI 刚刚发布了最新旗舰模型 o3,在推理、理解方面都是目前最强模型,甚至在 AGI 测试方面也首次超过了人类。(@APPSO)
02 有亮点的产品
1、MixedVoices :为语音助手打造的分析平台
https://www.mixedvoices.xyz/
MixedVoices 是一个为语音助手打造的分析平台,帮助你追踪、可视化并优化语音助手的性能,通过分析对话流程、识别瓶颈并衡量不同版本间的成功率。(@NLP 工程化)
2、DinoPal:集成 Gemini 多模态能力的 Mac 状态栏 App
DinoPal 是一个 Mac 状态栏 App,集成了 Gemini 的多模态能力,意味着你不需要打开任何页面,就可以实现跟 AI 的实时语音、实时视频、实时视频共享。
3、NewOaks AI Phone Agent:人性化的 AI 电话助手,自动处理来电和去电
NewOaks AI Phone Agent 是一款创新的 AI 驱动工具,旨在通过人性化的语音交互来自动化电话沟通。其核心价值主张在于利用先进的 AI 技术,使用户能够通过虚拟助手进行高效的电话交流。目标用户包括需要高效管理电话沟通的企业和个人,特别是那些希望减少人工干预、提高客户服务效率的用户。该产品解决了传统电话沟通中人力成本高、响应时间慢等关键痛点,为用户提供了一个智能化的解决方案。
Ray Luan 是 NewOaks AI 的首席执行官。在加入 NewOaks AI 之前,Ray Luan 曾担任 TikTok 的二手车电子商务部门总经理,在短短两年内将该业务发展到年收入 2 亿美元。他的职业生涯还包括在中国的 Autohome Inc 和 Che101 等公司担任高管,积累了丰富的管理和市场营销经验。Ray Luan 拥有上海交通大学的学士学位,以及德克萨斯大学阿灵顿分校和达特茅斯学院的硕士学位。他的团队专注于利用先进的 AI 技术为客户提供智能解决方案,帮助企业自动化和简化业务流程,以适应竞争激烈的数字环境。(@Z potentials)
03 有态度的观点
1、Sam Altman 谈中美 AI 军备赛:希望中美合作避免军备赛,美国需要在芯片以及供应链方面保持领先
本月初,马斯克曾向法院申请禁令阻止 OpenAI 转型营利性组织;于此同时,一贯与马斯克不对付的扎克伯格也选择站队马斯克,通过 Meta 向加州总检察长发信阻止 OpenAI 「营利」。
面对前纽约时报作者 Bari Weiss 关于 Altman 与马斯克之间恩怨纠纷的疑问 ,Sam Altman 表示:「他是一个传奇的企业家。但他显然是个霸道的人,而且喜欢争斗。现在是针对我,以前是 Bezos、Gates、Zuckerberg,还有很多其他人」。
Altman 指出,AI 技术正在以超出预期的速度发展,未来 18 个月的变化可能会比过去一年半更加显著。
他预测,超级智能可能会在未来几年内出现,并将其定义为一种显著提升全球科学进步速度的技术能力,比如过去需要十年完成的技术进步将在一年内实现。
关于中美 AI 军备赛,Altman 的立场展现出清晰的战略平衡:一方面,确保美国技术领先是首要目标;另一方面,他对中美合作的可能性持谨慎乐观态度,希望 AI 能推动世界和平,而非加剧对抗。(@有新 Newin)
更多 Voice Agent 学习笔记:
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻