阿里发布多模态推理模型 QVQ-72B,视觉、语言能力双提升;OpenAI 正在研发人形机器人丨 RTE 开发者日报

news/2024/12/25 20:44:37/文章来源:https://www.cnblogs.com/Agora/p/18631374

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、字节开源 Midscene.js:AI 驱动的 E2E 测试框架迎来突破

 

随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动 web-infra 团队最新开源的 Midscene.js 和独立开发者推出的 Shortest 等工具,正在改变传统的测试方式。

 

Midscene.js 采用多模态大语言模型,能够直观「理解」用户界面并执行相应操作。该框架最大的特点是提供了一个便捷的浏览器插件,让用户无需编写代码就能通过自然语言与网页进行交互。该插件支持三种核心功能:交互、提取和断言,显著简化了测试流程。

 

与此同时,创业团队开发的 Shortest 同样展示了 AI 在测试领域的潜力。通过结合自然语言处理和界面截图分析,Shortest 能够直接生成 E2E 测试用例,大幅减少团队在重复性测试工作上的时间投入。

 

业内专家指出,随着 AI 的编码和多模态能力日益成熟,基础 E2E 测试场景的自动化水平已达到相当完善的程度。这些创新工具的出现,不仅提高了测试效率,更推动了整个软件开发流程的优化。(@AIbase 基地)

 

2、阿里发布多模态推理模型 QVQ-72B!视觉、语言能力双提升

 

 

阿里巴巴最近推出的 QVQ-72B 多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态 AI 领域的重大突破,提供了新的工具和思路来解决复杂问题,推动各行业的智能化升级。(@AIbase 基地)

 

3、OpenAI 正在研发实体机器人

 

近日,据 The Information 报道,OpenAI 正在研发实体智能机器人,并且重新启动了解散 4 年的内部机器人开发团队。

 

据悉,目前 OpenAI 已经投资了 Figure AI、1X、Physical Intelligence 三家实体机器人公司,在软件方面也为其提供 GPT 系列模型支持,足以看出其对领域的兴趣。

 

FigureAI 成立于 2020 年,旨在开发自主通用型人形机器人,目标是解决劳动力短缺,代替人类做不受欢迎或危险的工作。最新发布的 Figure 02 实体机器人,已经在仓库领域进行应用。

 

1X 为一家挪威实体机器人公司,主要应用领域在家庭服务。而今年其发布的机器人由于过于逼真引起了巨大轰动。

 

PhysicalIntelligence 是一家专注通用人工智能的实体机器人公司,总部位于旧金山。主要用于执行各种繁琐的业务流程。

 

前不久,OpenAI 刚刚发布了最新旗舰模型 o3,在推理、理解方面都是目前最强模型,甚至在 AGI 测试方面也首次超过了人类。(@APPSO)

02 有亮点的产品

1、MixedVoices :为语音助手打造的分析平台

 

 

https://www.mixedvoices.xyz/

 

MixedVoices 是一个为语音助手打造的分析平台,帮助你追踪、可视化并优化语音助手的性能,通过分析对话流程、识别瓶颈并衡量不同版本间的成功率。(@NLP 工程化)

 

2、DinoPal:集成 Gemini 多模态能力的 Mac 状态栏 App

 

 

DinoPal 是一个 Mac 状态栏 App,集成了 Gemini 的多模态能力,意味着你不需要打开任何页面,就可以实现跟 AI 的实时语音、实时视频、实时视频共享。

 

3、NewOaks AI Phone Agent:人性化的 AI 电话助手,自动处理来电和去电

 

NewOaks AI Phone Agent 是一款创新的 AI 驱动工具,旨在通过人性化的语音交互来自动化电话沟通。其核心价值主张在于利用先进的 AI 技术,使用户能够通过虚拟助手进行高效的电话交流。目标用户包括需要高效管理电话沟通的企业和个人,特别是那些希望减少人工干预、提高客户服务效率的用户。该产品解决了传统电话沟通中人力成本高、响应时间慢等关键痛点,为用户提供了一个智能化的解决方案。

 

Ray Luan 是 NewOaks AI 的首席执行官。在加入 NewOaks AI 之前,Ray Luan 曾担任 TikTok 的二手车电子商务部门总经理,在短短两年内将该业务发展到年收入 2 亿美元。他的职业生涯还包括在中国的 Autohome Inc 和 Che101 等公司担任高管,积累了丰富的管理和市场营销经验。Ray Luan 拥有上海交通大学的学士学位,以及德克萨斯大学阿灵顿分校和达特茅斯学院的硕士学位。他的团队专注于利用先进的 AI 技术为客户提供智能解决方案,帮助企业自动化和简化业务流程,以适应竞争激烈的数字环境。(@Z potentials)

03 有态度的观点

1、Sam Altman 谈中美 AI 军备赛:希望中美合作避免军备赛,美国需要在芯片以及供应链方面保持领先

 

本月初,马斯克曾向法院申请禁令阻止 OpenAI 转型营利性组织;于此同时,一贯与马斯克不对付的扎克伯格也选择站队马斯克,通过 Meta 向加州总检察长发信阻止 OpenAI 「营利」。

 

面对前纽约时报作者 Bari Weiss 关于 Altman 与马斯克之间恩怨纠纷的疑问 ,Sam Altman 表示:「他是一个传奇的企业家。但他显然是个霸道的人,而且喜欢争斗。现在是针对我,以前是 Bezos、Gates、Zuckerberg,还有很多其他人」。

 

Altman 指出,AI 技术正在以超出预期的速度发展,未来 18 个月的变化可能会比过去一年半更加显著。

 

他预测,超级智能可能会在未来几年内出现,并将其定义为一种显著提升全球科学进步速度的技术能力,比如过去需要十年完成的技术进步将在一年内实现。

 

关于中美 AI 军备赛,Altman 的立场展现出清晰的战略平衡:一方面,确保美国技术领先是首要目标;另一方面,他对中美合作的可能性持谨慎乐观态度,希望 AI 能推动世界和平,而非加剧对抗。(@有新 Newin)

 

 

更多 Voice Agent 学习笔记:

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/858822.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python多进程,通过内存共享来通信,使用进程锁来防止数据问题

代码:import multiprocessing import time 使用锁和multiprocessing.Value,multiprocessing.Array,multiprocessing.Manager().listdef worker1(shared_number1, lock):for _ in range(10):with lock:shared_number1.value += 1def worker2(shared_array1, lock):for i in…

Jenkins入门使用

Jenkins入门使用 1先安装jdk才能运行jenkins yum install -y java-1.8.0-openjdk.x86_642 安装jenkins,运行,进行端口绑定,启动jenkins docker search jenkins docker pull jenkins/jenkins docker run -d -u root -p 8080:8080 -p 50000:50000 -v /var/jenkins_home:/var/j…

Java 泛型详细解析

本文将带你详细解析 Java 泛型,了解泛型的原理、常见的使用方法以及泛型的局限性,让你对泛型有更深入的了解。泛型的定义 泛型类的定义 下面定义了一个泛型类 Pair,它有一个泛型参数 T。 public class Pair<T> {private T start;private T end; }实际使用的时候就可以…

javafx-请求篇

OkHttpClient 基本使用步骤如下构建客户端对象OkHttpClient 构建请求Request 生成Call对象 Call发起请求(同步/异步)import java.io.IOException; import okhttp3.Call; import okhttp3.MediaType; import okhttp3.OkHttpClient; import okhttp3.Request; import okhttp3.Req…

javafx-一个小demo

懒得讲了,直接看代码吧 pox.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://m…

一个小demo

懒得讲了,直接看代码吧 pox.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://m…

一个 Bug JDK 居然改了十年?

你敢相信么一个简单的Bug,JDK 居然花了十年时间才修改完成。赶快来看看到底是个什么样的 Bug?问题现象 今天偶然看到了一个 JDK 的 Bug,给大家分享一下。 假设现在有如下的代码: List<String> list = new ArrayList<>(); list.add("1"); Object[] ar…

崩溃列表数据库查询(可供参考)

首先去https://weikezhijia.feishu.cn/sheets/BIvxsKZhHhzpC6tDyoLcPE50n4d?sheet=9ikXjx 看库中导出指标,然后可以查到是rum_error表,然后去ors_rum_test服务器,ors_rum_test数据库,rum_error表去查询,结合点击全部按钮后查看F12 然后查看preView里的字段,结合着去查rum…

流量分析练习

flag明文 题目:key.pcapng查找flag或者flag{,我们在下图查找到所需要的flag本类题目特点:能够在字节流中直接查找到带有flag的字符串,不存在加解密或转换等,属于明文形式 2.flag编码 题目:64da5a4a1e024d198dfa307299965b6d.pcapng本题考到十六进制编码 将flag转成十六进…

哪里有 class 告诉我?

说明 本文中的 JVM 参数和代码在 JDK 8 版本生效。 哪里有用户类? 用户类是由开发者和第三方定义的类,它是由应用程序类加载器加载的。 Java 程序可以通过CLASSPATH 环境变量,JVM 启动参数 -cp 或者 -classpath 指定用户需要加载的类的路径。这两个配置的优先级从低到高,后…

python多进程之间通讯,消息队列Queue

代码:from multiprocessing import Process, Queuedef producer(q):myinfo = "包子"q.put(myinfo)print(f"生产了{myinfo}")myinfo = "饺子"q.put(myinfo)print(f"生产了{myinfo}\n") 生产了4个,消费5个def consumer(q):print(f&q…

使用DBeaver连接带有Kerberos认证的hive(亲测可用)

先下载工具 https://yvioo.lanzn.com/isBg42j0fu7e里面是两个文件 一个jar包 一个安装包 首先点击kfw-4.1-amd64.msi 进行安装,建议直接默认配置安装 选择"TYPE" 安装完成后 点击 1、先配置环境变量 第一个变量名:KRB5_CONFIG 变量值: 这个就是Kerberos认证给的k…