ChatGPT 向更多用户推出高级语音模式:支持 50 种语言;字节发布两款新视频生成大模型丨 RTE 开发者日报

news/2024/9/25 16:38:38/文章来源:https://www.cnblogs.com/Agora/p/18431609

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、OpenAI 发布类人 ChatGPT 语音助手:支持中文在内的 50 种语言

 

今天凌晨,OpenAI 宣布向更多 ChatGPT 付费用户推出「高级语音模式」(Advanced Voice Mode,简称 AVM )。

 

目前,OpenAI 提供了两种类型的语音对话 —— 标准语音和高级语音:

 

1)高级语音:目前正在向 Plus 和 Team 用户逐步推出。该功能使用 GPT-4o 的原生音频技术,能够实现更加自然的实时对话,并捕捉非语言线索(例如语速),还能作出情感化的回应。

 

Plus 和 Team 用户每天对高级语音的使用量有限制,包括语音输入和输出。企业版和教育版的用户将在下周开始获得该功能。

 

2)标准语音:适用于所有登录 ChatGPT 的用户,并可以通过 iOS、macOS 和 Android 应用使用。

 

标准语音通过多种模型生成响应,包括将语音转录为文本,再传递给模型进行回答。

 

尽管标准语音不像高级语音那样具备原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,标准语音中的每一次提示都会计入消息限制。

 

AVM 将在一周内逐步向所有 Plus 和 Team 用户推送。在等待期间,OpenAI 还增加了「自定义指令」、记忆功能、五种新语音和改进的口音支持,还可以用超过 50 种语言说「抱歉,我迟到了」,同时支持中文模式。

 

此外,ChatGPT 还新增了五种可供用户体验的语音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 语音总数达到了九种,几乎赶上了谷歌 Gemini Live 的数量。

 

OpenAI 表示,自从 AVM 的有限 alpha 测试发布以来,已经进行了多项改进。据称 ChatGPT 的语音功能现在对口音的理解能力更强,且对话更加顺畅和迅速。

 

OpenAI 还将 ChatGPT 部分定制功能扩展到了 AVM,包括「自定义指令」,允许用户个性化 ChatGPT 的响应方式,以及「记忆功能」,让 ChatGPT 能够记住之前的对话以供以后参考。(@有新 Newin)

 

2、字节版 Sora 终于来了,一口气发布两款视频模型

 

字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。这两款模型,一个名为 PixelDance,一个名为 Seaweed,不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。

 

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作,人物的样貌、服装和细节在不同镜头的切换下仍然保持一致,接近真实拍摄的效果。

 

这种一致性得益于 DiT 架构(融合计算单元)的应用,使得视频生成在动态和运镜之间可以灵活切换,支持多种镜头语言,如变焦、环绕、平摇、缩放、目标跟随等。(@小互 AI)

 

3、OpenAI 发布 MMMLU 数据集:更广、更深评估 AI 模型,支持简体中文

 

OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集,涵盖各种主题、学科领域和语言,旨在评估大型语言模型(LLMs)在各种任务中的性能,包括不同研究领域中的常识、推理、解决问题和理解能力。MMMLU 数据集是涵盖范围广、考验深层认知的多语言数据集,支持简体中文等多样语言,可以进行跨语言的综合评估,弥补了 NLP 研究中代表性不足的语言模型的评估问题。(@极客日报)

 

4、腾讯 Robotics X 实验室人居环境机器人「5 号」正式亮相

 

 

 

腾讯 Robotics X 实验室今日在官方公众号发文,宣布该实验室最新研发成果人居环境机器人「5 号」(The Five,小五)正式亮相。

 

官方表示,小五作为腾讯 Robotics X 实验室最新一代机器人,集合了此前多代机器人研发的核心能力,融合了四腿轮足复合设计、大面积触觉皮肤、多指灵巧手以及安全人机物理交互等多项自研技术。( @APPSO)

 

5、VideoLingo——一键全自动视频翻译工具

 

VideoLingo 是一站式视频翻译本地化配音工具,旨在生成 Netflix 级别的高质量字幕,告别生硬机翻和多行字幕,并提供高质量的配音。通过直观的 Streamlit 网页界面,只需点击两下即可完成从视频链接到内嵌高质量双语字幕甚至带上配音的整个流程,轻松创建 Netflix 品质的本地化视频。(@机器之心 SOTA 模型)

02有态度的观点

1、谷歌 CEO 皮查伊:AI 不会取代程序员,反而会让更多人成为程序员

 

近年来,人工智能(AI)的飞速发展引发了广泛讨论,人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心,因为 AI 似乎能够胜任这两项工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊(Sundar Pichai)认为,AI 不会取代程序员,相反,其将帮助更多人成为程序员。

 

皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响,他表示,AI 最有可能帮助人们,而不是取代他们。它可以帮助现有程序员专注于更高级的任务,而不是重复解决同样的问题。此外,皮查伊认为 AI 将降低编程的门槛,使更多人能够通过自然语言的方式进行编程,就像使用一种创意工具一样。

 

皮查伊还将 AI 能够在日常活动中为众多专业人士提供帮助的能力描述为看待人工智能的「正确视角」,他还称「人工智能」这个词不太恰当,容易让人产生比较的想法,其实不必如此。他认为一个更好的术语应该是「赋能智能」,并且他「打赌未来会有更多的人进行编程」。(@IT 之家)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/803542.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

题解:CF573D Bear and Cavalry

CF因为这是远古题目,所以根据现在的评测机速度,用 \(O(nq)\) 的做法也是可以过的。 也就是说,我们可以每次操作直接修改对应位置上的数字,然后设计一种 \(O(n)\) 的算法求解答案。 这道题类似资源分配型动态规划,所以我们可以设 \(dp_i\) 表示分配前 \(i\) 个人的答案。 直…

题解:AT_abc204_e [ABC204E] Rush Hour 2

LG变形的 dijkstra。 先思考什么情况下需要等待以及等待多长时间最优。我们把题目上的计算方法按照当前的时间 \(t\) 和通过所需的时间 \(f(t)\) 列个函数关系: \[f(t)=t+c+\lfloor \frac{d}{t+1}\rfloor \]然后用 Desmos 画个图可以得到图像(其实就是对勾函数):因为 \(c,d…

Rust字符串类型全解析

字符串是每种编程语言都绕不开的类型, 不过,在Rust中,你会看到远比其他语言更加丰富多样的字符串类型。 如下图:为什么Rust中需要这么多种表示字符串的类型呢? 初学Rust时,可能无法理解为什么要这样设计?为什么要给使用字符串带来这么多不必要的复杂性? 其实,Rust中对…

AI自动生成代码注释

在vscode 中安装 TONGYI Lingma

通过 Tampermonkey 实现学习通全自动刷课

本文介绍了如何使用 Tampermonkey 这一流行的用户脚本管理器,通过其脚本库实现学习通的全自动刷课。文章详细讲解了 Tampermonkey 的安装步骤、OCS 脚本的配置方法,以及题库的使用流程,帮助读者高效完成学习任务。在学习过程中,自动化工具能大大提升学习效率。Tampermonkey…

KBU1010-ASEMI单向整流桥KBU1010

KBU1010-ASEMI单向整流桥KBU1010编辑:ll KBU1010-ASEMI单向整流桥KBU1010 型号:KBU1010 品牌:ASEMI 封装:KBU-4 批号:2024+ 类型:单向整流桥 电流(ID):10A 电压(VF):1000V 安装方式:直插式封装 特性:大功率、整流扁桥 产品引线数量:4 产品内部芯片个数:4 产品内部…

Kubernetes中Ingress的原理和配置

Ingress的概念和作用 Ingress是Kubernetes集群中的一个对象,用于将外部流量路由到集群内部的服务。它充当了进入Kubernetes集群的API网关,负责接收外部请求,并将其转发到正确的目标服务上。 Ingress通常通过HTTP和HTTPS提供对服务的访问,并支持基于主机名、路径以及其他HTT…

《如 何 速 通 一 套 题》4.0

A sprial 找规律。直接做。 #include <bits/stdc++.h> #define int long long using namespace std;int t, n;int sqrtll(int n) {int l = 1, r = 1000000, ans = 0;for(; l <= r; ) {int mid = (l + r) >> 1;if(mid * mid >= n) {ans = mid, r = mid - 1;}e…

自定义表格样式

HTML:<div class="table-container"><table style="width: 90%; margin-left: 5%"><tr class="table-title"><th style="width: 33%">科室名称</th><th style="width: 33%">当日登录次…

Bash脚本基本语法

一、Bash脚本以及相关介绍Bash脚本是一种在Unix或Linux操作系统中广泛使用的脚本语言,它允许用户编写一系列命令,这些命令将被Bash(Bourne-Again SHell)解释器执行。Bash脚本可以用于自动化各种任务,比如文件管理、程序执行、系统维护等。 编写Bash脚本的基本步骤包括:创…

【vulhub】Discuz-任意文件删除

【vulhub】Discuz-任意文件删除 0x00漏洞介绍 通过配置个人信息的属性值,导致文件删除。 影响版本Discuz <= 3.40x01 搭建环境 数据库服务器填写db(必须db,不然安装失败),数据库名为discuz,数据库账号密码均为root,管理员密码任意。填写联系方式页面直接点击跳过本步…