OpenAI 向部分用户开放 GPT-4o 高级语音模式;AI 视频生成工具 Vidu 全球上线丨 RTE 开发者日报

news/2024/9/21 14:32:11/文章来源:https://www.cnblogs.com/Agora/p/18335079

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@JLT,@鲍勃

01有话题的新闻

1、OpenAI 向部分付费订阅用户开放 GPT-4o 高级语音模式,可提供更自然实时对话

 

当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户推出全新高级语音模式的 Alpha 版本,并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。GPT-4o 高级语音模式具有快速反应、允许用户随时进行打断、声音堪比真人等特征,OpenAI 更称 GPT-4o 高级语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。

 

OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示:「ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。」(@IT 之家)

 

此外,X 用户 TestingCatalog News 还透露了拥有视觉能力的高级语音模式的界面。

 

2、Vidu 视频模型开放 Sora 架构,可模仿真实物理世界

 

AI 初创企业生数科技宣布,旗下 AI 视频生成工具 Vidu 全球上线,可通过 Web 端 www.vidu.studio 访问。

 

Vidu 介绍,模型最快推理速度为 30 秒,提供两大核心功能:文生视频、图生视频,分辨率最高达 1080P。免费版可生成 4 秒视频,支持超清和一个并行任务;收费版可生成 4 秒和 8 秒视频,支持超清、商用、超清后去除水印,支持两个并行任务。

 

Vidu 除了能实现常见的写实等多元风格外,还新增动漫风格选项,并显著提高了画面的稳定性。Vidu 声称,能够生成影视级别的特效画面,如烟雾、炫光效果、CG 特效等等。(@爱范儿)

 

3、Runway Gen 3 Alpha 模型图生视频功能正式上线

 

 

昨日,Runway 宣布旗下模型 Gen 3 Alpha 上线图生视频功能。据悉,用户可以使用任何图片作为 Gen 3 Alpha 生成视频的首帧,既可以单独使用图片作为提示,也可以辅以额外的文字。免费用户可以使用 Gen 3 Alpha 生成 5 秒钟的视频,而订阅用户可以生成 10 秒钟的视频。

 

官方表示,该模型会自动检测上传的图片,并阻止用户使用露骨或者和政客相关的图片创建视频。(@爱范儿)

 

4、苹果 Apple Intelligence 为用户提供详细的隐私报告,供用户查看 AI 调用情况

 

苹果公司于周一发布了 iOS 18.1 和 macOS Sequoia 15.1 的首个测试版,推出了 Apple Intelligence 功能。该功能包含了基于 AI 的新特性,如重述文本和总结信息或邮件。

 

同时为了保障用户隐私,苹果使用了私人计算模块(PCC),利用其自有芯片进行端到端加密处理,并在处理完成后永久删除所有数据。而且用户还可以在隐私设置中查看导出 Apple Intelligence 报告,以查看 AI 都请求处理你的哪些数据。

 

由于报告可能包含敏感数据,用户需要通过面部识别或指纹识别验证身份才能查看。苹果默认生成这份报告,并在设备上保留 15 分钟,用户可以更改设置将保留时间延长至 7 天或完全关闭。(@小互 AI)

 

5、开源项目 Ollama,简化多系统大型语言模型操作与定制

 

ollama 是一个开源项目,旨在帮助用户轻松启动和运行包括 Llama 3.1、Mistral、Gemma 2 在内的大型语言模型。该项目支持多种操作系统,包括 macOS、Windows 和 Linux,并提供了 Docker 镜像 ollama。用户可以通过简单的命令行操作来下载、创建、运行和管理模型。项目还提供了一系列的库,如 ollama-python 和 ollama-js,以及详细的文档和示例,帮助开发者集成和定制模型。

 

此外,ollama 支持从 GGUF、PyTorch 或 Safetensors 格式导入模型,并允许用户通过编写 Modelfile 来自定义模型的参数和提示。该项目的安装和使用说明都非常清晰,适合各种技术水平的用户。(@AI 科技评论)

02有态度的观点

1、黄仁勋与扎克伯格探讨 AI 未来,强调智能体与开源模型

 

黄仁勋与扎克伯格在 SIGGRAPH 大会上深入讨论了 AI 的未来。扎克伯格认为 AI 将彻底改变社交媒体,使 Facebook 和 Instagram 成为一个统一的 AI 模型,提供个性化体验。他强调了智能体作为 AI 产品的未来形态,并支持开放生态系统以促进技术标准形成。扎克伯格还讨论了智能眼镜和混合现实设备的前景,认为 AI+眼镜是元宇宙的新方向。

 

黄仁勋则强调了 AI 在模拟和计算平台中的作用,特别是 NVIDIA 在 AI 领域的贡献。两人一致认为,开源 AI 模型如 Llama 3.1 将推动行业发展,支持企业和研究者构建专用 AI。他们还探讨了 AI 在不同领域的应用,包括计算机视觉和机器人技术。(@腾讯科技)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/775689.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何设计可扩展的RPC协议

如何设计可扩展且向后兼容的RPC协议 为什么不直接用现成的HTTP协议? RPC的职责是负责应用间的通信,所以性能要求相对更高。而HTTP协议的数据包相对于请求数据本身要大很多,有很多冗余内容(如换行回车等),会影响性能。另外HTTP协议是无状态的协议,每次请求都要重新建立连接…

DataX - [02] 安装部署

题记部分 一、安装部署 (1)下载DataX:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz(2)解压到合适的目录:tar -zxvf datax.tar.gz -C /home/ecs-user/module/(3)进入b…

部署STONE-CRM中小企业的客户关系管理系统

Gitee地址 https://gitee.com/xpliu2166/stone-crm?skip_mobile=true环境查看# cat /etc/redhat-release Rocky Linux release 9.3 (Blue Onyx) # uname -a Linux Rocky9StoneCrm003080 5.14.0-362.18.1.el9_3.0.1.x86_64 #1 SMP PREEMPT_DYNAMIC Sun Feb 11 13:49:23 UTC 20…

全新小体积RK3562核心板,解锁神秘技能!

RK3562小体积金手指系列核心板基于瑞芯微四核Cortex-A53+Cortex-M0处理器设计,工作主频高达2GHz,最高搭载4GB高速LPDDR4、32GB eMMC。该核心板拥有204 Pin脚,尺寸仅为67.6mm *45mm,支持千兆网、USB3.0、串口、PCIE、HDMI等丰富外设资源,非常适合于高性能、高性价比的工业应…

H7-TOOL自制Flash读写保护算法系列,为STM32H7全系列芯片制作读写使能和解除算法,支持在线烧录和脱机烧录使用(2024-07-30)

说明:很多IC厂家仅发布了内部Flash算法文件,并没有提供读写保护算法文件,也就是选项字节算法文件,需要我们制作。 实际上当前已经发布的TOOL版本,已经自制很多了。但是依然有些厂家还没自制,所以陆续开始为这些厂家提供读写保护支持。 最近好几个网友咨询H7系列芯片保护支…

H7-TOOL自制Flash读写保护算法系列,为国民技术N32G031制作读写使能和解除算法,支持在线烧录和脱机烧录使用(2024-07-29)

说明: 很多IC厂家仅发布了内部Flash算法文件,并没有提供读写保护算法文件,也就是选项字节算法文件,需要我们制作。 实际上当前已经发布的TOOL版本,已经自制很多了。但是依然有些厂家还没自制,所以陆续开始为这些厂家提供读写保护支持。 实现效果: 本次添加国民技术的N32G…

DNS在架构中的使用

1 介绍 DNS(Domain Name System,域名系统)是一种服务,它是域名和IP地址相互映射的一个分布式数据库,能够使人更方便的访问互联网,而不用去记住能够被机器直接读取的IP地址数串。 简单来说,DNS就是一个将我们输入的网址(比如www.baidu.com )转换成对应的IP地址(比如19…

RPC核心原理

什么是RPC RPC就是远程过程调用 RPC的作用屏蔽远程调用和本地调用的区别,让我们感觉就是调用本地项目内的方法。 隐藏底层网络通信的复杂性,让我们更专注于业务逻辑。RPC通信流程 一个完整的RPC会涉及哪些步骤呢? 在调用方程序中,RPC框架根据调用的服务接口提前生成动态代理…

零代码GIS视效升级!一键添加环境效果,支持多种GIS影像协议

在当今的三维GIS领域,如何轻松实现视效升级?这款免费可视化工具——山海鲸可视化,可以给你提供零代码解决方案。山海鲸可视化从三维GIS需求出发,带来了一键添加环境效果的强大功能,显著提升视觉效果。无论是体积云、体积雾还是其他天气效果,只需简单操作,即可呈现逼真环…

springboot自学(5)自定义starter

测试文件可以删除掉了,配置文件改一下后缀修改pom业务代码开发添加自动配置类,并且加上spring.factories到此为止就初步完成了,install到本地的maven仓库然后在使用的项目里加上依赖就行了导入项目,并调用定时任务报表开发 先做个表格的打印方法表格右对齐的方式左对齐的方…

C#营业执照识别接口、营业执照ocr

营业执照识别接口,是基于光学字符识别技术的一种将图像中的字符转化为可编辑文本的技术。翔云营业执照识别接口,自主ocr核心技术,可快速精准识别营业执照上的全部字段信息,支持三证合一版营业执照和五证合一版营业执照。翔云营业执照识别接口提供免费测试体验服务,助力企业…