云知声多模态模型:实时多模态输入输出;独立于 Siri ,苹果或开发新 AI 用于机器人丨 RTE 开发者日报

news/2024/11/15 14:41:37/文章来源:https://www.cnblogs.com/Agora/p/18383276

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Anthropic 公开 Claude AI 模型的系统提示词

 

为了让 AI 模型更好地理解人类指令,提示词(Prompt)工程实际上包含 2 层核心内容,用户提示词(User prompt)和系统提示词(System prompt):

 

  • 用户提示词:用户输入的提示词,然后 AI 模型基于用户提示词生成答案。

  • 系统提示词:这是由系统生成的提示,通常用于设定对话的背景、提供指导或规定规则。

 

从 OpenAI 到 Anthropic,每一家生成式人工智能厂商都会使用系统提示来防止(或至少试图防止)模型出现不良行为,并引导模型回复的总体语气和情绪。例如,系统提示词可能会告诉模型,它应该礼貌但绝不能道歉,或者坦诚地承认它不可能知道所有事情。但厂商可能是出于竞争等方面原因,以及避免不良用户在了解这些信息后绕过安全防护,通常保密这些系统提示词。

 

不过,Anthropic 一直在努力将自己描绘成一家更道德、更透明的人工智能供应商,它已在 Claude iOS 和 Android 应用程序以及网络上公布了其最新模型(Claude 3.5 Opus、Sonnet 和 Haiku)的系统提示。Anthropic 开发者关系负责人亚历克斯・艾伯特(Alex Albert)在 X 上发表的一篇文章中说,Anthropic 计划在更新和微调系统提示的过程中,定期公布此类信息。(@IT 之家)

 

2、云知声推出山海多模态大模型:实时生成文本、音频和图像

 

云知声宣布推出山海多模态大模型,该模型能够通过整合跨模态信息,接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。

 

山海多模态大模型有如下特点:

 

  • 实时秒回,自由插话 :与现实对话中人类的响应时间相似;支持对话随时打断,用户可在对话中任意插话

  • 感知情绪,表达情绪 :通过语音文本判断用户情绪,还能捕捉用户语音的语气、节奏和音调等微妙变化,感知对方情绪状态

  • 音色自由切换 :根据用户的个性化需求,自由切换音色;学习用户的音色、风格,复刻用户声音

  • 视觉场景理解 :「看见」周围环境,结合图像和文字,提供易于理解的总结

  • 图像生成,构筑个性艺术 :根据用户指令创建视觉内容,提供符合个性化需求的定制画面(@AI 未来)

 

3、苹果被曝另起炉灶,独立于 Siri 为桌面机器人开发拟人个性化 AI

 

马克・古尔曼于 8 月 25 日发布博文,表示苹果公司决定另起炉灶,独立于 Siri 之外开发新一代人工智能技术。

 

苹果已官宣在 iOS 18 系统中引入 Apple Intelligence,通过整合 ChatGPT 或者 Gemini 等 AI 语音助手等,并改造 Siri 带来更智能、更全面的 AI 体验,不过部分功能需要等到 2025 年才会发布。

 

古尔曼表示尽管新诞生的 Siri 前景广阔,但苹果公司已经在开发另一种更个性化的 AI 体验。

 

其 Power On 部分内容翻译如下:「机器人工作的一个重要部分就是创造个性。Siri 是苹果现有设备上的数字助理,而该公司正在开发另一个基于生成式人工智能的类人界面。据我所知,它可以在桌面产品和其他未来的苹果机器人设备上运行。」(@IT 之家)

 

4、SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成 3D 渲染

 

SuperCraft 是一个帮助团队设计优质实物产品的平台。它提供了一个无限的协作画布,用户可以在上面通过手绘草图或使用文本提示生成草图来开始设计,这就像是 Figma 和 ComfyUI 的结合体。该平台利用生成式 AI 将粗略的草图转化为真实感强的产品图像,并自动生成产品的 3D 渲染,让用户能够更好地从三维角度感受设计。(@小互 AI)

 

5、IBM 中国回应关闭研发部门:不会影响客户

 

IBM 中国方面确认,IBM 将彻底关闭中国研发部门,涉及员工数量超过 1000 人。

 

在昨日上午,IBM 中国内部召开了一个时长 3 分钟的会议,宣布研发部门关闭,业务转移到其他地区。此次研发部门关闭涉及的业务线主要有两条,一个是 IBM 中国开发中心(CDL),另一个是 IBM 中国系统中心(CSL)。

 

IBM 中国声称,IBM 会根据需要调整运营,为客户提供最佳服务,这些变化不会影响 IBM 中国为大中华区客户提供支持的能力 。IBM 中国还表示,在中国的本地战略重点则是利用其在技术和咨询方面的丰富经验,组建具备相应技能的团队,帮助中国客户共创符合他们需求的解决方案。

 

据透露,IBM 将为相关员工提供 N+3 的赔偿。而部分员工提出了「2N」赔偿和「6 个月缓冲期」,以及年假、未休的带薪假、股票折现等等更多诉求。上周五,有 IBM 研发部门员工表示,访问权限被收回,影响北京、上海、大连多地员工,售后、咨询部门仍正常持有访问权限。(@爱范儿)

02 有态度的观点

1、百亿美金公司 Airtable 创始人:代码生成不会取代无代码平台

 

Airtable 的联合创始人兼首席执行官 Howie Liu 在一次访谈中谈到了自己对 AI 发展的看法。他认为,尽管随着 AI 技术的快速发展,代码生成变得越来越容易,但完全取代无代码平台还需要一定的时间,低代码和无代码平台依然有其不可替代的优势。Airtable 便是通过提供易于理解和操作的界面,让非技术人员也能参与应用程序的开发,从而增强了用户的创造力和生产力。

 

此外,他还谈到了企业在采用 AI 时面临的挑战,如缺乏对 AI 模型能力的理解以及应用 AI 的想象力不足。Airtable 通过培训和产品化帮助客户克服这些障碍,并且积极探索如何将 AI 功能集成到其平台中,开发出满足实际需求的 AI 工作流程和模板,甚至让用户能够构建自己的 AI 应用程序。

 

在未来,Airtable 将继续致力于通过无代码解决方案,帮助用户构建复杂的业务应用程序,实现更大的经济价值和创新。(@Z potentials)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/788113.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dolphinscheduler 自定义参数任务传递

select concat(year(CURRENT_DATE())-2,"-01-01 00:00:00") as deleteTime 下一个任务 ${deleteTime} 直接引用

STM32或者RSIC-V输出SPWM波形

直接上代码吧,其余的内容可以到别的地方搜索,包括什么是SPWM/*@Note PWM output routine: TIM1_CH1(PA8)This example demonstrates that the TIM_CH1(PA8) pin outputs PWM in PWM mode 1 andPWM mode 2. */ #include "debug.h" /* PWM Output Mode Definition */…

Fins TCP协议理解及C Sharp实现思路

假设本文中使用到设备的ip地址,用于后续内容的理解: 客户端(本机电脑 windows系统)IP: 192.168.1.101 服务端(PLC omron CJ2M系列)IP 和 端口号 : 192.168.1.10 : 9600注意: ①本文中的 FINS TCP 报文都是以16进制(Hex)发送出去的,所以对应的转换也都会转成16进制的形…

poc电路

POC电路概念: POC(Power Over Coaxia)一种基于同轴线缆传输的视频信号、同轴控制,电源叠加的技术。在叠加过程中,难度最大的是解决直流电源与高频视频信号叠加传输的问题,保证高频视频信号不失真,低频控制信号不出现乱码。 POC工作原理:POC设计要点:选择电感时的关键参数…

不劳而获?

天雷无妄卦二爻爻辞:不耕获,不菑畲…… 这六个字啥意思?不耕种而有收获不开荒而有熟田?所以就是说可以,不劳而获?嗯? 醒醒吧! 不劳,怎么可能有获?! 当寄生虫还得劳呢,否则只能饿死!其实,换一种理解,还真是可以做到不劳而获,关键就看“劳”与“获”是怎样的一种…

CF1630F-最小割、Dilworth定理

link:https://codeforces.com/contest/1630/problem/F 给你一个由 \(n\) 个顶点组成的无向图,编号从 \(1\) 到 \(n\) ,其中顶点 \(i\) 的值为 \(a_i\) ,所有值 \(a_i\) 都是不同的。如果 \(a_u\) 整除 \(a_v\) ,则两个顶点 \(u\) 和 \(v\) 之间存在一条边。当删除一个顶点…

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming arxiv:http://arxiv.org/abs/2406.19101 视觉处理器+LLM:视觉处理器:Swin Transformer 创新点:通过:1、去除图片冗余像素;2、去除冗余token。来减小模型中的视觉处…

Lab 2: Key/Value Server

6.5840 Lab 2: Key/Value Server 1.Introduction 本次Lab将构建一个单机的键值服务器,该服务器保证即使存在网络故障,每个操作也都只执行一次,并且这些操作线性化执行。后续Lab中,将复制这样的服务器来处理服务器崩溃的情况。 键值服务器支持三种RPC(远程过程调用)操作:Put…

esp-idf vscode debug command espIdf.getXtensaGdb not found

esp32 idf vscode debug错误 vscode中配置文件采用的是正点原子的,调用gdb的时候,提示报错,找不到相应的命令 launch.json文件中gdb的配置如下 {"version": "0.2.0","configurations": [ { "name": "GDB", "type&qu…