社区来稿丨一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

news/2024/11/20 11:19:23/文章来源:https://www.cnblogs.com/Agora/p/18432112

本文由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。

 

 

 

自从 OpenAI 展示了 GPT-4o 的实时对话能力后,感觉电影《Her》中的场景瞬间成了现实。受这种突破性多模态体验的启发,开发者们开始疯狂寻找构建实时对话 AI 智能体的方法。虽然现在有一些开源工具可以让大家轻松上手做点编排,但要真正构建一个多模态 AI Agent还是很难——这些智能体不仅需要超低延迟,还得掌握聊天、语音转文字、文字转语音、实时音视频通信等技术。更别提要把这些技术都无缝整合在一起,打造出像人类一样的互动体验,真的是个「脑力活儿」。

 

不过,好消息来了!有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现 实时多模态智能体 的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。

什么是 TEN 框架?

TEN 框架是一个开源的开发框架,专为那些希望快速构建支持语音、视频、数据流、图像和文本的实时多模态智能体的开发者打造。它让开发者轻松试验、集成大语言模型,并创建可复用的扩展。想要做语音聊天机器人?AI 生成的会议记录?语言导师或虚拟伴侣?甚至是 AI 心理咨询师?TEN 都能帮你实现!它提供了丰富的 AI 服务和扩展,让你完全自由地构建、测试和发布能够实时思考、倾听、观察和互动的下一代 AI agent。

 

你可能听过开发者抱怨:「我想尽快构建出 AI agent!」或者企业开发者说:「我们需要一个能随着业务增长而扩展的解决方案。」对于那些想要快速构建演示版实时多模态 AI 智能体,或是需要一个能够轻松扩展到生产环境并允许添加新功能或大语言模型的框架,TEN 框架就是你的最佳选择

 

 

你能用 TEN 框架构建什么?

使用 TEN 框架,你可以构建能够像人类一样自然、实时互动的 AI 智能体。让我们来快速了解一下由 TEN 驱动的代理演示,感受它的强大魅力吧!

 

 

 

Voice, Vision and RAG

 

TEN Agent 是一个服务器端的演示AI智能体,它通过多个扩展实现实时音频和视频交互,并支持 RAG(检索增强生成),可以访问和利用本地文档提供答案。开发者可以轻松修改提示词和其他配置参数,以满足自己的需求。快来试试吧!你会惊讶于在不到 10 分钟内就能创建出一个 AI 智能体!

 

当然,你也可以使用 TEN 框架在本地构建自己的AI智能体。对于更复杂的用例,TEN 框架允许开发者通过社区的第三方插件,集成一个或多个大语言模型(LLM),并使用内置的扩展管理工具 TEN Manager 来管理它们之间的数据流。此外,Graph Designer 提供了一个简单的拖拽界面,方便你轻松设计工作流(如下图所示)。

 

 

 

TEN Graph Designer

为什么选择 TEN 框架?

未来的生成式 AI 预计将迅速转向语音和视频作为主要且最自然的交流界面,而实时交互(RTE)将成为大多数应用的标准。在这一转变过程中,我们发现现有的 AI 智能体平台存在一些局限性。

 

例如,一些平台虽然在快速开发多模态代理方面表现出色,但仅限于使用 Python,这限制了其构建更复杂应用程序并扩展到更广泛用例的潜力。同样,其他平台可能对音频和视频的支持有限,进一步限制了它们的多样性。

 

TEN 框架的设计初衷是帮助开发者更快、更轻松地创建实时多模态 AI 智能体:

 

- 真正的实时多模态,超低延迟。 TEN支持语音、视频、数据流、图像和文本,尤其适用于实时翻译等语音或视频交互的用例。此外,不同扩展之间的交互(如数据传输)得到了优化,简化了端到端的开发和性能。

 

- 广泛的支持与可定制的扩展组件。 与其他仅支持有限多模态和编程语言的工作流构建工具不同,TEN 框架支持 Golang、C++和Python,Node.js 也即将推出。此外,TEN 支持在所有主要平台上进行开发,包括 Windows、Mac、Linux和移动设备。所有扩展组件都是模块化结构,跨多种语言具备完全的灵活性。非常欢迎扩展组件开发者将他们的服务连接到框架和社区中。

 

- 实时响应与状态管理。 TEN 框架通过优先考虑实时响应、动态工作流和同步数据,构建出的 AI 智能体能够提供更具互动性、类似人类的 AI体验,特别是在多用户的场景下。使用 TEN,开发者拥有一个低延迟、同步、可调节媒体质量、支持并发用户、网络弹性等功能的框架。

 

- 同时支持边缘计算与云端。 通过 TEN框架,部署在边缘和云端的扩展可以无缝结合,创建各种应用程序。对于隐私敏感的边缘部署,可以使用本地计算能力来降低整体成本并减少延迟,而云端的大语言模型可以集成以实现成本与性能的最佳平衡。

 

- 极速构建体验,开发者友好。 直观的可视化界面和拖放组件让开发者轻松上手。对于有更复杂需求的开发者,TEN 的灵活架构和开放 API提供了一个强大的平台,用于构建自定义扩展。此外,TEN 欢迎社区的各种创意和贡献。

 

使用 TEN 作为你的 AI 智能体框架,让你的想象力起飞!立即访问 TEN Agent 仓库,构建你的第一个AI 智能体吧!如果你享受构建和探索的乐趣,记得在仓库上为我们点赞。https://github.com/TEN-framework/ten_framework

 

 

Star TEN to stay up with TEN

 

如果您对 TEN 框架感兴趣,欢迎访问我们的网站 www.theten.ai,随时关注未来的更新和发布。我们非常期待听到您的意见、想法和反馈!同时,欢迎加入我们的 Discord 社区群,和大家一起交流探讨。

 

 

 

TEN Discord

 

您还可以通过以下平台找到我们:

 

• Discord:https://discord.gg/VnPftUzAMJ

 

• X(推特):https://x.com/TenFramework

 

• Medium:https://ten-framework.medium.com/

 

• Reddit:https://www.reddit.com/r/TenFramework/

 

• 邮箱:developer@theten.ai

 

尽情享受 TEN 框架,让您的实时多模态 AI 智能体栩栩如生!

 

 

 

本文由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。

 

有意投稿者请联系鲍勃微信(bob_fu,请备注身份和来意)。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/803653.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024最新pwn环境配置与基础讲解

从零开始配置ubuntu pwn虚拟机 参考一个比较新的环境搭建教程: # ubuntu20.04 PWN(含x86、ARM、MIPS)环境搭建 致敬传奇大神hollk师傅 博客中的配置过程可参见B站视频:2024最新pwn环境配置与基础讲解 1.ubuntu虚拟机安装 24.04下载: https://ubuntu.com/download/desktop/…

区间质数搜索——埃拉托斯特尼筛法和欧拉筛法

参考资料 【中国大学生计算机设计大赛国赛二等奖微课与教学辅助《埃拉托斯特尼筛法》】 【中国大学生计算机设计大赛《素数筛选—欧拉线性筛选法详解》】 Eratosthenes筛法-CSDN博客 【算法/数论】欧拉筛法详解:过程详述、正确性证明、复杂度证明-CSDN博客 水平有限,欢迎交流…

2024/9/25代码随想录 图论 关于ACM模式下输出的细节

1. 就只输出一行数据,输出 1 2 4 5 来说,

quixel bridge如何导入unity

bridge如何导入unity# 1.[Quixel Bridge](https://quixel.com/bridge)下载和设置 1. 下载[Quixel Bridge - Manage 3D content and export with one click](https://quixel.com/bridge) 客户端注册 安装。bridge 模型导出路径配置 和 插件下载客户端点击 Edit ->Export Set…

mini-lsm通关笔记Week2Day3

项目地址:https://github.com/skyzh/mini-lsm 个人实现地址:https://gitee.com/cnyuyang/mini-lsmSummary在本章中,您将:实现tiered合并策略并在压缩模拟器上对其进行模拟。 将tiered合并策略纳入系统。我们在本章所讲的tiered合并和RocksDB的universal合并是一样的。我们将…

mini-lsm通关笔记Week2Day2

项目地址:https://github.com/skyzh/mini-lsm 个人实现地址:https://gitee.com/cnyuyang/mini-lsmSummary在本章中,您将: 要将测试用例复制到启动器代码中并运行它们,实现一个simple leveled合并策略,并在合并模拟器上进行仿真。 将compaction作为后台任务启动,并在系统…

指针2)

1.& &是地址符,类型是其后面的类型加一个“*”,任何变量都可以使用&来获取地址,但不能用在常量上。 char a = 10; short b = 20; int c = 30; char*=pa pa=&alea取地址:ebp-4的地址放入eax,再将eax里的地址放入ebp-10里 &可以取任何一个变量…

nssctf(web

web 1.浏览器也能套娃 查看wp,是ssrf漏洞 介绍:SSRF漏洞产生的原因是服务端提供了能够从其他服务器应用获取数据的功能,比如从指定的URL地址获取网页内容,加载指定地址的图片、数据、下载等等。 SSRF的利用:进行内网资源的访问:url?url=http://内网的资源url利用伪协议:…

RTE 大会报名丨AI 时代新基建:云边端架构和 AI Infra ,RTE2024 技术专场第二弹!

所有 AI Infra 都在探寻规格和性能的最佳平衡,如何构建高可用的云边端协同架构?语音 AI 实现 human-like 的最后一步是什么?AI 视频的爆炸增长,给新一代编解码技术提出了什么新挑战?当大模型进化到实时多模态,又将诞生什么样的新场景和玩法?AI 加持下,空间计算和新硬件…

002-QOS基本原理

QOS基本原理QOS概述什么是QOS QoS服务模型 区分服务模型 QoS常用技术 (DiffServ模型) QoS数据处理流程 (DiffServ模型)QoS流分类和流标记QoS数据处理流程 为什么需要流分类和流标记简单流分类外部优先级 - VLAN报文 外部优先级 - MPLS报文 外部优先级 - IP报文 各外部优先级间的…

本地部署运行 Google Gemma 开源大模型

Google 开源了 Gemma 大模型,有 7B 和 2B 两个版本,7B 模型的能力已经是开源模型中的领先水平。Gemma 可以轻松的在本地部署运行,如果你的显存在 8G 以上,可以体验 7B 版本,8G 以下的话可以试试 2B 版本。 部署过程如下: 1、使用 ollama 运行 Gemma 模型 2、使用 Chatbox…

mini-lsm通关笔记Week2Overview

Week 2 Overview: Compaction and Persistence在上周,您已经实现了LSM存储引擎的所有必要结构,并且您的存储引擎已经支持读写接口。在本周中,我们将深入探讨SST文件的磁盘组织,并研究在系统中实现性能和成本效益的最佳方法。我们将花4天时间学习不同的compaction策略,从最…