今天这个章节是为了接下来我们使用大模型做应用开发做准备。
大家陆续在很多文章中可能已经看到过了很多概念,比如plugins、GPTs、Agent,这里面自ChatGPT3.5爆火以来,有众多的AI创业公司从不同的切入点在做,OpenAI公司也在不断推进自家产品的核心能力和生态的迭代更新,比如去年最引人瞩目的GPT-4 turbo的发布。
接下来我们就以OpenAI的产品来介绍下这些概念,以及在GPT-4 turbo中出现的GPTs等的解读和应用。
OpenAI的plugins与GPTs(Actions)
ChatGPT的"Actions"与"Plugins"是OpenAI在GPT模型中引入的两种不同的功能扩展机制。这两种机制的目的是增强模型的功能,使其能够处理更多样化的任务和请求。
plugins的始末
plugins的推出
2023年(北京时间)3月24凌晨,OpenAI宣布,ChatGPT中初步实现对插件的支持。 (Plugins are tools designed specifically for language models with safety as a core principle, and help ChatGPT access up-to-date information, run computations, or use third-party services.)
推出以来,开发者们已经构建了数千个ChatGPT插件,包括来自Expedia、Instacart和Kayak等公司的插件。
简单点说,插件能够使ChatGPT参与开发者定义的API互动,增强ChatGPT的能力。有点类似于苹果的appstore。
引入插件Plugin标志ChatGPT走在创建生态系统的伟大道路上,统一平台+插件的模式有望构建与苹果+App Store相似的繁荣生态。
同时,Plugin的推出给了广大的开发者更多的参与大模型的机会。
再见,ChatGPT插件,Hello,GPTs
自2024年3月19日起,将不再允许创建带插件的新对话,这一变化意味着,用户和开发者将无法安装新插件或利用现有插件创建新的对话。
为什么要结束插件测试版?
官方的回答是:
“With the launch of GPTs and the GPT store, we were able to make many improvements that plugin users had asked for. GPTs now have full feature parity (in addition to many new features) with plugins.”
即“随着 GPTs 和 GPT 商店的推出,我们能够根据插件用户的要求进行许多改进。GPTs 现在具有与插件相同的完整功能(除了许多新功能之外)。”
GPTs的推出,使得普通人也能在GPT的辅助下自己创建智能体(尽管因每个人的能力不同,创建的智能体的能力强弱也各有差异)。
如果你在微博上搜索 ChatGPT Plugins,热门内容还是一年前的那场发布会演示和评论,所有人都在感叹向第三方开放 ChatGPT 的能力有多逆天,结果 OpenAI 自己就用 GPTs 把 ChatGPT Plugins 给干掉了。
具体为什么OpenAI会在一年以后关闭Plugins,网上有很多推论,可能和OpenAI的布局有关,也可能和目前的安全有关。但是这都不妨碍原本的很多插件也都开发了GPTs,很多GPTs已经可以替代绝大部分插件的功能了。GPT商店已经拥有数十万个GPTs,涵盖写作、生产力、编程、教育等类别。
GPTs的推出使得非开发者的普通人,也可以投入到大模型的浪潮。
二者的对比
ChatGPT Plugins 是需要本地开发的,API 权限卡得特别严格,但大多数 GPTs 却都是直接基于 Web 端创建的,甚至不需要编程。
Plugins
定义与用途:Plugins(插件)是一种用于扩展ChatGPT功能的机制,允许模型与外部系统交互。例如,可以与数据库、API或其他软件服务进行交互。
工作方式:当ChatGPT需要获取外部信息或执行某些不仅仅依赖文本生成的任务时,会通过这些插件与外部系统通信。
应用实例:例如,ChatGPT可以通过一个天气插件来获取实时天气信息,或者通过搜索引擎插件来提供最新的搜索结果。
Actions
定义与用途:Actions(动作)是ChatGPT的一种新功能,旨在允许模型在对话中直接执行特定的动作,这些动作可能涉及模型的内部功能或特定的任务执行。
新特性: 直接交互:Actions可以让模型在对话中直接触发和执行特定任务,如生成图像、执行代码等,无需外部插件介入。 任务多样性:支持多种不同的任务类型,如文本生成、图像处理、数据分析等。
更流畅的用户体验:通过Actions,用户体验更加直接和流畅,不需要离开对话界面即可完成多种任务。
自定义动作:支持创建自定义动作,以适应特定的用例或需求。
集成内部工具:与内置的工具和功能(如Python环境、DALL-E图像生成等)紧密集成。
总结
Plugins:侧重于与外部系统的交互和集成。 Actions:侧重于在对话中直接执行特定任务,提供了更多样化的内部功能。
GPT4.0 turbo升级上线
提到GPTs就不得不提GPT4.0 turbo,它的出现,是使得众多AI创业者一夜无眠的版本。
借用一个图来说明下它的强大:
- 这里面有几个爆点:
- 更长。支持128K上下文输入,标准GPT-4是8K版本,之前升级出了32K版本
- 更可控。JSON格式输出,增加seed控制模型回复可复现
- 更新的知识。GPT-4 Trubo的知识更新至2023年4月
- 开放多模态能力,整合了文生图模型DALL·E 3和声音合成模型(TTS)以及语音识别模型Whisper V3等
- 开放 Fine-Tuning功能,支持在GPT-4基础上微调进行模型定制
- 输出速度更快,每分钟输出翻倍
- GPTs
- Assistant API
基于大模型(LLM)的Agent
目前,业界一般认为基于大模型的应用集中在两个方向上:RAG 和 Agent,无论哪一种应用,设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。
Agent广义的定义
这里的Agent 指的是智能体,可以追溯到明斯基的《society of mind》一书。在那本书中,明斯基对Agent的定义有点抽象——“社会中某个个体经过协商后可求得问题的解,这个个体就是agent”。在计算机领域,agent是一种通过传感器感知其环境,并通过执行器作用于该环境的实体,因此,可以把实体定义为一种从感知序列到实体动作的映射。一般认为,Agent是指驻留在某一环境下,能持续自主地发挥作用,具备自主性、反应性、社会性、主动性等特征的计算实体。
智能,是Agent 与环境相互作用的涌现属性。
大模型中的Agent
在大模型领域,大模型替代了传统agent 中的规则引擎以及知识库,Agent提供了并寻求推理、观察、批评和验证的对话通道。特别是当配置了正确的提示和推理设置时,单个LLM就可以显示出广泛的功能 ,不同配置的Agent之间的对话可以帮助以模块化并以互补的方式将这些广泛的LLM功能结合起来。
开发人员可以轻松、快速地创建具有不同角色的Agent,例如,使用Agent来编写代码、执行代码、连接人工反馈、验证输出等。通过选择和配置内置功能的子集,Agent的后端也可以很容易地进行扩展,以允许更多的自定义行为。
基于大模型的常见Agent 和 Multi-Agent 系统
小结
开头我们讲了,Agent是一个目前大模型领域重要的应用方向,接下来我们也会再细分专题分别进行讨论。不在这里过多展开。
OpenAI推出的Assistants API
Assistant全名Assistant API, 所以它本身不是一个APP,而是API工具箱,可以嵌入到APP中那种,所以Assistant API的应用层级应该是介于Fine-tuned Models和LLM-based APP之间,它看起来不是一个完全体应用,但也不需要像模型finetune一样需要掌握原理、数据集、方法等。
这里后面我们也单独开个专题来分享对于Assistants API的使用。
RAG
所谓RAG,检索增强生成(Retrieval Augmented Generation),简称 RAG,已经成为当前最火热的LLM应用方案。
通俗点说;就是通过自有垂域数据库检索相关信息,然后合并成为提示模板,给大模型生成漂亮的回答。
RAG的出现,是因为在大模型的广泛应用中,伴随着出现的一些问题,比如:
- 知识的局限性:模型自身的知识完全源于它的训练数据,而现有的主流大模型(ChatGPT、文心一言、通义千问…)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这部分知识也就无从具备。
- 幻觉问题:所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的,因为它要求使用者自身具备相应领域的知识。
- 数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。
而RAG是解决上述问题的一套有效方案。
RAG = 检索技术 + LLM 提示。例如,我们向 LLM 提问一个问题,RAG 从各种数据源检索相关的信息,并将检索到的信息和问题注入到 LLM 提示中,LLM 最后给出答案。
许多产品基于 RAG 构建,从基于 web 搜索引擎和 LLM 的问答服务到使用私有数据的chat应用程序。
总结
本文章讲了很多在大模型应用层的很多概念,有ChatGPT的功能:plugins、GPTs、Assistant API;也有大模型的应用:agent,RAG,提示词工程的应用,finetune,训练垂直领域大模型,自己造轮子等等。
在真正聚焦于我们找到自己感兴趣和合适的深入方向之前,我们要了解现在基于大模型的应用都有些什么,才能知道我们在什么场景下,能做些什么。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓