- 关键概念
- GLM
- GLM 全名 General Language Model ,是一款基于自回归填空的预训练语言模型。ChatGLM 系列模型,支持相对复杂的自然语言指令,并且能够解决困难的推理类问题。该模型配备了易于使用的 API 接口,允许开发者轻松将其融入各类应用,广泛应用于智能客服、虚拟主播、聊天机器人等诸多领域。
- Embedding
- Embedding 是一种将数据(如文本)转化为向量形式的表示方法,这种表示方式确保了在某些特定方面相似的数据在向量空间中彼此接近,而与之不相关的数据则相距较远。通过将文本字符串转换为向量,使得数据能够有效用于搜索、聚类、推荐系统、异常检测和分类等应用场景。
- Token
- Token 是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个token。 一般情况下 ChatGLM 系列模型中 token 和字数的换算比例约为 1:1.6 ,但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token 数量以模型返回为准,您可以从返回结果的 usage 中查看。
paddlepaddle官网数据集
一、好用模型
1、GLM-4
基座大模型GLM-4,整体性能相比GLM3提升60%,支持128K上下文,可根据用户意图自主理解和规划复杂指令、完成复杂任务
包括:
- 多模态理解
- 工具调用
- 代码解释器
- 逻辑推理
2、CodeGeeX代码大模型
第二代CodeGeeX模型作为强大的AI编程助手,支持超过100种编程语言,具备代码生成与补全、续写、翻译、智能问答等能力
包括:
- 代码生成与补全
- 注释生成
- 代码翻译
- 智能问答
3、CogView多模态大模型
CogView模型,适用多种图像生成和增强任务,通过对用户文字描述快速、精准的理解,让AI的图像表达更加精确和个性化
CogView模型经过大规模预训练,获得了理解图片实质属性、场景组成和画面风格的能力。可以根据自然语言描述生成全新的、独特又真实的高质量图片。
查看文档
包括:
- 以文生图
- 以文改图