一文读懂「LM,Large Model」大模型

有时候我们经常说行业大模型,医疗大模型,开源大模型,甚至用「产品+大模型」的固定结构去称呼一个模型,例如百度的文心一言大模型,但是文心一言其实是大语言模型,大模型和大语言模型,差别就两个字,但是他们的关系却是主从关系。

一、什么是大模型?

一句话介绍就是:大模型是指具有大量参数的机器学习模型,通常指深度学习模型。
首先,大模型这个词是建立在神经网络模型上的。神经网络是一种基于生物学神经系统结构和功能的计算模型,旨在模仿人脑的学习和决策过程该模型由多个神经元组成,这些神经元通过权重连接形成层次结构,通常分为输入层、隐藏层和输出层。输入层接收原始数据,输出层产生最终的输出,而隐藏层在这两者之间进行中间处理。

神经网络通过学习调整连接权重,从而能够识别模式、进行分类、回归等任务。训练神经网络通常包括提供输入数据和相应的期望输出,然后通过反向传播算法来调整权重,使得网络的输出逼近期望的输出。这个过程反复进行,直到网络能够准确地进行任务。

不妨把神经网络想象成一个初生的婴儿,每当婴儿看到一个新东西,比如苹果,我们就告诉他:“这是一个苹果。”这就相当于在神经网络中调整连接的权重,让大脑建立起“苹果”的概念。这个过程就是在训练神经网络,随着时间的推移,婴儿逐渐长大,它就能够分清不同的事物,并依靠计算机强大的计算能力完成许多更复杂的任务。

大模型的模型参数量达到了亿的级别,近期的研究成果基本在百亿到千亿的范围。当然这不会是终点,大模型的神经元数量和相关参数量必定会朝着远超人类大脑神经元数量的方向发展。

二、大模型分类

模型的发展最初是伴随着自然语言处理技术的不断发展的,这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型,近两年衍生出一些语言与其他形式融合的大模型,例如:文字生成音乐(MusicLM)、文字生成图像(DALL-E2,Midjourney)、文字图像生成机器人动作(RT-1)等。
大模型包括但不限于以下几类:

  • 大语言模型(LLM):专注于处理自然语言,能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表,包括最新的GPT-4、文心一言、通义千问。开源大模型中有meta 开源的 LLaMA、ChatGLM - 6B、Yi-34B-Chat等;

  • 视觉大模型:专注于计算机视觉任务,例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer(ViT)就是一种基于自注意力机制的视觉大模型,用于图像分类任务。

  • 多模态大模型:能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色,如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。国内的华为盘古大模型就是一个多模态大模型,能够同时理解文本和图像,用于任务如图像分类和自然语言推理,国外的谷歌Gemini也是一个多模态大模型

  • 决策大模型:专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型,如AlphaGo和AlphaZero,是决策大模型的代表,能够在围棋等游戏中取得超人类水平的表现。

  • 行业垂直大模型:专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域有DoctorGPT、华佗GPT,大规模的医学图像处理模型用于诊断和分析。在金融领域,模型可能用于风险评估和交易策略。携程的问道是旅游行业的大模型等等

三、大模型训练要素

在这里插入图片描述

四、大模型排行榜单

  1. SuperCLUE排行榜:https://www.superclueai.com
    在这里插入图片描述

  2. CLUE官网地址:https://www.cluebenchmarks.com

  3. GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Agent
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/449991.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何手机搜中国大学mooc答案?推荐9个搜题软件和学习工具 #经验分享#其他

以下软件拥有强大的搜索功能,能够快速找到与题目相关的资料和答案,让大学生们更容易理解和掌握知识点。 1.Google翻译 可提供简体中文和另外 100 多种语言之间的互译功能,可让您即时翻译字词、短语和网页内容 Google的免费翻译服务 2.大鱼…

如何在docker中访问电脑上的GPU?如何在docker中使用GPU进行模型训练或者加载调用?

如何在docker中访问电脑上的GPU?如何在docker中使用GPU进行模型训练或者加载调用? 其实使用非常简单,只是一行命令的事,最主要的事配置好驱动和权限。 docker run -it --rm --gpus all ycj520/centos:1.0.0 nvidia-smi先看看 st…

基于YOLOv8深度学习的水稻叶片病害智能诊断系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

C语言指针学习 之 指针变量

前言&#xff1a; 通过学习我们认识了什么是指针&#xff0c;就让我们一起来分析一个例子。 #include<stdio.h> int main() {int a100;int * hz; hz &a;printf("a%d \n",a);printf("*hz%d \n",*hz);return 0; }a100 *hz100 PS C:\csay\cyuya…

Facebook的社交影响力:用户行为解析与趋势

在当今数字时代&#xff0c;社交媒体已经成为人们日常生活中不可或缺的一部分&#xff0c;而Facebook作为全球最大的社交平台之一&#xff0c;其社交影响力愈发显著。本文将深入分析Facebook的社交影响力&#xff0c;解析用户行为&#xff0c;同时探讨当前和未来的社交趋势。 社…

2024-02-01 Unity Shader 开发入门4 —— ShaderLab 语法

文章目录 1 材质和 Shader1.1 Unity Shader 和 Shader 的区别1.2 Unity 中的材质和 Shader1.3 创建材质1.4 创建 Shader 2 ShaderLab 的基本结构2.1 什么是 ShaderLab2.2 ShaderLab 的基本结构 3 Shader 名称4 Shader 属性4.1 Shader 属性的作用4.2 Shader 属性的基本语法4.3 数…

【Git】03 图形化工具

文章目录 一、右击菜单二、打开仓库三、可视化所有分支历史四、总结 一、右击菜单 二、打开仓库 三、可视化所有分支历史 四、总结 图形化工具了解一下&#xff0c;要懂得在哪里能找到。

pdmodel从动态模型转成静态onnx

1.下载项目 git clone https://github.com/jiangjiajun/PaddleUtils.git 2.新建两个新的文件夹 第一个文件夹放两个必要文件 第二个文件夹可以设置为空&#xff0c;用来存放转换后的模型 如图&#xff1a; 3.在终端运行 python paddle/paddle_infer_shape.py --model_dir …

AI大模型专题:大模型安全与伦理研究报告2024

今天分享的是AI大模型系列深度研究报告&#xff1a;《AI大模型专题&#xff1a;大模型安全与伦理研究报告2024》。 &#xff08;报告出品方&#xff1a;腾讯研究院&#xff09; 报告共计&#xff1a;76页 大模型具有不同于传统模型的特点和优势 第一&#xff0c;大模型和传统…

来看看Tomcat和Web应用的目录结构

在前面两篇大致了解了Tomcat的架构和运行流程&#xff0c;以及Tomcat应用中的web.xml。 聊一聊Tomcat的架构和运行流程&#xff0c;尽量通俗易懂一点-CSDN博客 来吧&#xff0c;好好理解一下Tomcat下的web.xml-CSDN博客 那接下来&#xff0c;再看看Tomcat的目录&#xff0c;…

在ESXi中部署时出现the host does not support intel vt-x

在VCenter中新建了一台ESXi用于部署VCSA进行实验 在部署VCSA的第二阶段&#xff0c;出现the host does not support intel vt-x&#xff0c;部署失败。 解决办法&#xff1a;点进ESXi虚拟机的设置界面&#xff08;要先关机&#xff09;&#xff0c;将硬件虚拟化打开&#xff0c…

华为机考入门python3--(8)牛客8-合并表记录

分类&#xff1a;字典排序 知识点&#xff1a; 将输入转成int的列表 my_list list(map(int, input().strip().split( ))) 将列表转为元组 tuple(my_list) 访问元素为元组的列表 for first, second, third in my_list: 对字典进行排序 sorted(my_dict.items())…