大模型学习 一

https://www.bilibili.com/video/BV1Kz4y1x7AK/?spm_id_from=333.337.search-card.all.click

GPU 计算单元多 并行计算能力强

指数更重要

A100  80G

V100

A100

海外 100元/时 单卡

多卡并行:

单机多卡  

模型并行

有资源的浪费

反向传播

反向传播(Backpropagation,简称BP)是一种用于训练人工神经网络的关键算法,特别是在多层前馈神经网络中。该算法的核心作用是计算整个网络中每个参数对损失函数的梯度,这个过程通过应用链式法则(在微积分中用于求复合函数的导数)自后向前逐层进行。

在训练神经网络时,其过程可以分为以下几个主要步骤:

  1. 前向传播

    • 输入数据通过网络各层从输入层到输出层进行传递。
    • 每个神经元根据其权重和偏置计算输出值,并通过激活函数生成非线性转换后的结果。
  2. 计算损失

    • 网络的最终输出与真实标签相比较,计算出一个表示预测误差的损失函数值。
  3. 反向传播阶段

    • 从输出层开始,根据损失函数的梯度信息,按相反方向(即从输出层到输入层)逐层回传误差。
    • 在每一层,算法计算每个权重和偏置对损失函数的影响(梯度),这是通过将当前层的梯度与上一层的梯度结合来实现的。
    • 这个过程实质上是利用链式法则将输出层的误差逐步分解到每一层的参数上。
  4. 参数更新

    • 使用计算得到的梯度,通过优化算法(如梯度下降法、随机梯度下降、Adam等)更新网络中的权重和偏置。
    • 参数更新的目标是减少损失函数的值从而使得神经网络在下一次迭代时能够更好地拟合训练数据。

通过反复执行这些步骤,神经网络逐渐调整其内部参数以最小化损失函数,从而达到学习的目的,提高模型在未知数据上的泛化能力。

正向传播(Forward Propagation)是神经网络在训练和预测过程中,信息从输入层经过隐藏层到输出层的处理过程。具体步骤如下:

  1. 初始化

    • 对于给定的输入数据样本,将其作为输入层的激活值。
  2. 前向传播计算

    • 从输入层开始,每个神经元将接收到来自上一层(对于输入层来说则是输入数据)的所有输入信号,并根据其连接权重进行加权求和。
    • 加权求和的结果加上该神经元的偏置项后,通过激活函数(如Sigmoid、ReLU等)进行非线性转换得到新的输出值。
    • 这个过程在每一层重复进行,直到到达输出层。
  3. 计算损失

    • 输出层的最终结果与真实标签(在训练阶段提供)比较,计算模型的预测误差,通常使用交叉熵损失、均方误差等损失函数衡量。
  4. 评估预测结果

    • 在预测阶段,我们直接利用正向传播得到的输出层结果作为对输入样本的预测值。

简而言之,在神经网络中,正向传播是用来模拟从输入到输出的信息流动过程,用于实际预测以及为后续的反向传播计算损失函数关于各层权重的梯度做准备。在训练期间,正向传播的结果被用来确定模型预测的好坏,并启动反向传播算法以更新网络权重,从而优化模型性能。

列并行

列并行(Column Parallelism)是指在计算或存储过程中,将数据集的列分割到多个处理单元上进行并行处理的技术。这种技术在大规模数据分析、机器学习和高性能计算等领域中广泛应用。

特别是在训练深度神经网络时,列并行通常用于优化权重矩阵的更新过程:

  1. 权重矩阵分解

    • 当模型的权重矩阵过大时,可以将其按列拆分,每个部分分配给不同的计算资源(如GPU核心、CPU核或分布式系统中的不同节点)。
  2. 梯度更新

    • 在反向传播阶段,每个计算单元独立地计算它所负责的那一部分权重对应的梯度。
    • 各个单元同时完成梯度计算后,需要进行梯度的聚合操作以得到完整的权重梯度。
  3. 同步与通信

    • 为了保持整个模型的一致性,在每次参数更新之前,各个计算单元需要通过某种形式的通信机制(例如点对点通信、AllReduce操作等)来合并各自计算出的梯度。
    • 合并后的全局梯度用于更新所有计算单元上的相应权重部分。

列并行的主要优势在于它可以有效地利用多核处理器或多节点集群的计算能力,从而加快大型模型的训练速度。然而,它也面临一些挑战,比如如何高效地管理和调度通信开销,以及确保算法在并行化后仍能保持良好的收敛性能。

transformer 

2.大模型系列-Agent到底是什么?_哔哩哔哩_bilibili

不同模型有对应的prompt

babyapi

COT

3.大模型系列-GPU原理详解(上)_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/461684.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3编写简单的App组件(二)

一、Vue3页面渲染基本流程 1、入口文件 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><link rel"icon" href"/favicon.ico"><meta name"viewport" content"widthde…

Office2007下载安装教程,保姆级教程,附安装包和工具

前言 Microsoft Office是由Microsoft(微软)公司开发的一套基于 Windows 操作系统的办公软件套装。常用组件有 Word、Excel、PowerPoint、Access、Outlook等。 准备工作 1、Win7 及以上系统 2、提前准备好 Office 2007 安装包 安装步骤 1.鼠标右击【Office2007】压缩包&…

2024-2-9-复习作业

1> 要求&#xff1a; 源代码&#xff1a; CCgcc EXEa.out OBJS$(patsubst %.c,%.o,$(wildcard *.c)) CFLAGS-c -oall:$(EXE)$(EXE):$(OBJS)$(CC) $^ -o $%.o:%.c$(CC) $(CFLAGS) $ $^.PHONY:cleanclean:rm $(OBJS) $(EXE) 效果图&#xff1a; 2> 要求&#xff1a; 源…

HARRYPOTTER: FAWKES

攻击机 192.168.223.128 目标机192.168.223.143 主机发现 nmap -sP 192.168.223.0/24 端口扫描 nmap -sV -p- -A 192.168.223.143 开启了21 22 80 2222 9898 五个端口&#xff0c;其中21端口可以匿名FTP登录&#xff0c;好像有点说法,百度搜索一下发现可以用anonymous登录…

Java stream 流的基本使用

Java stream 的基本使用 package com.zhong.streamdemo.usestreamdemo;import jdk.jfr.DataAmount; import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor;import java.util.ArrayList; import java.util.Comparator; import java.util.Li…

初始web服务器(并基于idea来实现无需下载的tomcat)

前言 前面学习了对应的http协议&#xff0c;我们知道了他是在网络层进行数据传输的协议&#xff0c;负责相应数据以及接收数据的规则&#xff0c;但是在人员开发后端的时候不仅仅需要你写io流进行数据传输&#xff0c;还需要你进行对应的tcp协议来进行数据打包发送http协议-CSD…

JAVA设计模式之原型模式详解

原型模式 1 原型模式介绍 定义: 原型模式(Prototype Design Pattern)用一个已经创建的实例作为原型&#xff0c;通过复制该原型对象来创建一个和原型对象相同的新对象。 西游记中的孙悟空 拔毛变小猴,孙悟空这种根据自己的形状复制出多个身外化身的技巧,在面向对象软件设计领…

Linux部署Nacos注册中心实现远程访问UI管理界面

Nacos是阿里开放的一款中间件,也是一款服务注册中心&#xff0c;它主要提供三种功能&#xff1a;持久化节点注册&#xff0c;非持久化节点注册和配置管理。 本例通过结合Cpolar内网穿透实现远程访问Nacos 提供的UI (控制台)界面,帮助管理所有的服务和应用的配置 Cpolar内网穿…

基于Robei EDA--实现串口通信

一、串口简介 串口作为常用的三大低速总线&#xff08;UART、SPI、IIC&#xff09;之一&#xff0c;在设计众多通信接口和调试时占有重要地位。但UART和SPI、IIC不同的是&#xff0c;它是异步通信接口&#xff0c;异步通信中的接收方并不知道数据什么时候会到达&#xff0c;所…

【开源】SpringBoot框架开发医院门诊预约挂号系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 功能性需求2.1.1 数据中心模块2.1.2 科室医生档案模块2.1.3 预约挂号模块2.1.4 医院时政模块 2.2 可行性分析2.2.1 可靠性2.2.2 易用性2.2.3 维护性 三、数据库设计3.1 用户表3.2 科室档案表3.3 医生档案表3.4 医生放号…

手把手教你开发Python桌面应用-PyQt6图书管理系统-图书添加模块UI设计实现

锋哥原创的PyQt6图书管理系统视频教程&#xff1a; PyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~_哔哩哔哩_bilibiliPyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~共计24条视频&…

ssm+vue的医药垃圾分类管理系统(有报告)。Javaee项目,ssm vue前后端分离项目。

演示视频&#xff1a; ssmvue的医药垃圾分类管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;ssm vue前后端分离项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结…