【书生·浦语】大模型实战营——第六课笔记

视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass

关于评测的三个问题

在这里插入图片描述
1、为什么需要评测?
在这里插入图片描述

2、需要测什么?
在这里插入图片描述

3、怎么测?
在这里插入图片描述
客观评测
在这里插入图片描述
有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。
在这里插入图片描述

提示词工程

在这里插入图片描述
如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系
在这里插入图片描述

OpenCompass开源评测平台架构

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述
进行了推理优化,对评测任务进行了切分。

目前还在探索多模态能力的评测
在这里插入图片描述

同时也在探索垂直领域的评测
法律领域
在这里插入图片描述
医疗领域
在这里插入图片描述

大模型评测领域的挑战

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/419411.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

带POE网络变压器与2.5G/5G/10G网络变压器产品特点介绍

Hqst华轩盛(石门盈盛)电子导读:一起来了解带POE网络变压器与2.5G/5G/10G网络变压器产品特点? 一﹑带POE网络变压器与2.5G/5G/10G网络变压器产品特点介绍 首先、POE网络变压器产品与常规不带POE产品的区别: 带POE网络变压器主要要求是耐电流等…

常见的网络威胁,又有什么好的防御方式呢?

随着互联网的普及,人们的生活越来越离不开网络。与此同时,网络安全问题也日益突出。网络威胁无处不在,个人隐私泄露、企业大规模数据泄露、远程入侵、恶意攻击等,这些安全问题都给从事网络工作的人的生活和工作带来了巨大的风险。…

vector讲解

在学习玩string后我们开始学习vector,本篇博客将对vector进行简单的介绍,还会对vector一些常用的函数进行讲解 vector的介绍 实际上vector就是一个数组的数据结构,但是vector是由C编写而成的,他和数组也有本质上的区别&#xff…

网络通信(Socket/UDP/TCP)

一、Socket 1.概念: Socket(又叫套接字)是通信的基石,是支持TCP/IP协议的网络通信的基本操作单元。它是网络通信过程中端点的抽象表示,包含进行网络通信必须的五种信息:连接使用的协议,本地主机的IP地址,本地进程的协议端口,远地主机的IP地址,远地进程的协议端口。 …

Vue2的双向数据绑定

Vue2的双向数据绑定 Observer:观察者,这里的主要工作是递归地监听对象上的所有属性,在属性值改变的时候,触发相应的watcher。 Watcher:订阅者,当监听的数据值修改时,执行响应的回调函数&#x…

51单片机中断

1、什么是中断? CPU在处理某一事件A时,发生了另一事件B请求CPU迅速去处理(中断发生); CPU暂时中断当前的工作,转去处理事件B(中断响应和中断服务); 待CPU将事件B处理完…

什么是葡萄酒“质量三级标准”?

在葡萄酒的世界里有一个笼统的级别分为:入门、精品和顶级。那么,对应这三个级别的标准都是什么呢? 入门级别的标准:入门级别的酒首先喝起来新鲜且顺口。新鲜很容易理解,就是没有腐熟水果的味道,也就是“罐…

前端框架学习 Vue (1) 概念,常用指令

Vue是什么 概念: Vue是一个用于 构建用户界面 的 渐进式 框架 1.构建用户界面:基于数据动态渲染页面 2.渐进式:循序渐进的学习(学一点就能用一点) (1)Vue核心包开发 场景:局部模块改造 (2)Vue核心包&Vue插件 工程化开发 场景:整站开发 3.框架:一套完整的项目…

k8s的包管理工具helm

Helm是什么? 之前的这篇文章介绍了一开始接触k8s的时候接触到的几个命令工具 kubectl&kubelet&rancher&helm&kubeadm这几个命令行工具是什么关系?-CSDN博客 Helm 是一个用于管理和部署 Kubernetes 应用程序的包管理工具。它允许用户定义、安装和…

CPU相关专业名词介绍

CPU相关专业名词 1、CPU 中央处理器CPU(Central Processing Unit)是计算机的运算和控制核心,可以理解为PC及服务器的大脑CPU与内部存储器和输入/输出设备合称为电子计算机三大核心部件CPU的本质是一块超大规模的集成电路,主要功…

PaddleDetection学习1——使用Paddle-Lite在 Android 上实现实时的目标检测功能

在 Android 上使用Paddle-Lite实现实时的目标检测功能 1 环境准备1.1 安装Android Studio1.1.1 安装JAVA JDK1.1.2 Android Studio 安装步骤1.1.3 Android Studio 配置NDK 1.2 Android 手机 2 部署步骤2.1 下载Paddle-Lite-Demo2.2 打开 yolo_detection_demo项目2.2.1 修改buil…

论文阅读_CogTree_推理的认知树

英文名称: From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models中文名称: 从复杂到简单:揭示小型语言模型推理的认知树链接: http://arxiv.org/abs/2311.06754v1代码: https://github.com/alibaba/EasyNLP作者: Junbi…