InternLM大模型实战-6.OpenCompass大模型评测-编程知识

InternLM大模型实战-6.OpenCompass大模型评测

文章目录

前言
笔记正文
- 关于模型评测的三个问题
- - 为什么需要评测
  - 我们需要测什么
  - 怎么测试大语言模型
- 主流大模型评测框架
- OpenCompass
- 大模型评测领域的挑战

前言

本文是对于InternLM全链路开源体系系列课程的学习笔记。【OpenCompass 大模型评测】 https://www.bilibili.com/video/BV1Gg4y1U7uc/?share_source=copy_web&vd_source=99d9a9488d6d14ace3c7925a3e19793e

笔记正文

关于模型评测的三个问题

为什么需要评测

对于这么多的模型，需要标准去进行比较，这样才有利于普通用户、开发者、管理机构、产业界的使用。

我们需要测什么

对于大语言模型，需要评测的东西很多，如知识语言推理、长文本生成等。

怎么测试大语言模型

分为基座模型和对话模型、分为客观评测和主观评测、提示词工程。

主流大模型评测框架

在这里插入图片描述

OpenCompass

而OpenCompass是一个比较全面系统的评测框架，受到meta的推荐，也是meta推荐的唯一一个国内评测框架
在这里插入图片描述
并且支持很多模型和很好的评测流水线设计。

同时除了上面的评测，也在进行前沿探索，如多模态领域和法律等

大模型评测领域的挑战

缺少高质量的中文评测集
难以准确提取答案
能力唯独不足
测试集混入训练集
测试标准各异
人工测试成本高昂

作业后面写

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/467184.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！