中国开源 AI 大模型之光-InternLM2

        今天给大家带来 AI 大模型领域的国产之光 - InternLM2,在10B量级开源大模型领域取得了全球 Top 3 的成绩,仅次于 Meta 发布的 Llama-3,在国内则是第一名的存在!

图片

简介

    InternLM2是由上海人工智能实验室和商汤科技联合研发的一款大型语言模型(LLM),它在多个基准测试中展现出卓越的性能,尤其在长文本处理和开放式主观评估方面。以下是InternLM2的几个关键特点:

  1. 长文本处理能力:InternLM2特别设计了长上下文处理能力,能够处理长达200k个令牌的文本,这使得它在处理长篇幅内容时表现出色。

  2. 开源和免费商用:InternLM2模型及其全链条开源工具体系面向公众全面开源,并且可以免费商用,这促进了其在学术和工业界的广泛应用。

  3. 多阶段训练:模型的训练包括预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。这些阶段确保了模型在遵循指令和符合人类价值观方面的性能。

  4. 技术创新:InternLM2采用了分组查询注意力(GQA)技术来减少长序列推断时的内存占用,并通过位置编码外推技术进一步提升了模型的上下文长度处理能力。

  5. 性能提升:通过条件在线RLHF(COOL RLHF)技术,InternLM2能够协调多样但可能冲突的偏好,并通过多轮Proximal Policy Optimization(PPO)来减少奖励作弊问题。

  6. 社区贡献:InternLM2的贡献不仅在于其高性能,还在于提供了全面的数据准备指南和创新的RLHF训练技术,为社区提供了深入理解和进一步研究的基础。

  7. 模型规模:InternLM2发布了不同规模的模型,包括18亿、70亿和200亿参数的版本,以适应不同的研究和应用需求。

分类

图片

按照模型大小分类

7B:为轻量级的研究和应用提供了一个轻便但性能不俗的模型

20B:模型的综合性能更为强劲,可有效支持更加复杂的使用场景

按照模型命名分类

InternLM2-Base:高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点

InternLM2:在Base基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座

InternLM2-Chat:在Base基础上,经过SFT和RLHF,面向对话交互进行了优化,具有很好的指令遵循,共情聊天和调用工具等能力

技术生态

图片

训练&评测数据

图片

模型微调

图片

模型评测

图片

模型部署

图片

AI 智能体

图片

    接下来的文章将详细讲解如何用 internLM2 训练我们自己的 chatGPT,感兴趣的可以点赞收藏关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/706974.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java语言saas模式云HIS系统源码 前端Angular+后台SpringBoot云HIS系统源码 HIS系统适合哪些类型的医院?

Java语言saas模式云HIS系统源码 前端Angular后台SpringBoot云HIS系统源码 HIS系统适合哪些类型的医院? 云HIS系统(医院信息系统)是对医院及其所属各部门的人、财、物进行综合管理,对在医疗活动各阶段产生的数据进行采集、储存、处…

iisnginx环境一次奇怪的跨域问题解决经过

跨域问题描述: iis网站跨域、nginx 网站跨域 都已配置,访问接口依然出现跨域问题。 错误提示: ccess to XMLHttpRequest at ‘https://xxx.com/gameapi/preserve/get/status’ from origin ‘https://cdn.xxx.com’ has been blocked by CO…

【苍穹外卖微服务改造】引入minio

目录 1、需求2、步骤分析3、如何实现导入minio依赖编写配置属性类编写配置类编写接口编写实现类配置application.yml 4、其他实现:自定义stater5、总结 1、需求 需求来源: 下面我就给大家总结一下,如何在苍穹外卖的基础上,引入mi…

英语学习笔记14——What color‘s your ... ?

What color’s your … ? 你的 …… 是什么颜色的? 词汇 Vocabulary case n. 箱子【封闭的】 相关:box n. 箱子【开口的】    bookcase n. 书架 补充:case n. 案件,案例 口语:It’s a small case.    小意思&…

1721jsp网上银行管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 网上银行管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,…

【网站项目】SpringBoot379儿童疫苗接种管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

CSP备考---2023大湾区比赛易错题

解析 9.D无向图公式:有向图公式:本题考察无向图,故 12.D公式: 14.B有三种情况:1男2女、2男1女、3女。 17.错 因为12300400000超过了int的范围 18.错 21.D 23.对 25.A 26.D代入程序 31.C 33.C 36.D 37.A …

工厂数字化解决方案

在数字化浪潮席卷全球的今天,工业4.0已不再是遥不可及的梦想,而是制造业转型升级的必由之路。面对日益激烈的市场竞争和消费者需求的快速变化,传统工厂如何借助数字化技术实现智能化、高效化、柔性化生产,成为了摆在每一个企业面前…

DCMM(数据管理能力成熟度模型)对企业的价值

随着大数据时代的来临,数据已成为企业发展的重要驱动力。为了有效地管理和利用数据,企业需要建立一套完善的数据管理体系,而DCMM(数据管理能力成熟度模型)正是这样一个帮助企业构建和优化数据管理能力的框架。 DCMM结构…

【问题实操】银河高级服务器操作系统实例分享,开机之后反复重启

1.服务器环境以及配置 物理机/虚拟机/云/容器 物理机 外网/私有网络/无网络 私有网络 处理器: PHYTIUM FT2000PLUS 2200 MHz 内存: 128 GiB 整机类型/架构: HIKVISION DS-V BIOS版本: HK 601FBE02HK 网卡&#xff1…

ffmpeg使用xfade的转场特效

ffmpeg使用xfade的转场特效 1. 介绍2. ffmpeg里面的xfade3. 使用 1. 介绍 参考文档 ffmpeg是一个音视频编辑工具,具体的。。。。我才搞接触,所以不懂。 xfade是一种视频转场滤镜,用于在两个视频片段之间创建平滑的过渡效果。xfade的转场效果…

[数据集][目标检测]弹簧上料检测数据集VOC+YOLO格式142张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):142 标注数量(xml文件个数):142 标注数量(txt文件个数):142 标注类别…