语言类开源大模型
1. Llama 系列
- 开发者:Meta
- 发布时间:2024年7月
- 参数量:8B、70B、405B
- 特点:Llama 系列模型以其强大的多语言支持和广泛的自然语言处理能力而闻名。它支持文本生成、问答、翻译等多种任务,尤其在处理长篇文本时表现出色,支持高达128K的上下文长度。Meta 与超过25个合作伙伴共同推出该系列模型,包括亚马逊云科技、Databricks和英伟达等,推动了开源大模型在工业界的广泛应用。
2. Qwen 系列
- 开发者:阿里通义千问团队
- 发布时间:2025年
- 参数量:0.5B、1.5B、3B、7B、14B、32B、72B
- 特点:Qwen 系列模型是阿里通义千问团队的最新成果,提供了多种参数规模的版本,以满足不同场景的需求。这些模型在预训练阶段使用了海量的文本数据,具备卓越的语言生成和理解能力。其多样化的参数规模使得开发者可以根据硬件资源和应用场景灵活选择,从轻量级的边缘设备到高性能的云端部署均可适用。
3. Mistral 系列
- 开发者:Mistral AI
- 发布时间:2024年9月
- 参数量:7B、22B、124B
- 特点:Mistral 系列模型以其多模态能力而备受关注,支持文本、图表和图像等多种输入形式。其强大的图像理解能力使其在处理复杂文档布局时表现出色,能够保留文档的格式元素(如标题、段落、列表和表格)。此外,Mistral 提供了本地部署选项,满足了对数据安全和隐私有严格要求的企业用户的需求。
4. DeepSeek-R1
- 开发者:DeepSeek
- 发布时间:2025年2月28日
- 特点:DeepSeek-R1 是一款具有里程碑意义的开源模型,被外媒誉为“人工智能的DeepSeek时刻”。它不仅完全开源,允许用户自由使用、修改、发表甚至销售基于该模型的技术和产品,还在数学和代码生成任务中表现出色,尤其适合科研和工程应用。其开源策略极大地降低了技术门槛,推动了人工智能技术的普惠化。
5. Gemma 系列
- 开发者:Google
- 发布时间:2025年
- 参数量:2B、9B、27B
- 特点:Gemma 系列模型是 Google 推出的轻量级开源模型家族,基于与 Gemini 模型相同的技术开发。这些模型专为资源有限的环境设计,例如个人电脑或小型云基础设施,能够在较低的计算资源下高效运行。其轻量级的特点使其成为个人开发者和小型团队的理想选择。
6. MPT-7B
- 开发者:MosaicML
- 发布时间:2025年
- 参数量:7B
- 特点:MPT-7B 是一款仅解码的 Transformer 模型,处理了超过1万亿个英语文本和代码 tokens。其庞大的训练数据量和高效的架构使其在处理长文本和代码生成任务时表现出色。此外,该模型支持商业用途,为开发者提供了更多的应用场景。
7. DBRX
- 开发者:Databricks
- 发布时间:2024年3月
- 参数量:132B
- 特点:DBRX 是一款开源的混合专家(MoE)模型,专为大规模并行计算而设计。其独特的架构使其能够在分布式计算环境中高效运行,适用于需要处理海量数据的场景。DBRX 的开源为研究人员和企业提供了强大的工具,用于开发高性能的人工智能应用。
8. Nemotron-4
- 开发者:Nvidia
- 发布时间:2024年6月
- 参数量:340B
- 特点:Nemotron-4 是一款开源的大语言模型,其98%的训练数据为合成数据。这种独特的数据策略使其在生成合成数据方面表现出色,可用于训练其他模型。其庞大的参数量和高效的架构使其成为高性能计算领域的理想选择。
9. Phi-2
- 开发者:微软
- 发布时间:2025年
- 参数量:2.7B
- 特点:Phi-2 是微软推出的一款小型研究用途模型,专注于探索关键的安全相关问题。其训练数据包含多种 NLP 合成文本和精选网站内容,旨在为研究社区提供一个不受限制的模型,用于开发和测试新的安全机制。
10. FoxBrain
- 开发者:鸿海
- 发布时间:2025年3月
- 特点:FoxBrain 是鸿海推出的首个大语言模型,基于 Meta 的 Llama 3.1 架构优化,支持繁体中文及本土语言风格。该模型主要用于内部场景,如数据分析、决策辅助和文档协作等任务。鸿海计划在未来开放部分源代码,推动人工智能在制造和供应链管理领域的应用。
多模态开源大模型
11. Pixtral-Large
- 开发者:Mistral AI
- 发布时间:2024年11月
- 参数量:1230亿参数
- 特点:Pixtral-Large 是一款多模态模型,支持高达128K的上下文长度,具备前沿级的图像理解能力。它能够处理复杂的视觉任务,并结合文本信息进行综合分析,是多模态领域的佼佼者。
12. FLUX.1
- 开发者:Black Forest Labs
- 发布时间:2025年
- 特点:FLUX.1 是一款文生图模型,提供了 [pro]、[dev] 和 [schnell] 三个版本,分别针对企业级定制解决方案、非商业应用和本地开发。这种多样化的版本设计使其能够满足不同用户的需求,从个人开发者到大型企业均可受益。
13. MiniMax-01
- 开发者:MiniMax
- 发布时间:2025年1月
- 特点:MiniMax-01 包含基础语言大模型和视觉多模态大模型,开源了完整的权重,旨在推动非 Transformer 架构的创新。其多模态能力使其在处理复杂的视觉和语言任务时表现出色,为开发者提供了新的技术选择。
14. Llama 3.2
- 开发者:Meta
- 发布时间:2024年9月
- 参数量:11B、90B
- 特点:Llama 3.2 是一款多模态模型,支持视觉任务,具备强大的语言生成和图像理解能力。它在处理图文融合的任务时表现出色,进一步扩展了 Llama 系列模型的应用场景。
推理与工具类
15. DeepSeek-V3/R1
- 开发者:DeepSeek
- 发布时间:2025年3月
- 特点:DeepSeek-V3/R1 是一款全面开源的推理系统,通过跨节点批量扩展、计算与通信重叠等优化手段,实现了高效性能。它支持多种硬件平台,降低了开发者在部署和使用开源模型时的门槛。
16. Hugging Face
- 开发者:Hugging Face
- 发布时间:持续更新
- 特点:Hugging Face 是一个开源机器学习平台,托管了超过80万个开源LLM,提供了丰富的预训练模型和数据集。其社区活跃,开发者可以共享资源、贡献模型和数据集,是人工智能领域的开源标杆。
17. LlamaFactory
- 开发者:Hiyouga
- 发布时间:2024年
- 特点:LlamaFactory 是一款零代码大模型微调平台,支持一键训练和评估。它极大地简化了模型微调的流程,使开发者能够快速适应特定任务的需求,降低了技术门槛。
18. DB-GPT
- 开发者:Eosphoros AI
- 发布时间:2024年
- 特点:DB-GPT 是一款专注于数据库领域的开源大模型框架,支持 Text2SQL 和多模型管理。它能够帮助企业优化数据库查询和管理,提升数据处理效率。
其他开源大模型
19. Alpaca
- 开发者:斯坦福大学
- 发布时间:2024年
- 特点:Alpaca 是一款开源模型,专注于指令微调,能够快速适应特定任务的需求。它为研究人员和开发者提供了一个灵活的工具,用于开发定制化的语言模型。
20. Vicuna
- 开发者:Meta
- 发布时间:2024年
- 特点:Vicuna 是基于 Llama 的开源模型,优化了对话生成能力。它在处理自然语言对话任务时表现出色,适合开发聊天机器人和问答系统。
21. StarCoder
- 开发者:BigCode
- 发布时间:2024年
- 特点:StarCoder 是一款开源代码生成模型,支持多种编程语言。它能够帮助开发者快速生成高质量的代码片段,提升开发效率。
22. OpenLLaMA
- 开发者:OpenLLaMA 团队
- 发布时间:2024年
- 特点:OpenLLaMA 是一款开源语言模型,支持多种语言,适合轻量级应用。它为资源有限的开发者提供了一个高效的选择,能够在较低的计算资源下运行。
23. OpenAssistant
- 开发者:OpenAssistant 团队
- 发布时间:2024年
- 特点:OpenAssistant 是一款开源对话模型,专注于问答和对话生成。它能够快速适应不同的对话场景,为开发者提供了强大的工具,用于开发智能助手和聊天机器人。
24. OpenChatKit
- 开发者:OpenChatKit 团队
- 发布时间:2024年
- 特点:OpenChatKit 是一款开源聊天机器人框架,支持多种模型和插件。它为开发者提供了一个灵活的平台,用于开发和部署定制化的聊天机器人。
25. OpenBMB
- 开发者:北京航空航天大学
- 发布时间:2024年
- 特点:OpenBMB 是一款开源大模型微调框架,支持多种任务和模型。它为研究人员和开发者提供了一个强大的工具,用于开发和优化大模型。
26. OpenCompass
- 开发者:OpenCompass 团队
- 发布时间:2024年
- 特点:OpenCompass 是一款开源多模态模型评估框架,支持多种任务和模型。它为研究人员提供了一个标准化的评估工具,用于衡量多模态模型的性能。
27. OpenDelta
- 开发者:OpenDelta 团队
- 发布时间:2024年
- 特点:OpenDelta 是一款开源模型微调工具,支持多种微调方法。它为开发者提供了一个灵活的平台,用于快速适应特定任务的需求。
28. OpenFlamingo
- 开发者:OpenFlamingo 团队
- 发布时间:2024年
- 特点:OpenFlamingo 是一款开源多模态模型,支持文本和图像生成。它在处理复杂的视觉和语言任务时表现出色,为开发者提供了新的技术选择。
29. OpenLLaMA
- 开发者:OpenLLaMA 团队
- 发布时间:2024年
- 特点:OpenLLaMA 是一款开源语言模型,支持多种语言,适合轻量级应用。它为资源有限的开发者提供了一个高效的选择,能够在较低的计算资源下运行。
30. OpenMMLab
- 开发者:OpenMMLab 团队
- 发布时间:2024年
- 特点:OpenMMLab 是一款开源多模态模型框架,支持多种任务和模型。它为研究人员和开发者提供了一个强大的平台,用于开发和优化多模态应用。
更多开源资源
31. Hugging Face Hub
- 特点:Hugging Face Hub 是一个开源机器学习平台,托管了超过80万个开源模型和数据集。它支持多种任务和框架,为开发者提供了一个强大的工具,用于开发和部署人工智能应用。
32. ModelScope
- 开发者:阿里巴巴
- 特点:ModelScope 是一个开源模型库,支持多种语言和任务。它为开发者提供了一个灵活的平台,用于开发和优化人工智能应用。
33. OpenDILab
- 开发者:上海人工智能实验室
- 特点:OpenDILab 是一款开源强化学习框架,支持多种任务和模型。它为研究人员和开发者提供了一个强大的工具,用于开发和优化强化学习应用。
34. OpenMTEB
- 开发者:OpenMTEB 团队
- 特点:OpenMTEB 是一款开源多模态模型评估框架,支持多种任务和模型。它为研究人员提供了一个标准化的评估工具,用于衡量多模态模型的性能。
35. OpenDelta
- 开发者:OpenDelta 团队
- 特点:OpenDelta 是一款开源模型微调工具,支持多种微调方法。它为开发者提供了一个灵活的平台,用于快速适应特定任务的需求。
36. OpenCompass
- 开发者:OpenCompass 团队
- 特点:OpenCompass 是一款开源多模态模型评估框架,支持多种任务和模型。它为研究人员提供了一个标准化的评估工具,用于衡量多模态模型的性能。
37. OpenFlamingo
- 开发者:OpenFlamingo 团队
- 特点:OpenFlamingo 是一款开源多模态模型,支持文本和图像生成。它在处理复杂的视觉和语言任务时表现出色,为开发者提供了新的技术选择。
38. OpenLLaMA
- 开发者:OpenLLaMA 团队
- 发布时间:2024年
- 特点:OpenLLaMA 是一款开源语言模型,支持多种语言,适合轻量级应用。它为资源有限的开发者提供了一个高效的选择,能够在较低的计算资源下运行。
39. OpenMMLab
- 开发者:OpenMMLab 团队
- 发布时间:2024年
- 特点:OpenMMLab 是一款开源多模态模型框架,支持多种任务和模型。它为研究人员和开发者提供了一个强大的平台,用于开发和优化多模态应用。
40. OpenBMB
- 开发者:北京航空航天大学
- 发布时间:2024年
- 特点:OpenBMB 是一款开源大模型微调框架,支持多种任务和模型。它为研究人员和开发者提供了一个强大的工具,用于开发和优化大模型。