解决国内大模型痛点的最佳实践方案-编程知识

1.前言

自AI热潮掀起以来，国内互联网大厂躬身入局，各类机构奋起追赶，创业型企业纷至沓来。业内戏称，一场大模型的“百模大战”已经扩展到“千模大战”。

根据近期中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》，中国从2020年进入大模型快速发展期，目前中国10亿参数规模以上的大模型已发布79个。从全球已发布的大模型分布来看，中国的增长态势处于领先国家之列。

今年以来，人工智能成为全球科技产业的热门领域，上百家公司、机构相继发布大语言模型相关产品，人工智能应用在大模型领域打开新局面。

不仅是大模型，人工智能新技术正加速走进千行百业。为消费者提供个性化推荐，预测天气、指导矿山生产、帮程序员“写代码”、帮科学家“搞科研”……，丰富的应用场景，将人工智能赋能产业发展、造福生活体现得淋漓尽致。

12月20日，2023百度云智大会·智算大会在北京召开，百度智能云与来自各行业的专家学者、客户与伙伴共同探讨了AI原生时代下，云+AI的创新变革之路。

2.大模型训练的挑战：开发视角内识

随着数字化转型需求增长，AI在企业中的应用也越来越多，AI开发门槛高、应用场景复杂多样、对场景与标注数据依赖等问题成为AI规模化落的挑战，而预训练大模型的出现则为人工智能带来了新的机遇与希望。大模型作为政府和企业推进人工智能产业发展的重要抓手，在识别、理解、决策、生成等AI 任务的泛化性、通用性、迁移性方面都表现出显著优势和巨大潜力。

具体来看：

大模型具有良好的通用性、泛化性，显著降低人工智能应用门槛。 预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性，用户基于大模型通过零样本、小样本学习即可获得领先的效果，同时“预训练+精调”等开发范式，让研发过程更加标准化，显著降低了人工智能应用门槛，成为AI走向工程化应用落地的重要手段。

深度学习平台为预训练大模型的发展保驾护航，两者结合夯实了产业智能化基座。 深度学习平台是推动产业智能化转型升级的核心载体，为大模型的算法开发、训练、部署保驾护航。大模型加上深度学习平台，贯通了从硬件适配、模型训练、推理部署到场景应用的AI全产业链，夯实产业智能化基座，将加速产业智能化升级。

大模型在推进产业智能化升级中已表现出巨大潜力，企业应该尽早关注。 大模型目前的产业应用包括面向企业提供AI中台基座、深度定制支持产品或生产的优化与创新、开放模型服务等。大模型已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力，企业应该尽早关注，加速业务中的布局。

未来还需加强大模型与真实场景需求匹配，推动大模型大规模落地。 目前中国大模型厂商在模型布局方面较为完善，应进一步围绕行业赋能的广度和深度持续探索，不断夯实基于大模型的产品建设，推动大模型技术从实验室走向实际大规模落地。

在人工智能领域，大模型如GPT-3、BERT和T5已经证明了其在多个任务中取得卓越性能的潜力。然而，这些模型的开发和训练对于许多研究和开发团队来说，仍然是一项具有重大挑战性的工作。这些困难包括资源成本的高昂、复杂的工程难题、工具和框架支持的不足、以及模型评估和部署的复杂性。

2.1 高昂的资源成本

训练大模型需要巨量的计算资源和存储设备。即便是对于大型公司，动辄数十万美元乃至更高的训练费用也令人望而却步。适合大模型训练的硬件，如高端GPU或TPU集群，其购置和维护成本往往不是普通研究机构或初创公司所能轻易承担。

高端GPU，我真的缺少吗？

“缺，当然缺，但是我们能有什么办法。” 某大厂高管被问及是否缺算力问题时脱口而出。

这似乎已经成了行业公认的一道无解题，顶峰时期一张[英伟达](javascript:void(0);)A100的价格已经被炒到了二三十万人民币，单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此，高昂的价格依然可能拿不到芯片，一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。

云计算行业高管也谈及类似的感受：“算力短缺的情况确实存在。我们有很多客户都想要高端GPU资源，但能提供的也暂时无法完全满足广泛的市场需求。”

在资源紧缺的情况下，公有云成为了最经济、最适合、最有优势的大模型落地方式。

同时，大模型落地的关键在于自建与完善的工程化能力，大模型更偏向于建设一个系统工程，必须要做好数据工程与模型工程的基础，即需要什么数据？数据从哪里来？数据怎么管理？数据怎么迭代？模型工程如何搭建？这些疑惑伴随着人才不足、人才培养等诸多问题出现，这些隐性成本其实要比硬件显性方面的成本更高。

2.2 繁重的工作和技术挑战

大模型的训练并非一个简单直接的过程。这涉及到庞大数据集的预处理、模型结构的设计、训练策略的制定以及超参数的调整等一系列复杂步骤。此外，分布式训练的实现要求开发者对网络通信、数据一致性、错误恢复等问题有深入理解并加以有效管理。

生成式人工智能带来数字经济发展的新挑战：生成式人工智能的兴起源于深度学习技术的重大突破和数字内容供给的快速增长，其强大的性能使人工智能在需求牵引下快速向数字经济各领域渗透。生成式人工智能在产生新业态、新模式同时，其低成本、高效率、个性化的服务也冲击了同领域现有业务模式。软件业一直是高强度的信息处理和创造行业，无论使用哪种编程语言，总离不开繁重的模式化劳动。在生成式人工智能的帮助下，工作效率可以显著提高。以国内开发者最常用的辅助工具GitHub Copilot为例，当代码出现空缺，AI代码助手可以根据代码类型、代码上下文等信息，自动进行代码补全；并且能够根据代码反向生成注释和单元测试代码，甚至修正代码错误。其代码自动补全功能提升软件开发、测试、部署和维护等过程的自动化水平，带来巨大的效率飞跃的同时，软件业的工作组织模式也必然需要随之调整。

生成式人工智能带来就业的新挑战：从纺织机、内燃机到计算机的出现，新技术的引入往往使部分劳动者失去工作，生成式人工智能很大程度上也会产生同样影响。有研究模型计算显示，美国和欧洲大约三分之二的工作，在某种程度上将受到人工智能的影响。这意味着，在未来的几年内，很多人将不得不面对自己的职业前途问题。文化、媒体、金融等数字化程度较高、内容需求丰富的行业，其中的基础性工作可交由人工智能生成从而导致工作岗位减少。教育、电商等领域需要从业人员增加人工智能技能，以生成多感官交互的沉浸式体验。某种程度上，劳动者再次面临与非人类的竞争，一如200多年前英国工人与纺织机的斗争。

生成式人工智能带来科技创新的新挑战：生成式人工智能的大模型对算力、算法和语料有很高要求，一定程度上凸显了我国在算力、算法和高质量语料等方面的短板。高性能GPU的进口限制放大了算力缺口，算法研发与国际领先水平仍有差距，汉语语料与英文的数据质量和规模差距也不容忽视。如何应对生成式人工智能发展这项庞大的系统工程，是摆在科技创新面前的重要挑战。例如，我国的大语言模型产品距离ChatGPT尚有一定差距，甚至在中文对话能力方面也是如此。究其原因，中文语料的数量和质量不足是一个核心要素，虽然我国拥有大量电商、社交、搜索等网络数据，数据类型不够全面，知识可信性缺乏保证，数据清晰工作也有所欠缺。

2.3 开源大模型的局限性

虽然开源社区提供了一些大模型的实现，但是这些模型通常没有针对特定应用的必要增强。这就要求开发者不仅要理解模型的细节，同时还要对其进行进一步的改进和优化，以适应特殊的业务需要或性能要求。

开发大语言模型需要什么？

了解完大语言模型的原理之后，你可能会好奇 TA 是如何开发的。开发大语言模型的关键是什么。最近看到不少文章为了流量，甚至连 5G 通讯都说成了是开发大语言模型的关键，其实从前面的原理介绍，不难看出，大语言模型的其中一个关键点是数据。

关键一：数据

训练数据主要是所谓的语料库。今天的很多语言模型的语料库主要有以下几种：

Books：BookCorpus 是之前小语言模型如 GPT-2 常用的数据集，包括超过 11000 本电子书。主要包括小说和传记，最近更新时间是 2015 年 12 月。大一点的书籍语料库是 Gutenberg，它有 70000 本书，包括小说、散文、戏剧等作品，是目前最大的开源书籍语料库之一，最近更新时间是 2021 年 12 月。
CommonCrawl：这个是目前最大的开源网络爬虫数据库，不过这个数据包含了大量脏数据，所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。
Reddit Links：简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 OpenWebText 和 PushShift.io。
Wikipedia：维基百科是目前大模型广泛使用的语料库。
Code：一般包含 GitHub 上的开源公共代码库，或者是 StackOverflow 的数据，Google 之前发布过一个叫 BigQuery 的数据集。

实际上，训练大语言模型会混合使用不同的数据，一般不会只使用单一语料库。比如 GPT-3 用的混合数据集就包括 Books、CommonCrowl、Reddit Links 和 Wikipedia。

从数据上看，你需要知道一个事实，中文语料在这上面占比很小。ChatGPT 能用中文回答你的问题，只是因为它的语料里有一些中英文对应的语料，然后模型就像是「懂中文了一样」，所以更可能的情况是，它先生成了英文内容，再翻译成中文。如果你去问 ChatGPT 3.5：请给我几个中文谐音梗，你应该就能理解我说的话了。

关键二：算法

有了数据之后，你还需要有算法去做计算，目前最常用的开发大语言模型的算法库有：

Transformers：这是一个使用 Transformer 架构构建的开源 Python 库。
DeepSpeed：是由微软开发的深度学习优化库。
Megatron-LM：这是由 Nvidia 开发的深度学习库。
JAX：它是由 Google 开发的用于高新能机器学习算法的 Python 库。

关键三：算力

简单理解，算力就是计算资源，或者说硬件，OpenAI 没有说它训练 GPT-3 语言模型花了多少计算资源。但 OpenAI 的 CEO 暗示硬件成本超过一亿美元，如果我们按照 1000 美元一个 GPU 计算，它大约使用了 10 万个 GPU，以 32 位运算为准，它能提供超过 100 PFLOPS 的算力，也就是每秒 10 亿亿次运算以上，这大约是阿里云最大的数据中心的四分之一的算力。

注意，这还是 GPT-3 时的花费。

2.4 缺乏有效的模型评估机制

模型训练完成后，如何确保其性能满足产品上线的标准呢？有效的模型评估是一个复杂的问题。开发者需要考虑多方面的因素，包括但不限于稳健性、泛化能力、偏差和方差、解释性等。对于大模型而言，评估的难度和成本都相对更高，因为每一次评估可能都需要大量的计算资源和时间。

除了训练模式和推断模式之外，还有模型的评估模式（evaluation mode）。

评估模式是指在训练完成后，用于对模型性能进行评估的模式。在评估模式下，模型对一组测试数据进行预测，并与相应的真实标签进行比较，从而评估模型在未见过的数据上的性能表现。

评估模式与推断模式类似，都是在模型训练完成后使用模型进行预测。但评估模式的目的是衡量模型的泛化能力和性能，而不是进行预测。评估模式通常使用一些评估指标来量化模型的性能，如准确率、精确率、召回率、F1分数等。

评估模式的一般步骤包括：

准备评估数据集：从训练数据中独立选择一部分数据作为评估数据集。
加载训练好的模型：加载已经训练完成的模型参数和权重。
设置评估模式：将模型切换到评估模式，通常是通过设置某些标志或调用相关函数来实现。
对评估数据进行预测：使用评估数据集作为输入，模型进行预测得到输出结果。
计算评估指标：将模型的预测结果与真实标签进行比较，并计算评估指标，如准确率、精确率、召回率等。
分析和报告评估结果：根据评估指标的结果，分析模型的性能表现，并报告模型的评估结果。

在大模型训练和部署的过程中，评估机制是一个关键环节，但它也伴随着一系列挑战。作为开发者，我们需要关注的不仅仅是模型的性能指标（如准确率或损失函数），还包括模型的泛化能力、稳健性、解释性和实际部署的可行性。以下是从开发视角出发，对大模型评估过程中所面临的主要问题和应对策略的详细探讨。

大模型评估中的主要问题

泛化能力的评估：大模型在训练数据上可能表现出色，但它们在未见数据上的表现如何却是一个挑战。过度拟合是一个常见问题，特别是在大规模参数模型中。
稳健性和偏差：大模型可能对输入数据的微小变化敏感，这影响了其稳健性。同时，如果训练数据存在偏差，模型很可能继承甚至放大这些偏差。
解释性和可信赖度：由于其复杂性，大模型往往像一个“黑盒”，难以解释其决策过程。这在一些需要高度透明度和可解释性的应用中成为问题。
部署的实际考虑：将训练好的模型部署到生产环境中时，还需要考虑到实际运行成本、响应时间和资源利用效率。

应对策略

多元化的数据集和交叉验证：使用多样化的数据集和严格的交叉验证方法可以帮助评估模型的泛化能力，并减少过度拟合的风险。
健壮性测试和偏差分析：通过对模型进行压力测试和对抗性测试来评估其在极端情况下的表现。同时，进行偏差和公平性分析，确保模型不会无意中放大数据中的偏见。
解释性工具和方法：利用各种模型解释性工具（如LIME或SHAP）来理解和解释模型的决策过程。这对于提高模型的可信赖度和透明度至关重要。
性能和成本效益分析：在实际部署前，进行全面的性能测试，包括响应时间和资源消耗。此外，成本效益分析有助于决定是否部署模型，以及如何优化其运行。

从开发视角来说，大模型的训练是一场资源和技术上的较量。要求开发者不仅要有强大的技术实力，还需要在战略上决策，如何以有限的资源完成高质量的模型训练。这需要团队成员之间的紧密合作，跨学科的交流，以及与开源社区的持续互动。随着技术的进步和社区的努力，我们有理由相信这些难题将逐步被克服，而大模型的训练将变得更加高效、普及。

2.5 解决方案

面对以上大模型训练遇到的困难，当然，国内也给出来一些解决方案。其中就在20号发布最新的发布的千帆大模型中可以找到答案。

首先面对及其高昂的资源成本，百度给出了这样的解决方案。

重构云原生基础设施，打造极致性价比的基础云服务

百度太行基于百度自研的百度太行 DPU（Data Processing Unit），打造了统一的高性能云原生基础设施架构。通过将计算、网络、存储资源虚拟化、安全管理控制等数据处理任务卸载至DPU，能够将CPU、GPU等算力资源最高100%投入到客户实际的工作负载中，在提升资源利用率的同时，还能够打平软硬件差异，降低开发和管理成本，提升整体资源规模和弹性。

新发布的昆仑芯弹性裸金属实例NKL5，搭载了百度自研的昆仑芯R300加速处理器，加强了显存规格与AI加速处理器互联通信性能，在大模型推理场景综合性能较业界主流加速卡可提升达50%；
基于昇腾910B加速处理器打造的弹性高性能计算实例NH6T也在大会上正式推出，支持3.2Tbps RDMA高速互联带宽，在大模型训练场景中，综合性能较业界主流加速卡提升可达40%，使能大模型开发提速。

高性能计算平台CHPC（Cloud HPC）正式发布，为用户提供的一站式公共云 HPC 服务：在资源使用层面，CHPC支持用户一键创建高性能计算环境，并根据业务变化灵活使用云上资源；在业务应用层面，CHPC支持集成药物研发、基因测序、等行业的应用。同时，结合集成在 VPC 内的百度网盘等服务，用户可以轻松实现HPC源文件从提交、上传、处理、结果回传，到分发的数据全链路打通，助力研发提效。

而对于繁重的工作挑战是每个做大模型必须要经过的一个挑战。那我们看看百度是如何克服这一困难的。

重构智算基础设施，针对大模型场景进行专项优化

大算力、大数据驱动大模型产生智能涌现。不同于传统AI技术，在计算方面，大模型需要超大规模的智算集群支撑完成训练、推理任务。然而，高性能智算集群不是算力的简单堆积，在进行专门设计和优化前后，性能、可靠性等关键指标表现往往有着天壤之别。

全新发布的百度百舸·AI异构计算平台3.0，针对AI原生应用以及大模型的训练、推理等环节进行了全面的专项优化升级，并且在各个纬度的评估指标上全部达到业界领先水平。

针对AI原生时代智能算力的供给平衡问题，在满足各行各业泛在算力需求的同时，提升智算产业资源利用率，百度智能云正式发布智算网络平台。在算力资源层面，智算网络平台支持将百度及第三方建设的智算中心、超算中心、边缘节点等智算节点进行全域接入，将分散和异构的算力资源连接起来，形成统一的算力网络资源池，再通过百度自主研发的先进算力调度算法，智能分析各类算力资源的状态、性能和利用率等指标进行统一调度，让智算资源灵活、稳定、高效地交付给有需求的用户，赋能智算资源供需双方业务增长。

升级后的百度智能云千帆大模型平台2.0拥有四个最：预置最多的大模型和数据集、有最丰富最全面的工具链、最佳算力效能、最完备的大模型安全方案。

本次重大升级，千帆平台纳管的国内外主流大模型达到42个，还预置了41个高质量有行业特色的数据集，预装了知识问答、客服对话、代码助手等10个精选应用范式，大幅降低企业使用、训练和推理大模型的门槛。对于除文心大模型之外的第三方大模型，千帆平台不只是简单的接入，还提供中文增强、性能增强、上下文增强等能力。比如，原来要用英文对话效果才好的Llama2等国外大模型，现在用中文也一样好。

升级后的工具链变得更丰富和更全面，贯穿大模型完整的生命周期，也更加轻量化、敏捷化。过去客户验证大模型的效果至少需要一周时间，现在基于一站式的工具链，只需一天就可以跑通一个模型并看到效果。值得关注的是，千帆平台的工具链里内置了103套高质量的Prompt模板，还有自动化Prompt工程能力，用户做起来会更方便、更轻松。

千帆平台还持续升级了算力服务，进一步降低客户的算力成本和时间成本。万卡集群训练大模型时，常规方法下，工程师们有30%—40%时间都花在容错和故障恢复上。现在，百度智能云自研的集群组网故障管理机制，使模型有效训练时间达到**95%**以上。基于分布式并行训练策略，千帆平台在万卡规模集群中的加速比可以达到95%，充分释放集群的整体算力。千帆平台还兼容国内外主流芯片和操作系统，客户的算法可以最小的修改成本运行。

安全是企业客户非常关心的话题。千帆平台全面升级模型安全、内容安全和数据安全保障能力。千帆平台为不同模型厂商设计了可信的专用隔离域，重点保护模型资产安全，预置安全模块，可以有效控制输入和输出的安全风险。在数据安全方面，千帆平台提供从模型、数据到日志的全链路加密，为模型厂商和用户提供可信任的执行环境。

料多、好用、高效、放心，沈抖用四个关键词形容百度智能云千帆大模型平台2.0。

金山办公通过千帆平台接入了文心一言，快速推出了WPS AI ，这是中国协同办公赛道首个落地的生成式AI应用。文心一言的中文优势，让WPS AI更符合中国人的办公习惯。千帆平台上丰富的安全机制为金山办公构建了四道安全防线，全面提升内容安全。金山办公首席执行官章庆元表示，WPS AI自9月5日起正式面向社会开放，率先应用在WPS智能文档。

图片4.png

3.千帆大模型的破茧时刻

如果将大模型比作一道佳肴大餐，那么大模型平台就是供大厨烹饪的厨房。菜好不好吃，厨房的作用至关重要。当下，越来越多的“xx行业首个大模型”诞生，大模型行业落地进入效果验证的深水区，对大模型平台也提出了更高要求。

在与上百家客户磨合调研之后，百度智能云千帆大模型平台近期迎来了最新升级，在模型库、提示词库等方面实现迭代。

千帆大模型平台是一个覆盖从数据准备到模型训练、评估优化、测试服务、落地部署等全流程的企业级一站式开发环境和工具链，据称已有超15万企业申请试用，上百家企业与之深度接触。

随着千帆大模型平台扩大开放范围，智东西第一时间对其进行了试用体验，并通过对话百度智能云千帆大模型平台的相关专家，对其最新功能迭代，以及迭代背后的思路和产业洞察进行了深入探讨。

3.1 引入Llama2等33个大模型

千帆的工程师称，目前，千帆大模型平台除百度自研的文心大模型外，还支持Llama2全系列、ChatGLM2-6B、RWKV-4-World、MPT-7B-Instruct、Falcon-7B等33个大模型，成为国内拥有大模型最多的平台。接入的模型经过千帆平台二次性能增强，模型推理成本可降低50%。

**企业和开发者调用第三方模型时为什么要使用千帆平台？**这位工程师告诉智东西，接入是简单的动作，企业通过Llama 2等模型的官网就可以实现，但接入不是目的，关键是千帆平台能为用户带来更多的价值。

同样是为了效果增强，千帆大模型平台本次还带来了应用支持方面的更新。

3.2 Promot模版

提到 Promot 相信大家看到不陌生，我作为一个每天离不开文心一言的开发者，AI可谓是我的另一个好伴侣。当然现在大模型中，Promot模版也是比不可少的。

我总结了大模型的四个使用难题，分别是选择困难、使用困难、训练困难、数据安全，代表了我们应该选择什么样的大模型和工具；如何更好地使用大模型、让它听话、不胡说；是否有可能训练我们自己的大模型；如何保护隐私数据不被大模型泄露。

本次就拿Promot模版来说。

比如我们看完一个电影，自己观感不错，想写一个影评，如果是我们自己写提示词的话，得到的是下面这个结果。

很显然，他不仅有联网的功能，还知道通过电脑去上下文进行联想，而不是在胡说八道。

但是如果我用千帆平台的Prompt电影评论模版功能的话。

很明显，我们用这个电影模版生成的内容更加具体更加完整，也更加的调理清楚。

这些模版的好处不仅可以用作目前来进行参考，还可以在别的地方进行使用其他大模型。

同时这也是训练我们自己写Promot的能力。

千帆的工程师说，千帆大模型平台包含了海量数据处理标注、再训练、微调、强化学习、评估、高效压缩、自动化Prompt工程、快速应用编排等工具。通过这一系列工具链，千帆的核心是服务于企业核心的需求痛点，从而增强终端的大模型应用效果。

3.3 创建自定义模板

我们在面板中的Promot工程中进行自定义模版的创建

然后我们就可以在自制模版中看到我们的刚创建好的自定义模版。

应用接入

这个步骤直接在左侧菜单中选择【应用接入】，创建一个应用，添加上基本信息什么的即可。

我们这里重新创建一个新的应用。

查看创建效果

在线测试

我们已经准备好了prompt预制模型以及应用，接下来我们在左侧的菜单中直接选择【在线测试】，按照下图进行操作即可。

发送测试

4.商业大模型对比

4.1 基础大模型对比

基础语言模型是指只在大规模文本语料中进行了预训练的模型，未经过指令和下游任务微调、以及人类反馈等任何对齐优化。

当前绝大部分的大语言模型都是 Decoder-only 的模型结构，原因请转移这个问题：为什么现在的LLM都是Decoder only的架构；
大部分大语言模型都不开源，而 OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究和应用的，中文开源可用的是 GLM，后续很多工作都是在这些开源的基础模型上进行微调优化的。

4.2 GPT3

大语言模型中最具代表和引领性的就是发布 ChatGPT 的 OpenAI 的 GPT 系列模型（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4），并且当前大部分大语言模型的结构都是 GPT-style ，文章生成式预训练模型中介绍了GPT-1/2/3，且从 GPT-3 开始才是真正意义的大模型。

GPT-3 是 OpenAI 发布的 GPT 系列模型的一个，延续了 GPT-1/2 基于Transformer Decoder 的自回归语言模型结构，但 GPT-3 将模型参数规模扩大至 175B，是 GPT-2 的 100 倍，从大规模数据中吸纳更多的知识。GPT-3不在追求 zero-shot 的设定，而是提出 In-Context Learning ，在下游任务中模型不需要任何额外的微调，利用 Prompts 给定少量标注的样本让模型学习再进行推理生成。就能够在只有少量目标任务标注样本的情况下进行很好的泛化，再次证明大力出击奇迹，做大模型的必要性。通过大量的实验证明，在 zero-shot、one-shot 和 few-shot 设置下，GPT-3 在许多 NLP 任务和基准测试中表现出强大的性能，只有少量目标任务标注样本的情况下进行很好的泛化，再次证明大力出击奇迹，做大模型的必要性。

4.3 LaMDA

LaMDA 是谷歌在2021年开发者大会上公布的专用于对话的大语言模型，具有 137B 个参数。论文中提出三个指导模型更好训练的指标：质量/Quality（合理性/Sensibleness、特异性/Specificity、趣味性/Interestingness，SSI）、安全性/Safety、真实性/Groundedness。和其他大模型一样，LaMDA分为预训练和微调两步，在微调阶段，生成式任务（给定上下文生成响应）和判别式任务（评估模型生成响应的质量和安全性）应用于预训练模型进行微调形成 LaMDA。对话期间，LaMDA 生成器在给定多轮对话上下文时生成几个候选响应，然后 LaMDA 判别器预测每个候选响应的 SSI 和安全分数。安全分数低的候选响应首先被过滤掉，剩下的候选响应根据 SSI 分数重新排名，并选择分数最高的作为最终响应。为提升 LaMDA 生成响应的真实可靠性，收集标注用户与 LaMDA 间对话的数据集，并在适用的情况下使用检索查询和检索结果进行注释。然后，在这个数据集上微调 LaMDA，学习与用户交互期间调用外部信息检索系统，提升生成响应的真实可靠性。

4.4 PaLM

PaLM 是谷歌2022年提出的 540B 参数规模的大语言模型，它采用的是 GPT-style 的 decoder-only 的单向自回归模型结构，这种结构对于 few-shot 更有利。PaLM 是使用谷歌提出的 Pathways 系统（一种新的 ML 系统，可以跨多个 TPU Pod 进行高效训练）在 6144 块TPU v4 芯片上训练完成的。作者在 Pod 级别上跨两个 Cloud TPU v4 Pods 使用数据并行对训练进行扩展，与以前的大多数 LLM 相比，是一个显著的规模增长。PaLM 实现了 57.8% 的硬件 FLOPs 利用率的训练效率，是 LLM 在这个规模上实现的最高效率。PaLM 在数百种语言理解和生成 benchmarks 上实现最先进的few-shot 学习结果，证明了scaling 模型的好处。在其中的许多任务中，PaLM 540B 实现了突破性的性能，在一组多步推理任务上的表现优于经过微调的 SOTA 模型。并且大量 BIG-bench 任务显示了模型规模的扩大带来性能的不连续提升，当模型扩展到最大规模，性能急剧提高。

4.5 百度千帆大模型

3月份推出文心一言，时隔六个月，百度智能云交出大模型服务的成绩单。9月5日，百度智能云对外公布，千帆大模型平台上月活企业数已近万家，覆盖金融、制造、能源、政务、交通等行业的400多个场景。并且百度智能云千帆大模型平台升级到2.0版本，升级后平台纳管的国内外主流大模型达到42个，对于除文心大模型之外的第三方大模型，千帆平台不只是简单的接入，还提供中文增强、性能增强、上下文增强等能力。另外，百度还透露将在不久后推出文心大模型4.0版本。

值得关注的是，在大模型应用方面，百度智能云基于文心大模型重构了四大行业解决方案，分别是数字政府解决方案——九州、金融解决方案——开元、工业解决方案——开物、智能交通解决方案——ACE3.0。

在算力效能方面，千帆底层是一套集合了异构算力集群、高速互联的网络、高性能存储，能够支撑万卡规模训练的 AI 算力基础设施，可将大模型训练、推理的成本降到最低。

在数据方面，千帆不仅纳管大模型，还可增强大模型的能力。本次全新升级中文增强，可大幅提升大模型中文理解和生成能力，例如 LIama2 的国外大模型，也可实现中文对话好的效果。同时还全面提升训练和推理性能，训练 LlaMA 2 的总体吞吐可以提升 1/4，推理甚至能提升 3 倍。

在企业级安全方面，通过千帆的安全机制，企业能够构建四层安全防线，全方位保障大模型的内容安全、数据安全和系统安全。对合规要求很高的客户，千帆支持国内、国外主流芯片和操作系统，也支持私有化部署，确保每个企业自己的大模型都自主可控。

此外，在 2023 百度云智大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，截至目前百度网盘“云一朵”智能助理累积使用人数已经超过 600 万。

IT之家注：千帆大模型平台是百度智能云推出的一站式企业级大模型平台，可以为企业提供大模型开发全流程工具链和整套环境，号称可以“让企业高效率、低成本地拥抱大模型”。

8 月初，千帆大模型平台完成第一轮升级，全面接入了 LLaMA2 全系列、ChatGLM2 等 33 个大模型，成为国内拥有最多大模型的平台；同时，千帆大模型平台上线 103 个预置 Prompt 模板，覆盖对话、编程、电商十余个场景。

5.千帆大模型更胜一筹

而在12月20日，2023百度云智大会·智算大会在北京召开，百度智能云与来自各行业的专家学者、客户与伙伴共同探讨了AI原生时代下，云+AI的创新变革之路。

而此次百度智能云全面推出：全面重构，打造AI原生时代的云基础设施。

5.1 重构智算基础设施，针对大模型场景进行专项优化

大算力、大数据驱动大模型产生“智能涌现”。不同于传统AI技术，在计算方面，大模型需要超大规模的智算集群支撑完成训练、推理任务。然而，高性能智算集群不是算力的简单堆积，在进行专门设计和优化前后，性能、可靠性等关键指标表现往往有着天壤之别。

侯震宇表示，大模型不同于以往的AI技术迭代，它同时驱动了底层IT基础设施的重构，也带来了上层应用开发模式的颠覆。他指出，模型重构云计算主要体现在AI原生云将改变云计算的格局，MaaS ( Model as a Service ，模型即服务）成为新的基础服务以及AI原生应用催生新的研发范式三个层面。

首先，在云基础设施层，移动互联网时代的应用，底层大多依赖CPU算力，而AI应用对GPU或异构计算的需求大幅增加，云市场的底层算力需求将逐渐转向以GPU为主。

其次，在模型层，大模型正在成为通用的服务能力，即MaaS。MaaS将大幅降低Al落地的门槛，实现真正的Al普惠。

最后，在应用层，应用开发的范式已经被彻底颠覆。大模型理解、生成、逻辑、记忆的独特能力会催生A原生应用研发新范式，整个应用技术栈、数据流和业务流都将被改变。

侯震宇表示，总体来说，构建繁荣的A原生应用生态，需要大模型、智能算力、AI原生应用研发新范式三要素相辅相成。大模型是AI原生应用的“大脑”，智能计算则为A原生应用运行提供坚实支撑，新研发范式助力开发者高效基于大模型能力开发应用。数据飞轮是成功的AI原生应用的充分必要条件，让大模型能力高速迭代，产品体验持续进步。

AI原生时代，面向大模型的云计算基础设施体系将全面重构。侯震宇表示，百度智能云将在三大方面重构云计算服务，即：面向模型的智算基础设施、面向数据的数据基础设施、面向应用的云基础设施，以支撑AI原生应用落地。

大会现场，百度智能云还密集发布和升级了20多款云计算产品，涵盖智能计算、通用计算、数据库和大数据、分布式云、应用开发平台五大领域。

在智能计算领域，算力是大模型落地的基础条件，当前大模型训练、推理、部署对高速互联、计算效率、算力成本等都提出了高要求，需要打造新型的智算基础设施。但目前的计算集群还面临不少挑战，大模型训练时间长、易出错、稳定性差，算力集群规模大、系统复杂度高也增加了运维难度。

5.2 重构云原生基础设施，打造极致性价比的基础云服务

全新推出第7代（通用计算型）云服务器实例G7，搭载英特尔最新的第五代至强可扩展处理器(Emerald Rapids)，支持200Gbps内网互联带宽，综合性能较上一代产品提升10%，可以帮助客户在搭建企业级应用、电商平台、网站和Web应用等场景中获得更高效的算力服务支持。

针对数据库管理系统（DBMS）管理与运维工作门槛高，数据库工程师（DBA）人才培养难度大成本高，工作负担重等难题，百度智能云发布数据库智能驾驶舱。通过引入大模型能力，能够实现对数据库进行自动的智能化的洞察、评估和优化。同时，在数据库常见问题专业问答方面，复杂问题回复准确率超过80%，媲美专业的 DBA水平。相较传统工作模式，能够提升数据库故障洞察和定位效率80%，提前1个月发现数据库容量瓶颈，SQL优化效果提升超过40%，为数据库洞察、评估和优化带来了全新的智能化方案。

大模型时代的云智一体

首先，针对只有算力需求的客户，千帆平台可以提供极致高效和性价比的异构算力服务。在客户最关心的大模型训练环节，通过分布式并行训练策略和微秒级互联能力，千帆平台可以实现万卡规模集群训练的加速比达到95%；通过事先防范、事中及时发现、定位、解决，最大限度避免集群因故障等原因产生的无效运转，提高有效训练时间占比，万卡集群有效训练时间占比达到96%，充分释放集群有效算力，大幅降低客户算力与时间成本。

此外，千帆平台还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片，支持客户以最小的切换成本完成算力适配。

面壁智能携手知乎，基于百度智能云提供的AI算力集群，训练出“知海图AI”大模型和多模态大模型Luca，在千卡集群上的有效训练时间占比高达99%，在保障模型训练连续性的同时，可以实现模型训练效果的高效收敛。此外，知乎、好未来、地平线等企业也正在基于百度智能云提供的AI算力服务，以更加稳定、高效和经济的方式实现大规模集群的训练和管理。

其次，在模型层面，对于希望直接调用已有大模型的客户，千帆平台纳管了42个国内外主流大模型，企业客户可以快速调用包括文心大模型在内的各种大模型的API，获取大模型能力。对于第三方大模型，千帆平台还针对性地进行了中文增强、性能增强、上下文增强等优化。目前千帆平台已经服务了超过17000家客户，大模型API调用量持续高速攀升。

第三，对于希望基于现有大模型进行二次开发的客户，千帆平台为大模型的再训练、微调、评估和部署等环节提供全生命周期工具链、业界最多的41个高质量行业数据集，帮助客户针对自身业务场景快速优化模型效果。目前，包括中国邮政储蓄银行、度小满、金山办公、河北高速集团在内的诸多行业头部客户，都正在通过千帆平台提供的工具链服务开发出贴合业务需求的专属大模型。

第四，在应用层面，一部分企业需要基于大模型服务去开发AI原生应用，千帆平台上提供的一系列能力组件与框架，可以帮助企业快速完成应用开发，灵活地响应用户与市场需求。

最后，另一部分客户则希望直接、方便地选购成熟的AI原生应用产品，赋能业务发展。

赋能企业高效开发AI原生应用：发布“千帆AI原生应用开发工作台”

为了满足企业敏捷、高效地进行AI原生应用开发的需求，降低AI原生应用开发门槛，百度智能云重磅发布“千帆AI原生应用开发工作台”，将开发大模型应用的常见模式、工具、流程，沉淀成一个工作台，帮助开发者聚焦在自身业务，而无需为开发过程牵扯多余精力。具体来讲，千帆AI原生应用开发工作台主要由应用组件、应用框架两层服务构成。

6.总结

市面上大模型有很多种类，但是有些不开源的，或者是小白不友好的，如果你是一个开发者的话，可能对于你来说，企业使用商业大模型的成本很高，十分不利于我们后期维护。无论使用开源大模型，还是商业版大模型，我感觉都需要千帆这样的一站式平台来进行降本提效。

目前，千帆平台已经累计服务超过40000企业用户，累计帮助企业用户精调近10000个大模型，月活企业数已近万家，覆盖金融、制造、能源、政务、交通等行业的 400 多个业务场景。千帆大模型作为国内大模型的领头者，对一个开发者而言，它的每一次更新、升级都让我感到无比震撼，每次升级都在使这个产品不断地完善，使用更加高效，并不断降低成本，更能够提高使用者的满意度。总的来说，千帆大模型是解决国内大模型痛点的最佳实践方案，能够为各个行业带来数以万计的新商业方案，加速产业升级转型。