Large Language Models Paper 分享-编程知识

Large Language Models Paper 分享

论文1： ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

简介

2022年11月，OpenAI发布了ChatGPT，这一事件在AI社区甚至全世界引起了轰动。首次，一个基于应用的AI聊天机器人能够提供有帮助、安全和有用的答案，遵循人类指令，甚至承认并纠正之前的错误。作为第一个这样的应用，ChatGPT在其推出仅两个月内，用户数量就达到了1亿，远远快于其他流行应用如TikTok或YouTube。因此，它也吸引了巨额的商业投资，因为它有望降低劳动成本，自动化工作流程，甚至为客户带来新的体验。

但ChatGPT的闭源特性可能引发诸多问题。首先，由于不了解内部细节，比如预训练和微调过程，很难正确评估其潜在风险，尤其是考虑到大模型可能生成有害、不道德和虚假的内容。其次，有报道称ChatGPT的性能随时间变化，妨碍了可重复的结果。第三，ChatGPT经历了多次故障，仅在2023年11月就发生了两次重大故障，期间无法访问ChatGPT网站及其API。最后，采用ChatGPT的企业可能会关注API调用的高成本、服务中断、数据所有权和隐私问题，以及其他不可预测的事件，比如最近有关CEO Sam Altman被解雇并最终回归的董事会闹剧。

此时，开源大模型应运而生，社区一直在积极推动将高性能的大模型保持开源。然而，截至2023年末，大家还普遍认为类似Llama-2或Falcon这样的开源大模型在性能上落后于它们的闭源模型，如OpenAI的GPT3.5（ChatGPT）和GPT-4，Anthropic的Claude2或Google的Bard3，其中GPT-4通常被认为是最出色的。然而，令人鼓舞的是差距正在变得越来越小，开源大模型正在迅速赶上。