CCKS2023：基于企业数仓和大语言模型构建面向场景的智能应用-编程知识

8月24日-27日，第十七届全国知识图谱与语义计算大会（CCKS 2023）在沈阳召开。大会以“知识图谱赋能通用AI”为主题，探讨知识图谱对通用AI技术的支撑能力，探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。

作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议，每年的CCKS都会邀请相关技术领域顶尖专家学者参会，探讨AI前沿技术。今年以来，大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上，大语言模型也成为众多参会专家学者关注的焦点。

在会上，酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲，从产业实践的角度分享了在企业数据仓库环境下，利用中小规模语言模型构建面向场景的智能应用的探索与实践，并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。

大模型VS小模型？

在过去的几个月中，大语言模型在公众当中的关注度有所缓和，但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代，众多初创公司也在奋起直追，开源社区的发展也非常迅猛。

杨胜文指出，目前千亿级参数的大语言模型在生成能力方面仍存在一些不足，如生成“幻觉”问题。更为重要的是，企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。

图1:酷克数据首席科学家杨胜文博士

相对动辄千亿级甚至万亿参数的大语言模型而言，十亿级或百亿级参数的“小”语言模型，已经具备良好的语言理解和生成能力，并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署，微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合（包括微调和Prompt增强等），在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性，小语言模型成为现阶段LLM在企业落地应用的可行替代方案。

同时，日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面，已经出现了很多优秀的开源项目和公开数据集，能够满足百亿级参数模型的训练需求。在模型层面，出现了很多由大型商业公司、研究机构和初创公司研发的模型，参数规模从数十亿到数百亿参数不等，大部分模型都允许免费商用，这为小语言模型的规模化落地进一步创造了条件。

企业数据仓库与大语言模型的有机结合

大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所，企业数据仓库蕴藏着巨大的企业数据资产。

杨胜文认为，数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出，上一代数仓普遍采用传统MPP架构，存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题，增加了数据管理和模型开发的复杂度。

酷克数据的旗舰产品HashData云数仓，是国内最早实现存算分离的云原生分析型数据库，目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成，具备极佳的弹性和可扩展性。

相比传统架构的数据仓库，HashData采用存算分离的架构，不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持，还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持，其中包括对大语言模型微调和推理的支持，显著降低了系统的复杂性，也大幅降低了运营成本。

HashData云数仓还内置了对向量数据的支持，基于分布式并行处理技术，可以支持海量语义向量数据的存储和高效检索。

杨胜文表示，以HashData为代表的现代企业数据仓库，为数据查询、分析和AI计算提供了统一的软硬件平台，将极大地推动AI技术在企业中的实际应用。

HashML助力企业轻松构建大模型应用

为了进一步降低AI技术的应用门槛，酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。

杨胜文介绍，HashML首要设计目标就是简单易用，帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力，解决实际业务问题。

为了实现这个目标，HashML对编程接口做了高度抽象和标准化，允许客户只编写少量代码就可以完成从数据加载到数据处理，再到模型训练、模型部署、推理预测的全流程工作。

图2:HashML主要功能概览

就大语言模型而言，借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强，用户只需要少量的代码就能完成智能应用的搭建，包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务，以及对话式Web应用的快速开发。另外，HashML针对知名的开源语言模型，例如ChatGLM、Baichuan、Llama2等，提供了额外的功能封装，方便客户更加便捷地使用这些模型。

在会上，杨胜文介绍了基于HashML和小语言模型构建的两个智能应用：检索增强的智能问答（ReQA）和基于自然语言交互的数据分析（ChatData）。

在ReQA中，通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化，并以向量知识库的形式存放在HashData，再结合语义向量检索技术和语言模型，就能实现基于本地知识库的精准问答。

图3:基于向量知识库的检索增强的智能问答（ReQA）

在ChatData中，用户能够以自然语言的方式与HashData数据库进行交互，实现数据查询和结果展示，还能够以自然语言的方式对查询结果进行可视化，从而大幅降低数据分析应用的门槛，允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句，酷克数据团队准备了近十万条的训练语料，对模型进行了微调。

图4:基于自然语言的交互式数据分析（ChatData）

展望未来，杨胜文认为，新一代人工智能技术正在加速企业数字化、智能化进程，将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产，才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托，结合小语言模型，低成本快速试错，发掘高价值应用场景，是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。

本次大会现场，酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布，后续我们会带来更多相关技术分享。敬请关注！