CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用

8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。

作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上,大语言模型也成为众多参会专家学者关注的焦点。

在会上,酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲,从产业实践的角度分享了在企业数据仓库环境下,利用中小规模语言模型构建面向场景的智能应用的探索与实践,并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。

大模型VS小模型?

在过去的几个月中,大语言模型在公众当中的关注度有所缓和,但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代,众多初创公司也在奋起直追,开源社区的发展也非常迅猛。

杨胜文指出,目前千亿级参数的大语言模型在生成能力方面仍存在一些不足,如生成“幻觉”问题。更为重要的是,企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。

图片

图1:酷克数据首席科学家杨胜文博士

相对动辄千亿级甚至万亿参数的大语言模型而言,十亿级或百亿级参数的“小”语言模型,已经具备良好的语言理解和生成能力,并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署,微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合(包括微调和Prompt增强等),在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性,小语言模型成为现阶段LLM在企业落地应用的可行替代方案。

同时,日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面,已经出现了很多优秀的开源项目和公开数据集,能够满足百亿级参数模型的训练需求。在模型层面,出现了很多由大型商业公司、研究机构和初创公司研发的模型,参数规模从数十亿到数百亿参数不等,大部分模型都允许免费商用,这为小语言模型的规模化落地进一步创造了条件。

企业数据仓库与大语言模型的有机结合

大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所,企业数据仓库蕴藏着巨大的企业数据资产。

杨胜文认为,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出,上一代数仓普遍采用传统MPP架构,存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题,增加了数据管理和模型开发的复杂度。

酷克数据的旗舰产品HashData云数仓,是国内最早实现存算分离的云原生分析型数据库,目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备极佳的弹性和可扩展性。

相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持,显著降低了系统的复杂性,也大幅降低了运营成本。

HashData云数仓还内置了对向量数据的支持,基于分布式并行处理技术,可以支持海量语义向量数据的存储和高效检索。

杨胜文表示,以HashData为代表的现代企业数据仓库,为数据查询、分析和AI计算提供了统一的软硬件平台,将极大地推动AI技术在企业中的实际应用。

HashML助力企业轻松构建大模型应用

为了进一步降低AI技术的应用门槛,酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。

杨胜文介绍,HashML首要设计目标就是简单易用,帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力,解决实际业务问题。

为了实现这个目标,HashML对编程接口做了高度抽象和标准化,允许客户只编写少量代码就可以完成从数据加载到数据处理,再到模型训练、模型部署、推理预测的全流程工作。

图片

图2:HashML主要功能概览

就大语言模型而言,借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强,用户只需要少量的代码就能完成智能应用的搭建,包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务,以及对话式Web应用的快速开发。另外,HashML针对知名的开源语言模型,例如ChatGLM、Baichuan、Llama2等,提供了额外的功能封装,方便客户更加便捷地使用这些模型。

在会上,杨胜文介绍了基于HashML和小语言模型构建的两个智能应用:检索增强的智能问答(ReQA)和基于自然语言交互的数据分析(ChatData)。

在ReQA中,通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化,并以向量知识库的形式存放在HashData,再结合语义向量检索技术和语言模型,就能实现基于本地知识库的精准问答。

图片

图3:基于向量知识库的检索增强的智能问答(ReQA)

在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句,酷克数据团队准备了近十万条的训练语料,对模型进行了微调。

图片

图4:基于自然语言的交互式数据分析(ChatData)

展望未来,杨胜文认为,新一代人工智能技术正在加速企业数字化、智能化进程,将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产,才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托,结合小语言模型,低成本快速试错,发掘高价值应用场景,是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。

本次大会现场,酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布,后续我们会带来更多相关技术分享。敬请关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/98207.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VScode SSH无法免密登录

配置方法 引用高赞贴:点击 debug方法 连不上需要找到问题原因,看ssh的 log Linux服务器:2222是我们指定的端口,可以是1234等 sudo /usr/sbin/sshd -d -p 2222windows这边:端口号要一致 ssh -vvv ubuntusername192…

《Python魔法大冒险》005 魔法挑战:自我介绍机器人

魔法师和小鱼坐在图书馆的一扇窗户旁,窗外的星空闪烁着神秘的光芒。魔法师轻轻地拍了拍小鱼的肩膀。 魔法师: 小鱼,你已经学会了编写简单的魔法程序,现在我要教你如何创造一个有自己思想的机器人,让它能够和我们一样&…

css 文字单行多行超出长度后显示 ...

0.超出… 1、单行文本超出 <div class"content">测试数据&#xff1a;css单行文本超出显示省略号--------</div><style> .content{width: 200px;height: 200px;overflow:hidden;white-space: nowrap;text-overflow: ellipsis;-o-text-overflow:el…

电梯SIP-IP五方对讲管理系统

电梯SIP-IP五方对讲管理系统 是深圳锐科达精心打磨的一款IP数字信号对讲设备&#xff0c;是在传统电梯对讲系统基础上的一次全新升级&#xff0c;突破了模拟、FM调频系统存在的技术障碍&#xff0c;实现联网;在模/数交替的过程中&#xff0c;继承了模拟、FM调频系统的优点&…

使用wkhtmltoimage实现生成长图分享

需求 用户可以选择以长图的形式分享本网页 方法 wkhtmltopdf wkhtmltopdf url filewkhtmltoimage url file java Runtime.getRuntime().exec() 下载 直接去官网下载对应的版本&#xff1a;官网 命令行使用WK > wkhtmltopdf https://www.nowcoder.com /opt/project/…

select 语句执行顺序

sql 样例 select t_students.name as 姓名, sum(case when b.cname语文 then c.sc_val else 0 end) As 语文 ,sum(case when b.cname数学 then c.sc_val else 0 end) As 数学,sum(case when b.cname英语 then c.sc_val else 0 end) As 英语, From t_students a, t_corses b, t…

uniapp-秋云图表 ucharts echarts 对比与关系

科普&#xff1a; 秋云图表库&#xff0c;包含二种配置属性对应二种js配置文件。 一种是 &#xff1a;echarts.js,一种是 &#xff1a; ucharts。 二者的配置属性不一样&#xff01; ucharts和echarts对比 ucharts和echarts都是用于数据可视化的开源JavaScript库&#xff0c;它…

【OpenCV入门】第五部分——图像运算

文章结构 掩模图像的加法运算图像的位运算按位与运算按位或运算按位取反运算按位异或运算图像位运算的运用 合并图像加权和覆盖 掩模 当计算机处理图像时&#xff0c;有些内容需要处理&#xff0c;有些内容不需要处理。能够覆盖原始图像&#xff0c;仅暴露原始图像“感兴趣区域…

vue使用打印组件print-js

项目场景&#xff1a; 由于甲方要求&#xff0c;项目需要打印二维码标签&#xff0c;故开发此功能 开发流程 安装包&#xff1a;npm install print-js --saveprint-js的使用 <template><div id"print" ref"print" ><p>打印内容<p&…

计算机毕设 大数据商城人流数据分析与可视化 - python 大数据分析

文章目录 0 前言课题背景分析方法与过程初步分析&#xff1a;总体流程&#xff1a;1.数据探索分析2.数据预处理3.构建模型 总结 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到…

STM32 RTC实验

RTC时钟简介 STM32F103的实时时钟&#xff08;RTC&#xff09;是一个独立的定时器。 STM32的RTC模块拥有一组连续计数的计数器&#xff0c;在相对应的软件配置下&#xff0c;可提供时钟日历的功能。 修改计数器的值可以重新设置系统的当前时间和日期。 RTC模块和时钟配置系统…

【python爬虫】12.建立你的爬虫大军

文章目录 前言协程是什么多协程的用法gevent库queue模块 拓展复习复习 前言 照旧来回顾上一关的知识点&#xff01;上一关我们学习如何将爬虫的结果发送邮件&#xff0c;和定时执行爬虫。 关于邮件&#xff0c;它是这样一种流程&#xff1a; 我们要用到的模块是smtplib和emai…