探索大模型:袋鼠云在 Text To SQL 上的实践与优化

news/2024/11/16 20:38:11/文章来源:https://www.cnblogs.com/DTinsight/p/18295590

Text To SQL 指的是将自然语言转化为能够在关系型数据库中执行的结构化查询语言(简称 SQL)。近年来,伴随人工智能大模型技术的不断进步,Text To SQL 任务的成功率显著提升,这得益于大模型的推理、理解以及指令遵循等能力。

对于大数据平台来说,集成 Text To SQL 功能意义非凡。首先,这能够大幅优化用户体验;其次,Text To SQL 功能能够提高数据开发人员的工作效率,他们能够凭借自然语言描述来完成 SQL 任务的开发,进而极大地节省学习和编写复杂 SQL 语句的时间;最后,Text To SQL 功能降低了数据库查询的门槛,使得更多非技术人员能够参与到数据库查询工作中,让更多人得以享受大数据带来的便利。

本文将探讨袋鼠云在 Text To SQL 领域的探索与实践,分享如何实现更高效、更准确的自然语言到 SQL 的转换。

基于 LLM 实现 Text To SQL

设计基于大模型(LLM)的 Text To SQL 系统是一项复杂且精细的任务,包括多个步骤和环节,每个步骤都需要我们精心设计和处理。首先,我们需要将数据库中表的元信息进行组织。此步骤涉及到将每一个表的详细信息,如字段名称、类型、关系等,写入到向量数据库中,这样就可以为后续的 SQL 生成提供必要的信息,这一步对于后续的 SQL 生成至关重要。

接着,我们需要对用户输入的自然语言加以理解。在这一步,我们将会运用先进的 embedding 模型。凭借这种模型,能够将用户输入的语言实施向量化处理,把每一个词或者词组转化为一个具备特定维度的向量。随后,我们会前往向量数据库中展开查找,匹配相关的表元数据信息,如此一来,我们便能知晓用户的查询意图与哪些表存在关联。

最后,我们把上一步匹配所得的表元数据信息与用户的问题加以合并,生成最终的 prompt。此 prompt 包括了全部所需的信息,涵盖角色表述、用户的初始问题、我们匹配到的相关表元数据信息以及一些约束条件。而后,我们把这个 prompt 交付给 LLM 模型,让模型依据这些信息生成最终的 SQL 查询语句。这一过程需要大模型(LLM)强大的计算能力以及精准的理解能力,以保障生成的 SQL 语句能够确切地反映用户的查询意图。

file

在数栈中实现 Text To SQL

● 表 schema 写入向量数据库

file

为了便于将数据库元数据置入向量数据库,在数栈中,我们研发了能够一键导入数据库表元数据信息的功能,并且支持自动刷新,如上图所示。

在此过程里,最为重要的当属如何对表的元数据信息进行组织,这一步极为关键,因为它会直接作用于 SQL 生成的准确性。我们所设计的表元数据信息组织格式如下:

table_name(column_name column_type column_comment,[...]), table_comment=""

● 根据用户问题匹配相关表元数据

这一步所面临的关键问题在于如何精准匹配到与用户输入问题相关的所有表元数据信息。为此,我们选用了对中文支持良好的 bge-large-zh-v1.5 embedding 模型,来对用户输入的问题进行向量化处理,以便充分领会用户的意图。

而在检索元数据信息方面,我们采用了混合检索的模式,即将向量化检索与全文搜索相结合。具体来说,首先依据用户问题生成的向量,在向量数据库中匹配出 TopK 条信息;接着运用 bm25 算法对表元信息进行一次全文搜索并获取结果;最后将向量检索和全文搜索所获取的结果予以合并,并进行一次相关性排序,从而得到最终的结果。

● 生成 Prompt

构建请求大模型的 Prompt。这里分享一个小技巧,就是使用 XML 标签来分隔 Prompt 中的每一部分内容。这种方法非常有效,因为大语言模型已经接受了大量包含 XML 格式的网页内容的训练,因此能够理解其结构,这样就能很好的帮助大模型完整识别到 Prompt 中的每一部分。

如下是我们定义生成 Text To SQL 的 Prompt 模版,XML 标签中包含和用户问题相关的表元数据信息。XML 标签中定义了角色和一些约束信息。

<context>表结构信息如下:{{表结构信息}}
</context>
<objective>你是一个高级SQL生成器,能够根据不同的SQL方言生成相应的SQL语句。你需要将用户输入的自然语言转化为SQL,请按照以下步骤操作:1. 请一步步思考并仔细分析用户的自然语言输入,确保充分理解用户的意图。2. 识别目标数据库类型为{{SQL方言}} SQL3. 考虑该数据库类型的特定语法和函数。4. 根据理解的用户意图,设计SQL查询的基本结构。5. 应用数据库特定的语法规则,对基本结构进行调整。6. 优化查询以提高性能(如适用)。7. 生成最终的SQL语句。在生成SQL时,请特别注意以下几点:- 使用{{SQL方言}} SQL特有的函数和语法结构 - 考虑该数据库类型的查询优化技巧 - 确保生成的SQL语句在语法和逻辑上的正确性如果用户的请求不明确或需要额外信息,请提出澄清性问题。
</objective>

● Prompt 构建完成后请求 LLM,生成 SQL

Prompt 构建完成后将 Prompt 发给大模型(LLM)执行,经过大模型(LLM)的推理能力生成 SQL。

file

Text To SQL 的优化手段

上文介绍了 Text To SQL 的一般流程,在这个流程中还可以加入一些优化手段来进一步提高生成 SQL 的准确率,下面分享两个优化技巧。

● Prompt Engineering - 动态少样本

Medprompt 是微软提出的一种极为有效的提示策略,动态少样本则属于 Medprompt 提示策略中的一项技巧。使用动态少样本可以进一步挖掘大模型的能力,提升响应的准确率。

在 Text To SQL 中如何使用动态少样本,首先可以结合自己的业务场景写出一些具有针对性的 SQL 生成问答对,然后将生成的这些问答对写入到向量数据库中,构建 Prompt 时根据用户输入问题进行一次向量检索然后将结果写入到 Prompt 中。

大模型存在不能理解某些领域的专有词汇问题,这个问题也可以通过这种方法解决,对于不能识别的词汇语句可以提前生成 SQL 生成问答对,生成 Prompt 时进行动态匹配,作为上下文发送给 LLM,这样 LLM 就能理解了。

● 模型微调

大模型(LLM)自身已然拥有 Text To SQL 的能力,而且通常模型规模越大,Text To SQL 的能力便越强。不管是大模型还是小模型,均能够通过微调来进一步增强 Text To SQL 的能力。当下,与 Text To SQL 相关的开源数据集众多,例如 WikiSQL、Spider 等等。

目前我们所采用的模型为阿里开源的通义千问 Qwen1.5-14B-Chat ,并运用 Spider 数据集进行了微调,模型微调前后在 Spider 数据集上的评测数据如下:

file

Text To SQL 在数栈中的应用

数栈作为一个大数据开发平台,始终专注于推动技术创新,提升用户体验。为了更进一步提高开发人员的工作效率并简化数据处理流程,数栈开发团队研发了「栈语妙编」智能助手。

「栈语妙编」智能助手能够把用户的自然语言描述转换为 SQL 语句,开发人员只需将待开发的 SQL 任务以自然语言进行描述,「栈语妙编」助手便会生成相应的 SQL ,如此一来,显著提升了开发人员的工作效率,使其能够将更多精力聚焦于数据分析和业务逻辑方面。

file

「栈语妙编」智能助手不仅可以根据自然语言生成 SQL,还可以对已有的 SQL 任务进行智能优化、SQL 纠错、代码补全和添加注释。

file

指标平台在数据驱动决策中扮演着至关重要的角色,为了使指标平台进入到一个新的智能化阶段,我们正在积极结合大模型(LLM)来提升指标平台的易用性、智能化程度和降低使用门槛,Text To SQL就是其中之一。

「袋鼠云指标管理平台」引入 Text To SQL 技术后,用户可以通过日常使用的自然语言来查询复杂的指标数据,并能基于查询结果进行深入分析,而无需掌握专业的 SQL 语法或了解底层数据结构。

file
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/742093.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jdk离线安装包下载

下载 华为云 https://repo.huaweicloud.com/java/jdk/ 小站点(比较全) https://www.injdk.cn/ 华为云,比较老旧小站点,推荐安装 rpm - *.rpm

PMP-生命周期

生命周期项目的起点是项目章程得到批准。解散资源是项目的结束点。 项目生命周期,阶段和阶段关口项目生命周期:指项目的启动到完成经历的一系列阶段。项目阶段:是一组具有逻辑关系的项目活动的集合。通常以一个或多个可交付成果为结束。阶段关口:在项目阶段结束时进行,将…

乘用车1-5月销量同比增长7%,火山引擎数据飞轮能帮车企盘活下半年增长吗?

火山引擎推出企业数智化升级新模式“数据飞轮”,并面向汽车行业输出覆盖智能营销、汽车联网等场景在内的全套解决方案,在历经一年的行业实践后,已经成为越来越多车企实现数智化升级的模式选择。对车企来说,更贴合市场趋势以及业务需求的数智化升级,或许是实现下半年进一步…

光猫改桥接 河南移动 ZXHN F663N

光猫改桥接 河南移动 ZXHN F663N 基本情况 本人地区 河南移动,光猫型号 中兴 ZXHN F663N 因为当前光猫密码已经被自动修改过,已经不是网上可以随便搜索到的管理员密码,所以获取密码直接找了咸鱼,几块钱搞定,查的很快 备份原有配置数据 在改桥接之前,我还是想备份一下配置…

WordPress将管理员用户主页修改网站首页

最近在做 WordPress 站群的一些项目测试,主题在调用作者的时候就会链接到作者主页,加上很多时候 WordPress 网站就只会使用一个账户来发布文章,虽然可以通过修改主题代码的方式将作者的链接直接链接到网站首页,但是作为一个优雅的 WordPress 开发者来说,肯定是不会轻易动主…

【学习笔记】四边形不等式优化 DP

命运是不可见的星辰,人们往往无法看见命运的全貌,却一直被它指引前行。从繁星点点中,梵天能够窥见命运的轨迹。决策单调性对于最优化问题 \(f_{i}=\min\limits_{j=1}^{i} \{ w_{j,i} \}\) 称 \(w(j,i)\) 为成本函数,参数为 \(i\) 的最优化问题称为问题 \(i\) ,记问题 \(i\…

灵动Mini-SPIN0230开发板测评

灵动Mini-SPIN0230开发板简介与开箱上电测评官网资料详见 MM32SPIN0230 . 开发板资料详见:MiniBoard(MM32SPIN0230B3TV) .MM32SPIN0230系列是灵动MindSPIN旗下高性能的单电机控制产品,采用Cortex-M0内核 ,集成了运动控制所需的专用模拟外设,包括12位高精度ADC、2路模拟比较…

来此加密便宜的多域名SSL证书申请

在数字化时代的浪潮中,网站的安全性已成为企业和个人不可或缺的一部分。特别是在数据传输和用户隐私保护方面,SSL证书的作用愈发显著。申请多域名SSL证书步骤 1、登录来此加密网站,输入域名,可以勾选泛域名和包含根域。2、选择加密方式,一般选择默认就可以了,也可以自定义…

读人工智能全传09神经网络

读人工智能全传09神经网络1. 机器学习 1.1. 人们对人工智能的态度发生突如其来的巨大变化,是由一项核心人工智能技术——机器学习的快速发展所推动的 1.1.1. 机器学习是人工智能的一个分支领域,但在过去60年的绝大部分时间里,它一直在一条独立的道路…

OpenVX一些技术杂谈

OpenVX一些技术杂谈OpenCV和OpenVX有什么联系和区别 联系和区别是:OpenCV是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库。OpenVX 实现了跨平台加速处理,OpenVX在嵌入式和实时性系统中可以更好地发挥它的优势,在某些场合配合OpenCV的强大功能可以实…

Nginx中文URL请求404

这两天正在搞我的静态网站。方案是:从思源笔记Markdown笔记,用MkOcs build成静态网站,上传到到Nginx服务器。遇到一个问题:URL含有中文会404,全英文URL则正常访问。 ‍ 比如: ​​ ‍ 设置了utf-8 http {charset utf-8;# 其他配置... }中文URL依然404,英文URL则正常访问…

Easysearch 数据可视化和管理平台:INFINI Console 使用介绍

上次在《INFINI Easysearch 尝鲜 Hands on》中,我们部署了两个节点的 Easysearch,并设置了 Console 进行集群监控。今天,我们将介绍 INFINI Console 的使用。 Dashboard INFINI Console 是一个功能强大的数据管理和分析平台,其仪表盘页面提供了直观简洁的界面,使用户能够快…