Text2sql的一些技巧

最近看到了一篇关于text2sql的文章,以及一些论文。对使用模型做text2sql给了一些不错的建议。

参考文章:24年大模型潜力方向:大浪淘沙后的Text-to-SQL和Agent - 知乎

论文:https://arxiv.org/pdf/2403.09732.pdf

关于模型的建议

模型的温度为0,减少text2sql的幻觉问题。

多个模型一起使用,使用交叉一致性,不要过于依赖一个模型。

构建prompt的建议

表中字段取值问题,例如性别这个字段,有的表可能存“男”和“女”,有的表可能存 “M”和“F”,甚至有的表会存“0”和“1”。所以对于有枚举值的字段来说,最好能够列出来示例字段。数据表和样例数据(随机取三行数据)

text2sql中,few-shot非常有用。应该生成一些常见的sql示例。这些案例在prompt中应该是动态选择的(针对不同的表)。关于生成常见的sql,可以考虑使用模型,来生成一些sql示例。

few-shot 示例

告诉模型,我们的表字段,并给出了一些示例数据以及表的外键

给模型的few-shot 对生成正确的sql的影响非常大。论文中提到的是动态的选择样例,

根据问题相似相匹配,用问题,召回几个相似的文本(这里需要提前根据表生成一些案例)。

 


 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/636820.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

红外接收器的原理以及在STM32和51单片机中的应用

基本介绍: 红外接收器是一种用于接收红外线信号的装置,常见于各种电子设备中,如电视遥控器、空调遥控器等。它能够接收来自发射器发送的红外信号,并将其转换成电信号,以便设备进行相应的操作。红外接收器通常包含红外光…

AI大模型日报#0420:开源模型击败GPT-4、西湖大学蛋白质通用大模型、GPT的七条经验

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R上线 摘要: GPT-4在LLM竞技场被开源模型Cohere的…

9.Godot数组|遍历|静态变量|对象|调试

数组和字典的遍历 数组的概念 数组是一组数据的集合。在程序中负责批量处理数据。数组中的元素可以包括各个类型的数据,也可以对数组内数据类型进行限定。可以通过 数组名【数字】 的形式来访问数组元素,数字 0 代表数组的第一个元素。数组可以通过调用…

GPT状态和原理 - 解密OpenAI模型训练

目录 1 如何训练 GPT 助手 1.1 第一阶段 Pretraining 预训练 1.2 第二阶段:Supervised Finetuning有监督微调 1.3 第三阶段 Reward Modeling 奖励建模 1.4 第四阶段 Reinforcement Learning 强化学习 1.5 总结 2 第二部分:如何有效的应用在您的应…

Linux——匿名管道

为什么要有进程间通信? 在操作系统中,进程是独立运行的程序,多个进程之间要想互相协作完成任务,就需要进程间通信。 什么是进程间通信? 数据传输:一个进程需要将它的数据发送给另一个进程资源共享&#…

C语言数据结构之链表

目录 前言 \color{maroon}{前言} 前言1.链表的概念及结构2.链表的分类3.无头单向非循环链表的实现4.带头双向循环链表的实现5.顺序表和链表的对比 前言 \color{maroon}{前言} 前言 在上一篇博客中我们提到,线性表包括顺序表和链表,顺序表在上篇博客中已…

普通人切入抖音的黄金赛道 软件自动生成文字动画视频 3天15个作品涨粉5000

文字动画,就是导入一段文字,用软件可以自动生成一条文字动画视频,因为这是软件自动生成的,所以过原创的话是很简单没什么问题的。 这种视频的特点是什么? 首先第一点就是非常简单,找好素材直接导入软件就可以自动生成…

java-Spring-入门学习-第二天(单例模式和多例模式)

目录 Bean作用域 单例模式(默认可以不写) Spring下的 AutoWired 依赖注入 JaveEE下的 Resource 依赖注入 多例模式 Bean作用域 ​在Spring框架中,Bean是按照作用域来创建的,常见的作用域有两种:Singleton 和 Prototype。Singleton (单例…

STM32 HAL库F103系列之ADC实验(一)

ADC工作原理: 1、输入通道: 2、转换序列: A/D转换被组织为两组:规则组(常规转换组)和注入组(注入转换组) 规则组最多可以有16个转换,注入组最多有4个转换 规则组和注入…

【GIS面试】GIS算法介绍

作者:后端小肥肠 1. 前言 在地理信息系统(GIS)的领域中,算法扮演着极其重要的角色,它们使得复杂的空间数据分析成为可能。无论是在环境科学、城市规划,还是在灾害管理等众多领域,高效和精确的算…

【信号与系统 - 10】拉普拉斯变换

1 定义 周期信号的傅里叶变换那篇提到了&#xff1a; F ( j w ) ∫ − ∞ ∞ e − j w t f ( t ) d t F(jw)\int^{\infty}_{-\infty}e^{-jwt}f(t)dt F(jw)∫−∞∞​e−jwtf(t)dt 这个定义式需要满足绝对可积&#xff0c;即 ∫ − ∞ ∞ ∣ f ( t ) ∣ d t < ∞ \int…

C++11 数据结构5 队列的概念,队列的顺序存储,实现,测试

一&#xff0c;队列的概念 队列是一种特殊的受限制的线性表。 队列&#xff08;queue&#xff09;是只允许在一端进行插入操作&#xff0c;而在另一端进行删除操作的线性表。 队列是一种先进先出的t&#xff08;First In First Out&#xff09;的线性表&#xff0c;简称FIF…