大模型-提示词工程-信息提取-02-编程知识

大模型-提示词工程-信息提取-02

news/2024/9/19 19:25:35/文章来源:https://www.cnblogs.com/cavalier-chen/p/18421187

1. prompt
2. 代码

1. prompt

history:
[("现在你需要帮助我完成信息抽取任务，当我给你一个句子时，你需要帮我抽取出句子中实体信息，并按照JSON的格式输出，上述句子中没有的信息用['原文中未提及']来表示，多个值之间用','分隔。",'好的，请输入您的句子。'),('2023-01-10，股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元，一度飙升至105美元，随后回落至98美元，最终以102美元收盘，成交量达到520000。\n\n提取上述句子中"金融"(日期, 股票名称, 开盘价,      
收盘价, 成交量)的实体，并按照JSON格式输出，上述句子中不存在的信息用[\'原文中未提及\']来表示，多个值之间用\',\'分隔。','{"日期": ["2023-01-10"], "股票名称": ["古哥-D[EOOE]美股"], "开盘价": ["100美元"], "收盘价": ["102美元"], "成交量": ["520000"]}')
]

>>> sentence: 2023-02-15，寓意吉祥的节日，股票佰笃[BD]美股开盘价10美元，虽然经历了波动，但最终以13美元收盘，成交量微幅增加至460,000，投资者情绪较为平稳。
>>> inference answer:{'日期': ['2023-02-15'], '股票名称': ['佰笃[BD]美股'], '开盘价': ['10美元'], '收盘价': ['13美元'], '成交量': ['460,000']}

2. 代码

import re
import jsonfrom rich import print
# from transformers import AutoTokenizer, AutoModel
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer# 定义不同实体下的具备属性
schema = {'金融': ['日期', '股票名称', '开盘价', '收盘价', '成交量'],
}# 信息抽取的模版
IE_PATTERN = "{}\n\n提取上述句子中{}的实体，并按照JSON格式输出，上述句子中不存在的信息用['原文中未提及']来表示，多个值之间用','分隔。"# 提供一些例子供模型参考
ie_examples = {'金融': [{'content': '2023-01-10，股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元，一度飙升至105美元，随后回落至98美元，最终以102美元收盘，成交量达到520000。','answers': {'日期': ['2023-01-10'],'股票名称': ['古哥-D[EOOE]美股'],'开盘价': ['100美元'],'收盘价': ['102美元'],'成交量': ['520000'],}}]
}# 定义init_prompts函数
def init_prompts():"""初始化前置prompt，便于模型做 incontext learning。"""ie_pre_history = [("现在你需要帮助我完成信息抽取任务，当我给你一个句子时，你需要帮我抽取出句子中实体信息，并按照JSON的格式输出，上述句子中没有的信息用['原文中未提及']来表示，多个值之间用','分隔。",'好的，请输入您的句子。')]for _type, example_list in ie_examples.items():# print(f'_type-->{_type}')# print(f'example_list-->{example_list}')# print(f'*'*80)for example in example_list:sentence = example["content"]properties_str = ', '.join(schema[_type])# print(f'properties_str-->{properties_str}')schema_str_list = f'"{_type}"({properties_str})'# print(f'schema_str_list-->{schema_str_list}')sentence_with_prompt = IE_PATTERN.format(sentence, schema_str_list)# print(f'sentence_with_prompt-->{sentence_with_prompt}')ie_pre_history.append((f"{sentence_with_prompt}",f"{json.dumps(example['answers'], ensure_ascii=False)}"))# print(f'ie_pre_history-->{ie_pre_history}')print("history:")print(ie_pre_history)return {"ie_pre_history":ie_pre_history}def clean_response(response: str):"""后处理模型输出。Args:response (str): _description_"""if '```json' in response:res = re.findall(r'```json(.*?)```', response)if len(res) and res[0]:response = res[0]response = response.replace('、', ',')try:return json.loads(response)except:return responsedef inference(sentences: list,custom_settings: dict):"""推理函数。Args:sentences (List[str]): 待抽取的句子。custom_settings (dict): 初始设定，包含人为给定的 few-shot example。"""for sentence in sentences:cls_res = "金融"if cls_res not in schema:print(f'The type model inferenced {cls_res} which is not in schema dict, exited.')exit()properties_str = ', '.join(schema[cls_res])schema_str_list = f'"{cls_res}"({properties_str})'sentence_with_ie_prompt = IE_PATTERN.format(sentence, schema_str_list)# print(f'sentence_with_prompt-->{sentence_with_ie_prompt}')ie_res, history = model.chat(tokenizer,sentence_with_ie_prompt,history=custom_settings["ie_pre_history"])ie_res = clean_response(ie_res)print(f'>>> [bold bright_red]sentence: {sentence}')print(f'>>> [bold bright_green]inference answer:{ie_res} ')if __name__ == '__main__':tokenizer = AutoTokenizer.from_pretrained(r"chatglm2-6b-int4", trust_remote_code=True)model = AutoModel.from_pretrained(r"chatglm2-6b-int4", trust_remote_code=True).float()# model = AutoModel.from_pretrained(r"D:\02-weights\chatglm2-6b-int4", trust_remote_code=True).half().cuda()model = model.eval()# device = 'cpu'# model = AutoModel.from_pretrained(r"D:\02-weights\chatglm2-6b-int4",#                                   trust_remote_code=True).float()# model.to(device)sentences = ['2023-02-15，寓意吉祥的节日，股票佰笃[BD]美股开盘价10美元，虽然经历了波动，但最终以13美元收盘，成交量微幅增加至460,000，投资者情绪较为平稳。','2023-04-05，市场迎来轻松氛围，股票盘古(0021)开盘价23元，尽管经历了波动，但最终以26美元收盘，成交量缩小至310,000，投资者保持观望态度。',]custom_settings = init_prompts()inference(sentences,custom_settings)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/800040.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

BoardLight

这是一个easy程度的靶机，所以博主写的也很简单，总共有2个flag。信息收集端口扫描：发现开放了22，80端口 Web渗透最底部发现域名 board.htb写进/etc/hosts文件中 sudo echo "10.10.11.11 board.htb" | sudo tee -a /etc/hosts 对他进行子域名爆破…

LLM学习笔记-长度外推技术

长度外推为在不需要对模型进行额外训练的情况下，模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术，包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN。关于RoPE，可参见我的上一篇博客LLM学习笔记-位置编码篇位置插值回想…

裘立帆-第一次作业

在博客园建立个人技术博客，完善个人信息及博客设置，并发布一篇包含自我介绍、技能树与技术偏好、课程期望的随笔，以此作为课程参与的开始。这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/rjjc/这个作业的目标熟悉博客的写作和使用，将自己介绍给老师和助教姓名…

章14——集合——集合体系

目录两个难点底层机制，和不同应用场景下的选择集合体系图，需要背诵！总结： 1、集合主要是两组（单列集合、双列集合） 2、Collection 接口有两个重要的子接口 List Set, 他们的实现子列都是单列集合 3、Map 接口实现的子类是双列集合，存放的是key,value 4、上述两张图要记…

使用 VSCode 调试 Zig

首要条件是你本地需要安装MinGW-w64. 可以参考MinGW-w64安装教程——著名C/C++编译器GCC的Windows版本 - jack_Meng - 博客园 (cnblogs.com) 这里有几点需要注意，在2024年9月时，我没有找exe的安装，你需要在github下载 Releases niXman/mingw-builds-binaries (github.com) …

Go 入门指南：8.5. map 的排序

原创吃个大西瓜 Coding Big Tree2024年09月19日 08:00 云南map 默认是无序的，不管是按照 key 还是按照 value 默认都不排序（详见第 8.3 节）。如果你想为 map 排序，需要将 key（或者 value）拷贝到一个切片，再对切片排序（使用 sort 包，详见第 7.6.6 节），然后可以使用…

频率响应公式推导正弦输入的一般形式 \[u(t)=Asin(\omega_i)+bcos(\omega_i) \]整理 \[u(t)=M_i sin(\omega_i t + \phi_i) \\其中 \phi_i=arctan \frac{B}{A} \qquad ,M_i=\sqrt{A^2+B^2} \]输入到系统 G(s) \[\begin{aligned} U(s)& =\mathcal{L}[u\left(t\right)]=\…

vscode 搜索框3个按钮分别代表什么

https://blog.csdn.net/u012292754/article/details/108307288相信坚持的力量，日复一日的习惯.

数据库系统 1 关系数据库

数据库系统 1 关系数据库三层体系结构外部层：数据库的用户视图概念层：数据库的整体视图，提供内、外部层的映射和必要的独立性所有实体，实体的属性和实体间的联系数据的约束数据的语义信息安全性和完整性信息内部层：数据库在计算机上的物理表示数据独立性三层体系的主…

记录一次首页优化的经历

公司最近要进行多品牌合一，原来五个品牌的app要合并为一个。品牌立项、审批、方案确定，历史数据迁移、前期的基础工程搭建，兼容以及涉及三方的交互以及改造，需求梳理等也都基本完成，原来计划9月中旬进行上线，但是上线后服务端的压测一直通不过-首页抗不过太高的并发。app…

软工作业3：结对项目——实现一个自动生成小学四则运算题目的命令行程序

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里结对项目 - 作业 - 计科22级34班 - 班级博客 - 博客园 (cnblogs.com)这个作业的目标结对项目——实现一个自动生成小学四则运算题目的命令行程序成员1 陈奕奕 3222004552成员2 林闰…