PaddleNLP UIE -- 药品说明书信息抽取(名称、规格、用法、用量)

news/2024/7/7 18:23:08/文章来源:https://www.cnblogs.com/vipsoft/p/18281350

目录
  • 创建项目
  • 环境配置
  • 上传代码
  • 训练定制
    • 代码结构
    • 数据标注
      • 准备语料库
      • 数据标注
      • 导出数据
    • 数据转换
      • doccano
      • Label Studio
    • 模型微调
    • 模型评估
    • 定制模型一键预测
    • 效果

PaddleNLP UIE 实体关系抽取 -- 抽取药品说明书(名称、规格、用法、用量)

对于细分场景推荐使用轻定制功能(标注少量数据进行模型微调)以进一步提升效果

schema =['药品名称','用法','用量','频次']
ie = Taskflow('information_extraction',schema=schema)
pprint(ie("布洛芬分散片,口服或加水分散后服用。用于成人及12岁以上儿童,推荐剂里为一次0.2~0.4(1~2片)一日3次,或遵医嘱"))

如图:默认模型只能提取出药品名称,接下来,通过训练数据进行UIE模型微调
image

创建项目

登录AI Studio 免费算力 获得免费算力 https://aistudio.baidu.com/personalcenter/thirdview/2631487
药品说明书信息抽取
image
选择环境 PaddlePaddle 2.5.2
image
启动时,可以选择环境,CPU的基础版不限时,每天有8个点的算力供学习使用
image

环境配置

自己创建项目有个好处,避免了好多版本问题带来的坑:https://www.cnblogs.com/vipsoft/p/18265581#问题处理

  • Python 3.10.10
  • paddlepaddle-gpu Version: 2.5.2
  • PaddleNLP 2.6.1

image

上传代码

AI Studio 不能访问 gitee.com ,通过本地下载。再上传的方式操作
下载 V2.8:https://gitee.com/paddlepaddle/PaddleNLP/branches
image
上传代码
image
解压代码
unzip PaddleNLP-release-2.8.zip
image

训练定制

代码结构

model_zoo/uie 目录代码文件说明如下:

.
├── utils.py          # 数据处理工具
├── model.py          # 模型组网脚本
├── doccano.py        # 数据标注脚本 => 下面数据转换时会用到
├── doccano.md        # 数据标注文档
├── finetune.py       # 模型微调、压缩脚本
├── evaluate.py       # 模型评估脚本
└── README.md

数据标注

详细过程参考 数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

准备语料库

准备语料库、每一行为一条待标注文本,示例:corpus.txt

布洛芬分散片,口服或加水分散后服用。用于成人及12岁以上儿童,推荐剂里为一次0.2~0.4(1~2片)一日3次,或遵医嘱
白加黑(氨酚伪麻美芬片Ⅱ氨麻苯美片),口服。一次1~2片,一日3次(早、中各1~2白片,夜晚1~2片黑片),儿童遵医嘱
氯雷他定片,口服,规格为10mg的氯雷他定片,通常成人及12岁以上儿童1天1次,1次1片
扶他林(双氯芬酸二乙胺乳胶剂),外用。按照痛处面积大小,使用本品适量,轻轻揉搓,使本品渗透皮肤,一日3-4次
七叶洋地黄双苷,外用。用于黄斑变性时,每日3次,每次1滴,滴入眼结膜囊内(近耳侧外眼角)

数据标注

定义标签
Demo简单的定了 "药品名称、通用名、规格、用法、用量、频次"
image
数据标注
在doccano平台上,创建一个类型为序列标注的标注项目。
定义实体标签类别,上例中需要定义的实体标签有[ 药品名称、通用名、规格、用法、用量、频次 ]。
使用以上定义的标签开始标注数据,下面展示了一个doccano标注示例:
image

导出数据

标注完成后,在doccano平台上导出文件,并将其重命名为doccano_ext.json后,放入./data目录下
image
image

数据转换

doccano

在 AI Studio 环境中创建 data 目录,将 doccano_ext.json 放入data目录中
image
执行以下脚本进行数据转换,执行后会在./data目录下生成训练/验证/测试集文件。

python doccano.py \--doccano_file ./data/doccano_ext.json \--task_type ext \--save_dir ./data \--splits 0.8 0.2 0 \--schema_lang ch
# 执行后会在./data目录下生成训练/验证/测试集文件。
[2024-06-26 09:48:38,269] [    INFO] - Save 24 examples to ./data/train.txt.
[2024-06-26 09:48:38,269] [    INFO] - Save 5 examples to ./data/dev.txt.
[2024-06-26 09:48:38,269] [    INFO] - Save 0 examples to ./data/test.txt.

image

可配置参数说明:

  • doccano_file: 从doccano导出的数据标注文件。
  • save_dir: 训练数据的保存目录,默认存储在data目录下。
  • negative_ratio: 最大负例比例,该参数只对抽取类型任务有效,适当构造负例可提升模型效果。负例数量和实际的标签数量有关,最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效,默认为5。为了保证评估指标的准确性,验证集和测试集默认构造全负例。
  • splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。
  • task_type: 选择任务类型,可选有抽取和分类两种类型的任务。
  • options: 指定分类任务的类别标签,该参数只对分类类型任务有效。默认为["正向", "负向"]。
  • prompt_prefix: 声明分类任务的prompt前缀信息,该参数只对分类类型任务有效。默认为"情感倾向"。
  • is_shuffle: 是否对数据集进行随机打散,默认为True。
  • seed: 随机种子,默认为1000.
  • separator: 实体类别/评价维度与分类标签的分隔符,该参数只对实体/评价维度级分类任务有效。默认为"##"。
  • schema_lang: 选择schema的语言,可选有chen。默认为ch,英文数据集请选择en

备注:

  • 默认情况下 doccano.py 脚本会按照比例将数据划分为 train/dev/test 数据集
  • 每次执行 doccano.py 脚本,将会覆盖已有的同名数据文件
  • 在模型训练阶段我们推荐构造一些负例以提升模型效果,在数据转换阶段我们内置了这一功能。可通过negative_ratio控制自动构造的负样本比例;负样本数量 = negative_ratio * 正样本数量。
  • 对于从doccano导出的文件,默认文件中的每条数据都是经过人工正确标注的。

Label Studio

也可以通过数据标注平台 Label Studio 进行数据标注。 labelstudio2doccano.py 脚本,将 label studio 导出的 JSON 数据文件格式转换成 doccano 导出的数据文件格式,后续的数据转换与模型微调等操作不变。

python labelstudio2doccano.py --labelstudio_file label-studio.json

可配置参数说明:

  • labelstudio_file: label studio 的导出文件路径(仅支持 JSON 格式)。
  • doccano_file: doccano 格式的数据文件保存路径,默认为 "doccano_ext.jsonl"。
  • task_type: 任务类型,可选有抽取("ext")和分类("cls")两种类型的任务,默认为 "ext"。

模型微调

注意使用GPU环境
image
启用GPU 环境
image

aistudio@jupyter-2631487-8126673:~$ python -V
Python 3.10.10
aistudio@jupyter-2631487-8126673:~$ pip show paddlepaddle-gpu
Name: paddlepaddle-gpu
Version: 2.5.2
Summary: Parallel Distributed Deep Learning
Home-page: https://www.paddlepaddle.org.cn/
Author: 
Author-email: Paddle-better@baidu.com
License: Apache Software License
Location: /opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages
Requires: astor, decorator, httpx, numpy, opt-einsum, Pillow, protobuf
Required-by: 
aistudio@jupyter-2631487-8126673:~$ pip show paddlenlp
Name: paddlenlp
Version: 2.6.1.post0
Summary: Easy-to-use and powerful NLP library with Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including Neural Search, Question Answering, Information Extraction and Sentiment Analysis end-to-end system.
Home-page: https://github.com/PaddlePaddle/PaddleNLP
Author: PaddleNLP Team
Author-email: paddlenlp@baidu.com
License: Apache 2.0
Location: /opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages
Requires: aistudio-sdk, colorama, colorlog, datasets, dill, fastapi, Flask-Babel, huggingface-hub, jieba, jinja2, multiprocess, onnx, paddle2onnx, paddlefsl, protobuf, rich, safetensors, sentencepiece, seqeval, tool-helpers, tqdm, typer, uvicorn, visualdl
Required-by: paddlehub
aistudio@jupyter-2631487-8126673:~$ 

推荐使用 Trainer API 对模型进行微调。只需输入模型、数据集等就可以使用 Trainer API 高效快速地进行预训练、微调和模型压缩等任务,可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能,Trainer API 还针对训练过程的通用训练配置做了封装,比如:优化器、学习率调度等。
使用下面的命令,使用 uie-base 作为预训练模型进行模型微调,将微调后的模型保存至$finetuned_model
单卡启动:
cd PaddleNLP-release-2.8/model_zoo/uie/

export finetuned_model=./checkpoint/model_bestpython finetune.py  \--device gpu \--logging_steps 10 \--save_steps 100 \--eval_steps 100 \--seed 42 \--model_name_or_path uie-base \--output_dir $finetuned_model \--train_path data/train.txt \--dev_path data/dev.txt  \--per_device_eval_batch_size 16 \--per_device_train_batch_size  16 \--num_train_epochs 20 \--learning_rate 1e-5 \--label_names "start_positions" "end_positions" \--do_train \--do_eval \--do_export \--export_model_dir $finetuned_model \--overwrite_output_dir \--disable_tqdm True \--metric_for_best_model eval_f1 \--load_best_model_at_end  True \--save_total_limit 1

注意:如果模型是跨语言模型 UIE-M,还需设置 --multilingual

可配置参数说明:

  • model_name_or_path:必须,进行 few shot 训练使用的预训练模型。可选择的有 "uie-base"、 "uie-medium", "uie-mini", "uie-micro", "uie-nano", "uie-m-base", "uie-m-large"。
  • multilingual:是否是跨语言模型,用 "uie-m-base", "uie-m-large" 等模型进微调得到的模型也是多语言模型,需要设置为 True;默认为 False。
  • output_dir:必须,模型训练或压缩后保存的模型目录;默认为 None
  • device: 训练设备,可选择 'cpu'、'gpu' 、'npu'其中的一种;默认为 GPU 训练。
  • per_device_train_batch_size:训练集训练过程批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数;默认为 32。
  • per_device_eval_batch_size:开发集评测过程批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数;默认为 32。
  • learning_rate:训练最大学习率,UIE 推荐设置为 1e-5;默认值为3e-5。
  • num_train_epochs: 训练轮次,使用早停法时可以选择 100;默认为10。
  • logging_steps: 训练过程中日志打印的间隔 steps 数,默认100。
  • save_steps: 训练过程中保存模型 checkpoint 的间隔 steps 数,默认100。
  • seed:全局随机种子,默认为 42。
  • weight_decay:除了所有 bias 和 LayerNorm 权重之外,应用于所有层的权重衰减数值。可选;默认为 0.0;
  • do_train:是否进行微调训练,设置该参数表示进行微调训练,默认不设置。
  • do_eval:是否进行评估,设置该参数表示进行评估。

该示例代码中由于设置了参数 --do_eval,因此在训练完会自动进行评估。
image

模型评估

通过运行以下命令进行模型评估:

python evaluate.py \--model_path ./checkpoint/model_best \--test_path ./data/dev.txt \--batch_size 16 \--max_seq_len 512

输出:

[2024-07-03 14:14:16,345] [    INFO] - Class Name: all_classes
[2024-07-03 14:14:16,345] [    INFO] - Evaluation Precision: 1.00000 | Recall: 0.80000 | F1: 0.88889

通过运行以下命令对 UIE-M 进行模型评估:

python evaluate.py \--model_path ./checkpoint/model_best \--test_path ./data/dev.txt \--batch_size 16 \--max_seq_len 512 \--multilingual

评估方式说明:采用单阶段评价的方式,即关系抽取、事件抽取等需要分阶段预测的任务对每一阶段的预测结果进行分别评价。验证/测试集默认会利用同一层级的所有标签来构造出全部负例。

可开启debug模式对每个正例类别分别进行评估,该模式仅用于模型调试:

python evaluate.py \--model_path ./checkpoint/model_best \--test_path ./data/dev.txt \--debug

输出:

[2024-07-03 14:15:53,892] [    INFO] - -----------------------------
[2024-07-03 14:15:53,892] [    INFO] - Class Name: 通用名
[2024-07-03 14:15:53,892] [    INFO] - Evaluation Precision: 0.00000 | Recall: 0.00000 | F1: 0.00000
[2024-07-03 14:15:53,922] [    INFO] - -----------------------------
[2024-07-03 14:15:53,922] [    INFO] - Class Name: 药品名称
[2024-07-03 14:15:53,922] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2024-07-03 14:15:54,039] [    INFO] - -----------------------------
[2024-07-03 14:15:54,039] [    INFO] - Class Name: 用法
[2024-07-03 14:15:54,039] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2024-07-03 14:15:54,065] [    INFO] - -----------------------------
[2024-07-03 14:15:54,065] [    INFO] - Class Name: 用量
[2024-07-03 14:15:54,065] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2024-07-03 14:15:54,091] [    INFO] - -----------------------------
[2024-07-03 14:15:54,091] [    INFO] - Class Name: 频次
[2024-07-03 14:15:54,091] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000

可配置参数说明:

  • model_path: 进行评估的模型文件夹路径,路径下需包含模型权重文件model_state.pdparams及配置文件model_config.json
  • test_path: 进行评估的测试集文件。
  • batch_size: 批处理大小,请结合机器情况进行调整,默认为16。
  • max_seq_len: 文本最大切分长度,输入超过最大长度时会对输入文本进行自动切分,默认为512。
  • debug: 是否开启debug模式对每个正例类别分别进行评估,该模式仅用于模型调试,默认关闭。
  • multilingual: 是否是跨语言模型,默认关闭。
  • schema_lang: 选择schema的语言,可选有chen。默认为ch,英文数据集请选择en

image

定制模型一键预测

在 uie 目录下创建测试文件 drug.py (也可直接在终端命令行中敲,个人比较喜欢用文件的方式执行)

from pprint import pprint
from paddlenlp import Taskflowschema = ['药品名称','用法','用量','频次']# 设定抽取目标和定制化模型权重路径
my_ie = Taskflow("information_extraction", schema=schema, task_path='./checkpoint/model_best')
pprint(my_ie("布洛芬分散片,口服或加水分散后服用。用于成人及12岁以上儿童,推荐剂里为一次0.2~0.4(1~2片)一日3次,或遵医嘱"))# 不在语料库中的药品信息
pprint(my_ie("头孢克肟分散片,可用温开水融化后服用,或直接吞服。饭前饭后服用均可。成人及体重30公斤以上儿童:口服,每次50~100mg,每日2次;"))

注意到 drug.py 所在的目录 uie 下运行

aistudio@jupyter-2631487-8126673:~/PaddleNLP-release-2.8/model_zoo/uie$ python drug.py

输出

[{'用法': [{'end': 9,'probability': 0.9967116760425654,'start': 7,'text': '口服'}],'用量': [{'end': 50,'probability': 0.9942849459419811,'start': 46,'text': '1~2片'}],'药品名称': [{'end': 6,'probability': 0.9993706125082298,'start': 0,'text': '布洛芬分散片'}],'频次': [{'end': 55,'probability': 0.993725564192772,'start': 51,'text': '一日3次'}]}]
[{'用法': [{'end': 50,'probability': 0.9894656717712884,'start': 48,'text': '口服'},{'end': 24,'probability': 0.468091403198585,'start': 20,'text': '直接吞服'}],'用量': [{'end': 61,'probability': 0.7317206007179742,'start': 53,'text': '50~100mg'}],'药品名称': [{'end': 7,'probability': 0.999166781489965,'start': 0,'text': '头孢克肟分散片'}],'频次': [{'end': 66,'probability': 0.9919675951550744,'start': 62,'text': '每日2次'}]}]

效果

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/736868.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VMware vSphere Tanzu部署_03_vCenter部署

vCenter部署 部署vCenter通过安装ISO内的webui工具进行vCenter虚机部署配置部署位置为ESXI机器配置部署规格为tiny模式配置vcsa部署的磁盘类型为精简模式配置vcsa的网络初始化vCenter配置vcsa开启ntp同步和开启SSH登录配置vsphere登录账号和登录域调整vCenter内存大小在esxi中将…

05-Excel初阶操作-学习笔记

本期继续更新函数专题DATE函数 函数格式:DATE(参数1,参数2,参数3) 参数说明:参数1:年份;参数2:月份;参数3:日 作用:将文本类型转换为正确的日期格式 应用场景:身份证号提取出生日期其中,MID()是文本截取函数 注意!如果输入2000-2-30使用date函数后会进行进位显示2000…

OpenBMB Hugging Face THUNLP,大模型课开班丨伙伴活动推荐

2022 年,OpenBMB 开源社区联合 THUNLP 开国内大模型公开课先河,全网百万级播放量,已帮助无数大模型爱好者从入门到精通。这个夏天,OpenBMB 携手 HuggingFace、THUNLP 和面壁智能,推出大模型公开课第二季。全球知名开源社区 OpenBMB Hugging Face 梦幻联动,MiniCPM、Chat…

【Unity】HoloLens2 开发日记

2022/1/12 第一天! START ! 配置环境微软官方教程:练习 - 导入和配置资源 - Learn | Microsoft DocsWindows 10 SDK 地址:Windows SDK - Windows 应用开发 (microsoft.com)MRTK(混合现实工具包):Download Mixed Reality Feature Tool from Official Microsoft Download C…

深度学习--模型优化--模型的量化--92

目录1. 什么是量化2 位宽,高精度浮点数的表示3. K-means 聚类量化4. 均匀/线性量化(linear quantization)5. Thresholding量化 1. 什么是量化 量化可以理解为:从连续到离散,针对parameters(W)、activations(A)使用整数值取代浮点数值, 模型尺寸更小 改进inference时间…

Profibus DP主站转Modbus网关连接伺服与电机通讯

文章介绍了ProfibusDP主站转Modbus网关(XD-MDPBM20)在工业自动化中的应用,包括其定义、优势及连接伺服与电机通讯的步骤。Profibus DP主站转Modbus网关(XD-MDPBM20)是一种用于不同通讯协议之间转换的设备,它可以将Profibus DP主站的信号转换为Modbus协议,实现不同设备之…

Power BI实用技巧:轻松打造专业级甘特图

Power BI实用技巧:轻松打造专业级甘特图大家好,今天我们要一起探索Power BI中一个既实用又强大的功能——制作甘特图。甘特图以其直观展示项目时间线和任务进度的特点,在项目管理中扮演着重要角色,今天将为大家带来两种不同的甘特图制作方式——堆积条形甘特图、第三方视觉…

docker相关配置

避免 Docker Hub 限制,最好配置镜像 配置文件:/lib/systemd/system/docker.service 把文件里ExecStart=/usr/bin/dockerd-current替换成ExecStart=/usr/bin/dockerd-current --registry-mirror=https://a14c78qe.mirror.aliyuncs.com即可 配置成功后可查看docker运行状态:sy…

Power BI进阶秘籍,干货满满!如何将度量值转化为切片器(动态切换分析指标),实操指南来了!

Power BI进阶秘籍,干货满满!如何将度量值转化为切片器(动态切换分析指标),实操指南来了!想要在Power BI中让度量值也能像维度一样灵活筛选?没问题,这里就为你揭秘如何将度量值转化为切片器(动态切换分析指标)的实用方法!一、了解基础:首先,要知道Power BI原生不支…

SD中的VAE,你不能不懂

要想生成一幅美丽的图片,没有VAE可不行什么是VAE? VAE,即变分自编码器(Variational Autoencoder),是一种生成模型,它通过学习输入数据的潜在表示来重构输入数据。 在Stable Diffusion 1.4 或 1.5 模型中,通过VAE对模型进行部分更新,以提升模型渲染眼睛的能力。通过这种…

VSCODE 编辑markdown 文件

因为Obsidian版权问题,改用vscode编辑器 编辑markdown 文件 1.使用VSCODE 编辑markdown 文件 首先分别下载 Markdown 和markdown PDF 第三方插件 2.保存文件为md 格式,如果需要缓存图片,可以点击右上角的预览模块。就可以看图片了(window 和linux 服务器都是/ 分隔符) 如…

如何从服务器bios清除磁盘数据

解决问题并查找根源: 一、服务空间不足,服务无法部署或服务不可用 二、清理了大日志文件,但是空间还是不足 1.首先是通过df -h命令查看磁盘的使用情况,主演是看Avail(可用)和Use(已用)的占用百分比,如下所示: df -h Filesystem Size Used Avail Use% Mounted on /dev/m…

《安富莱嵌入式周报》第339期:单片机运行苹果早期Mac系统模拟器,2GHz示波器有源探头,下一代矩阵开关面包板,卡片式声音分贝器,HP经典示波器,ReRAM

周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 视频版 https://www.bilibili.com/video/BV1Kf421Q7Lh目录1、开源2GHz的示波器有源探头 2、模拟矩阵开关面包板Jumperless推出下一代Jumperless V5 3、软件相关…

IBM服务器SQL/ Oracle数据库修复

一、故障诊断: 1.使用IBM服务器管理工具(如IBM Storage Manager)连接到服务器,检查当前存储状态和数据库状态。 2.查看错误日志和系统日志,确定数据库损坏的具体原因,如硬盘故障、RAID阵列崩溃、文件系统损坏等。 风险评估: 1.评估数据库损坏的严重程度和恢复的可能性。…

对vue3中update:属性的理解

最近看到了一个项目中代码,类似于update:count。 对此不太明白用法,这里经过理解之后,记录一下。 大概是这样的这里的场景是父组件中引入了子组件,在父组件中有一个变量count,并将count传入到了子组件。 现在假设父组件上有个按钮,其作用是每次按下,就对父组件中的count…

Vue props的多类型定义报错的问题

报错内容:The "maxHeight" property should be a constructor vue/require-prop-type-constructor 代码中是这样实现的:解决办法: 改成数组型是就可以了

WPF进度条中间写百分比数字

我发现很多同学把思维固话了,通常我们需要实现的进度条是我在网上看到好多例子,但是都没有我的简单,他们不是重写ProcessBar就是使用模板, 可以将TextBlock提取出来啊,灵活一点单独绑定 然后一句代码Panel.ZIndex="1"就搞定了<StackPanel><Button Cont…

mysql连表查询出现数据重复

当我们连表查询遇见数据重复的时候 出现了 好多条 id一样的数据 是错误的 所以我们需要用到distinct关键字进行处理 保证我们数据的唯一性 接下来一个小知识 就是distinct关键字的使用 感谢观看 谢谢

Django中配置media媒体资源 - 存放用户上传的文件

1. 创建media文件夹 2. 配置settings.py# 指定媒体url MEDIA_URL = /media/ # 指定存放媒体文件的文件夹 MEDIA_ROOT = os.path.join(BASE_DIR, media)3. 在urls.py中添加from django.conf import settings from django.conf.urls.static import staticurlpatterns = [path(adm…

OMV数据恢复NAS阵列丢失

针对OMV数据恢复中NAS阵列丢失、RAID设备消失以及文件系统损坏的情况的操作。 一、确认故障现象: 1.检查OMV管理界面,确认RAID设备是否已消失,文件系统是否无法访问。 2.记录所有相关错误信息和日志,以便后续分析。 评估数据重要性: 确定丢失数据的重要性和紧急性,以便制…