基于深度学习方法的产业链中断事件监测:在中国的实际应用
Industrial Chain Disruption Events Monitoring with Deep
Learning Methods: A Practical Application in China
-
文章指出现有的工业链风险监控主要依赖人工筛选新闻,但效率不高。
-
ICDE 监控模型的提出:文章提出的监控系统包括两个模型:ICDE识别模型和ICDE关联模型。ICDE识别模型使用ERNIE深度学习模型从在线新闻中自动识别风险事件,关联模型则通过将这些风险事件与工业链中的节点进行匹配和关联,帮助识别哪些节点可能受到影响。
-
实际应用:文章以新能源汽车产业链为例,展示了该模型的实际效果。模型能够实时监控产业链中的各个节点,且识别准确率达到了92%。通过这个监控系统,政府和企业可以及时采取措施,减少工业损失。
-
贡献:
- 引入了基于新闻的工业链风险监控模型,改变了以往依赖定性分析的方式。
- 深度学习模型提升了监控的自动化和效率。
- 利用虚拟节点和相似节点建立的关联模型,改善了工业链节点与风险事件的匹配度。
-
结论:文章认为,利用该系统,政府可以更快速地应对工业链中的风险事件,降低损失,且模型可以扩展到不同语言和国家的工业链监控中。未来的优化方向包括过滤虚假新闻,以提高监控的准确性。
1. ICDE识别模型
-
目的:该模型的主要功能是从海量新闻数据中自动识别出与工业链中断相关的风险事件。传统方法依赖人工筛选新闻事件,但这一过程耗时且容易遗漏。ICDE识别模型则利用深度学习技术,通过自动分析新闻标题来识别潜在的风险事件。
-
技术方法:
- 该模型基于ERNIE(Enhanced Representation through Knowledge Integration)模型,ERNIE是一种预训练的深度学习模型,尤其擅长处理中文自然语言处理任务。文章中使用ERNIE模型对新闻标题进行分类,通过训练模型来识别新闻中涉及的风险事件。
- 数据集包括超过2万条新闻标题,通过人工标记这些新闻中是否包含风险事件,形成了包含600多条风险事件的数据集。之后,模型使用这些数据进行训练,并通过过采样技术来平衡数据集中风险事件和非风险事件的数量,确保模型能够准确地识别出风险事件。
-
模型效果:
- 文章中的实验结果显示,ICDE识别模型在测试集上的准确率达到91%,经过几轮迭代训练后,模型的泛化能力得到了进一步提升。
- 相较于情感分类模型(将负面新闻视为风险事件),ICDE识别模型表现出更高的准确性,情感分类模型的准确率仅为31%。通过不断优化模型,最终达到了高效识别海量新闻中风险事件的能力。
2. ICDE关联模型
-
目的:仅仅识别出风险事件还不足以对工业链中断做出全面的监控。ICDE关联模型的作用在于将识别到的风险事件与工业链中的具体节点(如原材料供应、生产设备等)进行匹配,以便了解哪些节点可能受到影响,从而制定应对措施。
-
技术方法:
- 工业链节点并不标准化,不同企业或机构可能使用不同的术语来描述相同的节点,例如在新能源汽车产业链中,有人使用“新能源汽车”,有人使用“电动汽车”,还有些人可能不写“动力电池”而是直接写“磷酸铁锂电池”。
- 为了解决这种术语不一致的问题,模型引入了相似节点和虚拟节点的概念。
- 相似节点:通过计算与工业链节点相关的词语相似性,识别出可能表示相同含义的不同词汇,例如“磷酸铁锂电池”与“动力电池”可能是相似节点。
- 虚拟节点:一些节点名称可能不会直接出现在新闻中,而是以一种包含关系的形式出现,例如“汽车芯片”可能包含了“MCU芯片”和“IGBT芯片”。为此,模型创建了虚拟节点,通过与实际节点建立包含关系,将新闻事件中的虚拟节点与实际的工业链节点关联起来。
-
模型的关联过程:
- 首先通过实体识别算法从新闻事件中提取主要的实体(如企业名、产品名等),并根据这些实体与工业链节点之间的关系,构建虚拟节点。
- 接着通过计算词向量相似度,找到与工业链节点相似的词汇,并通过相似节点和虚拟节点,逐步将识别出的风险事件与具体的工业链节点进行匹配。
- 最终,模型能够准确地识别出哪些工业链节点受到了风险事件的影响。