1 概述:知识抽取
定义
- 知识抽取通常指从非结构化文本中挖掘结构化信息。
例如,含有丰富语义信息的标签和短语。
这在业界被广泛应用于内容理解和商品理解等场景,通过从用户生成的文本信息中提取有价值的标签,将其应用于内容或商品上
- 知识抽取通常伴随着对所抽取标签或短语的分类
- 通常被建模为命名实体识别任务,通用的命名实体识别任务就是识别命名实体成分并将成分划分到地名、人名、机构名等类型上;
- 领域相关的标签词抽取将标签词识别,并划分到领域自定义的类别上,如:系列(空军一号、音速 9)、品牌(Nike、李宁)、类型(鞋、服装、数码)、风格(ins 风、复古风、北欧风)等。
关键技术
1、实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify);
2、关系抽取:通常我们说的三元组(triple)抽取,一个谓词(predicate)带2个形参(argument);
3、事件抽取:相当于一种多元关系的抽取。
主要应用
- 1 命名实体作为索引和超链接。
- 2 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类。
- 3 关系抽取(Relation Extraction)的准备步骤。
- 4 QA 系统,大多数答案都是命名实体。
知识抽取方法的分类
本文从标签词挖掘和标签词分类两个角度介绍知识抽取的经典方法。
将标签词挖掘方法分为无监督方法、有监督方法及远程监督方法,如图 所示。
标签词挖掘通过候选词挖掘和短语打分两个步骤筛选高打分的标签词,标签词分类通常将标签词抽取和分类联合建模,转化为命名实体识别的序列标注任务。
标签词挖掘
无监督方法
基于统计的方法
基于图的方法 Graph-Based Model
基于表征的方法 Embedding-Based Model
有监督方法
远监督方法
AutoPhrase
标签词分类
有监督方法
NER 序列标注模型
远监督方法
AutoNER
BOND
X 参考文献
- 第2章 知识抽取:概述、方法 - CSDN
- 我们一起聊聊知识抽取,你学会了吗? - PHP中文网
- 【1】Campos R, Mangaravite V, Pasquali A, et al. Yake! collection-independent automatic keyword extractor[C]//Advances in Information Retrieval: 40th European Conference on IR Research, ECIR 2018, Grenoble, France, March 26-29, 2018, Proceedings 40. Springer International Publishing, 2018: 806-810. https://github.com/LIAAD/yake
- 【2】Mihalcea R, Tarau P. Textrank: Bringing order into text[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411.
- 【3】Bennani-Smires K, Musat C, Hossmann A, et al. Simple unsupervised keyphrase extraction using sentence embeddings[J]. arXiv preprint arXiv:1801.04470, 2018.
- 【4】KeyBERT,https://github.com/MaartenGr/KeyBERT
- 【5】Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction[C]//Proceedings of the fourth ACM conference on Digital libraries. 1999: 254-255.
翻译内容:
- 【6】熊L,胡C,熊C,等。超越语言模型的开放领域Web关键词提取[J]。arXiv预印本arXiv:1911.02671,2019年
- 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). Joint Keyphrase Chunking and Salience Ranking with BERT. arXiv preprint arXiv:2004.13639.
需要重写的内容是:
- 【8】张Y,杨J。使用格子LSTM的中文命名实体识别[C]。ACL 2018
- 【9】Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[C]. ACL 2020.
- 【10】Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
- 【11】 Shang J, Liu L, Ren X, et al. Learning named entity tagger using domain-specific dictionary[C]. EMNLP, 2018.
- 【12】Liang C, Yu Y, Jiang H, et al. Bond: Bert-assisted open-domain named entity recognition with distant supervision[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064.
- 【13】美团搜索中NER技术的探索与实践,https://zhuanlan.zhihu.com/p/163256192