文本标注技术方案(NLP标注工具)

Doccano

doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。

支持命名实体识别,情感分类,机器翻译任务,界面比较友好。

  • 当前公司私有化部署的地址:(当前挂掉了,后端处理中)
  • git:https://github.com/doccano/doccano

技术方案

前端:vue2 + nuxt

后端:python

技术难点

  1. 标注工具编辑器部分组件

功能:

  • 支持标注 Label
  • 支持关系 Relation

开源组件:

  • vue 组件:
    • https://www.npmjs.com/package/v-annotator
    • https://github.com/doccano/v-annotator/blob/master/package.json
    • demo:https://github.com/doccano/doccano/blob/93cfd52924378bd2c8e109fff2b072199ff2e8bc/frontend/pages/demo/named-entity-recognition/index.vue
<v-annotator:dark="$vuetify.theme.dark":rtl="rtl":text="text" //文本内容:entities="entities" // 注解内容:entity-labels="entityLabels" // 注解标签:relations="relations"// 关系内容:relation-labels="relationLabels" // 关系标签:allow-overlapping="allowOverlapping":grapheme-mode="graphemeMode":selected-entities="selectedEntities"@add:entity="handleAddEvent" // 添加注解内容@click:entity="onEntityClicked"  // 点击注解@click:relation="onRelationClicked" // 点击关系@addRelation="addRelation" // 添加 关系@contextmenu:entity="deleteEntity" // 右键菜单点击@contextmenu:relation="deleteRelation" // 右键菜单点击/><entity-editor:dark="$vuetify.theme.dark":rtl="rtl":text="currentDoc.text":entities="currentDoc.annotations":entity-labels="entityLabels":relations="relations":relation-labels="relationLabels":allow-overlapping="allowOverlapping"@addEntity="addEntity"@click:entity="updateEntity"@contextmenu:entity="deleteEntity"@contextmenu:relation="deleteRelation"/>
  • react 组件

https://github.com/microsoft/react-text-annotator

当前看 v-annotator 是 doccanno 封装的一个组件,react 这个组件要分析一下是不是支持当前的特性

代码如下:

import {AnnotationData, Labeler} from 'react-text-annotator'const HomePage: React.FC = () => {const annotations: AnnotationData[] = [{id: 'id1',color: 'red',endToken: 5,startToken: 0,name: 'label111111',kind: 'label',onClick:(e) => {console.log(e);},level: 1,// 设置层级onRenderTooltip: (e) =><>label111111</>},{id: 'id1',color: 'green',endToken: 5,startToken: 1,name: 'label222222',kind: 'label',onRenderTooltip: (e) =><>label222222</>},{id: 'id2',color: 'blue',endToken: 25,startToken: 10,name: 'relation',kind: 'relation',}
];const labelerText = 'This is sample text to test the labeler functionality.';return <><Labeler text={labelerText} annotations={annotations} labelerConfigs={{ isAnnotationResizingEnabled: true,isRtl: false, tokenizationType: 'character' }} labelerOverflow={'scroll'}labelerHeight={"100px"}/>
</>;
};export default HomePage;

下面的了解即可

YEDDA:(2016)(python)

优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。

YEDDA(以前的 SUTDAnnotator)是为在文本(几乎所有语言,包括英语、中文)、符号甚至表情符号上注释块/实体/事件而开发的。它支持快捷注释,对于手动注释文本非常有效。用户只需选择文本范围并按快捷键,该范围就会自动注释。它还支持命令注释模型,可以批量注释多个实体,并支持将注释文本导出为序列文本。此外,更新版本还增加了智能推荐和管理员分析。它兼容所有主流操作系统,包括Windows、Linux和MacOS。

https://github.com/jiesutd/YEDDA

python

Prodigy(2017):

Prodigy 是一种现代注释工具, 用于为机器学习模型创建训练和评估数据。您还可以使用 Prodigy 来帮助您检查和清理数据、进行错误分析以及开发基于规则的系统以与统计模型结合使用。

https://prodi.gy/docs/

Python library

Chinese-Annotator:(2017)

基于prodigy的中文标注工具

https://github.com/deepwel/Chinese-Annotator

demo:https://demo.prodi.gy/?=null&view_id=textcat

技术方案:

  • vue2 element
  • Python

Brat:(2010)

支持实体、关系、事件抽取的标注。可以标注情感。

优点在标注实体的同时可以进行关系标注,还可以实现二级标注。

brat rapid annotation tool

GitHub - nlplab/brat: brat rapid annotation tool (brat) - for all your textual annotation needs

技术方案

  • jq
  • Python

IEPY

主要用来信息抽取和关系抽取任务

https://github.com/machinalis/iepy

DeepDive

主要用来关系抽取任务,17就停止更新了

http://deepdive.stanford.edu/#documentation

个人小结

大致可以选用Brat,Doccano,YEDDA,Prodigy试一下,选用Brat是因为有现成的中文情感标注,还有Brat有关系标注,选用Doccano是它的页面很友好,而且可添加的标签数也比较多,选用YEDDA是它完全用Python桌面开发且支持中文,选用Prodigy是因为支持标注的功能最全。

中文分词工具(分词工具有的也可以做命名实体识别和词性标注,可以去看看)

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/96423.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入了解Kubernetes(k8s):安装、使用和Java部署指南(持续更新中)

目录 Docker 和 k8s 简介1、kubernetes 组件及其联系1.1 Node1.2 Pod1.3 Service 2、安装docker3、单节点 kubernetes 和 KubeSphere 安装3.1 安装KubeKey3.2 安装 kubernetes 和 KubeSphere3.3 验证安装结果 4、集群版 kubernetes 和 KubeSphere 安装5、kubectl 常用命令6、资…

如何在小红书进行学习直播

诸神缄默不语-个人CSDN博文目录 因为我是从B站开始的&#xff0c;所以一些直播常识型的东西请见我之前写的如何在B站进行学习直播这一篇。 本篇主要介绍一些小红书之与B站不同之处。 小红书在手机端是可以直接点击“”选择直播的。 文章目录 1. 电脑直播-小红书直播软件2. 电…

每日一题 1921. 消灭怪物的最大数量

难度&#xff1a;中等 思路&#xff1a; 已知速度和距离&#xff0c;可求时间必定先消灭时间最短的怪物求得时间数组排序&#xff0c;只要在第 i 秒时&#xff0c;time[i] > i &#xff0c;那么就可以消灭第 i 个怪物 代码&#xff1a; class Solution:def eliminateMax…

deque容器

1 deque容器基本概念 功能&#xff1a; 双端数组&#xff0c;可以对头端进行插入删除操作 deque与vector区别&#xff1a; vector对于头部的插入删除效率低&#xff0c;数据量越大&#xff0c;效率越低deque相对而言&#xff0c;对头部的插入删除速度回比vector快vector访问…

如何利用开源工具搭建AI大模型底座

开源社区是技术发展的一个重要部分&#xff0c;对于AI大模型来说&#xff0c;也是如此。 我们在这篇文章中来尝试通过开源工具来构建AI大模型的底座&#xff0c;涉及到的技术包括&#xff1a; LangchainOpenAIFlowiseLocalAILlama 使用Langchain构建第一个对话应用 如果你使…

udig下载、安装及汉化,生成geoserver图层样式sld文件

uDig是一款开源免费的桌面地理信息系统框架软件。uDig汉化版主要采用RCP技术构建&#xff0c;内置的多专业的水文工具&#xff0c;拥有复杂专业的分析能力&#xff0c;既可以作为独立程序运行&#xff0c;还可以作为插件使用。 uDig是一个 open source (EPL and BSD) 桌面应用程…

java线程状态

图形说明: Thread.State源码注释: public enum State {/*** 新生状态&#xff1a;线程对象创建&#xff0c;但是还未start()*/NEW,/*** 线程处于可运行状态&#xff0c;但是这个可运行状态并不代表线程一定在虚拟机中执行。* 需要等待从操作系统获取到资源(比如处理器时间片…

数据艺术:精通数据可视化的关键步骤

数据可视化是将复杂数据转化为易于理解的图表和图形的过程&#xff0c;帮助我们发现趋势、关联和模式。同时数据可视化也是数字孪生的基础&#xff0c;本文小编带大家用最简单的话语为大家讲解怎么制作一个数据可视化大屏&#xff0c;接下来跟随小编的思路走起来~ 1.数据收集和…

Sublime Text汉化,主打简单明了

在Sublime中设置中文的步骤如下&#xff1a; 1.打开Sublime Text&#xff0c;使用快捷键ShiftCtrlP&#xff08;MacOS下cmdShiftP&#xff09;&#xff0c;弹出查找栏。 2.在搜索框中输入关键字"install"&#xff0c;出现下拉选项&#xff0c;点击选择其中的"P…

音频——I2S 标准模式(二)

I2S 基本概念飞利浦(I2S)标准模式左(MSB)对齐标准模式右(LSB)对齐标准模式DSP 模式TDM 模式 文章目录 I2S format时序图逻辑分析仪抓包 I2S format 飞利浦 (I2S) 标准模式 数据在跟随 LRCLK 传输的 BCLK 的第二个上升沿时传输 MSB&#xff0c;其他位一直到 LSB 按顺序传传输依…

【IEEE会议】第五届信息与计算机前沿技术国际学术会议(ICFTIC 2023)

第五届信息与计算机前沿技术国际学术会议(ICFTIC 2023) 2023 5th International Conference on Frontiers Technology of Information and Computer 第五届信息与计算机前沿技术国际学术会议(ICFTIC 2023)将在中国青岛举行&#xff0c; 会期是2023年11月17-19日&#xff0c;…

C#-抽象类与接口

文章目录 一、抽象类和接口总结总结补充说明主要区别 二、抽象类2.1 抽象类概述与声明2.2 抽象方法2.3 抽象类与抽象方法的使用 三、接口3.1 接口概述概述特征声明示例 3.2 接口的实现和继承说明示例 3.3 显式接口成员实现说明注意示例 一、抽象类和接口总结 总结 抽象类和接…