jieba
是一个广泛使用的 Python 中文分词库,主要用于将中文文本切分成独立的词语。
https://github.com/fxsjy/jieba
安装
pip install jieba
使用
(1)分词
import jieba # 分词 text = "我爱自然语言处理" words = jieba.cut(text, cut_all=False) # 精确模式 print("分词结果:", "/ ".join(words))
分词结果: 我/ 爱/ 自然语言/ 处理
(2)词性标注
import jieba.posseg as pseg text = "我爱自然语言处理" # 词性标注 words = pseg.cut(text) for word, flag in words:print(f"{word} - {flag}")
我 - r
爱 - v
自然语言 - l
处理 - v
(3)关键词提取
基于 TF-IDF 算法的关键词抽取
import jieba.analyse # 关键词提取 text = "我爱自然语言处理" keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True, allowPOS=('l', 'v')) print("关键词:", keywords)
关键词: [('自然语言', 5.2174708746), ('处理', 2.70542782868)]
关键词: ['自然语言', '处理']
基于 TF-IDF 算法的关键词抽取
import jieba.analyse # 关键词提取 text = "我爱自然语言处理" keywords = jieba.analyse.textrank(text, topK=3, withWeight=True, allowPOS=('l', 'v')) print("关键词:", keywords)
关键词: [('自然语言', 1.0), ('处理', 0.9961264494011037)]