sklearn 计算 tfidf 得到每个词分数-编程知识

sklearn 计算 tfidf 得到每个词分数

news/2025/3/15 21:05:00/文章来源:https://blog.csdn.net/weixin_40994552/article/details/135936688

from sklearn.feature_extraction.text import TfidfVectorizer# 语料库 可以换为其它同样形式的单词
corpus = [list(range(-5, 5)),list(range(-6,4)),list(range(12)),list(range(13))]# corpus = [
#    ['Two', 'wrongs', 'don\'t', 'make', 'a', 'right', '.'],
#    ['The', 'pen', 'is', 'mightier', 'than', 'the', 'sword'],
#    ['Don\'t', 'put', 'all', 'your', 'eggs', 'in', 'one', 'basket', '.']]def dummy_fun(doc):return doctfidf_vec = TfidfVectorizer(analyzer='word',tokenizer=dummy_fun,preprocessor=dummy_fun,token_pattern=None)  # 使用 fit_transform() 得到 TF-IDF 矩阵。此为 scipy 稀疏矩阵
tfidf_matrix = tfidf_vec.fit_transform(corpus)
# print(tfidf_matrix)# 使用 get_feature_names() 得到不重复的单词
print(tfidf_vec.get_feature_names_out())# 得到每个单词对应的 ID
print(tfidf_vec.vocabulary_)

在这里插入图片描述

# 得到 corpus 中每个词得分
for i in range(len(corpus)):column_indexes = [tfidf_vec.vocabulary_[key] for key in corpus[i]]tf_idf = tfidf_matrix[i, column_indexes].toarray()[0]print(tf_idf)

在这里插入图片描述
参考：
Applying scikit-learn TfidfVectorizer on tokenized text
sklearn.feature_extraction.text.TfidfVectorizer

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/444122.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

第17次修改了可删除可持久保存的前端html备忘录：增加年月日星期，增加倒计时，更改保存区名称可以多个备忘录保存不一样的信息，匹配背景主题：现代深色

第17次修改了可删除可持久保存的前端html备忘录：增加年月日星期，增加倒计时，更改保存区名称可以多个备忘录保存不一样的信息，匹配背景主题：现代深色

第17次修改了可删除可持久保存的前端html备忘录：增加年月日星期，增加倒计时，更改保存区名称可以多个备忘录保存不一样的信息，匹配背景主题：现代深色备忘录代码： <!DOCTYPE html> <html lang&quo…

阅读更多...

检测CUDA 是否能访问GPU时回应速度慢【笔记】

检测CUDA 是否能访问GPU时回应速度慢【笔记】

SUPWEMICRO 418G-Q20X12 维护记录： 两台设备均已安装CUDA与Pytorch，在检测CUDA 是否能访问GPU，执行torch.cuda.is_available()命令时，一台设备速度秒回应True，但另外一台设备回应速度慢（1分钟左右&#xff…

阅读更多...

响应式Web开发项目教程（HTML5+CSS3+Bootstrap）第2版例5-6 绘制几何图形

响应式Web开发项目教程（HTML5+CSS3+Bootstrap）第2版例5-6 绘制几何图形

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>绘制几何图形</title> </head><body><canvas id"canvas" width"250" height"150" style"border: 1px b…

阅读更多...

YOLOv7独家改进：轻量级原创自研 | 一种多尺度的GSConv卷积变体，轻量化的同时能够实现涨点

YOLOv7独家改进：轻量级原创自研 | 一种多尺度的GSConv卷积变体，轻量化的同时能够实现涨点

💡💡💡本文独家改进：基于GSConv提出了一种Multi-Scale Ghost Conv的卷积变体，保证轻量级的同时实现涨点 💡💡💡在多个数据集验证能够涨点收录 YOLOv7原创自研 https://blog.csdn.net/m0_63774211/category_12511937.html 💡💡💡全网独家首发创新（原创…

阅读更多...

mybatisplus-多数据源配置

mybatisplus-多数据源配置

1. 流程 pom文件yml配置多数据源具体服务添加注解DS(“***”) 1.pom文件 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.0</vers…

阅读更多...

TSINGSEE青犀智能分析网关V4如何利用AI智能算法保障安全生产、监管，掀开安全管理新篇章

TSINGSEE青犀智能分析网关V4如何利用AI智能算法保障安全生产、监管，掀开安全管理新篇章

旭帆科技的智能分析网关V4内含近40种智能分析算法，包括人体、车辆、消防、环境卫生、异常检测等等，在消防安全、生产安全、行为检测等场景应用十分广泛。如常见的智慧工地、智慧校园、智慧景区、智慧城管等等，还支持抓拍、记录、告警、语音对…

阅读更多...

Windows11通过Hyper-V创建VM，然后通过vscode连接vm进行开发

Windows11通过Hyper-V创建VM，然后通过vscode连接vm进行开发

这边需要在win11上建立vm来部署docker(这边不能用windows版本的docker destop)，学习了下，记录。下载系统镜像首先下载系统镜像：https://releases.ubuntu.com/focal/ 这边使用的是ubuntu20.04.6 LTS (Focal Fossa) ，Server inst…

阅读更多...

node.js(nest.js控制器)学习笔记

node.js(nest.js控制器)学习笔记

nest.js控制器： 控制器负责处理传入请求并向客户端返回响应。为了创建基本控制器，我们使用类和装饰器。装饰器将类与所需的元数据相关联，并使 Nest 能够创建路由映射（将请求绑定到相应的控制器）。 1.获取get请求传参…

阅读更多...

基于 LLM+LlamaIndex+NebulaGraph，构建大模型知识图谱的检索（RAG）方法

基于 LLM+LlamaIndex+NebulaGraph，构建大模型知识图谱的检索（RAG）方法

最近，围绕着利用 LLM（Language Model）和知识图谱（KG，Knowledge Graphs）构建RAG（Retrieval Augmented Generation）流程引起了很多关注。在本文中，让我们通过利用 LlamaI…

阅读更多...

代理模式详解（重点解析JDK动态代理）

代理模式详解（重点解析JDK动态代理）

- 定义在解析动态代理模式之前，先简单看下整个代理模式。代理模式分为普通代理、强制模式、动态代理模式。其中动态代理模式主要实现方式为Java JDK提供的JDK动态代理，第三方类库提供的，例如CGLIB动态代理。代理模式就是为其他对象提供一种…

阅读更多...

MySQL 汉字字段拼音排序

MySQL 汉字字段拼音排序

原数据排序后 SELECTc1 FROMtest ORDER BYCONVERT ( c1 USING gbk )

阅读更多...

ubuntu20配置mysql8

ubuntu20配置mysql8

首先更新软件包索引运行 sudo apt update命令。然后运行 sudo apt install mysql-server安装MySQL服务器。安装完成后，MySQL服务将作为systemd服务自动启动。你可以运行 sudo systemctl status mysql命令验证MySQL服务器是否正在运行。连接MySQL 当MySQL安装…

阅读更多...

推荐文章

最新文章