【大语言模型】应用：10分钟实现搜索引擎-编程知识

【大语言模型】应用：10分钟实现搜索引擎

本文利用20Newsgroup这个数据集作为Corpus(语料库)，用户可以通过搜索关键字来进行查询关联度最高的News，实现对文本的搜索引擎：

1. 导入数据集

from sklearn.datasets import fetch_20newsgroupsnewsgroups = fetch_20newsgroups()print(f'Number of documents: {len(newsgroups.data)}')
print(f'Sample document:\n{newsgroups.data[0]}')

2. 向量化单词

from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()
count.fit(newsgroups.data)
show_vocabulary(count)print(f'Size of vocabulary: {len(count.get_feature_names_out())}')def show_vocabulary(vectorizer):words = vectorizer.get_feature_names_out()print(f'Vocabulary size: {len(words)} words')# we can print ~10 words per linefor l in np.array_split(words, math.ceil(len(words) / 10)):print(''.join([f'{x:<15}' for x in l]))

3. 搜索引擎

#将语料库进行转化
corpus_bow = count.transform(newsgroups.data)#提供用户输入，对输入内容进行转化为BoW - Bag of word
query = input("Type your query: ")
query_bow = count.transform([query])from sklearn.metrics.pairwise import cosine_similarity#比较输入内容与语料库中的相似度
similarity_matrix = cosine_similarity(corpus_bow, query_bow)
print(f'Similarity Matrix Shape: {similarity_matrix.shape}')

得到Similarity_matrix一共有N行，表示语料库中的文档数。还有一列，代表相似度系数。

第K行的相似度系数，代表用户输入的文本与语料库中第K个文档的相似程度。

我们对相似度矩阵进行排序：

similarities = pd.Series(similarity_matrix[:, 0])
similarities.head(10)

那么和用户输入最相关的文档就是第一个了！

print('Best document:')
print(newsgroups.data[top_10.index[0]])

结论：本文利用Cosine_similarity比较文档的相似度，从语料库找出最佳匹配的文档。

如果对单词的向量化，BoW概念有问题可以看下我的另一篇文章。

CSDN

下面一篇文章我会具体分析Cosine_similarity的原理，敬请关注！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/616770.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【大语言模型】应用：10分钟实现搜索引擎

相关文章

Matlab与ROS(1/2)---Simulink(二)

Spark_SparkSql写入Oracle_Undefined function.....将长字符串写入Oracle中方法..

STM32利用软件I2C通讯读MPU6050的ID号

005Node.js模块URL的使用

单链表经典算法题分析

策略模式（知识点）——设计模式学习笔记

读所罗门的密码笔记19_治理模式

(UDP)其他信息: 通常每个套接字地址(协议/网络地址/端口)只允许使用一次。

如何访问远程服务器？

python练习杂糅⑥——核心语法与基本库的应用

Linux 硬链接和软链接怎么区分使用？

基于SpringBoot实现的在线拍卖系统