基于百川大语言模型的RSS新闻过滤应用【云服务器+公网网页,随时随地看自己DIY订阅的新闻内容】

背景

目前从公众号、新闻媒体上获得的新闻信息,都是经过算法过滤推荐的,很多时候会感到内容的重复性和低质量,因为他们也要考虑到自己的利益,并非完全考虑用户想要的、对用户有价值的信息。这时,如果要获取自己认为重要的信息,定制化开发自己的筛选算法更好。

效果

在这里插入图片描述
在这里插入图片描述

素材

软硬件资源

  • GTX 4060 8GB显存,windows10,python3.7
  • frp用于本地机器与远程服务器通信,实现内网端口转发
  • 腾讯云服务器一台+个人域名一个,用于远程访问网页。

LLM大语言模型

本文使用的是Baichuan2,可用huggingface transformers库直接使用,各项评测集指标还不错,示例代码如下,后面会有更详细使用:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan2-7B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(4).cuda() 
model.generation_config = GenerationConfig.from_pretrained("baichuan-inc/Baichuan2-13B-Chat")
messages = []
messages.append({"role": "user", "content": "解释一下“温故而知新”"})
response = model.chat(tokenizer, messages)
print(response)

新闻数据获取RSS订阅

RSS订阅源不同,解析脚本不同,这里给出一个关于中国新闻网的订阅示例,
网页版内容如下:
在这里插入图片描述
使用feedparser库获取内容,使用BeautifulSoup获取新闻链接中的详细正文内容:
如果python提升ssl验证安全的问题,请记得使用科学上网方法,或者切换为python3.7。

# -*- coding: utf-8 -*-
import requests
import feedparser
from bs4 import BeautifulSoup
def get_new_info( url = "http://www.chinanews.com/gj/2024/04-12/10197213.shtml"):# 发送 HTTP 请求并获取网页内容response = requests.get(url)print(response)response.encoding = response.apparent_encoding# response.encoding = "utf-8"# 检查请求是否成功if response.status_code == 200:# 获取网页源代码html_content = response.textelse:print("Error:", response.status_code)soup = BeautifulSoup(html_content, 'html.parser')left_zw = soup.find_all(name='div',attrs={"class":"left_zw"})paragraphs_list = list(left_zw)# print(paragraphs_list[0])news=''for p in paragraphs_list:# print(p.get_text())news+=p.get_text().strip()return newsrss_url_follow=["https://www.chinanews.com.cn/rss/importnews.xml",  # 要闻导读"https://www.chinanews.com.cn/rss/world.xml",       # 国际新闻"https://www.chinanews.com.cn/rss/finance.xml","https://www.chinanews.com.cn/rss/china.xml",
]
fout=open('news.txt','w')
for rss_url in  rss_url_follow:feed = feedparser.parse(rss_url)print(feed)for entry in feed.entries:print("url=%s=title=%s=summary=%s"%(entry.link,entry.title,entry.summary))# break# new = get_new_info(entry.link)temp = "url=%s=title=%s=summary=%s"%(entry.link,entry.title,entry.summary)fout.write("%s\n\n"%(temp))
fout.close()

基于LLM大语言模型的新闻数据类别分类

通过问答的方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697060.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

经验分享打开keil工程下载按钮是灰色的解决办法

问题背景 打开一个工程发现download的按钮是灰色的,这种是怎么回事呢? 调研问题 工程中有使用.lib的文件库,而且是一个私有的库,类似这种祖传的工程,一般是能用则用,不能用则弃之不用。 解决问题 在网络…

打印机 ansible配置dhcp和打印机

部署dhcp服务器 主机发送Discover报文 目标为广播地址 同一网段的dhcp收到报文后,dhcp响应一个offer报文 offer报文:dhcp自己的ip地址。和客户端ip以及使用周期,和客户端ip网络参数 最后主机单独发一个request报文 给那个选择的dhcp服务器 &…

面试题:调整数字顺序,使奇数位于偶数前面

题目: 输入一个整数数组,实现一个函数,来调整该数组中数字的顺序 使得所有奇数位于数组的前半部分,所有偶数位于数组的后半部分 算法1: 利用快速排序的一次划分思想,从2端往中间遍历 时间复杂度&#x…

CSS常用滤镜效果

CSS 提供了多种滤镜效果,可以通过 filter 属性应用于 HTML 元素。以下是一些常用的 CSS 滤镜效果: 一、灰度 (Grayscale) 将图像转换为灰度图像。值在 0%(原始图像)和 100%(完全灰度)之间。 filter: gra…

springmvc核心流程

核心流程及配置 核心流程 执行流程 用户发送请求到DispatcherServlet前端控制器,前端控制器收到请求后自己不进行处理,而是委托给其他的解析器进行处理,作为统一访问点,进行全局的流程控制 DispatcherServlet调用HandlerMapping映…

图生视频,Stable Diffusion WebUI Forge内置SVD了!

在 Stable Diffusion WebUI Forge 版本中内置了一个SVD插件,也就是 Stable Video Diffusion(稳定视频扩散),之前我介绍过这个工具的使用方法:图片生成视频(独立部署SVD) 但是当时还不能集成到Stable Diffu…

Docker运行出现iptables: No chain/target/match by that name报错如何解决?

在尝试重启 Docker 容器时遇到的错误信息表明有关 iptables 的配置出了问题。这通常是因为 Docker 需要配置网络,而 iptables 规则没有正确设置或被意外删除。具体到你的错误信息中,报错 iptables: No chain/target/match by that name 表示 Docker 尝试…

嵌入式人工智能是一个怎样的概念呢?

嵌入式人工智能将会是未来几年人工智能发展的主要方向之一,并且会伴随着一系列的职位和角色的出现。虽然目前还没有嵌入式人工智能的确切定义,但随着人工智能的不断发展,它势必会延伸到边缘、终端和嵌入式市场。 嵌入式人工智能具有速度快、功…

vivado Kintex UltraScale+ 配置存储器器件

Kintex UltraScale 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Kintex UltraScale 器件执行擦除、空白检查、编程和验证等配置操作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 , 并支持通过 Vivado 软件对其中所列非易失性存…

深入浅出:ConcurrentLinkedQueue源码分析与实战

哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…

文本分类的深度注意图扩散网络 笔记

1 Title Deep Attention Diffusion Graph Neural Networks for Text Classification(Yonghao Liu、Renchu Guan、Fausto Giunchiglia、Yanchun Liang、Xiaoyue Feng)【EMnlp 2021】 2 Conclusion Text classification is a fundamental task with broad…

基于SpringBoot + MySQL的宠物医院管理系统设计与实现+毕业论文+指导搭建视频

系统介绍 项目的使用者可以避免排队挂号,比较方便,也方便于宠物医院的管理。现在的宠物本系统根据华阳社区宠物医院管理工作流程将系统使用者划分为三类,分别为、宠物医生、宠物主人以及系统管理人员,以下是对该三类类用户的具体…