今天试用了几个提取网页内容的,为了避免以后忘记,先记下来
Goose
是一个开源的网页内容提取库,主要用于从网页中提取文章的主要文本内容
适用于那些结构化较好、主要由文章组成的网页
在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色
安装
pip install goose3
使用
from goose3 import Goose# 初始化 Goose g = Goose() # 目标网页URL url = 'https://baijiahao.baidu.com/s?id=1826832261648783621'# 提取文章 article = g.extract(url=url)# 输出提取的信息 print('Title:', article.title) print('Author:', article.authors) print('Publish Date:', article.publish_date) print('Main Text:', article.cleaned_text)
Title: 春风有约情谊绵绵!千佛山相亲大会报名即将截止,速速来脱单
Author: []
Publish Date: None
Main Text:
没有输出我想要的
查了下资料,因为提取的是汉字,必须导入中文分词停用词表
from goose3 import Goose from goose3.text import StopWordsChinese# 初始化 Goose g = Goose({"stopwords_class":StopWordsChinese}) # 目标网页URL url = 'https://baijiahao.baidu.com/s?id=1826832261648783621'# 提取文章 article = g.extract(url=url)# 输出提取的信息 print('Title:', article.title) print('Author:', article.authors) print('Publish Date:', article.publish_date) print('Main Text:', article.cleaned_text)
Title: 春风有约情谊绵绵!千佛山相亲大会报名即将截止,速速来脱单
Author: []
Publish Date: None
Main Text: 由齐鲁晚报·齐鲁壹点主办……相遇吧!