Goose-编程知识

Goose

news/2025/3/19 23:25:10/文章来源:https://www.cnblogs.com/baby123/p/18782140

今天试用了几个提取网页内容的，为了避免以后忘记，先记下来

Goose 是一个开源的网页内容提取库，主要用于从网页中提取文章的主要文本内容

适用于那些结构化较好、主要由文章组成的网页

在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色

安装

pip install goose3

使用

from goose3 import Goose# 初始化 Goose
g = Goose()
# 目标网页URL
url = 'https://baijiahao.baidu.com/s?id=1826832261648783621'# 提取文章
article = g.extract(url=url)# 输出提取的信息
print('Title:', article.title)
print('Author:', article.authors)
print('Publish Date:', article.publish_date)
print('Main Text:', article.cleaned_text)

Title: 春风有约情谊绵绵！千佛山相亲大会报名即将截止，速速来脱单
Author: []
Publish Date: None
Main Text:

没有输出我想要的

查了下资料，因为提取的是汉字，必须导入中文分词停用词表

from goose3 import Goose
from goose3.text import StopWordsChinese# 初始化 Goose
g = Goose({"stopwords_class":StopWordsChinese})
# 目标网页URL
url = 'https://baijiahao.baidu.com/s?id=1826832261648783621'# 提取文章
article = g.extract(url=url)# 输出提取的信息
print('Title:', article.title)
print('Author:', article.authors)
print('Publish Date:', article.publish_date)
print('Main Text:', article.cleaned_text)

Title: 春风有约情谊绵绵！千佛山相亲大会报名即将截止，速速来脱单
Author: []
Publish Date: None
Main Text: 由齐鲁晚报·齐鲁壹点主办……相遇吧！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/901779.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

C++ 基础（1）

0x01 第一个C++程序 #include <iostream>int main() {std::cout << "Hello World!\n"; } // std::cout 向控制台输出内容的指令 // << 输出的运算符 // "" 字符串内容的边界符 // \n 输出换行 // Hello World 输出字符…

在ubuntu系统下与开发板连接问题记录

对我所遇到的问题以及解决方法进行简单的记录在开发板与ubuntu（非虚拟机）连接之后使用lsmod查看是否连接lsusb 我的显示如下：如果可以看到自己的USB设备那么就说明你已经安装了驱动如果没有请安装你的串口对应的驱动我的驱动是CH340 没有安装的朋友可以去下面网站进行…

maven为什么发生依赖冲突？怎么解决依赖冲突？

maven为什么发生依赖冲突？怎么解决依赖冲突？我们在开发的时候，偶尔会遇到依赖冲突的时候，一般都是NoClassDefFoundError、ClassNotFoundException、NoSuchMethodError。打开搜索框又发现有这个类，明明就是引入进来了，就是找不到，让人头疼 1. 依赖冲突场景在maven中依赖…

unstructured

unstructured 是一个开源的 Python 库，专门用于处理非结构化数据，如从 PDF、Word 文档、HTML 文件等中提取文本内容，并将其转换为结构化格式（1）安装依赖库pip install unstructured使用textfrom unstructured.partition.auto import partitionfilename = "a.txt"…

idea如何激活到2099年

前言最近发现idea如何激活使用的问题、网络上各种都是骗关注加各种公众号的最后也没有解决问题，下面分享一下我的激活方法是如何激活到2099年。目前适用于idea的所有版本。我以最新的ideaIU-2024.3为例。一去官网上下载idea 官网下载地址：https://www.jetbrains.com.cn/id…

202108032324 - kafka的生产流程

由上图可以看出：KafkaProducer有两个基本线程：主线程：负责消息创建，拦截器，序列化器，分区器等操作，并将消息追加到消息收集器 RecoderAccumulator中；消息收集器RecoderAccumulator为每个分区都维护了一个Deque<ProducerBatch> 类型的双端队列。 ProducerBatch…

Cython二进制逆向系列（三）运算符

在这篇文章里，我们会讨论Cython是如何处理运算符的（数学运算符、位运算符、in/not in 运算符、 ==运算符与逻辑运算符）。总的来叔其中大部分是调用虚拟机api来实现的。Cython二进制逆向系列（三）运算符在开始前，先给出本文用到的py源代码 def test1(x, y):# 数学运算符a…

QOJ 9785 Shrooks

曼哈顿距离转切比雪夫距离，对限制的贪心满足，扩宽限制，简化信息首先考虑限制的形式：对于两点 \((x_1, y_1), (x_2, y_2)\)，要求 \(|x_1 - x_2| + |y_1 - y_2| \le n\)。但是这个式子与 \(x_1, x_2, y_1, y_2\) 这 \(4\) 个值都强相关，且这里的绝对值也并不好拆开处理。 …

golang的GC机制

一、垃圾回收什么是垃圾回收？垃圾回收（GC,garbage collection）是自动内存管理的一种形式，通常由垃圾收集器收集并适时回收或重用不再被对象占用的内存，比如众所周知的Java语言就能很好的支持GC。后起之秀——Go语言也同样支持垃圾回收，它使得Go程序员在编写程序的时候不…

fastjson漏洞复现(fastjson 1.2.47)

原理： Fastjson 的 @type 字段允许反序列化时动态指定类，攻击者可以通过指定带有危险行为的类，并结合 RMI/LDAP 远程加载恶意类，从而实现命令执行。开启vulhub靶场//如何验证是否存在fastjson反序列化漏洞有json数据传输的地方可能存在可以尝试使用dnslog带外但是不知道…

基于神经网络逆同步控制方法的两变频调速电机控制系统matlab仿真

1.课题概述两电机变频调速系统是一个多输入多输出非线性强耦合的控制系统。本课题使用神经网络构造原系统的a阶逆系统，设计线性闭环调节器进行控制，通过matlab对系统进行仿真。对两电机变频调速系统更为精确地实现了张力和速度间的解藕控制。2.系统仿真结果（完整程序运行后…

使用gradio实现实时语音识别

这里通过gradio来实现实时语音识别,通过上传一个文件,当点击提交后则在右侧输出其相应识别的文字。实现代码比较简单,如下所示: import gradiodef convert(file_bytes):# 语音识别方法,其中file_bytes是采样率与对应numpy.ndarray实例return recognition_func(file_bytes[1])d…

Goose

相关文章