网页可读内容抽取 API 数据接口

news/2024/11/16 22:35:23/文章来源:https://www.cnblogs.com/parry/p/18390730

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息,智能抽取,多种元素信息。

gugudata_api_cover

1. 产品功能

  • 智能提取网页可阅读内容;
  • 提供网页可阅读内容的 HTML 代码;
  • 支持传递网页 HTML 或网页 URL 参数;
  • 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
  • 秒级解析性能,支持高并发;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/readability

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY
html string YOUR_VALUE 需要抽取的网页 HTML 内容,与参数 url 二选一
url string YOUR_VALUE 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名 参数类型 备注
DataStatus.RequestParameter string 接口请求参数
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.Title string 文章标题
Data.Byline string 文章作者
Data.Dir string 文章文字方向
Data.Lang string 文章语言
Data.Content string 文章内容
Data.TextContent string 文章内容(不包含 HTML 标签,按段落分割)
Data.Length int 文章长度
Data.Excerpt string 文章摘要
Data.SiteName string 网站名称
Data.PublishedTime string[] 文章发布时间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/790220.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9 张图总结 MySQL 架构

原文:9 张图总结一下 MySQL 架构前言 目前大部分的后端开发人员对MySQL的理解可能停留在一个黑盒子阶段。 对MySQL基本使用没什么问题,比如建库、建表、建索引,执行各种增删改查。 所有很多后端开发人员眼中的MySQL如下图所示:导致在实际工作中碰到MySQL中死锁异常、SQL性能…

The 1st Universal Cup. Stage 8: Slovenia

Preface 这场其实是昨天打的,但因为今天没训练就摆烂拖到今天才补题和写博客 这场题感觉都挺可做的,但前期出题有点慢导致后期没时间了,徐神和祁神赛后 20min 过了 J 有点可惜A. Bandits 题都没看,不做评价B. Combination Locks 不难发现这题本质就是在 0/1 串上操作,每次…

梁山县技工学校继续教育刷课脚本-JavaScript编写

脚本 学习网站:lsx.qzjystudy.com 脚本地址:梁山县技工学校继续教育-刷课脚本 教程 1.插件安装(以Microsoft Edge浏览器为例)打开最中间那个蓝色绿色的浏览器,谷歌之类的浏览器也可以点击屏幕右上角三个点,图示位置,然后点击扩展点击获取扩展搜索Tampermonkey,并点击获取…

学习公社刷课脚本-JavaScript编写

脚本 学习网站:教育干部网络学院: www.enaea.edu.cn 脚本地址:教育干部网络学院-刷课脚本 教程 1.插件安装(以Microsoft Edge浏览器为例)打开最中间那个蓝色绿色的浏览器,谷歌之类的浏览器也可以点击屏幕右上角三个点,图示位置,然后点击扩展点击获取扩展搜索Tampermonke…

【SQL注入】代码安全审计经验分享

一、MyBatis框架中的注入漏洞 Mybatis框架支持的CURD功能可以直接搜索XML文件中的${和${}拼接的SQL语句,如果SQL的参数可控,就可能造成注入风险。 另外,有的SQL语句使用的是注解开发,把SQL语句可以直接写在了代理接口方法上方,审计的时候可以将两种情况都注意一下,或许有…

2024-08-31:用go语言,给定一个数组apple,包含n个元素,每个元素表示一个包裹中的苹果数量; 另一个数组capacity包含m个元素,表示m个不同箱子的容量。 有n个包裹,每个包裹内装有

2024-08-31:用go语言,给定一个数组apple,包含n个元素,每个元素表示一个包裹中的苹果数量; 另一个数组capacity包含m个元素,表示m个不同箱子的容量。 有n个包裹,每个包裹内装有指定数量的苹果,以及m个箱子,每个箱子的容量不同。 任务是将这n个包裹中的所有苹果重新分配…

主元素问题(C语言)

主元素问题(C语言) 题目参考代码 #include <stdio.h> int main() {// 主元素问题int n, s[400002], num = 1, max = 0, maxNum = 0;scanf("%d", &n);for (int i = 0; i < n; i++)scanf("%d", &s[i]);for (int i = 0; i < n; i++) //…

如何在愈发激烈的2025广西南宁中考中生存下来

背景 以2024年为例 吃了择校的亏 七年级结束后,北宁市教育局突然通知北宁市的X中学和S学校转为公办。 近年来教育改革过程中,我确实没有吃到这个时代发展的红利,反观北宁市的一些高中越来越卷,逐渐衡水化。 要求 考前学科答题规范讲座(语文主讲:南宁二中申颖老师):不要…

Markdown学习20221418曾庆林

一、我掌握的内容 1.Markdown及其基本的语法(标题,有序列表,代码) 2.线下工具vscode 二、我没有掌握的内容 1.markdown详细语法(斜体,无序列表,链接,引用,分割线,表格) 2.线上工具 3.插入公式,绘图,格式转换 4. ChatGPT 等 AIGC 的提示词工程中的应用 三、实践 斜…

20221421李旻奇Markdown学习

问题1:哪些内容是你掌握的?哪些内容是你没有掌握的?使用AI推荐的工具或者你喜欢的工具实践一下没有掌握的内容 本次学习使用ChatGPT回复 我掌握的 Markdown是一种轻量级的标记语言,用于格式化文本。它的设计目标是使文本在不需要复杂工具的情况下能保持良好的可读性和可写性…