数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等

1 前言

城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。

如何收集此类数据呢,互联网上提供了众多工具或代码,然后对于普通用户均有较高的使用门槛,并且需要调试用户体验不太理想,工作量也较大。

下面以目标网址为例:

上海楼盘网,上海新房一手房,上海房产网信息网,新开楼盘在售上海楼盘信息 - 安居客

为解决此类用户需求痛点,本着“所见所得”的设计理念,小O历时半年时间,重新对小O网兜软件进行重构,摈弃原有的使用思路,提升软件功能的同时,更加提升软件应用的灵活性,力求为用户提供更加实用的网页信息收集软件,这个过程中,反复测试,适配多种类型网页,面对及其复杂的网页内容结构,反复修改功能,再多次自我使用、测试、颠覆的状态中,终于发布新版本 0231,功能上超越之前版本,更加灵活可配置。

复杂功能和易用性有时难两全,软件在使用操作方面仍然有一定的门槛,好在软件也提供了数据模板功能,通过下载配置好的模板,用户可以跳过配置直接启动采集(不断扩充模板...),希望新版能够满足您数据采集上的需求,助力提升工作效率。

下文将以采集二手房源信息为例,带领大家感受软件功能。

本文操作流程概览

2 操作步骤

下载软件

登录官网 www.gis9.com ,首页往下滚动,下载【小O网兜】。

软件无需安装,下载后直接运行,可能会被防火墙或者软件管家之类的软件拦截,请将软件添加到信任列表里。

软件启动后进入主界面如图,请注册登录后使用软件。

新建任务

点击软件左上方网格球图标,打开任务向导窗口,可以新建和打开xop扩展名的任务文件。

当然,也可以直接从模板库中下载模板。

注意:任务文件保存着采集目标网页、采集的数据等信息,请妥善保存好。

本例子选择新建采集任务,设置任务文件保存目录,软件打开空的任务界面。如下图

打开目标网址,并新建采集规则,自动创建一组采集动作。

配置任务

依次配置每个动作的参数

【打开页面】

-- 该动作是让浏览器打开目标网址。

切换至动作参数,将当前网址复制到网址集合参数项里。如下图,点击批量生成后,会在列表页中新增网址记录。

【扫描页面】

-- 自动扫描页面所有元素,此动作无需配置。

如果目标页面带有向下滚动加载数据,可将超时参数设置大些,以便让程序自动将页面向下滚动,加载更多数据。

  • 滚动幅度:控制页面向下滚动的速度,值越大则越快。
  • 运行超时:控制页面滚动时长,可适当调大。

【读取数据】

-- 该动作从页面读取数据并保存至表格中。

  • (一) 点击【数据表】,弹出界面配置,新建存储表,默认会有一个表存储数据。如有需求,可以新建新表存储数据。

  • (二) 在读取数据Tab页中,点击数据块 / 新建菜单,新建读取数据块,如下图依次选择保存字段。对照页面设置需要采集的字段。

  • (三) 配置字段采集的数据,如下图,依次点击,使用[选择元素],在页面上右键选中目标元素,定位到[网页树]节点,在节点右键菜单,选[设置字段目标元素],设置目标元素至选中的字段。

  • (四) 选中[读数据块1],上图中 1 位置,需设置读取数据块和数据行。

  • (五) 点击字段,在页面下方有取值预览,调整参数获得想要的数据结果。
  • -- 设置参数[目标元素],在网页树选中节点,右键菜单,设置目标元素。
  • -- 设置取值参数,对值进行处理,预览值显示在下方。

  • (六) 点击表格,在页面下方能预览所有表格数据,页面中数据正确预览在表格中。

【翻页动作】

-- 设置翻页动作,执行后页面会自动翻页,提供多种方式翻页

查找和设置目标元素设置同上

设置翻页页码

  1. 点下一页按钮:设置下一页翻页,设置下一页目标元素,每次模拟翻页,可设置翻页执行次数。
  2. 逐个页码:设置页码翻页,设置翻页元素和页码,在页码中找到元素后执行翻页。

设置完成后, 可点击动作鼠标右键,单步执行该动作,验证页码是否翻页。

至此所有动作均配置完成。

执行任务

可挨个动作点击右键,执行单步,逐一执行动作。

也可以点击执行(循环),循环执行多有动作。下图,程序会进行运行直到结束。

异常情况,运行期间可能会出现异常情况,

1、 网页反扒,需要人工点击,此时可能会导致动作执行失效,人工点击验证后,再从任务点击右键继续循环执行。

2、 目标元素为找到,导致无法翻页。

导出数据

执行完毕后,打开【数据表】窗口,对采集数据进行处理后,导出CSV文件,可应用再其他软件中。

导出前,可对数据进行简单处理

--- 删除重复记录:选择 页码URL和标题作为唯一值进行排重

--- 导出数据:将表格数据导出CSV文件,可在EXCEL软件中打开表格。

到此就是小O网兜复制网页信息的全过程,感兴趣的朋友可登陆官网下载软件。

3 小结

小O网兜除了提供模板任务供用户直接下载并采集数据,也提供自定义配置功能,由用户自助式实现采集流程。本文以房源数据为例,介绍采集房源数据的操作流程,通过本文用户能够掌握房源数据采集任务的配置过程,满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能,能够采集绝大多数网页的列表数据和自动翻页操作,实现无人留守自动采集。

后续作者还将继续对标其他优秀同类软件,新增更多操作简便、实用、易用的软件功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/73561.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无脑入门pytorch系列(四)—— scatter_

本系列教程适用于没有任何pytorch的同学(简单的python语法还是要的),从代码的表层出发挖掘代码的深层含义,理解具体的意思和内涵。pytorch的很多函数看着非常简单,但是其中包含了很多内容,不了解其中的意思…

ansible入门

ansible入门 一.ansible 背景介绍 Ansible 是一个广受欢迎的 IT 自动化系统。可以用来处理配置管理、应用自动化部署、云资源配给、网络 自动化和多借点部署等任务。其也可以使得复杂的变更如带负载均衡的零停机滚动更新更加容易。Ansible.com 1.1 自动化运维概念 1.1.1 运维…

Linux0.11内核源码解析-truncate.c

truncate文件只要实现释放指定i节点在设备上占用的所有逻辑块,包括直接块、一次间接块、二次间接块。从而将文件节点对应的文件长度截为0,并释放占用的设备空间。 索引节点的逻辑块连接方式 释放一次间接块 static void free_ind(int dev,int block) {…

关于Linux Docker springboot jar 日志时间不正确 问题解决

使用Springboot项目的jar,制作了一个Docker镜像,启动该镜像后发现容器和容器中的Springboot 项目的日志时间不正确。 解决 查看容器时间命令为: docker exec 容器id date 1. 容器与宿主机同步时间 在启动镜像时候把操作系统的时间通过&q…

爬虫逆向实战(八)--猿人学第十五题

一、数据接口分析 主页地址:猿人学第十五题 1、抓包 通过抓包可以发现数据接口是api/match/15 2、判断是否有加密参数 请求参数是否加密? 查看“载荷”模块可以发现有一个m加密参数 请求头是否加密? 无响应是否加密? 无cook…

汽车领域专业术语

1. DMS/OMS/RMS/IMS DMS:即Driver Monitoring System,监测对象为Driver(驾驶员)。DMS三大核心: OMS:即Occupancy Monitoring System,监测对象为乘客。 RMS:后排盲区检测系统 IMS&…

【【Verilog典型电路设计之FIFO设计】】

典型电路设计之FIFO设计 FIFO (First In First Out)是一种先进先出的数据缓存器,通常用于接口电路的数据缓存。与普通存储器的区别是没有外部读写地址线,可以使用两个时钟分别进行写和读操作。FIFO只能顺序写入数据和顺序读出数据&#xff0…

N4010A|安捷伦Agilent N4010A蓝牙测试仪

描述 N4010A是一款多功能多格式无线连接测试解决方案,您可以针对R&D、集成和验证或制造中的特定蓝牙、无线局域网(WLAN) 802.11a、b和g以及ZigBee应用进行配置。 特征 测试多种技术的灵活性通过快速、准确的测量提高生产量从开发到生产的可重复测量结果适应新…

Excelize Go语言操作 Office Excel文档基础库

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库,基于 ECMA-376,ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Microsoft Excel™ 2007 及以上版本创建的电子表格文档。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多种文档格式&#xf…

windows权限维持—SSPHOOKDSRMSIDhistorySkeletonKey

windows权限维持—SSP&HOOK&DSRM&SIDhistory&SkeletonKey 1. 权限维持介绍1.1. 其他 2. 基于验证DLL加载—SPP2.1. 操作演示—临时生效2.1.1. 执行命令2.1.2. 切换用户 2.2. 操作演示—永久生效2.2.1. 上传文件2.2.2. 执行命令2.2.3. 重启生效 2.3. 总结 3. 基…

论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks

Imperceptible Adversarial Attack via Invertible Neural Networks 作者:Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan 解决的问题:虽然视觉不可感知性是对抗性示例的理想特性,但传统的对抗性攻击仍然会产…

调整数组使奇数全部都位于偶数前面

题目内容: 输入一个整数数组,实现一个函数, 来调整该数组中数字的顺序使得数组中所有的奇数位于数组的前半部分, 所有偶数位于数组的后半部分。 题目思路: 将奇数部分放在前半部分,偶数部分放在后半部分&am…