数据采集
概念
数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。
步骤
1.采集:将整个HTML或者JS文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。
2.存储:存储数据一般将下载的文件或者文本整个存入数据库。
3.清洗:从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。
采集工具与方法
使用八爪鱼采集器来进行数据采集
- 进入八爪鱼采集器,创建任务组,并输入网址,保存设置即可打开网页。如图所示。
2.自动识别网页内容后,选取你想采集的内容,生成采集设置,选择是否要翻页等选项,确保下方栏内出现你想要采集的内容(如下图)后,开始采集
3.采集完成后,检查是否成功采集,并将文档保存
数据连接
数据源
了解数据连接的意义之前,首先先来了解一下数据源的概念:数据源是指数据库应用程序所使用的数据库或者数据库服务器。
数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,可以找到相应的数据库连接。
数据源连接
数据连接也可以称作数据源连接,其主要作用是与业务数据库取得连接,从而获取业务数据进行分析。平台数据源的连接主要包含关系数据库、本地数据库、多维数据库、NoSQL数据库、高速缓存数据库、跨库联合数据源。“数据连接”界面如下
此次项目选择excel来进行操作
操作步骤
导入数据源
如图新建表,导入表格
选择所要上传的文件后进入“数据预览与导入”界面,选择导入的数据源、导入表名及其它设置信息后,点击“导入数据”按钮,完成数据导入
(1)导入数据源
可以选择文件数据导入到高速缓存库、MySQL、Oracle、DB2_V9、MSSQL。(目标数据源选择“MySQL、Oracle、DB2_V9、MSSQL”时,需在数据源界面勾选“允许加载Excel数据”)。
(2)导入表名、数据库表名
导入表名与数据库表名可根据自己的需要进行命名。输入表名时,应注意不支持输入类似如下的特殊字符:/\'|"*?%.><=:😭)[]。,输入数据库表名时注意仅支持字母、数字、下划线,且不能以数字开头。
(3)选择起始行
鼠标选中的行作为起始行,此行及之前的数据将不会导入。
(4)文件中无表头数据
勾选文件中无表头数据,将导入文件除表头外的全部数据。
(5)设置数据类型
用于设置导入目标库中各字段的数据类型
(6)设置字段名
点击字段名后面的“编辑”按钮,对字段名进行修改,修改后,点击“对号”按钮保存修改,点击“叉号”按钮取消修改
3.浏览效果
系统提示数据加载完成后,如图11所示,在弹出的窗口右下角可点击“新建自助数据集”按钮进入到新建自助数据集的实操;或者点击“关闭”按钮,将退出数据加载窗口,接下来可在加载的数据源路径下去查看创建的数据表。
在加载的数据源路径下(即“导入数据源”的路径)可以查看到创建的数据表
预览该表数据,