数据采集与融合技术作业四

news/2025/1/16 6:02:08/文章来源:https://www.cnblogs.com/acedia7/p/18542238

目录
  • 作业①
    • 实验要求及结果
    • 心得体会
  • 作业②
    • 实验要求及结果
    • 心得体会
  • 作业③
    • 实验要求及结果
    • 心得体会

  • 码云连接

作业①

实验要求及结果

  • 要求
    熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。
    使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
    候选网站:东方财富网:http://quote.eastmoney.com/center/gridlist.html#hs_a_board
  • 代码
点击查看代码
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import mysql.connector
import timeclass StockSpider:def __init__(self):chrome_options = Options()chrome_options.add_argument("--headless")chrome_options.add_argument("--disable-gpu")self.driver = webdriver.Chrome(options=chrome_options)# MySQL 连接self.db = mysql.connector.connect(host="127.0.0.1",port="33068",user="root",password="160127ss",database="spydercourse")self.cursor = self.db.cursor()def setup_db(self):# 创建表格self.cursor.execute("DROP TABLE IF EXISTS stock")self.cursor.execute("""CREATE TABLE stock (id INT AUTO_INCREMENT PRIMARY KEY,bStockNo VARCHAR(50),stockname VARCHAR(255),lastest_price DECIMAL(10, 2),ddf DECIMAL(10, 2),dde DECIMAL(10, 2),cjl VARCHAR(64),cje VARCHAR(64),zhenfu DECIMAL(10, 2),top DECIMAL(10, 2),low DECIMAL(10, 2),today DECIMAL(10, 2),yestd DECIMAL(10, 2))""")def close(self):self.db.commit()self.cursor.close()self.db.close()self.driver.quit()def insert_data(self, data):# 插入数据sql = """INSERT INTO stock (bStockNo, stockname, lastest_price, ddf, dde, cjl, cje, zhenfu, top, low, today, yestd)VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"""self.cursor.execute(sql, data)def fetch_data(self, url, page_limit=5, current_page=1):if current_page > page_limit:print(f"Reached page limit of {page_limit} pages for {url}.")return  # 达到页面限制后停止递归self.driver.get(url)WebDriverWait(self.driver, 10).until(EC.presence_of_all_elements_located((By.XPATH, "//div[@class='listview full']/table[@id='table_wrapper-table']/tbody/tr")))rows = self.driver.find_elements(By.XPATH,"//div[@class='listview full']/table[@id='table_wrapper-table']/tbody/tr")for row in rows:try:bStockNo = row.find_element(By.XPATH, ".//td[2]/a").textstockname = row.find_element(By.XPATH, ".//td[3]/a").textlastest_price = float(row.find_element(By.XPATH, ".//td[5]/span").text)# 去掉百分号并转换为 floatddf = float(row.find_element(By.XPATH, ".//td[6]/span").text.replace('%', ''))dde = float(row.find_element(By.XPATH, ".//td[7]/span").text.replace('%', ''))cjl = row.find_element(By.XPATH, ".//td[8]").textcje = row.find_element(By.XPATH, ".//td[9]").textzhenfu = float(row.find_element(By.XPATH, ".//td[10]").text.replace('%', ''))top = float(row.find_element(By.XPATH, ".//td[11]/span").text)low = float(row.find_element(By.XPATH, ".//td[12]/span").text)today = float(row.find_element(By.XPATH, ".//td[13]/span").text)yestd = float(row.find_element(By.XPATH, ".//td[14]").text)# 插入数据self.insert_data((bStockNo, stockname, lastest_price, ddf, dde, cjl, cje, zhenfu, top, low, today, yestd))except Exception as e:print("Error fetching row data:", e)continue# 处理分页try:next_page = self.driver.find_element(By.XPATH, "//a[@class='next paginate_button']")next_page.click()time.sleep(2)# 递归调用以抓取下一页数据,并将当前页数加1self.fetch_data(url, page_limit, current_page + 1)except:print("No more pages to load.")def scrape(self, urls):self.setup_db()for url in urls:self.fetch_data(url)self.close()if __name__ == "__main__":urls = ["http://quote.eastmoney.com/center/gridlist.html#hs_a_board",  # 沪深A股"http://quote.eastmoney.com/center/gridlist.html#sh_a_board",  # 上证A股"http://quote.eastmoney.com/center/gridlist.html#sz_a_board"  # 深证A股]spider = StockSpider()spider.scrape(urls)
  • 运行结果

心得体会

一些网页内容是通过 JavaScript 动态加载的,导致页面加载完成后需要等待数据才能抓取。解决方案是通过 WebDriverWait 和 expected_conditions 等方法来确保元素已经加载并且可操作。

作业②

实验要求及结果

  • 要求:
    熟练掌握 Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待HTML元素等内容。
    使用Selenium框架+MySQL爬取中国mooc网课程资源信息(课程号、课程名称、学校名称、主讲教师、团队成员、参加人数、课程进度、课程简介)
    候选网站:中国mooc网:https://www.icourse163.org
    输出信息:MYSQL数据库存储和输出格式
  • 代码:
点击查看代码
from selenium.webdriver.common.by import By
from selenium import webdriver
import time
import pymysql
import mysql.connector# MySQL数据库连接
conn = mysql.connector.connect(host="127.0.0.1",port="33068",user="root",password="160127ss",database="spydercourse"
)
cursor = conn.cursor()# 创建MOOC表格
cursor.execute("""
CREATE TABLE IF NOT EXISTS mooc (Id VARCHAR(20),cCourse VARCHAR(100),cCollege VARCHAR(100),cTeacher VARCHAR(100),cTeam VARCHAR(200),cCount INT,cProcess VARCHAR(100),cBrief TEXT
)
""")
conn.commit()# 插入数据的SQL语句
sql = """
INSERT INTO mooc (Id, cCourse, cCollege, cTeacher, cTeam, cCount, cProcess, cBrief) 
VALUES (%s, %s, %s, %s, %s, %s, %s, %s)
"""# 用户登录信息输入
n = 1
user_name = "18150061218"
password = "685332Ss"# 启动浏览器并打开页面
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--headless")
driver = webdriver.Chrome(options=chrome_options)
driver.maximize_window()
driver.get("https://www.icourse163.org/")# 点击同意隐私政策
load = driver.find_element(By.XPATH, '//*[@id="app"]/div/div/div[1]/div[3]/div[3]/div')
load.click()
time.sleep(3)# 切换到登录 iframe
iframe = driver.find_element(By.XPATH, '/html/body/div[13]/div[2]/div/div/div/div/div/div[1]/div/div[1]/div[2]/div[2]/div[1]/div/iframe')
driver.switch_to.frame(iframe)# 输入账号密码并登录
driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[2]/form/div/div[2]/div[2]/input').send_keys(user_name)
driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[2]/form/div/div[4]/div[2]/input[2]').send_keys(password)
driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[2]/form/div/div[6]/a').click()# 等待页面加载完成
time.sleep(5)
driver.switch_to.default_content()  # 切换回默认页面
time.sleep(3)# 同意隐私政策
driver.find_element(By.XPATH, '//*[@id="privacy-ok"]').click()# 进入课程页面
driver.find_element(By.XPATH, '/html/body/div[4]/div[2]/div[1]/div/div/div[1]/div[1]/div[1]/span[1]/a').click()
driver.switch_to.window(driver.window_handles[-1])# 分页循环获取课程数据
for _ in range(2):for i in range(5):try:# 获取每个课程的基本信息course_info = driver.find_element(By.XPATH, f'//*[@id="channel-course-list"]/div/div/div[2]/div[1]/div[{i+1}]/div/div[3]/div[1]').text.split("\n")driver.find_element(By.XPATH, f'//*[@id="channel-course-list"]/div/div/div[2]/div[1]/div[{i+1}]').click()# 切换到新打开的课程页面driver.switch_to.window(driver.window_handles[-1])# 获取团队成员team = driver.find_elements(By.XPATH, '//*[@class="f-fc3"]')team_list = [t.text for t in team]course_info.append(','.join(team_list))# 获取课程人数try:count = driver.find_element(By.XPATH, '//*[@class="count"]').textexcept:count = "已有0人参加"course_info.append(count[2:-3])  # 处理人数字段# 获取课程时间try:date = driver.find_element(By.XPATH, '//*[@id="course-enroll-info"]/div/div[1]/div[2]/div/span[2]').textexcept:date = "无"course_info.append(date)# 获取课程简介brief = driver.find_element(By.XPATH, '//*[@id="j-rectxt2"]').textcourse_info.append(brief)# 插入数据库values = (n, course_info[0], course_info[1], course_info[2], course_info[3], course_info[4], course_info[5], course_info[6])cursor.execute(sql, values)conn.commit()# 记录数据并关闭当前标签页n += 1driver.close()driver.switch_to.window(driver.window_handles[-1])  # 切换回主标签页except Exception as e:print(f"错误:{e}")driver.close()driver.switch_to.window(driver.window_handles[-1])# 点击下一页按钮driver.find_element(By.XPATH, '//*[@id="channel-course-list"]/div/div/div[2]/div[2]/div/a[10]').click()time.sleep(2)# 关闭数据库连接
cursor.close()
conn.close()
  • 截图

心得体会

一开始想要用搜索框输入课程关键词来实现,但是这种方法一直做不出来,就修改了一下,换成直接找课程来做,通过switch to frame来实现登录,然后回到主页加载课程来爬取,得到结果。

作业③

实验要求及结果

  • 要求:
    掌握大数据相关服务,熟悉Xshell的使用
    完成文档 华为云_大数据实时分析处理实验手册-Flume日志采集实验(部分)v2.docx 中的任务,即为下面5个任务,具体操作见文档。
    环境搭建:
    任务一:开通MapReduce服务
    实时分析开发实战:
    任务一:Python脚本生成测试数据
    任务二:配置Kafka
    任务三: 安装Flume客户端
    任务四:配置Flume采集数据

  • 运行结果:
    申请弹性公网IP

    开通MapReduce服务

    开通云数据库服务RDS

    大数据实时分析开发实战
    Python脚本生成测试数据


    安装Kafka客户端

    在kafka中创建topic


    安装Flume客户端

    重启Flume服务

    配置Flume采集数据

心得体会

通过这一系列实验,我不仅掌握了如何在云平台上配置和管理大数据服务,还深入理解了Kafka与Flume在大数据处理中的重要角色,特别是在实时数据流的采集、传输与分析方面。整个过程让我对大数据生态系统有了更加全面的认识,尤其是如何高效地利用现有工具和云平台资源,完成数据的实时处理和分析任务。在未来的工作中,我将继续探索和应用这些技术,以应对更加复杂的数据分析和处理任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/832351.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[转贴]在前端如何玩转 Word 文档

在日常工作中,大部分人都会使用 Microsoft Office Word、WPS 或 macOS Pages 等文字处理程序进行 Word 文档处理。除了使用上述的文字处理程序之外,对于 Word 文档来说,还有其他的处理方式么?答案是有的。 接下来阿宝哥将介绍在前端如何玩转 Word 文档,阅读本文之后,你将…

AI之旅:起步即迈出重要一步,博客园与 Chat2DB 达成战略合作

在技术变革的路上,我们不会孤单。我们与博客园的合作,只是一个开始。未来,更多的技术人将加入这场旅程,共同书写AI时代的开发者新篇章。我们希望,这条路上的每一个人,都能够在智能工具与温暖社区的双重支持下,走得更远、飞得更高AI之旅开篇之后的第一篇本准备写一篇简单…

深入理解MySQL索引的底层原理和优化

深入理解MySQL索引的底层原理和优化 1. 什么是索引 索引是帮助MySQL高效获取数据的排好序的数据结构。用于提高查询性能,相当于书的目录。比如我们在读一本书的时候,首先是通过目录来定位到文章的页码,然后通过页码再来快速定位到具体的内容。MySQL中也是一样,在查询数据的…

攻防世界-mfc逆向

文件被加了vmp,静态分析难度很大运行程序 发现是mfc框架程序,根据提示应该在控件里去找,可以用xspy进行分析 发现窗口句柄中有一串密文944c8d100f82f0c18b682f63e4dbaa207a2f1e72581c2f1b,并且发现一条特殊的onMsgOnMsg:0464,func= 0x00402170(MFC1.exe+ 0x002170 ),它并不…

Lec 07 操作系统管理页表映射

lec 07 操作系统管理页表映射 0 Contents1 操作系统设置页表映射何时设置页表映射?操作系统自己使用的页表 -- 在启动时填写 -- 映射全部物理内存虚拟地址 = 物理地址 + 固定偏移(直接映射,Direct Mapping) 思考:为什么需要直接映射?应用进程的页表 -- 何时设置?2 立即映…

System.Data.SqlClient is not supported on this platform.

异常: 程序在修改了非数据库相关的代码后发布进行部分覆盖,抛出异常,本次并未覆盖数据库相关的dll 查询解决方案都给出的是,将本地的Microsoft.Data.SqlClient.dll拷贝到发布处覆盖,这种方式不行 本次原因: 之前发布是目标运行时选的“可移植”,部署地方还是保持可移植…

数据采集实验四

作业一 (1)实验内容要求熟练掌握 Selenium 查找 HTML 元素、爬取 Ajax 网页数据、等待 HTML 元素等内容。 使用 Selenium 框架+ MySQL 数据库存储技术路线爬取“沪深 A 股”、“上证 A 股”、“深证 A 股”3 个板块的股票数据信息。候选网站东方财富网输出信息MYSQL 数据库存…

【题解】洛谷P8346:最澄澈的空与海

题解:二分图性质。【题解】洛谷P8346:最澄澈的空与海 猜结论题,本身其实很简单,在纸上画个差不多就能想出来,我一开始想二分图最大匹配,但是还是太大了,不可以。 当一个二分图有且仅有一种解时,必定有节点的入度为 \(1\)。 我们想到有多种匹配的情况,可以想到如果这是…

过路车辆识别智慧矿山一体机罐笼乘坐人员超限识别煤矿安全监控系统升级改造技术方案

在当今煤炭行业的发展中,安全和效率是两个核心议题。随着技术的进步,智慧矿山的概念应运而生,它代表着煤炭行业向智能化、自动化的转型。智慧矿山一体机煤矿安全监控系统的升级改造技术方案,正是在这样的行业需求背景下提出的。这一方案旨在通过集成先进的信息技术,如物联…

birdwatcher安装使用

1.官网下载二进制版本的安装包,解压到相应目录即可运行https://github.com/milvus-io/birdwatcher 2.尝试使用birdwatcher链接注意单机部署的milvus默认是没有暴露etcd端口的,需要修改配置重新部署[root@localhost birdwatcher]# ./birdwatcherOffline > connect --etcd 1…

这款工具让开发变得没门槛了

在快速变化的软件开发领域,工具的选择往往能决定开发效率的高低。今天,我要介绍的是一款能够让你告别繁琐编程步骤,实现需求到代码快速转换的在线开发工具——TitanIDE。它凭借一键生成代码和一键解释代码的功能,为开发者们带来了前所未有的便捷体验。 一、前言 在传统的开…