基于容器和集群技术的数据自动化采集设计和实现

目标:部署mysql服务容器并使用docker构建包含python爬虫脚本的容器采集数据到mysql数据库。

环境:Centos7、已配置Kubernetes集群及docker。

环境配置请参考以下文章:
CentOS7搭建Kubernetes集群

Kubernetes集群信息如下(虚拟机主机名和IP地址):

主机名IP地址
master192.168.138.110
slave1192.168.138.111
slave2192.168.138.112

1. 安装MySQL数据库

1.1 创建 namespace

创建namespace,用于部署mysql,使其与其他应用程序隔离

kubectl create namespace dev

1.2 创建持久卷 PV

1)创建PV(持久数据卷),用于存储mysql数据文件

mdir -p /nfs/data/01

2)编写msql-pv.yaml文件,内容如下:

apiVersion: v1
kind: PersistentVolume
metadata:name: pv-1gi
spec:capacity:storage: 1GiaccessModes:- ReadWriteManystorageClassName: nfsnfs:path: /nfs/data/01server: 192.168.138.110

3)创建PV对象

kubectl create -f mysql-pv.yaml

4)查看创建结果

kubectl get pv
kubectl describe pv pv-1gi

在这里插入图片描述

1.3 创建持久卷声明 PVC

1)编写mysql-pvc.yaml文件,文件内容如下:

apiVersion: v1
kind: PersistentVolumeClaim
metadata:name: mysql-pvcnamespace: dev
spec:accessModes:- ReadWriteManyresources:requests:storage: 1GistorageClassName: nfs

2)创建此PVC对象

kubectl create -f mysql-pvc.yaml

3)查看创建结果

kubectl get pvc -n dev

在这里插入图片描述

可以看到,mysql-pvc对象已经和pv-1gi对象绑定。

1.4 创建Secret对象以保存mysql的root用户密码

1)执行创建命令,并将密码设置为 123456

kubectl create secret generic mysql-root-password --from-literal=password=123456 -n dev

2)查看创建结果

kubectl get secret -n dev
kubectl get secret mysql-root-password -n dev -o yaml

在这里插入图片描述

1.5 创建Service

1)编辑mysql-svc.yaml文件,内容如下:

apiVersion: apps/v1
kind: Deployment
metadata:labels:app: mysqlname: mysqlnamespace: devspec:containers:- image: mysql:8.0name: mysqlenv:- name: MYSQL_ROOT_PASSWORDvalueFrom:secretKeyRef:name: mysql-root-passwordkey: passwordports:- containerPort: 3306
---
apiVersion: v1
kind: Service
metadata:labels:app: svc-mysqlname: svc-mysqlnamespace: dev
spec:selector:app: mysqltype: NodePortports:- port: 3306protocol: TCPtargetPort: 3306nodePort: 31233

2)创建mysql-svc

kubectl create -f mysql-svc.yqml

3)查看创建结果

kubectl get pod, svc -n dev

在这里插入图片描述

2. 设置mysql数据库远程连接

2.1 进入容器设置远程连接

1)进入容器

kubectl exec -it mysql /bin/bash -n dev

2)登录mysql

mysql -u root -p123456

在这里插入图片描述

3)配置root用户可远程连接

mysql> ALTER USER root@localhost IDENTIFIED WITH mysql_native_password BY '123456';
Query OK, 0 rows affected (0.01 sec)mysql> ALTER USER root@'%' IDENTIFIED WITH mysql_native_password BY '123456';
Query OK, 0 rows affected (0.01 sec)

4)创建mydb库并授权给root用户

mysql> create database mydb;mysql> grant all privileges on mydb.* to 'root'@'%';
flush privileges;

5)使用可视化软件进行远程连接

查看mysql部署在集群的哪个节点上

kubectl get service -n dev -o wide

在这里插入图片描述

在navicat新键连接,使用slave2的IP地址和映射端口即192.168.138.112:31233

在这里插入图片描述

测试连接

在这里插入图片描述

注:若是连接失败,使用命令kubectl get pods -n kube-system获取pod名称查看coredns的状态,若为CrashLoopBackOff(这是因为每次挂机再启动之后,/etc/resolv.conf主机下的nameserver都被修改为8.8.8.8和114.114.114.114),则需要进行如下修改:

将nameserver 修改为master主机的ip(三台主机都修改)

vim /etc/resolv.conf

在这里插入图片描述

在这里插入图片描述

修改成功后,再删除异常coredns的两个pod即可,通过 kubectl get pods -n kube-system获取pod名称。

删除成功之后k8s会自动创建两个coredns。

再通过 kubectl get pods -n kube-system查看coredns的状态,状态是running的时候,java-web和k8s配置的数据库就可以访问了。

在这里插入图片描述

2.2 建表

1)在数据库mydb中建product_info

# 切换数据库
use mydb	
# 建product_info表
CREATE TABLE product_info(	
product_name varchar (1000)
, supplier varchar (1000)
, supplier_web varchar (1000)
, product_desc varchar (1000)
,product_img varchar (1000)
, product_price varchar (1000)
, addr varchar (1000)
, mailing_ins varchar (1000));

在这里插入图片描述

2)查看表

show tables;

在这里插入图片描述

3. 采集数据存入数据库

3.1 创建定时任务Dockerfile及脚本

1)创建爬虫脚本

vim mysql.sh

#!/usr/bin/env python
# coding: utf-8# In[1]:import urllib.request
from time import sleep
from bs4 import BeautifulSoup as bs
from urllib.parse import urljoin
import pymysql# In[2]:headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}# In[3]:def get_info(page):url='https://www.cnhnb.com/p/mianfen-0-0-0-0-{}/'.format(page)req = urllib.request.Request(url, headers=headers)html = urllib.request.urlopen(req)soup = bs(html.read(), 'html.parser')lu = soup.find_all('div',class_='show-ctn')product_all=[]for i in lu:product_name=i.find('h2').get_text()#产品名称supplier=i.find("a").get_text()#供应商supplier_web=i.find("a").attrs['href']#供应商网址product_desc=i.find('div',class_='shop-image').img.attrs['alt']#产品介绍product_img=i.find('div',class_='shop-image').img.attrs['src']#产品图片product_price=str(i.find('div',class_='shops-price').get_text()).strip().replace('\n','').replace(' ','')#产品价格addr=str(i.find('div',class_='r-shop-btm').get_text())#发货地mailing_ins=str(i.find('div',class_='cw-tags').get_text()).strip().replace('\n','').replace(' ','')#邮寄说明product=[product_name,supplier,supplier_web,product_desc,product_img,product_price,addr,mailing_ins]product_all.append(product)return product_all# In[12]:def save_mysql(all_data):conn = pymysql.connect(host='192.168.138.112', user='root', port=31233, password='123456', db='mydb', charset='utf8')curson = conn.cursor()# 创建表sql语句#ctablesql = 'CREATE TABLE product_info(product_name varchar (1000), supplier varchar (1000), supplier_web varchar (1000), product_desc varchar (1000),product_img varchar (1000), product_price varchar (1000), addr varchar (1000), mailing_ins varchar (1000))'#curson.execute(ctablesql)# 插入数据SQL语句insertsql = 'insert into product_info(product_name,supplier,supplier_web,product_desc,product_img,product_price,addr,mailing_ins) value (%s,%s,%s,%s,%s,%s,%s,%s)'for data in all_data:data = tuple(data)curson.execute(insertsql, data)conn.commit()# In[13]:if __name__ == '__main__':for i in range(1,89):all_data=get_info(i)save_mysql(all_data)

注:save_mysql函数conn = pymysql.connect(host='192.168.138.112', user='root', port=31233, password='123456', db='mydb', charset='utf8')语句中的host要更改为自己mysql服务容器部署的那个节点。

2)创建执行脚本

vim script.sh

python3 /mysql.py >> /var/log/cron.log 2>&1

如果脚本执行出现异常则将异常信息追加到/var/log/cron.log文件中。

3)创建定时任务脚本

vim Dockerfile

内容如下:

FROM centos:7
RUN curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
RUN curl -o /etc/yum.repos.d/epel.repo https://mirrors.aliyun.com/repo/epel-7.repo
RUN yum makecache fast;
RUN yum -y update && \yum -y install cronie.x86_64RUN yum install python3-devel python3-pip -y
RUN pip3 install -i https://pypi.douban.com/simple pymysql
RUN pip3 install -i https://pypi.douban.com/simple Beautifulsoup4COPY ./script.sh /script.sh
COPY ./mysql.py /mysql.py
RUN chmod +x /script.sh
RUN chmod +x /mysql.pyCMD crond

此处包含了两层调度,crond命令定时调度script.sh脚本,script.sh脚本又调度了python爬虫脚本。

注:这三个文件要放在同一级目录下,方便后续的镜像构建。

3.2 创建镜像

利用Dockerfile构建镜像

docker build -t docker-crond .

创建完成后如下:

在这里插入图片描述

3.3 执行脚本

1)进入容器内部

创建docker-crond容器并进入容器内部

docker run -it docker-crond /bin/bash

2)配置定时任务

设定时程表

crond
crontab -e

添加内容如下:

*/5 * * * * /script.sh >> /var/log/cron.log 2>&1

在这里插入图片描述

注:2>&1是一个重定向操作符,用于将标准错误(文件描述符2)重定向到标准输出(文件描述符1)。

之后保存退出,脚本就会自动执行。

在这里插入图片描述

crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。

crontab 是用来让使用者在固定时间或固定间隔执行程序之用,换句话说,也就是类似使用者的时程表。

3.4 查看结果

因为脚本设定是每5分钟执行一次,一共执行两次,所以10分钟后查看。

在这里插入图片描述

可以看到据容器运行已经11分钟,进入到navicat查看表内容

select count(1) from product_info;select * from product_info;

在这里插入图片描述

在这里插入图片描述

4. docker commit构建镜像并推送到镜像仓库

1)查看容器

docker ps 

在这里插入图片描述

2)将指定容器构建成为镜像

docker commit dreamy_sammet registry.cn-hangzhou.aliyuncs.com/hadooptian/docker-crond:v1

注:要根据特定格式打标签即registry.cn-hangzhou.aliyuncs.com/用户名/镜像名称:版本号

在这里插入图片描述

3)查看构建完成的镜像

docker images

在这里插入图片描述

4)登录阿里云镜像仓库

docker login --username=hadooptian registry.cn-hangzhou.aliyuncs.com

在这里插入图片描述

5)推送镜像

docker push registry.cn-hangzhou.aliyuncs.com/hadooptian/docker-crond:v1

在这里插入图片描述

6)到阿里云仓库查看

在这里插入图片描述

可以看到,构建的镜像已经被推送到阿里云镜像仓库中了。

至此,基于容器和集群技术的数据自动化采集设计和实现项目完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/492434.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac使用K6工具压测WebSocket

commend空格 打开终端,安装k6 brew install k6验证是否安装成功 k6 version设置日志级别为debug export K6_LOG_LEVELdebug执行脚本(进入脚本所在文件夹下) k6 run --vus 100 --duration 10m --out csvresult.csv script.js 脚本解释&…

计算机设计大赛 深度学习图像风格迁移 - opencv python

文章目录 0 前言1 VGG网络2 风格迁移3 内容损失4 风格损失5 主代码实现6 迁移模型实现7 效果展示8 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 深度学习图像风格迁移 - opencv python 该项目较为新颖,适合作为竞赛课题…

【小沐学QT】QT学习之Web控件的使用

文章目录 1、简介1.1 Qt简介1.2 Qt下载和安装1.3 Qt快捷键1.4 Qt帮助 2、QtWeb控件2.1 测试代码1(QApplication)2.2 测试代码2(QApplicationQWidget)2.3 测试代码3(QApplicationQMainWindow)2.4 测试代码4&…

如何做代码的Review:一场细致入微的质量把控之旅

我是洋哥,一个拥有6年经验的程序员,Litchi开源组织发起人。 在软件开发中,代码Review是一个至关重要的环节。它不仅是保证代码质量的有效手段,还是团队成员之间交流经验、共享知识的桥梁。本文将带你走进代码Review的世界&#xf…

hcia datacom课程学习(1):通信基础

1.总体框架 上图为发送方通过互联网传递信息给接收方的过程。 家用路由器会直接集成上图中的四层(vlan,DHCP,静态路由,NAT,PPPoE)。 2.网络性能指标 (1)带宽 单位时间内传输的数…

稳态准直大面积太阳光模拟器中光学系统

太阳光模拟器中光学系统概述 光学系统(optical system)是指由透镜、反射镜、棱镜和光阑等多种光学元件按一定次序组合成的系统。通常用来成像或做光学信息处 理。曲率中心在同一直线上的两个或两个以上折射(或反射)球面组成的光学…

【web】云导航项目部署及环境搭建(复杂)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、项目介绍1.1项目环境架构LNMP1.2项目代码说明 二、项目环境搭建2.1 Nginx安装2.2 php安装2.3 nginx配置和php配置2.3.1 修改nginx文件2.3.2 修改vim /etc/p…

300分钟吃透分布式缓存-14讲:大数据时代,MC如何应对新的常见问题?

大数据时代 Memcached 经典问题 随着互联网的快速发展和普及,人类进入了大数据时代。在大数据时代,移动设备全面融入了人们的工作和生活,各种数据以前所未有的 速度被生产、挖掘和消费。移动互联网系统也不断演进和发展,存储、计…

代码随想录day34--动态规划的应用2 | LeetCode343.整数拆分、LeetCode96.不同的二叉搜索树

LeetCode343.整数拆分 题目描述: 给定一个正整数 n ,将其拆分为 k 个 正整数 的和( k > 2 ),并使这些整数的乘积最大化。 返回 你可以获得的最大乘积 。 示例 1: 输入: n 2 输出: 1 解释: 2 1 1, 1 1 1。…

深入理解计算机系统学习笔记

2.3整数运算 有时候会发现两个正数相加会得出一个负数&#xff0c;而比较表达式x<y和比较表达式x-y<0会产生不同的结果。这些属性是由于计算机运算的有限性造成的。理解计算机运算的细微之处能够帮助程序员编写更可靠的代码。 2 .3. 1 无符号加法 原理&#xff1a; 在正…

什么是媒体发稿?发稿媒体分类及发稿流程

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 媒体发稿是一种企业推广和宣传的手段&#xff0c;通过媒体渠道传递企业信息和形象。 媒体发稿的含义在于&#xff0c;当企业有新闻、事件或其他消息需要对外公布时&#xff0c;可以选择…

改进RAG:自查询检索

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。 欢迎关注公众号(NLP Research),及时查看最新内容 原文标题:Improving RAG: Self Querying Retrieval 原文地址:https://medium.com/@ogre51/improving-ra…