毕业设计:日志记录编写(3/17起更新中)

目录

  • 3/17
    • 1.配置阿里云python加速镜像:
    • 2. 安装python3.9版本
    • 3. 爬虫技术选择
    • 4. 数据抓取和整理
    • 5. 难点和挑战
  • 3/24
    • 1.数据库建表信息
    • 2.后续进度安排
    • 3. 数据处理和分析

3/17

当前周期目标:构建基本的python环境:运行爬虫程序

1.配置阿里云python加速镜像:

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

安装chrome驱动到python安装目录下

在这里插入图片描述

2. 安装python3.9版本

在这里插入图片描述

3. 爬虫技术选择

爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:

Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。

Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。

Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。

4. 数据抓取和整理

针对短视频平台的数据采集,你可能需要考虑以下内容:

视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。

评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。

用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。

5. 难点和挑战

反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。

数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。

数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。

3/24

周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:

1.数据库建表信息

创作者视频信息表设计:

CREATE TABLE douyin_aweme (id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增IDuser_id VARCHAR(64),  -- 用户IDsec_uid VARCHAR(128),  -- 用户sec_uidshort_user_id VARCHAR(64),  -- 用户短IDuser_unique_id VARCHAR(64),  -- 用户唯一IDnickname VARCHAR(64),  -- 用户昵称avatar VARCHAR(255),  -- 用户头像地址user_signature VARCHAR(500),  -- 用户签名ip_location VARCHAR(255),  -- 评论时的IP地址add_ts BIGINT,  -- 记录添加时间戳last_modify_ts BIGINT,  -- 记录最后修改时间戳aweme_id VARCHAR(64),  -- 视频IDaweme_type VARCHAR(16),  -- 视频类型title VARCHAR(500),  -- 视频标题`desc` TEXT,  -- 视频描述create_time BIGINT,  -- 视频发布时间戳liked_count VARCHAR(16),  -- 视频点赞数comment_count VARCHAR(16),  -- 视频评论数share_count VARCHAR(16),  -- 视频分享数collected_count VARCHAR(16),  -- 视频收藏数aweme_url VARCHAR(255)  -- 视频详情页URL
);

普通用户评论信息表设计:

CREATE TABLE douyin_aweme_comment (id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增IDuser_id VARCHAR(64),  -- 用户IDsec_uid VARCHAR(128),  -- 用户sec_uidshort_user_id VARCHAR(64),  -- 用户短IDuser_unique_id VARCHAR(64),  -- 用户唯一IDnickname VARCHAR(64),  -- 用户昵称avatar VARCHAR(255),  -- 用户头像地址user_signature VARCHAR(500),  -- 用户签名ip_location VARCHAR(255),  -- 评论时的IP地址add_ts BIGINT,  -- 记录添加时间戳last_modify_ts BIGINT,  -- 记录最后修改时间戳comment_id VARCHAR(64),  -- 评论IDaweme_id VARCHAR(64),  -- 视频IDcontent TEXT,  -- 评论内容create_time BIGINT,  -- 评论时间戳sub_comment_count VARCHAR(16)  -- 评论回复数
);

2.后续进度安排

1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 数据处理和分析

采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/564463.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux虚拟机的安装部署--尚硅谷笔记

part1 VMware的使用 学习目标 1 熟悉VMware软件的使用 2 可以熟练为虚拟计算机安装Linux操作系统 3 能独立解决安装过程中的常见问题 第一节 VMware的作用 VMware软件的作用 ![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传] 第一步,在W…

实战高效RPC方案在嵌入式环境中的应用与揭秘

实战高效RPC方案在嵌入式环境中的应用与揭秘 开篇 在嵌入式系统开发中,大型项目往往采用微服务架构来构建,其核心思想是将一个庞大的单体应用分割成一系列小型、独立、松耦合的服务模块,这些模块可以是以线程或进程形式存在的多个服务单元。…

【Django开发】0到1美多商城项目md教程第3篇:用户注册业务实现,1. 用户注册页面绑定Vue数据【附代码文档】

美多商城完整教程(附代码资料)主要内容讲述:欢迎来到美多商城!,项目准备。展示用户注册页面,创建用户模块子应用。用户注册业务实现,用户注册前端逻辑。图形验证码,图形验证码接口设…

YOLOv8:Roboflow公开数据集训练模型

Roboflow公开数据集 Roboflow是一个提供计算机视觉数据集管理和处理工具的平台。虽然Roboflow本身并不创建或策划公开数据集,但它提供了一系列功能,帮助用户组织、预处理、增强和导出计算机视觉数据集。 官方网站:https://universe.roboflow…

学习要不畏难

我突然发现,畏难心是阻碍我成长的最大敌人。事未难,心先难,心比事都难,是我最大的毛病。然而一念由心生,心不难时,则真难事也不再难。很多那些自认为很难的事,硬着头皮做下来的时候,…

学生如何帮老师撰写审稿意见

开头先介绍这篇文章做了什么,达到了什么样的目的、有什么创新点、应用,然后第一段最后一句写上,如果你进行了如下补充,明确表达了相关内容等,就能够接收你的文章(在我们暂时不想接收他的文章的情况下&#…

如何用联合(共用体)union验证系统大小端

一:思路 由联合体的特点,可知上图,char c 和 int i 共用四个字节,假设是小端,则由左到右是低地址到高地址,四个字节的内容如图所示01 00 00 00 代码展示: 如果第一个字节是1,则证明…

阿里云服务器价格购买价格表,2024新版报价查询

2024年腾讯云服务器优惠价格表,一张表整理阿里云服务器最新报价,阿里云服务器网整理云服务器ECS和轻量应用服务器详细CPU内存、公网带宽和系统盘详细配置报价单,大家也可以直接移步到阿里云CLUB中心查看 aliyun.club 当前最新的云服务器优惠券…

STM32之HAL开发——系统定时器(SysTick)

系统定时器(SysTick)介绍 SysTick—系统定时器是属于 CM3 内核中的一个外设,内嵌在 NVIC 中。系统定时器是一个 24bit的向下递减的计数器,计数器每计数一次的时间为 1/SYSCLK,一般我们设置系统时钟 SYSCLK等于 72M。当…

Redis基础命令集详解

目录 1.Redis基础命令 2.Redis的经典案例 2.1 缓存 2.2 计数器 2.3 发布订阅 Redis是一个开源、内存存储的数据结构服务器,它支持多种数据结构,如字符串、哈希表、列表、集合、有序集合等。在Redis中,使用一些基础的命令来操作这些数据结…

蓝桥杯day12刷题日记

P8720 [蓝桥杯 2020 省 B2] 平面切分 思路&#xff1a;首先借用dalao的图解释一下&#xff0c;又多出一条与当前平面任意一条直线都不重合线时&#xff0c;多了的平面是交点数1&#xff0c;所以用双层循环每次往里面加一条直线&#xff0c;计算交点 #include <iostream>…

Spring Boot方法

Spring Boot方法 1、 equals&#xff1a;确保比较的是字符串的内容。这样可以避免潜在的错误&#xff0c;并确保正确地比较字符串的值。 1、 equals&#xff1a;确保比较的是字符串的内容。这样可以避免潜在的错误&#xff0c;并确保正确地比较字符串的值。