杨校老师项目之基于大数据技术栈hadoop商业web应用的日志分析系统

获取全套资料:

有偿获取:mryang511688

摘要:

互联网世界的先驱者们一致认为大数据将是未来互联网产业,甚至是整个人类各个产业的基础资源,那么到底什么是大数据,大数据给我们的世界是如何带来变化的呢?作为大数据应用之海的一滴,大数据在日志分析方面的应用,可以简单但又震撼的回答一下这个问题。
任何一个功能丰富,实用,深受欢迎的有大量基础用户的APPLICATION或是WEB服务,日志数据是在这个系统在运行过程中一动一静的记录,因为其体量足够庞大,而且不断指数级的生成与累加增长,因此就需要不同常规的数据存储和处理方式(比如:HADOOP提供的HDFS和MAPREDUCE)这就是大数据的一种表现形式。
整个系统的健壮保证,健康维护,功能改进,性能提升等都可以是基于日志分析而进行的,体量巨大的日志数据蕴含着如客户的行为习惯,系统的运行状态等及其有价值的信息,日志可以类比车的动力源和轮子,而对于一个系统日志分析的过程就相当于给车寻找更平坦,更宽,更遥远的路和方向,这样,车子方可行之久远。
在各类日志文件中客户日志就是这样极富动力的发动机和结实的轮子。
客户日志,是一个服务系统的重要组成部分,主要用于保存人们浏览的网页记录。每个成熟的系统,在目前都配有及其完善的日志子模块系统,这个日志子模块系统详细的保存和记录者着每个用户在网站或者每个客户在应用之上的浏览信息和行为记录。如用户访问网站的路径及访问的服务器,通过计数用户对各个服务器的浏览数量,可以获得服务器的页面的客户访问量,访问频率,访问情况,然后对此可以进行排名,从而广告的经济收益就能够被提高。日志分析在该系统的主要任务是对系统采集的日志通过进行预处理,处理之后存储起来。储存也是一个需要考量的问题,进而通过数据挖掘技术或者数据分析技术,如数据统计技术、聚类技术和关联分析技术,获取有价值的信息。这些信息包括用户的时间,地域特征的分析,用户的个人行为分析、以及用户的社交网络信息分析,还有用户的分类信息的分析等。这具有重大的价值尤其是对企业来说,它带来新的生命力和强大的推动力可以让企业更加具有持久和发展能力!在现在的各类以及各大商务网站和搜索引擎进行广告推荐和服务推荐正是根据这个浏览网页的排名来的。

关键词: MAPREDUCE,日志分析,服务推荐

目录:

第一章 引言 4
1.1 课题研究背景 4
1.2国内外发展现状 4
1.3本系统的主要工作内容 5
1.4本系统论文的论述方式 5
第二章 系统的总体性设计 5
2.1系统需求分析 5
2.2系统可行性分析 5
第三章 系统基本的分析环境的说明和搭建 5
3.1说明 5
3.2 LinuxOS的安装 5
3.3 Hadoop集群的搭建 5
3.3.1免密码登录的设置 6
3.3.2安装Hadoop 6
3.3.3修改配置文件和创建目录 6
3.3.4格式化和启动集群 6
3.4 Hadoop集群的搭建 6
3.5日志采集框架Flume的安装 6
3.6数据迁移Sqoop工具的安装 6
3.7任务调度工具Azkaban安装 7
第四章 系统模块详细设计 7
4.1数据采集模块的设计和实现 7
4.1.1客户日志(数据源)的生成说明 7
4.1.2数据源的采集说明 7
4.1.3技术选型 7
4.1.4 Flume日志采集系统搭建 8
4.2数据预处理模块的设计和实现 9
4.2.1 数据预处理的说明 9
4.2.2 实现方案 10
4.2.3 预处理细节 10
4.3 Hive数据仓库模块的设计和实现 14
4.3.1 数据仓库设计说明 14
4.3.2 数据仓库表的建设 14
4.3.3 加载数据的实现 16
4.4统计分析模块设计和开发 16
4.4.1说明 16
4.4.2不同维度统计PV总量 16
4.4.3访客分析 17
4.4.4访问分析 17
4.4.5其它更高级分析 18
4.5数据迁移模块的设计和实现 18
4.5.1迁移说明 18
4.5.2迁移操作 18
4.6任务流调度模块的设计和实现 20
4.6.1任务模块的划分 20
4.6.2JOB任务文件的创建 20
4.6.3不同调度模块的任务安排和分配 20
第五章 项目综合测试和展示 21
5.1集群环境的开启 21
5.2数据采集任务启动 23
5.2.1采集结果示意图 23
5.3数据的预处理 24
5.3.1预处理结果(经过如上四个预处理步骤得到如下四个文件) 24
5.4数据仓库建设(得到三张贴源表) 25
5.4.1仓库建设结果 25
5.5加载数据 26
5.5.1加载数据结果(即这些Hive表中就存放进了数据) 26
5.6统计分析(利用Hql语句对贴源表进行统计分析得到结果表) 27
5.6.1统计分析结果 27
5.7迁移数据 28
5.7.1迁移结果 28
第六章 项目总结 29
致谢 30
参考文献 31

论文字数:8028
包含资料:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


作者: 杨校

出处: https://mryang.blog.csdn.net

有意(有偿)研究源码V-Me:mryang511688

分享是快乐的,也见证了个人成长历程,文章大多都是工作经验总结以及平时学习积累,基于自身认知不足之处在所难免,也请大家指正,共同进步。

本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出, 如有问题, 可邮件(35725672@qq.com)咨询

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/696987.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2024年5月备考新增】】 考前篇(1)《官方平台 - 考生模拟练习平台操作指南》

1 登录 登录中国计算机技术职业资格网(https://www.ruankao.org.cn),点击服务园地的【模拟练习】。 温馨提示:实名认证通过且注册成功的考生方可登录模拟练习。 2 下载模拟作答系统 温馨提示: 点击“下载”按钮,下载对应的模拟作答系统。未报名成功的考生不允许下载…

分布式与一致性协议之POW算法

POW算法 概述 谈起比特币,你应该并不陌生。比特币是基于区块链实现的,而区块链运行在因特网上,这就存在有人试图作恶的情况。有些读者可能已经发现了,口信消息型拜占庭问题之解、PBFT算法虽然能防止坏人作恶,但只能防…

第十四天:PHP 开发,输入输出类留言板访问 IPUA 头来源

1.PHP-全局变量$_SERVER 2.MYSQL-插入语法INSERT 3.输入输出-XSS&反射&存储 4.安全问题-XSS跨站&CSRF等 1.输入输出类安全问题 反射性xss 这个先准备一个数据,随便弄一个表名字,在随便弄一点数据存入即可 作为连接的数据库&#xff0c…

游戏找不到emp.dll怎么恢复,简单介绍5种有效的恢复方法

当你在启动游戏时遇到提示“找不到emp.dll”时,可能会感到有些手足无措。不要担心,这个问题其实相当常见,解决起来也并不复杂。emp.dll是一个与游戏运行环境密切相关的动态链接库文件,它的缺失可能会导致游戏无法正常启动。小编将…

调剂”小清华“、不保护一志愿?——兰州大学25计算机考研考情分析

兰州大学(Lanzhou University),简称“兰大”,是中华人民共和国教育部直属 全国重点大学,中央直管副部级建制,位列国家首批“双一流(A 类)”、“211 工 程”、“985 工程”大学行列,入选国家“珠…

mediasoup源码分析--worker启动

官网提供的demo启动方式 官方提供的mediasoup-demo是由js(信令)c(流媒体服务)两部分服务,mediasoup的worker进程是nodejs通过child_process 的spawn()接口启动的 async function runMediasoupWorkers() {const { numWorkers } config.mediasoup;logger.info(runn…

.Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 发布到 Win7+

.Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 实测可以完整运行在 win7sp1/win10/win11. 如果用其他工具打包,还可以运行在mac/linux下, 传送门BlazorHybrid 发布为无依赖包方式 安装 WebView2Runtime 1.57 MB或136 MB 测试DEMO 发布为依赖包方式 安装 WebView2Runtime 1.…

ONVIF系列三:ONVIF客户端实现

ONVIF系列: ONVIF系列一:ONVIF介绍 ONVIF系列二:Ubuntu安装gSOAP、生成ONVIF代码框架 ONVIF系列三:ONVIF客户端实现 在系列二中完成了在Ubuntu上安装gSOAP并生成ONVIF代码框架,接下来我们利用生成的框架实现ONVIF客户端…

基于STM32H750的DCMI接口OV5640摄像头条码识别

好久没写文章了,闭上眼睛,算了一下,大概有十年了,近来接到一个项目,需要做条码识别,客户要求用MCU做,理由成本低、价格可控。 于是乎,打开某宝软件,搜索后发现STM32H7/ST…

线性表(2)

第二章、线性表(linear list) 线性表是第一个数据结构,再提一遍,学习一个具体的数据结构需要关注它的逻辑结构,物理结构和数据的运算,即三要素。 2.1、线性表的定义和基本操作 线性表的定义 需要注意的是…

Windows2016系统禁止关闭系统自动更新教程

目录 1.输入cmd--适合系统2016版本2.输入sconfig,然后按回车键3.输入5,然后按回车键4.示例需要设置为手动更新,即输入M,然后按回车键 1.输入cmd–适合系统2016版本 2.输入sconfig,然后按回车键 3.输入5,然后…

基于SpringBoot + Vue的扶贫助农管理系统设计与实现+毕业论文

系统介绍 系统分为用户和管理员两个角色 用户:登录、注册、论坛信息、查看扶贫公告信息、查看扶贫任务信息、报名任务、查看新闻信息(新闻收藏、新闻留言)、个人中心、在线客服等功能 管理员:登录、管理员管理、基础信息管理、客…