大数据周会-本周学习内容总结018

开会时间:2023.06.18 15:00 线下会议

目录

01【调研-数据分析(质量、ETL、可视化)】

02【fhzn项目】

2.1【es多维度检索接口】

2.2【AI算法库资料整理】

03【专利】

04【学习内容】

4.1【flink】


01【调研-数据分析(质量、ETL、可视化)】

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

数据分析是指通过收集、清洗、整理和解释数据,以提取有价值的信息和洞察力的过程。在数据分析中,有几个重要的方面需要考虑,包括数据质量、ETL(抽取、转换和加载)和可视化。

  1. 数据质量: 数据质量是确保数据准确、完整、一致和可靠的度量。在数据分析中,数据质量对于得出准确的结论和做出正确的决策至关重要。以下是一些确保数据质量的常见方法:
    1. 数据清洗:去除数据中的重复项、空值、异常值和错误数据。
    2. 数据验证:检查数据是否符合事先定义的规则和约束。
    3. 数据整合:将来自不同来源的数据整合在一起,确保数据的一致性和完整性。
    4. 数据审查:评估数据的准确性、完整性和一致性,并解决潜在的数据质量问题。
  2. ETL(抽取、转换和加载): ETL是指将数据从各种来源(如数据库、日志文件、API等)中抽取出来,进行必要的转换和清洗,然后加载到目标系统中进行分析的过程。以下是ETL过程的主要步骤:
    1. 数据抽取:从各种来源中提取数据,通常使用查询、API调用或文件导入等方法。
    2. 数据转换:对抽取的数据进行清洗、整合、转换和规范化,以便符合分析的需求。
    3. 数据加载:将转换后的数据加载到目标系统(如数据仓库、数据湖等)中,以便进行进一步的分析和可视化。
  3. 可视化: 可视化是将数据转换为图表、图形和其他可视元素的过程,以便更好地理解和传达数据中的模式、趋势和洞察力。以下是可视化的一些常见方法和工具:
    1. 图表和图形:使用柱状图、折线图、饼图、散点图等图表类型来展示数据。
    2. 仪表板:通过将多个图表和指标组合在一起,提供对数据的全面和实时的可视化展示。
    3. 数据可视化工具:例如Tableau、Power BI、Matplotlib、D3.js等工具,提供丰富的可视化功能和交互性,帮助用户更好地探索和解释数据。

综上所述,数据分析过程涉及到确保数据质量、进行ETL以及进行数据可视化,以获得准确、可靠且有意义的结果和洞察力。

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

2.1【es多维度检索接口】

多维度检索方案设计,es多条件查询接口。

接口编写、git提交代码。

2.2【AI算法库资料整理】

第一阶段任务,参考两个推荐文献,抽象出 AI 领域的一个总体结构,包括内部包含的不同类别的算法和常用算法。这里可以参考分成四个部分总结。

  1. 第一部分:关于 AI 领域的发展历程、由一开始的专家系统到后面的神经网络做一个全局的说明和叙述。
  2. 第二部分:阐述 AI 领域内一些概念或术语上的解释,如训练、损失、评估器优化器之类的概念。
  3. 第三部分:是理论层面的,包括回归、分类等任务常见算法。
  4. 第四部分:列出不同目前工业领域 AI 火热的领域,如 NLP、视觉领域,再往下细分,列出一些更细的方向和每个方向下的常见算法,先把总体的资料库骨架抽象出来后续填充内容。

神经网络与深度学习-邱锡鹏.pdf

03【专利】

fastDFS、轮循机制、

04【学习内容】

4.1【flink】

  1. 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】
  2. 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/4130.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

svn commit 用法

转载   原文:https://blog.csdn.net/qq_39790633/article/details/103700391 使用svn进行代码的提交有两种方法:一种是通过TortoiseSVN客户端界面进行提交,另一种是通过svn commit指令提交。 方法一:通过TortoiseSVN客户端界面提…

【Linux 驱动篇(二)】LED 驱动开发

文章目录 一、Linux 下 LED 灯驱动原理1. 地址映射1.1 ioremap 函数1.2 iounmap 函数 2. I/O 内存访问函数2.1 读操作函数2.2 写操作函数 二、实验程序编写1. LED 灯驱动程序编写2. 编写测试 APP 三、运行测试1. 编译驱动程序和测试 APP1.1 编译驱动程序1.2 编译测试 APP 2. 运…

如何评估大型语言模型(LLM)?

编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。 本文说明了为什么我们需要一个全面的大模型评估框架,并…

HBase(14):HBase架构

1 系统架构 1.1 Client 客户端,例如:发出HBase操作的请求。例如:之前我们编写的Java API代码、以及HBase shell,都是CLient 1.2 Master Server 在HBase的Web UI中,可以查看到Master的位置。 监控RegionServer处理RegionServer故障转移处理元数据的变更处理region的分配或…

选读SQL经典实例笔记01_检索和排序

1. 在WHERE子句中引用别名列 1.1. 当表里的某些列没有被恰当命名的时候,这个技巧尤其有用 1.2. sql select sal as salary, comm as commissionfrom empwhere salary < 5000 1.3. 内嵌视图 1.3.1. sql select *from (select sal as salary, comm …

Echarts折线图默认不显示数据圆点,鼠标hover时折线图上才显示圆点

option {......tooltip: {trigger: axis,},series: [{symbol: circle,symbolSize: 5,showSymbol: false, // 只有在 tooltip hover 的时候显示symbolitemStyle: { // symbol样式normal: {color: rgb(255, 255, 255),borderColor: rgba(255, 255, 255, 0.2), // symbol边框颜色…

Win10安装SQLite Expert Pers Setup64

在win10系统下安装SQLite Expert,我的电脑是64位系统,所以选择SQLite Expert Pers Setup64 一、软件下载 1、官网地址 SQLite administration | SQLite Expert 点击“DOWNLOAD”,选择红框中的免费版本 2、百度网盘下载 链接:h…

谷歌浏览器(chrome)安装crx插件

1、下载crx插件 2、插件扩展名改名为zip 3、解压zip文件 4、打开谷歌浏览器扩展程序 chrome://extensions/ 5、打开开发者模式,加载已解压的扩展程序,安装成功即如图展示

初始网络原理

目录 网络发展史 独立模式 网络互连 局域网LAN 广域网WAN 网络通信基础 IP地址 端口号 认识协议 五元组 协议分层 OSI七层模型 TCP/IP五层(或四层) 网络设备所在分层 封装和分用 网络发展史 独立模式 独立模式:计算机之间相互…

Git Bash介绍

Git Bash介绍 Git是一个版本控制工具,而Git Bash是在Windows系统中运行Git命令的命令行界面工具。您可以使用Git Bash来管理和操作Git仓库。当你在Windows系统上安装Git时,它会默认安装Git Bash。 Git Bash是git(版本管理器)中提供的一个命令行工具&am…

分布式调用与高并发处理 Zookeeper分布式协调服务

一、Zookeeper概述 1.1 集中式和分布式 单机架构 一个系统业务量很小的时候所有的代码都放在一个项目中就好了,然后这个项目部署在一台服务器上,整个项目所有的服务都由这台服务器提供。 缺点: 服务性能存在瓶颈,用户增长的时候…

短视频矩阵抖音账号矩阵系统源码开发者自研(一)

一、短视频矩阵系统源码框架建模搭建 目录 一、短视频矩阵系统源码框架建模搭建 1.抖音账号矩阵系统功能模型建模 2.短视频账号矩阵系统接口开发规则 二、短视频矩阵系统源码视频剪辑转码处理 短视频矩阵系统是一个多功能的视频内容管理系统,用于创建、剪辑发布…