大数据计算基础真题回忆

转载学长20 21的真题

转载链接
注:每年的课件可能会有更改,内容不一样,所以读者复习的时候以所在年份的课件为准

2020

在这里插入图片描述

2021

在这里插入图片描述

笔者2023秋

2023

都是大题,没有选择题。

  1. 改进的近似算法中,结合具体的例子说明,“多次运行取平均”和"多次运行取中间值"的两个思想是怎么体现的。(10分)
  2. 为什么要在哈希分片的过程中引入虚拟桶,虚拟桶工作的流程。(6分)
  3. 一共两个问,卷子前面会给期望和方差的公式以及切比雪夫和切尔诺夫不等式(10分)
  • 简要说明Morris算法的主要思想
  • 最后估算的结果是f̃i, 期望是fi,方差是fi的平方,分析估算的误差
  1. B+树,键值最多是3, 给下面的表,回答三个问题(15分)
    在这里插入图片描述
  • 请从不同的节点说明为什么指针的个数要比键值的个数多1
  • 将<1,2,3,4,5,8>组成一个合理的B+树
  • 在上一问的B+树插入6,7画出每一次插入二叉树的状态

​5. 课件上的哈希查找算法,请你给出一个具体的例子并说明这个算法(看课件上的就行)(12分)
在这里插入图片描述
在这里插入图片描述

  1. 一共两个问 主要是文件系统和数据的复制(10分)
  • gfs采用主从式数据库和其他方法的优缺点,请举出一个其他的结构并和主从式相对比写出他们的优缺点。
  • HDFS namenode、datanode、secondary namenode一起协同的工作流程
  1. 给三个例子,一大堆话,问是属于什么什么资源调度模型,我当时写的下面这个。(20分)
    在这里插入图片描述

第一个是单机模型 第二个是spark的executer 第三个是google borgmaster和scheduler

  1. 输入是<编号,黑色或者白色> 每个机器能看到数据的个数为L,机器的个数是k,解决一个问题:黑色的数目多还是白色的数目多,利用mapreduce的编程思想回答下列问题。(15分)
  • 写出map和reduce的伪代码
  • 分析通信代价和空间代价
  • 在此基础上的算法上进行改进,对任意位置上的x 原来的数据A[1到x]黑的个数不小于白色的个数,请设计算法并简要说明他的正确性。

在这里插入图片描述
总结:显敏老师的算法一定上课跟着算,要不然考试真的会吃亏,王老师上课讲的比较浅的东西一定要下课多查资料学习,没展开也不一定不需要掌握。

我的笔记

因为时间匆忙,有些东西不是很全,仅供参考。
大数据计算基础笔记

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/321127.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java重修第一天—学习数组

1. 认识数组 建议1.5倍速学习&#xff0c;并且关闭弹幕。 数组的定义&#xff1a;数组是一个容器&#xff0c;用来存储一批同种类型的数据。 下述图&#xff1a;是生成数字数组和字符串数组。 为什么有了变量还需要定义数组呢&#xff1f;为了解决在某些场景下&#xff0c;变…

kubernetes(三)

文章目录 1. k8s弹性伸缩1.1 安装heapster监控1.2 弹性伸缩使用和验证 2. 持久化存储2.1 emptyDir2.2 HostPath2.3 NFS2.4 PV和PVC 1. k8s弹性伸缩 k8s弹性伸缩&#xff0c;需要附加插件heapster 1.1 安装heapster监控 使用heapster(低版本)可以监控pod压力大不大 使用hpa调节…

网工内推 | 事业单位、上市公司网工,五险一金补贴多

01 中科中山药物创新研究院 招聘岗位&#xff1a;网络工程师 职责描述&#xff1a; 1.负责信息化网络数据安全&#xff0c;加固网络安全、渗透测试、风险评估、漏洞扫描、风险管理和风险评估方法。对防火墙、IDS、IPS、蜜罐、防DDOS、VPN等设备的运行管理&#xff1b; 2.负责机…

FPGA——VIVADO生成固化文件,掉电不丢失

VIVADO生成固化文件 (1)加入代码(2)生成bin文件&#xff0c;并且下载 (1)加入代码 设计文件(.xdc)中加入这段代码: set_property CFGBVS VCCO [current_design] set_property CONFIG_VOLTAGE 3.3 [current_design] set_property BITSTREAM.GENERAL.COMPRESS true [current_de…

Win32 TEXT()宏学习

之前学习了_T()宏&#xff1b; _T()是MFC的&#xff1b; TEXT()是win32的&#xff1b; _T("")定义于tchar.h&#xff1b; TEXT宏是windows程序设计中经常遇到的宏&#xff0c;定义在 <winnt.h>中&#xff1b; 如果使用UNICODE字符集&#xff0c;则TEXT&…

从“五力”看百亿西凤的必然性

执笔 | 文 清 编辑 | 萧 萧 2023年末&#xff0c;西凤成功突破市场阻碍、跑赢行业周期&#xff0c;正式跻身中国百亿白酒品牌阵容。这是一份全行业及全体西凤人“预期之内”的成绩单。 当下&#xff0c;中国白酒已经进入“存量竞争”时代&#xff0c;马太效应使得强者恒强…

自制c++题目《模板综合》

1.输出结果&#xff1a; 2.主函数不允许改变 int arr[5] { 5,2,3,1,4}; char arr1[5] { a,c,b,e,d }; good <int>a(arr,5); good <char>b(arr1,5); bad<int>(1,2); bad<float>(1.1, 1.2); 自制c题目《模板综合》 王赫辰/c语言 - Gitee.com

深度学习 | 多模态算法

AIGC也就是AI内容生成已经成为新一轮人工智能发展的热点和必然趋势&#xff0c;它使得大规模高质量的创作变得更加容易。 一 、InstructGPT模型 1、GPT系列回顾 chatGPT和InstructGPT都使用了指示学习和基于人工反馈的强化学习来指导模型的训练&#xff0c;不同点仅仅是在采集数…

Selenium自动化测试框架的搭建

说 起自动化测试&#xff0c;我想大家都会有个疑问&#xff0c;要不要做自动化测试&#xff1f; 自动化测试给我们带来的收益是否会超出在建设时所投入的成本&#xff0c;这个嘛别说是我&#xff0c;即便是高手也很难回答&#xff0c;自动化测试的初衷是美好的&#xff0c;而测…

02-微服务-Eureka注册中心

Eureka注册中心 假如我们的服务提供者user-service部署了多个实例&#xff0c;如图&#xff1a; 大家思考几个问题&#xff1a; order-service在发起远程调用的时候&#xff0c;该如何得知user-service实例的ip地址和端口&#xff1f;有多个user-service实例地址&#xff0c;…

基于Segformer实现PCB缺陷检测(步骤 + 代码)

导 读 本文主要介绍基于Segformer实现PCB缺陷检测 &#xff0c;并给出步骤和代码。 背景介绍 PCB缺陷检测是电子制造的一个重要方面。利用Segformer等先进模型不仅可以提高准确性&#xff0c;还可以大大减少检测时间。传统方法涉及手动检查&#xff0c;无法扩展且容易出错…

【QT 5 +Linux下+录屏软件使用+总结说明+使用录屏软件+简单软件使用+SimpleScreenRecorder+操作说明】

【【QT 5 Linux下录屏使用录屏软件简单软件使用SimpleScreenRecorder操作说明】】 1、前言2、实验环境3、录屏软件综述SimpleScreenRecorder&#xff1a;Kazam&#xff1a;OBS Studio (Open Broadcaster Software)&#xff1a;VokoscreenNG&#xff1a;RecordMyDesktop&#xf…