202109091412 - spark集群测试使用

news/2025/3/20 19:18:31/文章来源:https://www.cnblogs.com/route/p/18783781

Spark Thrift Servers

  • 提供JDBC/ODBC连接的服务
  • 服务运行方式是一个Spark的应用程序,只是这个应用程序支持JDBC/ODBC的连接,
  • 所以:可以通过应用的4040页面来进行查看操作

beeline连接

!connect jdbc:hive2://ser-01:10015

连接yarn

spark-shell --master yarn

spark-submit --master yarn --deploy-mode client examples/src/main/python/pi.py

spark-submit --master yarn
--deploy-mode client \
--class org.apache.spark.examples.SparkPi \
$SPARK_HOME/examples/jars/spark-examples_2.11-2.4.5.jar

问题

spark中Array[String]类型如何索引:map(x => (x(0),1))

val rdd2 = rdd.map(x => x.split("\\^")).map(x => (x(0),1)).take(10)rdd2: Array[(String, Int)] = Array((460010187619746,1), (460010255255352,1), (460010319500136,1), (460010339514283,1), (460010751106661,1), (460010993315713,1), (460011042271600,1), (460011042272309,1), (460011057659235,1), (460011102532419,1))

python缺少包ImportError: No module named sklearn.cluster

  • client服务器本地
--conf spark.yarn.dist.archives=/home/hadoop/python37 \
--conf spark.pyspark.driver.python=/home/hadoop/python37/bin/python \
--conf spark.pyspark.python=/home/hadoop/python37/bin/python \原文链接:https://blog.csdn.net/yawei_liu1688/article/details/112304595

anaconda安装,清华开源镜像地址 ! [https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/] -- 后续过程需联网

1.  输入安装命令:bash Anaconda3-5.3.1-Linux-x86_64.sh
2.  回车
3.  输入:yes
4.  这一步可选择默认安装,点击回车,当然也可以修改,见下图。这里我选择另定义安装目录,输入:/tmp/software/anaconda3
5.  输入:yesvim /etc/profile
export ANACONDA_HOME=/tmp/software/anaconda3 
export PATH=$ANACONDA_HOME/bin:$PATH 
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python# 测试
pyspark# 坑,下载sk learn 后 conda报错 no module
conda install scikit-learn# 重新覆盖安装 anaconda ,  添加 -u 参数
/home/bonc_zj/anaconda2

在外网机器下载好后打包 py27.tar.gz
spark-submit使用 py27.tar.gz 中的python环境

spark-submit --master yarn --deploy-mode client \
--conf spark.yarn.dist.archives=hdfs://zjltcluster/share/external_table/share/external_table/app_bonc_zj/hdfs/hivedb/test_mean_shift/py27.tar.gz#python27 \
--conf spark.pyspark.driver.python=./python27/py27/bin/python \
--conf spark.pyspark.python=./python27/py27/bin/python \
testMeanShift.py# 两个坑
# 1. 解压缩路径
#python27 是指将py27.tar.gz解压到 python27文件夹下
引用的时候,注意压缩时是对py27文件夹进行压缩的,所以引用./python27/py27/bin/python# 2. testMeanShift.py 指定解压缩路径,同 1 
import os
os.environ['PYSPARK_PYTHON'] = './python27/py27/bin/python'

spark-submit提交后

ImportError: No module named sklearn.cluster.mean_shift_重新打包,将mean-shift打包

TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

版本不一致
spark 1.6.2 支持python2.6+
conda create -n mlpy_env --copy -y -q python=2.7 numpy scikit-learn
2.7+scikit-learn+numpy重新打包

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/902155.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于风险的完整性和检查建模(RBIIM)MATLAB仿真

1.程序功能描述 基于风险的完整性和检查建模(Risk-Based Integrity and Inspection Modeling ,RBIIM)MATLAB仿真,对比prior density,posterior perfect inspection,posterior imp inpection,cummulative posterior imperfect inspection四个指标。 2.测试软件版本以及…

202108151156 - kafka消费积压案例

0. 背景 上游厂家生产信令数据,我方消费kafka数据,过滤后插入HBase。 上游生产的信令数据分了4个主题,每个主题有若干分区,这4个主题的数据消费后都插入同一张HBase表。 问题:kafka消息积压达到百亿。 以下以topic1为例,有6个分区。 1. 查看消费滞后情况 kafka-consumer-…

mysql 多表怎么连接的

前言 简单描述一下多表怎么连接的。 正文 首先,我们得抛开我们一些自以为是的想法。 我想过这个问题,就是为什么我们背乘法口诀的时候,我们总是背: 22 = 4, 99=81 这样背下去,似乎这是口诀。然而这是缓存,不是计算,既然不是计算那么就不是逻辑学。 我们理所当然的想9*9…

202108120808 - 类加载器及双亲委派机制

Bootstrap ClassLoader 这是加载器中的大 Boss,任何类的加载行为,都要经它过问。它的作用是加载核心类库,也就是 rt.jar、resources.jar、charsets.jar 等。当然这些 jar 包的路径是可以指定的,-Xbootclasspath 参数可以完成指定操作。 这个加载器是 C++ 编写的,随着 JVM …

keil仿真时导出数据操作

keil仿真时导出数据操作 save D:\savedata.txt 0x20001013,0x20001035

spring-boot-starter-validation

官方提供的注解 spring-boot-starter-validation 是 Spring Boot 提供的一个 starter,是一个用于验证 Java Bean 的标准,它提供了一套注解和相应的运行时 API 来定义和执行校验规则。 具体来说,当你在项目中引入 spring-boot-starter-validation 后,你可以使用一系列预定义…

省选算法复习

省选算法复习 1. 线段树优化建图 当我们需要向区间内所有点连边或者从区间中所有点连到某个点的时候,便可以使用线段树来优化,如果需要从区间每一个点连到另一个区间每一个点的话,加一个虚点就好了。 这不是一个很困难的技巧,关键在于要建模。 P5471 [NOI2019] 弹跳 - 洛谷…

fastadmin订单父子表管理端

fastadmin后台父子表使用方法 发布于 2021-01-22 12:48:10fastadmin后台的所有表格都是支持父子表配置的,只需要简单修改一下对应的JS即可,下面直接进入主题。示例是我的全国省市行政区划表,是从国家统计局网站采集下来的,共五级行政数据,非常适合用来做父子表,按照级别一…

Rudolf and k Bridges

Rudolf and k Bridges 题目 大致题意上图为俯视图 有一个\(nXm\)的网格,下标从\(1-n\) 以及从 \(1-m\),\((i, j)\) 的值就是这个这垂直一格水的深度 现在要安装支架,有几个信息:\((i, 1)\) 和 \((i, m)\) 处必须要安装相邻支架的距离不能超过 \(d\), 相邻距离为 \(abs(j - …

背离Divergence Trading ,贪小便宜

趋势交易(trend trading)和背离交易(divergence trading),代表了两种不同的交易策略。做背离交易相当于赌市场短期失效,承认你比市场聪明,虽然能赚小钱,但往往是亏大钱的根源。 贪小便宜爱背离,贪小便宜(gain small advantages)不爱止损(cut losses),所以背离和不止损…

在鸿蒙NEXT开发中实现一个语音识别组件

鸿蒙系统发布以后都不知道叫它5.0版本还是NEXT版本了,哈哈,反正是最新版本就对了。对于语音转换文字,鸿蒙系统提供了离线语音识别模型speechRecognizer,语种目前支持中文,识别效果非常不错。今天要分享的是使用speechRecognizer实现一个语音识别组件。要实现语音识别,首先…

激光代加工产品一览-代加工-外协加工-委外加工-激光代加工-河南郑州亚克力切割雕刻代加工-芯晨微纳(河南)

关键词:河南省郑州市、激光代加工、激光打标、激光切割、激光雕刻、激光打孔、激光毛化、激光分切 简介:芯晨微纳(河南)光电科技有限公司,专注于激光微纳代加工、设备/耗材代理销售、设备租赁、技术推广服务,可处理材料类型及应用范围十分广泛,欢迎来电咨询(韩经理1823…