数据操作——Column 对象

Column 对象

1. 什么是Column对象

  • Column 表示了 Dataset 中的一个列, 并且可以持有一个表达式, 这个表达式作用于每一条数据, 对每条数据都生成一个值

2.Column对象如何创建

  • 单引号 ’ 在 Scala 中是一个特殊的符号, 通过 ’ 会生成一个 Symbol 对象, Symbol 对象可以理解为是一个字符串的变种, 但是比字符串的效率高很多, 在 Spark 中, 对 Scala 中的 Symbol 对象做了隐式转换, 转换为一个 ColumnName 对象, ColumnName 是 Column 的子类, 所以在 Spark 中可以如下去选中一个列

    
    val ds= Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
    // ' 必须导入spark的隐式转换才能使用 str.intern()
    val c1: Symbol = 'name
    
  • $

    同理, $ 符号也是一个隐式转换, 同样通过 spark.implicits 导入, 通过 $ 可以生成一个 Column 对象

    val ds= Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
    // $ 必须导入spark的隐式转换才能使用
    val column1: ColumnName = $"name"
    
  • col

    SparkSQL 提供了一系列的函数, 可以通过函数实现很多功能, 在后面课程中会进行详细介绍, 这些函数中有两个可以帮助我们创建 Column 对象, 一个是 col, 另外一个是 column

    val ds= Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()****import org.apache.spark.sql.functions._
    // col 必须导入 functions
    val column2: sql.Column = col("name")
    
  • column

    val ds= Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()// column 必须导入 functions
    val column3: sql.Column = column("name")// 上面这四种创建方式,有关联的 Dataset 部分
    ds.select(column).show()
    // Dataset 可以,DataFrame 可以使用 Column 对象选中行吗?
    df.select(column).show()
    // select 方法可以使用 column 对象来选中某个列,那么其他的算子行吗?
    df.where(column === "zhangsan").show()// coLumn有几个创建方式,四种
    // column对象可以用作于 Dataset 和 DataFrame 中
    // column可以和命令式的弱类型的 API 配合使用 select where
    

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

  • Dataset.col

    面的 Column 对象创建方式所创建的 Column 对象都是 Free 的, 也就是没有绑定任何 Dataset, 所以可以作用于任何 Dataset, 同时, 也可以通过 Dataset 的 col 方法选择一个列, 但是这个 Column 是绑定了这个 Dataset 的, 所以只能用于创建其的 Dataset 上

    val ds: Dataset[Person] = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
    val ds1: Dataset[Person] = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()// dataset.col
    //使用 dataset 来获取column 对象,会和某个 Dataset 进行绑定,在逻辑计划中,就会有不同的表现
    val column4 = ds.col("name")
    val column5 = ds1.col("name")//    ds.select(column5).show() 报错
    // 为什么要和 dataset 来绑定呢
    ds.join(ds1, ds.col("name") === ds1.col("name"))
    .select(column5).show() // 成功
    

    在这里插入图片描述

  • Dataset.apply

    可以通过 Dataset 对象的 apply 方法来获取一个关联此 Dataset 的 Column 对象

    ds(“name”)

    ds.apply(“name”) 上下两个是一样的,ds(“name”)其实是ds.apply(“name”)简写版

    val ds: Dataset[Person] = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()val column6 = ds.apply("name")val column7 = ds(“name”)
    

3.别名和转换

  • as[type]

    as 方法有两个用法, 通过 as[Type] 的形式可以将一个列中数据的类型转为 Type 类型

    val ds: Dataset[Person] = Seq(Person("zhangsan", 12), Person("lisi", 15)).toDS()ds.select('age.as[Long])
    
  • as(name)

    通过 as(name) 的形式使用 as 方法可以为列创建别名

    @Test
    def as(): Unit = {val ds: Dataset[Person] = Seq(Person("zhangsan", 12), Person("lisi", 15)).toDS()// select name, count(age) as age from table group by nameds.select('name as 'new_name).show()}
    

    在这里插入图片描述

4.添加列

  • withColumn

    通过 Column 在添加一个新的列时候修改 Column 所代表的列的数据

    @Testdef api(): Unit = {val ds:Dataset[Person]=Seq(Person("zhangsan",15),Person("lisi",10)).toDS()// 需求一,ds增加列,双倍年龄// 'age*2 其实本质上就是将一个表达式(逻辑计划表达式)附着到column对象上// 表达式在执行的时候对应每一条数据进行操作ds.withColumn("doubled",'age * 2).show()}
    

    在这里插入图片描述

5.操作

  • like

    通过 Column 的 API, 可以轻松实现 SQL 语句中 LIKE 的模糊查询功能

    @Test
    def api(): Unit = {val ds:Dataset[Person]=Seq(Person("zhangsan",15),Person("lisi",10)).toDS()//需求二,便糊查湖ds.where('name like "zhang%").show()
    }
    

在这里插入图片描述

  • isin

    通过 Column 的 API, 可以轻松实现 SQL 语句中 ISIN 的枚举判断功能

    @Test
    def api(): Unit = {val ds:Dataset[Person]=Seq(Person("zhangsan",15),Person("lisi",10)).toDS()// 需求三,枚举判断ds.where('name isin ("zhangsan", "wangwu", "zhaoliu")).show( )
    }
    

    在这里插入图片描述

  • sort

    在排序的时候, 可以通过 Column 的 API 实现正反序

    @Test
    def api(): Unit = {val ds:Dataset[Person]=Seq(Person("zhangsan",15),Person("lisi",10)).toDS()// 需求四,排序正反序ds.sort('age asc).show()}
    

    在这里插入图片描述

  • 以上代码的前置条件

    val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()import spark.implicits._case class Person(name: String, age: Int)
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/421753.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《SPSS统计学基础与实证研究应用精解》视频讲解:SPSS数据查找

《SPSS统计学基础与实证研究应用精解》4.4 视频讲解 视频为《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解4.4节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。本书旨在手把手教会使…

【QT+QGIS跨平台编译】之三:【OpenSSL+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、OpenSSL介绍二、OpenSSL配置三、Window环境下配置四、Linux环境下配置五、Mac环境下配置 一、OpenSSL介绍 OpenSSL是一个开放源代码的软件库包,应用程序可以使用这个包来进行安全通信,避免窃听,同时确认另一端连接者的身份。这…

Python文件操作和异常处理:高效处理数据的利器

文章目录 一、引言1.1 文件操作和异常处理对于编程的重要性1.2 Python作为实现文件操作和异常处理的强大工具 二、为什么学习文件操作和异常处理2.1 处理各种文件格式:从文本到图像到音频等2.2 确保代码的鲁棒性:有效处理异常情况 三、文件读取和写入3.1…

2023年12月 Scratch 图形化(二级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch图形化等级考试(1~4级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 在制作推箱子游戏时,地图是用数字形式储存在电脑里的,下图是一个推箱子地图,地图表示如下: 第一行(111111) 第二行(132231) 第三行(126621) 第四行( ) 第五行(152…

网络安全全栈培训笔记(56-服务攻防-数据库安全H2ElasticsearchCouchDBInfluxdb复现)

第56天 服务攻防-数据库安全&H2&Elasticsearch&CouchDB&Influxdb复现 知识点: 1、服务攻防数据库类型安全 2、influxdb,.未授权访问wt验证 3、H2 database-未授权访问-配置不当 4、CouchDB-权限绕过配合RCE-漏洞 5、ElasticSearch-文件写入&RC…

vue3前端开发,一篇文章看懂何谓pinia

vue3前端开发,pinia的基础练习第一节! 前言,pinia是为了取代vuex而诞生的产品,它有一些改进。去掉了之前的mutations。只有一个action,既可以支持异步,又支持同步。还提供了解构函数,可以把返回的对象内部属性和方法直…

给创业者的一份忠告~创业就要选择低成本的轻资产创业项目

王健林继续出售资产,5天卖了4座万达广场,出售计划仍在继续..... 根据天眼查app最新消息,厦门殿前万达广场商业管理有限公司发生工商变更,2023至今已经转让10座万达广场。两年前万达旗下的核心子公司万达商管,向一群投资…

xxe漏洞之scms靶场漏洞

xxe-scms 代码审核 (1)全局搜索simplexml_load_string simplexml_load_string--将XML字符串解释为对象 (2)查看源代码 ID1 $GLOBALS[HTTP_RAW_POST_DATA]就相当于file_get_contents("php://input"); 因此这里就存…

偷偷浏览小网站时,原来有这么多人已经知道

最近看到一篇挺有意思文章,偷偷浏览小网站时,都有谁会知道你看了啥。思量之下,从更广泛的技术角度看,仍有大量补充的空间,于是就有了这样一篇文章。本文的目的在于增强大家的网络安全意识,非必要不要浏览不…

【Web实操11】定位实操_照片墙(无序摆放)

设置一个板块&#xff0c;将照片随意无序摆放在墙上&#xff0c;从而形成照片墙。本来效果应该是很唯美好看的&#xff0c;就像这种&#xff0c;但是奈何本人手太笨&#xff0c;只好设置能达到照片墙的效果就可。 代码如下&#xff1a; <!DOCTYPE html> <html lang&…

[java基础揉碎]位运算符

java中有7个位运算&#xff08;&、|、^、~、>>、<<和>>>&#xff09; 第一组 分别是按位与&、按位或|、按位异或^&#xff0c;按位取反~&#xff0c;它们的运算规则是&#xff1a; 按位与& : 两位全为1&#xff0c;结果为1&#xff0c;否则…

高低温恒温循环设备如何挑选

yong户在挑选高低温恒温循环设备的时&#xff0c;必定要对设备有所了解&#xff0c;那么&#xff0c;如何挑选适合的高低温恒温循环设备比较好呢? 高低温恒温循环设备在运行过程中是要进行高温、低温温度的操控的&#xff0c;yong户进行高低温运行之后&#xff0c;加热可利用导…