025—pandas 根多列判断不在其他列的数据-编程知识

025—pandas 根多列判断不在其他列的数据

思路

是有两个相同结构的数据表，已知第二个表是第一个表的部分数据，需要以其中两列为单位，判断在第一个表中存在，在另外一个表中不存在的数据。

思路：

我们先将 df1 和 df2 的 x、y 列取出，组合为元组形成，这样就先成为一个整体，形成了两个 Series，然后我们用
Series 的 isin 方法来判断是否存在。
得到是不否存在的布尔序列后，再应用到 df1，这里我们需要不存在的可以用 ~ 取反，具体可以看代码实现。

二、使用步骤

1.引入库

代码如下（示例）：

import pandas as pd

2.读入数据

代码如下（示例）：

# 数据1
df1 = pd.DataFrame({'x': ['a', 'b', 'c', 'd', 'e'],'y': [1, 2, 3, 2, 1],'z': ['how', 'are', 'you', 'fine', 'thanks']
})
df1

在这里插入图片描述

# 数据2
df2 = pd.DataFrame({'x': ['a', 'b', 'c'],'y': [1, 2, 3],'z': ['what', 'is', 'you']
})
df2
# 如以上数据，df1 中包含了 df2 的内容，现在需要以 x、y 列组合为整体，看 df1 中存在，在 df2 中不存在的数据。其中，z 列的内容认为信息过载的数据，我们不用关心。
# 很明显，df1 最后两行，不在 df2 中。

在这里插入图片描述

#根据以上思路，先将 x 和 y 列转为一个序列：
df1[['x','y']].apply(tuple, axis=1)

在这里插入图片描述

#再将 df2 的两列做以上操作后转为列表，方便使用 isin 检测操作：
df2[['x','y']].apply(tuple, axis=1).to_list()

在这里插入图片描述

#最后是整个判断检测结果：
slice_lable = (df1[['x','y']].apply(tuple, axis=1).isin(df2[['x','y']].apply(tuple, axis=1).to_list())
)slice_lable

在这里插入图片描述

# 最后，再应用到筛选操作上
# 在 df1 中存在，df2 中不存在的
df1[~slice_lable]

在这里插入图片描述

总结

以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/529739.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

025—pandas 根多列判断不在其他列的数据

思路

思路：

二、使用步骤

1.引入库

2.读入数据

总结

相关文章

分享axios+signalr简单封装示例

C++容器适配器stack、queue、priority_queue

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：Navigation）

mybatisplus的条件构造器

分库分表浅析原理

2024蓝桥杯每日一题（时间日期）

【机器学习】无监督学习算法之：层次聚类

C语言实现贪吃蛇

第16章——西瓜书强化学习

【DH法】——机器人运动学正逆解

车载诊断协议DoIP系列 —— AL IPv6地址分配通用DoIP报头结构

题目：珠宝的最大交替和（蓝桥OJ 3791）