数据挖掘复盘——apriori

read_csv函数返回的数据类型是Dataframe类型 

对于Dataframe类型使用条件表达式 

df=df.loc[df.loc[:,0]==2]
  1. df: 这是一个DataFrame对象的变量名,表示一个二维的表格型数据结构,类似于电子表格或SQL表。

  2. df.loc[:, 0]: 这是使用DataFrame的.loc属性来进行选择操作。: 表示选择所有的行,而 , 0 表示选择所有的列中的第一列。这个操作的结果是选取了DataFrame中的第一列数据。

  3. df.loc[df.loc[:, 0] == 2]: 这一部分是将条件筛选应用于DataFrame。具体而言,它选择了第一列中等于2的行。内部的 df.loc[:, 0] == 2 是一个条件表达式,返回一个布尔型的Series,其中元素为True表示对应行的第一列等于2,False表示不等于2。

        通过在loc中嵌套条件表达式,可以实现返回布尔类型series,从而输出对应条件的数据(筛选后的)。

综合起来,整个语句的作用是从DataFrame中选择所有第一列等于2的行,然后将结果重新赋值给变量df。换句话说,它过滤了DataFrame,只保留了第一列中值为2的行。

dropna中axis=1和axis=0分别代表什么

在 Pandas 的 `dropna` 方法中,`axis` 参数用于指定操作的轴,可以是行轴(axis=0)或列轴(axis=1)。具体解释如下:axis=0:表示操作沿着行的方向进行,即删除包含缺失值的行。如果某一行中至少有一个元素是缺失值,整个行将被删除。

  df.dropna(axis=0)

axis=1:表示操作沿着列的方向进行,即删除包含缺失值的列。如果某一列中至少有一个元素是缺失值,整个列将被删除。

  df.dropna(axis=1)

使用这两个选项,你可以根据需要删除DataFrame中包含缺失值的行或列。如果不提供 `axis` 参数,默认值是 `axis=0`,即删除包含缺失值的行。

精简一下,axis=0对应行,axis=1对应列

调用apriori算法之前要使用

te = TransactionEncoder()   # 定义模型

 

转换成list of list形式

将 DataFrame 转换为 Python 列表。这样做的目的可能是为了后续的数据处理,因为一些库(比如 Apriori 算法)可能更适用于处理列表而不是 DataFrame。

df_arr=df.values.tolist()

 

 

df_tf=te.fit_transform(df_arr)
列表中的数值全部转换称为bool类型数据

 

frequent_itemsets = apriori(df,min_support=0.4,use_colnames=True)   # use_colnames=True表示使用元素名字,默认的False使用列名代表元素

使用apriori算法,设置最小置信度以及是否使用列标题。通过上述代码查找对应的频繁项集。

idx = frequent_itemsets["itemsets"].apply(lambda x: 2 in x)

创建一个索引数组,其中每个元素表示对应的项集中是否包含元素2。对于 Series 中的每个元素,这里使用了 apply 函数,其中的 lambda x: 2 in x 是一个匿名函数,表示对于每个频繁项集(表示为 x),检查元素2是否在其中。这一部分的结果是一个包含布尔值的 Series,其中 True 表示对应的频繁项集中包含元素2,而 False 表示不包含。

 

 

print(frequent_itemsets.loc[idx])

 输出包含2项的频繁项集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/193999.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛客网刷题笔记三 寻找第K大+两数之和+合并两个排序的链表+用两个栈实现队列

算法题牛客网NC88 寻找第K大 题目: 思路就是做个排序,要求时间复杂度 O ( n log ⁡ n ) O(n\log n) O(nlogn),因此选用快排。代码: class Solution:def quickSort(self, a, start, end):if start > end:returnval a[start]…

《向量数据库指南》——亚马逊云科技向量数据库揭秘:点亮数据未来!

在我们讨论亚马逊云科技向量数据库之前,我们必须先搞懂向量数据库。 那么,向量数据库是什么呢?简单来说,向量数据库就是一种专门用于处理和查询向量数据的数据库。与传统数据库以表格形式组织和存储数据不同,向量数据库采用多维数值数组的形式处理和存储数据。它的主要目标…

和解电话(匿名电话)/情侣拉黑联系电话/虚拟号/虚拟中间号/拉黑联系项目代码

和解电话&#xff0c;又名匿名电话 使用中间号转接到被叫人&#xff0c;不显示呼叫人号码&#xff0c;类似美团隐私号 呼叫人A->中间号B->被叫人C 演示地址&#xff1a;微信打开(http://sms.test.4php.top/sms/phone) 实现代码如下 <section class"section&q…

CICD 持续集成与持续交付(2)

目录 gitlab 部署 jenkins 部署 配置 实时触发 自动化构建docker镜像 通过ssh插件交付任务 添加jenkins节点 RBAC pipeline jenkins结合ansible参数化构建 安装ansible 新建gitlab项目 jenkins新建项目playbook gitlab 部署 虚拟机最小需求&#xff1a;4G内存 4核cpu 下载&…

【HarmonyOS开发】配置开发工具DevEco Studio

1、下载 注意&#xff1a; 1、安装过程中&#xff0c;一定要自定义安装位置&#xff0c;包比较大&#xff0c;包比较大&#xff0c;包比较大&#xff01;&#xff01;&#xff01; 2、可以将该工具添加到右键中&#xff0c;否则&#xff0c;如果你的项目不是HarmonyOS&#xff…

Java工具包Hutool框架

Hutool是一个Java基础工具类,对文件、流、加密解密、转码、正则、线程、XML 等 JDK 方法进行封装,组成各种 Util 工具类。官网地址:https://www.hutool.cn/。 添加依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artif…

漂亮的pyqt6皮肤 PyOneDark_Qt_Widgets_Modern_GUIPublic

大家先看看界面图&#xff0c;真的很漂亮&#xff1a; github地址&#xff1a;GitHub - Wanderson-Magalhaes/PyOneDark_Qt_Widgets_Modern_GUI 作者还录了教程&#xff1a; TUTORIALS: Tutorial 01: https://youtu.be/QQGlTGYCMg0 Tutorial 02: https://youtu.be/LwKre2proDk…

遥感数据

在研究中&#xff0c;我们常需要遥感数据。在下面的网站中&#xff0c;可以得到遥感数据。 EarthExplorer (usgs.gov)https://earthexplorer.usgs.gov/登陆网站&#xff1a; 通常&#xff0c;在Additional Criteria中&#xff0c;可以下载遥感数据。 不过&#xff0c;这个选项…

SpringCloud微服务注册中心:Nacos介绍,微服务注册,Ribbon通信,Ribbon负载均衡,Nacos配置管理详细介绍

微服务注册中心 注册中心可以说是微服务架构中的”通讯录“&#xff0c;它记录了服务和服务地址的映射关系。在分布式架构中&#xff0c;服务会注册到这里&#xff0c;当服务需要调用其它服务时&#xff0c;就这里找到服务的地址&#xff0c;进行调用。 微服务注册中心 服务注…

Argo Rollouts结合Service进行Blue-Green部署

删除03 部署04 rootk8s-master01:~/learning-jenkins-cicd/09-argocd-and-rollout/rollout-demos# kubectl delete -f 03-rollouts-with-prometheus-analysis.yaml rootk8s-master01:~/learning-jenkins-cicd/09-argocd-and-rollout/rollout-demos# kubectl apply -f 04-rol…

【具身智能评估2】具身视觉语言规划(EVLP)数据集基准汇总

参考论文&#xff1a;Core Challenges in Embodied Vision-Language Planning 论文作者&#xff1a;Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh 论文原文&#xff1a;https://arxiv.org/abs/2106.13948 论文出处&#xff1a;Jo…

Hive语法,函数--学习笔记

1&#xff0c;排序处理 1.1cluster by排序 &#xff0c;在Hive中使用order by排序时是全表扫描&#xff0c;且仅使用一个Reduce完成。 在海量数据待排序查询处理时&#xff0c;可以采用【先分桶再排序】的策略提升效率。此时&#xff0c; 就可以使用cluster by语法。 cluster…