我不完美的梦
你陪着我想
不完美的勇气
你说更勇敢
不完美的泪
你笑着擦干
不完美的歌
你都会唱
我不完美心事
你全放在心上
这不完美的我
你总当做宝贝
你给我的爱也许不完美
但却最美
🎵 周冬雨《不完美女孩》
皮尔森相关系数(Pearson correlation coefficient),又称皮尔森积矩相关系数,是一种衡量两个变量之间线性相关性的统计指标。它的取值范围在 -1 到 1 之间,表示两个变量之间的相关性强弱和方向。其公式为:
解读
- 1:完全正相关,两个变量呈线性正向关系。
- 0:无相关性,两个变量之间没有线性关系。
- -1:完全负相关,两个变量呈线性负向关系。
示例:使用 Pandas 计算皮尔森系数
假设我们有一个数据集 data,其中包括两个特征 A 和 B。我们想要计算它们之间的皮尔森相关系数,可以通过以下步骤实现:
import pandas as pd# 创建一个示例数据集
data = {'A': [10, 20, 30, 40, 50],'B': [15, 25, 35, 45, 55]
}
df = pd.DataFrame(data)# 计算两个特征 A 和 B 之间的皮尔森相关系数
pearson_corr = df['A'].corr(df['B'], method='pearson')# 打印结果
print(f"Pearson correlation coefficient between A and B: {pearson_corr}")
解释
- 数据集:在这个例子中,数据集包括 A 和 B 两列。我们将它们放入一个 Pandas DataFrame 中。
- 计算方法:使用 .corr() 方法来计算特定列之间的相关系数。method 参数默认为 pearson,还可以使用其他方法如 kendall 和 spearman。
结果:通过 print 函数输出计算结果,可以发现两个特征之间的线性相关性。
总结
皮尔森相关系数是一种用于衡量两个变量间线性关系的重要统计指标。在数据分析中,它能帮助我们找到变量间的关系,从而进一步做出相应的预测或优化决策。希望这个简单的例子可以帮助你更好地理解皮尔森系数的概念及其在实际数据中的应用。