easy-algorithm-interview-an.../feature-engineering/协方差与皮尔逊系数.md

2.3 KiB
Raw Permalink Blame History

1.协方差,协方差矩阵

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这 样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。 协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
方差
来度量各个维度偏离其均值的程度,协方差可以这样来定义:
协方差
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果 为负值, 就说明两者是负相关越猥琐女孩子越讨厌。如果为0则两者之间没有关系猥琐不猥琐和女孩子喜不喜欢之间没有关联就是统计上说的“相互独立”。

协方差矩阵定义:
协方差矩阵定义
这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:
协方差矩阵
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

2.皮尔逊系数

两个变量之间的皮尔逊相关系数为两个变量之间的协方差与标准差的商:
\rho_{x,y} = \frac{cov(X,Y)}{\sigma_x \sigma_y} = \frac{E[(X-\mu_x)(X-\mu_y)]}{\sigma_x \sigma_y}

样本的皮尔逊系数,经常用字母r表示:
{\displaystyle r={\frac {\sum \limits \_{i=1}^{n}(X_{i}-{\overline {X}})(Y_{i}-{\overline {Y}})}{{\sqrt {\sum \limits \_{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}{\sqrt {\sum \limits \_{i=1}^{n}(Y_{i}-{\overline {Y}})^{2}}}}}}