相关系数大全整理

方法 数学公式 参数说明 适用特点
皮尔逊相关系数 \(r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2}\sqrt{\sum (y_i - \bar{y})^2}}\) \(x_i, y_i\):样本值;\(\bar{x}, \bar{y}\):均值 线性关系
斯皮尔曼 ρ \(\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}\) \(d_i\):排名差;\(n\):样本数 单调关系(非线性可)
肯德尔 τ \(\tau = \frac{C - D}{\frac{1}{2}n(n-1)}\) \(C\):一致对数;\(D\):不一致对数 小样本、稳健
距离相关系数 \(\mathrm{dCor}(X,Y) = \frac{\mathrm{dCov}(X,Y)}{\sqrt{\mathrm{dVar}(X)\mathrm{dVar}(Y)}}\) dCov:距离协方差;dVar:距离方差 任意依赖关系
互信息 (MI) \(I(X;Y)=\sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}\) \(p(x,y)\):联合概率;\(p(x)\):边缘概率 任意非线性
最大信息系数 (MIC) \(\mathrm{MIC} = \max_{grids} \frac{I(X;Y)}{\log \min(m,n)}\) 网格划分;\(m,n\):分箱数 非线性探索
Hoeffding's D \(D = \sum (F_{XY} - F_XF_Y)^2\)(积分形式) \(F_{XY}\):联合分布;\(F_X,F_Y\):边缘分布 任意依赖
克莱姆 V \(V = \sqrt{\frac{\chi^2}{n(k-1)}}\) \(\chi^2\):卡方统计量;\(k\):较小类别数 类别 vs 类别
相关比 η² \(\eta^2 = \frac{\sum n_k(\bar{y}_k - \bar{y})^2}{\sum (y_i - \bar{y})^2}\) \(n_k\):组样本数;\(\bar{y}_k\):组均值 类别 → 连续
点双列相关 \(r_{pb} = \frac{\bar{y}_1 - \bar{y}_0}{s_y}\sqrt{\frac{n_1 n_0}{n^2}}\) \(\bar{y}_1,\bar{y}_0\):两组均值;\(s_y\):标准差 二分类 + 连续
偏相关系数 \(r_{xy \cdot z} = \frac{r_{xy} - r_{xz}r_{yz}}{\sqrt{(1-r_{xz}^2)(1-r_{yz}^2)}}\) \(r_{xy}\) 等:两两皮尔逊相关 控制变量
Phi_K 基于 \(\chi^2\) → 非线性映射(无简单闭式) 通过分箱 + 卡方推导 混合变量

一个比较好的分析路径是:先用距离相关系数或MIC进行探索性分析,捕捉潜在的依赖关系;如果发现关系是单调的,可以再切换回斯皮尔曼相关系数,以获得更具体的相关方向和强度信息。