相关系数大全整理
| 方法 | 数学公式 | 参数说明 | 适用特点 |
|---|---|---|---|
| 皮尔逊相关系数 | \(r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2}\sqrt{\sum (y_i - \bar{y})^2}}\) | \(x_i, y_i\):样本值;\(\bar{x}, \bar{y}\):均值 | 线性关系 |
| 斯皮尔曼 ρ | \(\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}\) | \(d_i\):排名差;\(n\):样本数 | 单调关系(非线性可) |
| 肯德尔 τ | \(\tau = \frac{C - D}{\frac{1}{2}n(n-1)}\) | \(C\):一致对数;\(D\):不一致对数 | 小样本、稳健 |
| 距离相关系数 | \(\mathrm{dCor}(X,Y) = \frac{\mathrm{dCov}(X,Y)}{\sqrt{\mathrm{dVar}(X)\mathrm{dVar}(Y)}}\) | dCov:距离协方差;dVar:距离方差 | 任意依赖关系 |
| 互信息 (MI) | \(I(X;Y)=\sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}\) | \(p(x,y)\):联合概率;\(p(x)\):边缘概率 | 任意非线性 |
| 最大信息系数 (MIC) | \(\mathrm{MIC} = \max_{grids} \frac{I(X;Y)}{\log \min(m,n)}\) | 网格划分;\(m,n\):分箱数 | 非线性探索 |
| Hoeffding's D | \(D = \sum (F_{XY} - F_XF_Y)^2\)(积分形式) | \(F_{XY}\):联合分布;\(F_X,F_Y\):边缘分布 | 任意依赖 |
| 克莱姆 V | \(V = \sqrt{\frac{\chi^2}{n(k-1)}}\) | \(\chi^2\):卡方统计量;\(k\):较小类别数 | 类别 vs 类别 |
| 相关比 η² | \(\eta^2 = \frac{\sum n_k(\bar{y}_k - \bar{y})^2}{\sum (y_i - \bar{y})^2}\) | \(n_k\):组样本数;\(\bar{y}_k\):组均值 | 类别 → 连续 |
| 点双列相关 | \(r_{pb} = \frac{\bar{y}_1 - \bar{y}_0}{s_y}\sqrt{\frac{n_1 n_0}{n^2}}\) | \(\bar{y}_1,\bar{y}_0\):两组均值;\(s_y\):标准差 | 二分类 + 连续 |
| 偏相关系数 | \(r_{xy \cdot z} = \frac{r_{xy} - r_{xz}r_{yz}}{\sqrt{(1-r_{xz}^2)(1-r_{yz}^2)}}\) | \(r_{xy}\) 等:两两皮尔逊相关 | 控制变量 |
| Phi_K | 基于 \(\chi^2\) → 非线性映射(无简单闭式) | 通过分箱 + 卡方推导 | 混合变量 |
一个比较好的分析路径是:先用距离相关系数或MIC进行探索性分析,捕捉潜在的依赖关系;如果发现关系是单调的,可以再切换回斯皮尔曼相关系数,以获得更具体的相关方向和强度信息。