对主成分分析(PCA)中各类术语的白话解读

发布于 2021-09-26 15:49

在主成分分析中,涉及各类奇怪的术语,如主成分、特征向量、特征值等。这些术语常常让人摸不着头脑。本文试图通过白话说明这些属于大概是什么意思,主要参考书目为《Machine Learning with R, the tidyverse, and mlr》的第13章。

 

Principal axis:主成分坐标轴。在原始数据的多个变量所构成的多维空间中(通常有几个原始自变量就有几个坐标轴),通过旋转等构建出的新坐标轴。

 

Principal component:主成分变量。将构造出的主成分坐标轴分别命名(在原始的多维空间中坐标轴是有名字的,就是原始变量1、原始变量2等),将这些被逐个命名的新变量称为主成分变量(简称主成分),简写为PC1、PC2等。在计算上,每个主成分变量都是原始变量的线性组成,例如可以假设PC1(主成分变量1)是两个原始变量(var1、var2)的如下线性组合:

PC1 = 0.95 × var1 + (–0.32) × var 2                          Equation 1

那么这个PC1变量就构造出来了。

 

Eigenvector:特征向量。这实际是一个线性代数中的词汇,意思是将原始的数据点通过怎样的变换可以在主成分坐标轴中得到一个单位的长度大小。简单来说,这个转化过程是将原始数据中的多个变量乘以一个向量,这个向量被称为特征向量。比如,上面举例的Equation 1中,形成PC1的原始变量前的系数0.95和-0.32即组成一个特征向量。特征向量可以确定每个主成分坐标轴的空间方向,即由原始坐标轴怎么旋转确定出每个主成分坐标轴。

 

Component score:主成分得分。指的是计算出每个原始数据点在主成分坐标轴上所对应的每个主成分变量的数值大小。继续上面的例子,比如某个数据点的原始变量1(var1)的数值是0.5,原始变量2(var2)是0.6,那么这个数据点在主成分坐标轴1上对应的主成分1(PC1)的数值大小就是:PC1 =0.95*0.5 + (-0.32)*0.6 = 0.283。对每个原始数据点在每个PC上计算出其具体的值(主成分得分),这样主成分分析所构造的新变量的数据就有了。

 

Eigenvalue:特征值。指的是每个主成分坐标轴所对应的主成分变量能解释多少原始数据中的变异(即方差,variance)。特征值是对方差解释的绝对值。主成分坐标轴1的方向能解释原始数据中最大的方差,即有最大的特征值,其他主成分坐标轴的特征值依次递减。

 

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材