pdf: A Tutorial on Principal Component Analysis
在实际生产生活中,我们所获得的数据集在特征上往往具有很高的维度,对高维度的数据进行处理时消耗的时间很大,并且过多的特征变量也会妨碍查找规律的建立。如何在最大程度上保留数据集的信息量的前提下进行数据维度的降低,是我们需要解决的问题。
对数据进行降维有以下优点:
- 使得数据集更易使用
- 降低很多算法的计算开销
- 去除噪声
- 使得结果易懂
降维技术作为数据预处理的一部分,即可使用在监督学习中也能够使用在非监督学习中。其中主成分分析PCA应用最为广泛,本文也将详细介绍PCA。
比如说有如下的房价数据:
对于512维度进行不同维度压缩后保留的信息:
256:0.9998875105696291
128:0.8964985919468982
64:0.6758438520261455
作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。
PCA算法的主要优点有:
-
仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
-
各主成分之间正交,可消除原始数据成分间的相互影响的因素。
-
计算方法简单,主要运算是特征值分解,易于实现。
PCA算法的主要缺点有:
-
主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
-
方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。
===
主成分分析(Principal Component Analysis):一种统计方法,它对多变量表示数据点集合寻找尽可能少的正交矢量表征数据信息特征。
PCA既是一种压缩数据的方式,也是一种学习数据表示的无监督学习方法。《深度学习》5.8.1 P92
有两种解释
1,深度学习 p30 2.12节
2,深度学习 p92 5.8.1节
Dimensionality Reduction——PCA原理篇
https://zhuanlan.zhihu.com/p/28317712
Dimensionality Reduction——PCA实现篇
https://zhuanlan.zhihu.com/p/28327257
PCA主成分分析学习总结
https://zhuanlan.zhihu.com/p/32412043
通过指定如下损失函数就可以得到PCA的第一个主向量 $$ J(w)=\mathbb{E}{X\sim \hat{p}{data}}\left |x-r(x;w) \right |^2_2 $$ 模型定义为重构函数 $$ r(x)=w^Txw $$ ,并且w有范数为1的限制。
《深度学习》5.10 p96