什么是主成分分析

如题所述

第1个回答 2023-06-27

主成分分析是一种线性降维算法，也是一种常用的数据预处理方法。

主成分分析法的目标：

是用方差（Variance）来衡量数据的差异性，并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下，我们希望获得两个主成分因子：分别是从数据差异性最大和次大的方向提取出来的，称为PC1(Principal Component 1) 和 PC2（Principal Component 2）。

Scores.xlsx （文末获取文件链接）包含了约70名学生的全科考试成绩。其中每名学生是一个独立的样本，每门学科的成绩都是一个数据维度（共有13门成绩）。目的是通过分析学生的考试成绩来判断学生的类别（理科、文科生，和体育、艺术特长生）。

特征提取（或称特征抽取）一般做两方面的工作：

1、对原始数据进行某种变换。

2、在变换的过程中使不同的类别（或不同样本）具有相对较好的区分性。

PCA与LDA的局限性：

PCA的局限性：

PCA可以很好的解除线性相关，但是对于高阶相关性就没有办法了，对于存在高阶相关性的数据，可以考虑Kernel PCA，通过Kernel函数将非线性相关转为线性相关。

另外，PCA假设数据各主特征是分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣了。

各个主成分特征是原始特征的线性组合，其含义具有一定的模糊性，不如原始样本特征的解释性强。方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

LDA的局限性：

传统的线性鉴别分析和主成分分析均只作用于对一维数据即矢量数据进行特证抽取，由此带来诸多不便。假如我们要处理的数据是200×200大小的图像矩阵，那应用这两个方法之前，我们必须把每一个图像转换为一个40000维的矢量。

在此基础上，主成分分析对应的协方差矩阵为一个40000×40000的矩阵，这是一个恐怖的数字，无论是计算协方差矩阵还是计算协方差矩阵的特征向量都将耗费巨大的计算资源。面对上述图像矩阵时，线性鉴别分析也存在一样的难题，而且过之而不及。

线性鉴别分析中类间散布矩阵与类内散布矩阵的大小均为40000×40000，而且还需要计算类内散布矩阵的逆矩阵，计算量的巨大可想而知。

相似回答

什么是主成分分析答：主成分分析是一种线性降维算法，也是一种常用的数据预处理方法。主成分分析法的目标：是用方差（Variance）来衡量数据的差异性，并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下，我们希望获得两个主成分因子：分别是从数据差异性最大和次大的方向提取出来的，称为PC1(Principal Compo...

主成分分析详解答：主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信...

主成分分析和因子分析是什么?答：主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。因子分析是研究如何以最少的信息丢失，将众多原始变量浓缩成少数几个因子变量，以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。主成分分析，是考察多个变量间相关性一种多...

主成分分析法答：主成分分析法(Principal Components Analysis，PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法。从数学角度来看，这是一种降维处理方法，即通过对原始指标相关矩阵内部结果关系的研究，将原来指标重新组合成一组新的相互独立的指标，并从中选取几个综合指标来反映原始指标的信息。假定有n个评价...

主成分分析的作用答：主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。主成分...

大家正在搜

主成分分析的解释主成分分析为什么要旋转主成分分析怎么求主成分分析PCA PCA主成分分析例题主成分分析的原理和步骤主成分分析简单例题详解主成分分析是干嘛的什么是主成分分析法的概念