例子:我们简单粗暴直接上例子,我们带着问题看例子,一步一步来。(例子来自《应用多元统计》,王学民老师著)
在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。
第一步,对原始数据标准化(减去对应变量的均值,再除以其方差),并计算相关矩阵(或协方差矩阵)
第二步,计算相关矩阵的特征值及特征向量。特征值从大到小排列,特征向量和特征值对应从大到小排列。前三个主成分分别为:
第三步,根据累计贡献率(一般要求累积贡献率达到85%)可考虑取前面两个或三个主成分。
第四步,解释主成分。观察系数发现第一主成分系数多为正数,且变量都与身材大小有关系,称第一主成分为(身材)大小成分;类似分析,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。可考虑取前两个主成分。由于λ6非常小,所以存在共线性关系:
第五步,计算主成分得分。即对每一个样本数据标准化后带入第三步的主成分公式中,计算第一主成分得分,第二主成分得分。
第六步,将主成分可画图聚类,将主成分得分看成新的因变量可线性回归。
扩展资料
设有m条n维数据,m个样本,对原始数据标准化(减去对应变量的均值,再除以其方差),每个样本对应p个变量,x=(x∗1,x∗2,⋯,x∗n)′x=(x1∗,x2∗,⋯,xn∗)′。
1、求出自变量的协方差矩阵(或相关系数矩阵);
2、求出协方差矩阵(或性关系数矩阵)的特征值及对应的特征向量;
3、将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵aa(为k*p维);
4、Y=aT∗XaT∗X(Y为k*1维)即为降维到k维后的数据,此步算出每个样本的主成分得分;
5、可将每个样本的主成分得分画散点图及聚类,或将主成分得分看成新的因变量,对其做线性回归等。