上QQ阅读APP看书,第一时间看更新
2.2.5 聚类分析
聚类分析是指样本个体或指标变量按其共有的特性进行聚类来挖掘数据样本的潜在联系。下面简述一下聚类的分类。
1.性质分类
Q型聚类分析:对样本进行分类处理,又称样本聚类分析,使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等。
R型聚类分析:对指标进行分类处理,又称指标聚类分析,使用相似系数作为统计量衡量相似度,如相关系数、列联系数等。
2.方法分类
按照方法分类可以分为三种类型:基于层次的聚类算法、基于分割的聚类算法和基于密度的聚类算法。
具体的聚类分析方法在第13章中有详细的介绍。除上述方法之外,还包括主成分分析、时序分析、判别分析等数据分析方法。在实际问题中,我们可以使用高效、简单的机器学习和统计学习的方法,对数据进行初步的分析来建立对数据的理解,从而辅助后续建模工作以及特征工程的开展。