面向高维数据的特征选择方法综述与比较

(整期优先)网络出版时间:2023-07-07
/ 2

面向高维数据的特征选择方法综述与比较

苏芳洁1, 赵佳然1,王晨啸1,王烨2

北方自动控制技术研究所1 山西太原 030006

中国国际航空股份有限公司2 北京市顺义区101312

摘要:在当今互联网快速发展的时代,数据变得越来越复杂,数据维度也向多维化发展,在实际生活中,高维数据更加普遍,如:医学数据、气象数据、电商商业数据、军事信息数据、生物特征数据等,这些数据的共同点是维数较高,造成这类数据在聚类分析处理过程中具有一定的难度。聚类分析是一种常用的无监督学习算法,根据数据之间的关系和特征,通过某种方法将数据对象划分为不同的组,同一组的数据之间比非同组的数据之间相关性更好,不同组的数据对象之间相比同组的相关性较差。通过聚类分析观察每个子集的特征,从而对数据进行分析,发现数据不同子集之间存在的联系或规律。

关键词:高维数据;聚类分析;数据降维

前言:在科学研究和日常生活中我们经常会遇到高维数据,它提供了极其丰富和详细的客观信息。如何直观地表示这些数据,或者从中获取我们感兴趣的信息,一直是学者们孜孜不倦追求的目标。可视化技术能将数据信息转变为直观的、以图形或图像形式表示的、随时间空间变化的物理现象或物理量呈现在研究者面前,使我们看到传统意义上不可见的事物或现象,因此本文使用可视化技术来分析和研究高维数据,

  1. 高维数据分析概述

在过去几年里,高维数据分析的理论得到了长足的发展,在统计建模和推断的各个方面,都有了一定的理论结果。首先,我们来明确一下高维数据分析理论的定义。在经典的统计理论中,我们一般假设数据的维数P是固定的,而样本容量n趋于无穷。所谓“高维”数据分析理论,我们一般是指当维数P随着n一起趋于无穷的假设下的统计理论。特别地,当P>n时,我们称这样的数据为“超高维”数据。随着科技,经济的发展,数据日益趋于复杂,数据维数相对于样本量而言,不再是一个较小的量,甚至会大于样本量,在这种情况下,运用经典理论得到的结论可能会脱离实际。Bai和Saranadasa在中给出了一个有趣而形象的例子:在两个多维总体均值是否相等的假设检验问题中,当维数与样本容量接近,一起趋于无穷时,经典HotellingST2检验的效率明显降低。这时,我们就要考虑采用高维数据分析的理论,从高维的角度来重新分析。

  1. 高维数据聚类研究现状

高维数据产生了一系列维度灾难等相关问题,使得低维聚类分析方法无法直接使用,许多学者基于类似问题进行了研究。为了解决高维数据聚类效果不佳的现象,张力生等人通过使用超图构造和评估函数两种方法对超图模型聚类算法进行改进。吕伟国提出一种面向高维数据的属性双加权优化聚类算法,该算法通过标准化的形式得出算法中矩阵的划分、类的中心集以及属性的权值在实现的过程中的规则,进而获得了最优解。俞蓓等人提出了基于近邻方法的可视化聚类方法,主要通过在以记录为坐标轴的平面中的距离来进行聚类。桑遥等人采用重引力搜索并在此基础上设计了拟牛顿法的局部开发策略,从而提高了解决高维数据聚类问题的能力。XiePeng等人提出了一种探索子集模式的可视化分析方法,实现了对任意子集的处理和对单个特征子集相似性的获取,实现了精确的模式挖掘。王田基于高维数据聚类提出了MDSG方法,该方法通过利用SNN(共享近邻)方法以及稠密子图划分方法来构造超图和进行聚类。王恒静引用了LDA模型,解决了文本表示时高维向量向低维向量转化的问题,通过改善K均值聚类算法的缺陷并且融入了词类模型和自动搭配抽取方法,来提高K-Means算法的有效性。蒋亦樟等人基于FCM算法以及方差权重矩阵模型,创造了WM-FCM算法(方差权重矩阵的模糊聚类算法),该算法解决了属性重要程度对子空间的干扰问题。针对高维数据复杂性的问题,周煜人等人提出了高维数据聚类的框架,将原始数据投影到一维或二维,将数据库分为多个小的数据组,从而降低了对于聚类算法的要求。朱宁提出了基于局部结构保留的级联子空间聚类算法,该方法采用子空间聚类算法和自编码器对聚类算法进行改进,该算法可以度量不同空间分布的差异特征并且能够发现高维数据中存在的潜在结构。朱颖雯等人提出了RPFART算法,该算法基于随机投影和自适应谐振理论,与其他方法相比更加稳定,对于大规模、高维数据处理效率更高。张晓基于关联规则挖掘和Apriori算法提出了于超网络模型的高维数据聚类算法,能有效过滤掉聚类中出现的噪声数据。为了加快提高算法的运行效率,孙玉芬等人提出了GSCDS算法即基于网格的子空间聚类算法,该算法采用了自底向上和自顶向下的网格方法去改进普通子空间的聚类算法。汪万紫等人提出了LDABKM方法,该方法将线性判别分析与二分K均值聚类结合,提高了在处理高维数据时的效率。Agarwal等人[16]提出一种新的基于密度的子空间聚类算法(S_FAD),该算法基于混合元启发式算法以及哈希概念等实现了非冗余子空间簇。目前高维数据聚类分析的难点主要有:(1)计算复杂度较高。低维空间的聚类方法无法直接在高维空间中使用,高维数据的维度过大,造成数据计算量指数式增加。(2)样本点之间相似度难以计算。高维数据维数过大,造成数据的空间大,样本点分布稀疏,样本之间的相似度难以计算,聚类难以实现。

3.降维算法的发展现状

随着信息逐渐呈现爆炸式增长,数据空间也不断膨胀,数据维度也向多维化发展。描述现实生活中的各种现象或问题的数据主要为多维数据,需要对这些数据进行降维处理,才能对其进行数据处理和分析并从中得到信息。主成分分析法最早用于统计学,用来找出某一集合的主要成分。Sirovich和Kirby将这种方法用来分析人脸图像空间的主要成分,Turk和Pentland等人首次将主成分分析法用于人脸图像的识别,基于该方法又涌现了很多改进的方法。李蝉娟提出了基于信息熵的高维稀疏大数据降维算法E-PCA,该算法将PCA算法中引入了信息熵,通过信息熵对数据的特征进行筛选,从而降低特征的数量,该算法提高了高维数据降维的效率。万静等人将PCA算法中方差最大化标准改为通过属性空间与信息熵结合的E-VAR标准,提出了EN-PCA算法,提高了降维效果。边荣正等人提出了面向复杂多流形高维数据的t-SNE降维方法,将t-SNE方法中计算高维概率样本之间距离时的欧几里得度量方法替换为欧几里得度量与局部PCA不相似度的加权和。通过该方法,区分数据中不同流形结构并且可以显示每个流形自身的结构特点,有利于降维有交叉的多流形数据。崔雨萌通过设置互信息阈值、改进数据中心化、引入熵权对主成分进行加权改进,提出一种EW-PCA算法(基于熵权法权重的改进PCA降维),提高了数据的降维效果。彭骞等人通过将PCA算法融入LPP算法中增加数据的全局信息,并且通过判断样本的类别来赋予不同的权重用来弥补LPP算法缺少的监督信息,从而提升了LPP算法的降维效果。David等人在2003年提出隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)算法,该算法不断被优化发展。赵智通提出了一种KPCA-LDA-BPNN降维算法,该算法通过引入信息熵进行特征提取,并采用LDA主题模型获取具有区别的信息,将BPNN作为分类器和特征提取算法相结合,该算法提高了降维的准确率,但该算法并没有考虑内存消耗和扩展性问题。于永波为了提升LDA算法的鲁棒性,降低其对噪声和异常值的敏感,将中值的权重代替均值,并将数据的局部结构信息进行融合,提升了高维数据降维的效率。

4.结束语:

综上所述,大数据时代增强了人们利用数据的能力,但是大量的数据也导致数据的存储、管理、处理越来越困难。基于此,以海洋多维数据为例,采用三维矩阵数学模型来进行海洋多维数据的存储和处理,从而实现对大数据高维数据处理的研究。

参考文献:

[1]张建朋,陈鸿昶,王凯,等.基于采样的大规模图聚类分析算法[J].电子学报,2019,47(8):1731-1737.

[2]张力生,贺改利,雷大江.基于幂图的离群子空间搜索算法[J].计算机应用研究,2011,28(8):2859-2861.

[3]吕伟国.基于高维数据聚类分析方法的有效性研究[D].哈尔滨:哈尔滨工程大学,2016.

[4]俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类发现[J].计算机研究与发展,2000(6):714-720.