支持向量机结合神经网络在数据分类中的应用

(整期优先)网络出版时间:2021-05-13
/ 2

支持向量机结合神经网络在数据分类中的应用

单明霞

( 四川工商学院, 四川 眉山 620000 )


摘要:在对非线性的地球化学数据进行处理的过程中,分类算法的选择至关重要。神经网络算法具有准确度高、泛化能力强的特点,支持向量机具备可以解决过拟合、避免趋于极小能优势。当两者进行结合用于处理地球化学数据分类问题时,具备了两种算法的优势,分类结果良好。

关键词:神经网络、支持向量机、地球化学数据

0 引言

地球化学数据具备非线性的特点,应用研究区水系沉积物等样品数据用于成矿预测成为了地球科学研究者的关注热点。随着计算机技术的发展,神经网络、支持向量机等算法模型越来越多的应用于解决实际问题当中,尤其是分类问题。

1 支持向量机

支持向量机分类的本质是将求解问题划分为一个二次规划的优化问题,继而通过解决二次规划问题来解决原问题。对于二次规划问题,研究者研究出了各种改进算法,并且算法表现优异,尤其是在某些特殊问题的解决中。

支持向量机的理论最初来自于对数据分类问题的处理。对于线性可分数据的二值分类。如果采用神经网络来实现,其机理可以简单描述为:系统随机产生一个超平面,并移动它,直到训练集合中属于不同类别的点正好位于该超平面的不同侧面,就完成了对网络的设计要求。但是这种机理决定了不能保证最终所获得的分割平面位于两个类别的中心,这对于分类问题的容错性是不利的。

保证最终所获得的分割平面位于两个类别的中心对于分类问题的实际应用是很重要的。支持向量机方法很巧妙的解决了这一问题。该方法的机理可以简单描述为:寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化;从理论上来说,支持向量机能够实现对线性可分数据的最优分类。为了进一步解决非线性问题,Vapnik等人通过引入核映射方法转化为高维空间的线性可分问题来解决。

2 RBF神经网络

RBF是Radical Basis Function的简称,即径向基函数。什么是径向基函数?径向基函数就是以到固定点的距离为自变量的一类函数.径向基函数的函数形式如609cf10f80333_html_a02b8b4b7bb0ff9d.png ,其中自变量为609cf10f80333_html_f5f1176759a1b51f.png ,代表空间中某一点x到某一中心点c之间的欧式距离。在三维欧式空间中,点(x,y,z)到固定点c(609cf10f80333_html_aa3bb64275f4f068.png )的距离可简单表示为609cf10f80333_html_f5f1176759a1b51f.png =609cf10f80333_html_5a4564deb4ff474c.png 。1985年,Powell提出了多变量插值的RBF法,故RBF应用于神经网络的设计其思想根源在于解决插值问题。将径向基函数选择高斯函数为例子,其函数表达式为609cf10f80333_html_adae65c3bc74a328.png 。权值与基函数的乘数,构成了大小各异的径向基函数值,最后,可拟合出趋于完美的函数曲线。

RBF神经网络的基本思想是:用径向基函数作为隐单元的“基”,构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,使得在低维空间内的线性不可分问题在高维空间可分[2]。由此可以看出,径向基网络的隐含层单元的功能,即将样本映射高维空间,映射依据是径向基函数。最后,在高维空间进行数据分类,避免局限最优,从而得到全局最优解。

3 支持向量机结合神经网络算法

在某种条件下,正则化的神经网络与SVM存在等价的关系,两者之间可以相互转化,从而可推导出正则化的RBF 神经网络与核函数为RBF的SVM 互为充要条件且可以彼此转化[1]

广义径向基网络的特点,清楚广义网络的核心点主要有三个:网络中心609cf10f80333_html_3e09d98ea8c16f1b.png ,扩展常数(作用域)609cf10f80333_html_80d1052c1a132b74.png 以及权值w(隐含层到输出层之间)。通过学习SVM可知,影响一个SVM模型的关键参数是惩罚变量C与其核函数的参数。当支持向量机选择径向基核函数时,此时两者就会有相似的地方,即径向基函数中的609cf10f80333_html_80d1052c1a132b74.png 确定。由此,RBF网络中的609cf10f80333_html_80d1052c1a132b74.png 可以完全借用核函数为RBF的SVM的609cf10f80333_html_80d1052c1a132b74.png 。算法流程图如图1所示

609cf10f80333_html_c52dbabc1fcb7bc8.gif

图1 支持向量机结合神经网络算法流程图

4 算法应用

4.1 实验数据

本文研究区选取某铜矿整装勘查区。选取样品均为该勘查区内的水系沉积物样品。通过对数据的整理,共得到4531 条包含9种元素含量的信息。由之前在此区域的研究得到元素含量属性表明的有矿点坐标数据共54条,无矿点(或成矿概率较低)的坐标有46条。我们将此两类数据作为未知样本成矿分类的训练集。

从统计结果看,各类已知有矿及无矿样本元素含量或组合差异较为明显,可以用于建立模型,预测是否满足成矿条件,最后再对所有未知有无矿点数据的样本进行分类。

4.2 实验结果

单纯使用SVM分类准确率为90.2%;结合神经网络的模型分类准确率为100%,609cf10f80333_html_80d1052c1a132b74.png =0.032。SVM的效率是最高的,适用于快速算法的场合。但对于需要精确分类的数据而言,结合了神经网络的模型就会有较大的用途。

5 讨论

大数据时代,学者在进行研究的过程中难免会应用不同的算法来进行数据处理。结合了神经网络的支持向量机模型虽然在数据分类的结果展现出优势,但是耗时太高。所以及时有效的处理算法就显得格外重要,如果模型不能够优化改进,降低时耗的话,那么日后必定会被研究者们放弃。因此,关于具体的算法研究展望,建议先从优化耗时进行入手,如优化GA算法对C,g寻优的速度等。

参考文献

[1]刘耀辉. 支持向量机与神经网络的融合优化及其在数据挖掘中的应用[D].深圳大学,2017.

[2]石灵丹,槐博超,马修真,华斌,朱歆州.RBF神经网络在柴油机燃油系统故障诊断中的应用研究[J].船电技术,2009,29(08):18-22.

作者简介:单明霞(1981-),女,汉族,山东高密人,讲师,研究生学历,四川工商学院,620000,研究方向:应用数学、计算机、经济管理

基金项目:四川矿产资源研究中心项目资助(SCKCZY2020-YB10);数学地质四川省重点实验室开放基金资助课题(scsxdz2020yb06)