简介:传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征.这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征.本文研究了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析.主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中.最后结合某城市房屋管理部门留言板的实际留言文本数据,利用BP神经网络和RNN网络两种算法,实现概率语言模型的求解.与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性.
简介:当今社会已进入以微电子、电子计算机、机器人、生物工程为主导的高科技社会,高科技的迅猛发展与广泛渗透,使珠算教学面临着前所未有的严峻考验。在一些人的脑子里认为我们传统而古老的算具———算盘没有必要了。职业学校的教学对象是一些面向未来的天之骄子,他们喜好新鲜,热衷于电脑、电影、电视、信息、文艺杂志等代表时代的一切。这一层次的学生不同于职业培训生,他们没有真正接触过实际工作,不象培训生有一种直接的紧迫感和压力;另外他们也不同于小学生,无法普及珠心算,充分体现珠算的智力开发和教育功能,为此,如何使职业学校的珠算教学任务高质量高效率地完成是一项复杂而棘手的工作。结合这几年的教学实践,我认为应集领导重视、班主任和家长配合。社会关心和思想教育、师资建设、科研安排、等级考核和各种比赛结合,尖子培训和普及提高结合,即要用系统论观点安排珠算教学的全过程,而不是个别地、局部地、分散地进行。这样做有利于发挥整体优势,有利于调动各方面的积极性,有利于健全制度,有利于扎实基础,使教学水平上台阶。具体做法如下:1 寓思想教育于教学之中,是激发和培养学生学练珠算兴趣的前提重视思想教育是提高教学质量的...
简介:首先,研究了Erdos1合著网络的特征属性,一方面使用节点的度、介数、接近中心性来描述Erdos1合著网络节点重要性,另一方面使用特征向量中心性和本文提出的高阶度参数来描述Erdos1合著网络节点影响力;然后,分别用逼近理想解的排序(TOPSIS算法)算法和主成份分析(PCA)对节点重要性和影响力排序;最后,利用修改的网页排名(PageRank)算法讨论了网络科学原创性论文中最具影响力的论文。
简介:为了预测某导弹陀螺漂移趋势,以该陀螺漂移角速度时间序列为对象,建立了基于支持向量回归机的预测模型。针对该预测模型的特点,提出了支持向量预选取的模型优化方法。基于ε不敏感损失函数的支持向量回归机具有稀疏性,其结构由支持向量决定。因此从训练样本集中预选出有可能成为支持向量的样本,精简样本规模是提高该类支持向量回归机训练和预测效率的有效方法。针对该类支持向量回归机从分类和回归两个角度分析了支持向量的几何特征,提出了核函数空间免疫聚类的支持向量预选取方法并用于某导弹陀螺漂移预测模型的数据预处理。仿真结果表明优化后的预测模型运算量小、建模速度快,精度高。
简介:链路预测是网络信息挖掘的主要研究内容,通过对网络结构和其他信息的分析,挖掘缺失的链接或预测未来可能出现的链接。链路预测在推荐系统、社会网络和生物网络分析中有着十分广泛的应用。本文首先介绍了基于公共邻居、路径和随机游走的8种常用的链路预测指标.并在此基础上提出了一种基于这8种指标线性组合的度量指标,并经过实验找出了较好的优化参数。然后,提出了基于这8种指标的神经网络模型.并分别基于Weka平台和FANN库进行了实现。在社会网络的4个公开测试集上的实验结果表明.基于FANN库的神经网络模型的预测结果最好,在4个数据集上最高的AUC值分别达到了0。95l8、0.9289、0.7480和0.8677,与单一指标最好的AUC值相比分别提高了3.92%、1.45%、7.06%和24.35%。