简介:摘要:随着信息资源的日益增多,目前那些较为成熟的大型通用搜索引擎无法满足从事电力事业的人员只搜索电力信息的需求,因此,一种针对指定电力客户需求、指定电力人群以及指 定电力领域的基于电力信息单一领域的搜索引擎便之诞生了,其能够为人们提供一些具备特定价值的信息以及有关的服务。为此,笔者对数据挖掘的概念进行了阐述,同时对基于数据挖掘的电力信息分类及搜索技术进行了探讨,可供参考。
简介:为了改善真实网络数据集上自动问答系统的性能,定义出新的问题类别集合和通用的答案重新排序模型.问题分类器借助先验词典和语法分析,将语义和语法信息引入信息检索和机器学习方法,呈现为多种多样的训练属性,包括疑问词、中心动词、疑问词与中心动词依赖关系、中心助动词位置、中心名词、中心名词顶级上位词等.进而通过问题类别信息,对问答查询结果重新排序.实验表明:分类器能够精确实现真实网络数据集的问题分类,重新排序后的自动问答结果也能得到明显改善.这说明借助语义和语法信息,真实网络数据集上的自动问答系统等应用可以得到改善,显示出更好的性能.
简介:摘要:随着信息资源的日益增多,目前那些较为成熟的大型通用搜索引擎无法满足从事电力事业的人员只搜索电力信息的需求,因此,一种针对指定电力客户需求、指定电力人群以及指 定电力领域的基于电力信息单一领域的搜索引擎便之诞生了,其能够为人们提供一些具备特定价值的信息以及有关的服务。为此,笔者对数据挖掘的概念进行了阐述,同时对基于数据挖掘的电力信息分类及搜索技术进行了探讨,可供参考。
简介:Tri—Training是半监督协同训练的代表性算法之一,它运用统计技术标记置信度,并结合噪音学习理论进行无标记样本分类。当扩充样本训练集不满足噪音学习理论时,会进行随机采样,针对传统Tri-Training算法随机选取基础分类器的扩充训练样本集会引入噪声这一缺陷,通过更改扩充样本训练集选取方式,剔除可能提高分类误差的样本。在健康大数据集上进行一系列验证试验,实验结果表明,改进的算法优于原始算法,降低分类错误率。
简介:基于Wishart分类器的全极化SAR图像H/α分类方法应用于海岸线分类,可区分不同海岸线类型。在聚类过程中,传统H/α-Wishart方法时常将各类聚类中心对应的散射机理混淆,使得同为单次面散射的淤泥质与砂质海岸线类别难以区分。针对此问题,提出了改进型的辅助分层分类方法。算法运用单次反射特征值相对差异度与极化总功率系数构成的二维特征空间,结合支持向量机得到最优分界判据,以分离初始分类结果中混淆的淤泥质与砂质海岸线。实验表明,改进方法能够有效区分淤泥质与砂质岸线,分类混淆矩阵对应kappa系数由0.794提升至0.853,分类识别率得到显著提高。
简介:摘要:工业用电量在全社会用电量中的占比较高,准确研究工业用电量可以用于分析全社会用电量的变化趋势。以安徽某城市为例,按照行业分类将工业行业划分为采矿业、制造业及电力、燃气及水的生产和供应业三大类。本次研究内容围绕用电量与区域、行业分类等维度展开分析,探讨工业用电量的内在关联规律,分析电量增长放缓原因。