简介:网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。
简介:本文统计了《中国图书馆分类法》第5版和《杜威十进分类法》第22版中医学类表中的相关数据,从类目结构、类目数量、类目质量几个方面,利用类号长度、类目包容度、参照度、清晰度等多个性能指标,对两表进行定性定量测评;并根据统计结果提出《中图法》今后借鉴《杜威法》修订医学类表的一些建议。
基于网页正文逻辑段落和长句提取的网页去重算法
《中国图书馆分类法》第5版医学类表性能测评——兼与《杜威十进分类法》第22版医学类表比较