简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:[目的/意义]作为城市化进程中的“顽疾”,群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程]利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论]研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。
简介:[目的/意义]运用本体特有的语义关联和知识聚合能力,深入内容层面设计构建中美赛珍珠主题硕博学位论文本体,并在此基础上展开内容比较分析。[方法/过程]从理论层面提出本体库的总体架构和构建流程,在实践层面使用Protégé进行本体库建模和实例填充,并开展以外部文献信息中时间分布和研究内容《大地三部曲》为示例的比较研究。[结果/结论]中美赛珍珠主题硕博学位论文的时间分布上美国起步较早,但发展缓慢,后劲不足;中国虽然早期文献产量低,但上升速度快,文献产量高,后来居上。《大地三部曲》是两国共同关注的核心研究对象,相比而言,中国学位论文研究的人物、事件更多,时间的跨度更长,而美国论文选择的研究对象和涉及到的人物关系相对集中。研究方向上两国有同有异,对人物形象和中国文化的研究是两国共同的主流。
简介:[目的/意义]基于关键词分析,得出不同类型的微博阅读群体的特殊行为特征,分析微博对群体阅读所起的作用和用户参与中的得失。[方法/过程]通过采集微博热门读书话题的数据样本,进行关键词提取、关键词词频统计、关键词与微博热度相关性分析、关键词文本分类和情感分析。[结果/结论]对于在微博平台如何更好开展群体阅读分别从有影响力用户、普通用户、商业用户及平台方角度提出具体发展建议:有影响力的微博用户应加强与普通用户的深度互动;普通微博用户应加强自己的"深阅读"能力和交流能力;微博商业用户应减少书籍的过度营销;新媒体应加强对知识性阅读话题的重视和推广。
简介:MEDLINE简称MedlarsOnline,是当前最重要、利用率最高的生物医学数据库之一。它由美国《医学索引》、《牙科文献索引》和《国际护理索引》所组成。该数据库收录了70多个国家的3200种期刊的目录与文摘。所有文献可分为研究、临床,管理政策,医疗服务等方面,其中70%是英文文献。该数据库收录的重点为临床医学,基础医学和实验医学,对边缘学科收录不够全面。但MEDLINE光盘以其存贮量大,检索入口多、功能强、速度快、省时省力,不受线路、空间的限制等诸多优点,而深受广大用户的厚爱。作为安徽省高等医学院校酋家引进MEDLINE光盘检索系统的单位,开展工作已有半年,我将这半年来的光盘使用情况加以总结及分析,以便将来更好地开展工作。
简介:以SCI数据库中Scientometrics2000~2014年期间刊载的2415篇论文为研究对象,采用文献计量学的方法,从载文量、被引情况、合作情况、核心作者、研究热点等几个角度进行分析,同时对中国作者发表的论文进行重点分析。研究结果表明,中国的发文量逐年上升,2011~2014年一直排在第一,但是总被引次数以及篇均被引次数都偏低,合作论文以国内合作为主,国际合作比例偏小,主要的合作国家有美国、比利时等。