浅议WEB数据挖掘技术下的图书管理模式

(整期优先)网络出版时间:2014-10-20
/ 2

浅议WEB数据挖掘技术下的图书管理模式

钟传涛

钟传涛上海图书馆上海科学技术情报研究所200031

一、web数据挖掘技术简介

要了解web数据挖掘技术,首先就必须了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的有用的信息和知识的过程,它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。Web数据挖掘根据所处理的对象可以分为三类:web文档的内容挖掘、web文档的结构挖掘、web使用的挖掘。Web文档的内容挖掘指的是从web文档及对其描述内容中获取到有用的信息,即是对web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本。这一步是用户选取目标文本,以此来作为提取用户的特征信息。第二步,提取特征信息。这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值。第三步,从网络上获取信息。这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成www资源库索引。第四步,进行信息特征匹配。通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回各用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

1.为开发网络信息资源提供了工具。数字图书馆需要的是一种可以有效地将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过web数据挖掘技术科研有效地解决了这一问题。这种技术可以用于挖掘文档中隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。

2.为以用户为中心的服务提供帮助。通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名是用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效地了解用户的需求。通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设得更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以使得各种资源的配置更加合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3.web数据挖掘技术在图书馆采访工作中的应用。在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作做得好坏会直接对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买、不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚地得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据分析还能帮助图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时地进行补充、哪些文献应该进行剔除,对馆藏结构进行优化,真正为高校里的师生提供所需要的文献和资料。

4.使用web数据挖掘技术提供个性化服务。传统的信息检索工具在友好性、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑地简单地进行罗列,用户很难从其中获取自己需要的信息。通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种、他们常访问的网站的路径是什么、他们对图书馆中的哪些资源比较有兴趣,然后再根据用户的普遍需求与每个人的个性需求建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户。使用web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。

5.应用web数据挖掘技术可以为学校决策者提供更好的决策支持。Web技术的发展和普及,使得web上拥有丰富的信息资源。在这种信息“大爆炸”的时代里,高校图书馆可以通过web数据挖掘技术,对与学校建设和发展有着重大影响的各种信息进行分析处理,从而更加方便地对这些信息进行有效的辨识、评价、管理,为学校的决策者及时提供各种对学校的发展和成长有用的重要信息。