简介:通过对Web服务器日志文件进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径.在本文算法中,首先以Web站点的URL为行、以UserID为列建立URL-UserID关联矩阵,其元素值为用户的访问次数.然后,采用模糊聚类算法和K-平均算法两种方法分别对列向量进行分析得到相似客户群体,对行向量进行分析可获得相关页面,对后者再进一步处理还可以发现频繁访问路径.实验结果表明了算法的有效性.
简介:利用数据挖掘技术,通过R语言编程,自动抓取汽车消费的评价数据。经过文本分析,得到网友对部分汽车的主要核心评价,并利用词云、地图、图表等方法将统计结果进行可视化展现。同时将分析结果与互联网上该车型的概括评价作比较,提出可信度较高的购车建议供汽车消费者参考。
Web日志挖掘研究
基于R语言的汽车消费数据挖掘及可视化方法