用户名: 密码: 验证码:
基于神经网络的用户建模和Web信息过滤研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
Web个性化服务是当前人工智能和信息技术领域研究的热门课题之一。以搜索引擎为主的信息检索技术并没有考虑用户的兴趣、偏好的不同,相同的关键词返回相同的结果。而且返回的结果良莠不齐,用户需在大量噪音中找寻有用信息。用信息过滤技术改进Internet信息检索系统已成为非常重要的研究方向,是个性化服务的基础。
     利用用户模型可以更好的进行信息过滤。用户模型(User Model)是对一个类别的用户组或单个用户的描述。基于用户模型,计算机中可以表达、存储、复现用户模糊的、变化的兴趣特征,其中存储的用户信息构成了过滤条件,使得信息过滤更有效。
     本文首先分析了目前Internet上个性化文本信息检索的研究和应用情况,以及以模糊逻辑、神经网络为代表的软计算的发展现状。借鉴ANFIS网络,提出了一种将神经模糊网络技术应用到用户建模中,建立个性化自适应用户模型,并应用于Web信息过滤的方法。文中讨论了以下几个关键问题:
     (1)Web页面和用户兴趣的表达,采用了向量空间模型(VSM),将Web页面映射为向量空间中的内容向量PJ。在过滤之前,由用户输入检索关键词和若干Web页面作为样例,经分词抽取出用户的兴趣向量ui。
     (2)信息过滤的目的是将Web页面分为相关Web页面集合R和不相关Web页面集合R。利用术语在R和R中的局部权重的不同,选择权重差别最大的那些术语作为特征术语,以确定和调整向量空间的维度,在降低向量空间维度的情况下,尽量保持模型的准确性。
     (3)用户模型结构的建立,(模型的结构辨识)。利用模糊集合理论,建立了一组模糊IF-THEN规则,并用ANTIS网络实现。用户的兴趣向量ui和权重ri作为参数存储到网络中。PJ作为输入变量,输出量是系统对PJ和Ui相关度的评判值
    
     互互
    RPredj。
     ()用户模型参数的优化(模型的参数辨识人 采用的是 Candidat抑ank模
    式,在“学习一过滤一反馈一再学习一再过滤……”中调整参数。将用户的相关
    反馈 Ruseh和 Rpedj的差值作为误差信号,采用 Wdro一Hoff算法在线式学习,
    优化八。当与用户的交互达到一定程度后,进行离线式学习,对冰进行调整。
     基于以上讨论,实现了一个基于模糊神经网络用户模型的信息过滤原型系统
    AUM&IP,并利用该原型系统对gOOgle返回的 Web页面进行过滤。通过过滤前后
    准确度的比较,验证了该系统的有效性。
     本文中的一些思想对类似的应用有一定的借鉴价值。
The Web personalized service is one of hotspots in AI and information technology. The current information retrieval system which mainly bases on search engine don't concern enough about users' different interests. Users get the same results if they submmit the same query words. At the same time, the good and bad are intermingled. Users have to find suitable information from huge amount of Web pages manually. It's important to improve current information retrieval system with information filtering. Information filtering is the basis of personalized information service.
    User modeling can enhance the performance of IR. User model is a description about a user group or an individual user. With the user model, computer can acquire, store and restore user's fuzzy dynamic interests. The information stored in user model make up the condition of IR and make IR more effective.
    In this paper, the current research and application on Internet personalized information retrieval is analyzed. And then Soft Computing including Fuzzy Logic and Nerual Networks are introduced too. According to ANFIS, an improved Nerual Fuzzy networks is introduced into user modeling and web information filtering to satisfy the user. The following key problems are disscussed in this paper.
    
    
    (1) How to express the Web page's content and user's interests. The Vector Space Model is used to map the Web page into a vector Pj. Before filtering, the query words and page examples input by the user is analyzed and mapped into vectors ui too.
    (2) How to select the character terms to decrease the number of dimensions. In the IF, the object of filtering is retrivaled Web pages. These pages can be divided into two
    classes: one is relevant pages R, another is unrelevant pages r. Taking use of the
    difference of local weight between R and R, we choose the term with most difference as character term.
    (3) How to model user and filter information. According to the theory of fuzzy sets, a group of IF-THEN principals are constructed and implemented by ANFIS. The user's interests ui and Ui are stored in ANFIS as parameters. Pj is the input variable, and the relevance between Pj and ui, named Rpredj, is the output variable.
    (4) How to optimize and adjust the parameters. We adopt Candidate/Rank mode. The parameters are optimized in a way 'training-filtering-feedbacking-training-filtering'. The difference between the user's feedback Rusrj and the ANFIS output Rpredj is taken as the error. We optimize ri in a Widrow-Hoff algorithm, and optimize ui in a batch learning.
    According to the discussion before, the AUM&IF system, a prototype of user model-based Web filtering system, is evaluated by comparing its performance with analogous systems. The results achieved show that the use of user modeling techniques can improve the performance of Web information filtering system, and point out interesting challenges for future investigations.
    Some ideas in our work can be helpful to the similar application.
引文
[1] Allen R B. User models: theory, method, and practice. Int. J. Man-Machine Studies, 1990, 32: p511-543
    [2] 刘俊平 李书振 张志超 Internet智能检索技术 计算机应用研究 2003 Vol.20 No.1 p82~84
    [3] 张智星 孙春在 水谷英二 神经—模糊和软计算 西安交通大学出版社 Prentice-Hall 2000.06 P51~60
    [4] 章卫国 杨向忠 模糊控制理论与应用 西北工业大学出版社 1999.10 p170~200
    [5] Fabio A. Asnicar, Carlo Tasso ifWeb: a Prototype of User Model-Based Intelligent Agent for Document Filtering and Navigation in the World Wide Web, 1997 UM97 http://www.contrib.andrew.cmu.edu/~plb/UM97_workshop/Tasso/Tasso.html
    [6] J. Rucker and J. P. Marcos, "Siteseer: Personalized Navigation for the Web," Comm. ACM, Vol. 40, No. 3, Mar. 1997, pp. 73~75.
    [7] Profusion网站www.profusion.com
    [8] 张俐 网络中文信息发现与分类的研究 清华大学博士论文 1999.5:47~57
    [9] 傅廉忠 王新跃 周佩玲等 基于Kohonen和BP网络的文本学习算法 计算机工程与应用 2001.1 76~78
    [10] 卢增祥 关宏超 李衍达 利用Bookmark服务进行网络信息过滤 软件学报 2000,11(4):545~550
    [11] 汪晓岩 胡庆生 李斌等 面向Internet的个性化智能信息检索 计算机研究与发展 1999.Vol 36 No 9:1039~1046
    [12] 韩客松 王永成 陈桂林 无词典高频字串快速提取和统计算法研究 中文信息学报 2003 Vol 15 No 2
    [13] 赵仲孟,张蓓,沈均毅 对搜索引擎未来发展的探讨 计算机科学 Vol.28 No.3 2001
    [14] 曲建华 刘玉希 增强学习在个性化信息过滤中的应用计算机科学 2002 Vol.29 No.9 p250~252
    [15] 程静 邱玉辉 基于智能浏览器的个性化用户模型研究 计算机科学 2002 Vol.29 No.9 p399~402
    [16] G. Salton and M.j. McGill. Introduction to Modern Information Retrieval McGraw-Hill, Berlin, 1983
    [17] 庞剑锋 卜东波 白硕 基于向量空间模型的文本自动分类系统的研究与实现 计算机应用研究 2001 No.9 p23~26
    [18] Salton, G. & Buckley, C. Term-Weighting Approaches in Automatic Text Retrieval Information Processing & Management, 1988 24(5), 513-523
    [19] 刘少辉 董明楷 史忠植等 一种基于向量空间模型的多层次文本分类方法 中文信息学报 2002 Vol.16 No.3
    [20] 吴秀清,韩彬斌 基于Bayes算法的Web网页识别 计算机工程 2000.Vol.26 No.3 p6~8
    [21] Gerhard Fischer User Modeling in Human-Computer Interaction 10th Anniversary Issue of the Jorunal "User Modeling and User_Adapted Interaction(UMUAI)"
    [22] Gerhard Fischer User Modeling: The Long and Winding Road UM99 1999
    [23] A. Pretschner and S. Gauch. Personalization on the web. Technical report, The University of Kansas, 1999. http://citeseer.nj.nec.com/pretschner99personalization.html
    [24] 高文 刘峰 黄铁军 数字图书馆—原理与技术实现 清华大学出版社 2000年10月第1
    
    版 p210~215
    [25] Tsvi Kuflik and Peretz Shoval Generation of User Profiles for Information Filtering-Research Agenda ACM SIGIR 2000 p313~315
    [26] 靳蕃 神经计算智能基础 原理.方法 西南交通大学出版社 2000年1月 第1版
    [27] 边肇祺 张学工 模式识别 清华大学出版社 2000年1月第2版
    [28] 刁倩 王永成 张惠惠 中文信息自动分类系统及其神经网络优化算法 信息与控制 1999.Vol.28 No.3
    [29] 孙健 基于K-最近距离的自动文本分类的研究 北京邮电大学学报 2001 Vol.24 No.3 P42~46
    [30] 贺宏朝 何丕廉 高剑峰 黄昌宁 一种基于上下文的中文信息检索查询扩展 中文信息学报 2002 Vol.16 No.6
    [31] 金翔宇 孙正兴 张福炎 一种中文文档的非受限无词典抽词方法 中文信息学报 2001 Vol.15 No.6
    [32] Geoffrey I.Webb Michanel J. Pazzani etc Machine Learning for User Modeling User Modeling and User-Addapted Interaction 2001 p19~29
    [33] B. Widrow and M. A. Lehr. 30 years of adaptive neural networks: perceptron, madline and backpropagation. Proceddings of the IEEE, 78(9): p1415-1422, 1990
    [34] Bill Hefley, etc Curricula for Human Computer Interaction, ACM Special Interest Group on Computer Human Interaction, 1992, p5-8 ACM SIGCHI
    [35] 徐甬 陈恩红 王熙法 基于神经网络的Web用户行为聚类分析 小型微型计算机系统 2001 Vol.22 No.6 p699~702
    [36] 罗士勋 孙红妮 徐立本 模糊逻辑与神经网络融合理论与应用研究计算机科学 2002 Vol.29 No.9 p180~183
    [37] 罗庆霖 周琴 信息过滤模型及其基于神经网络的改进 电脑与信息技术 2000 No.3 P5~9
    [38] 许骏 柳泉波 HTML文件解析器设计:原理算法与应用 小型微型计算机系统 2001 Vol.22 No.11 p1378~1381

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700