用户名: 密码: 验证码:
基于互联网数据的话题发现及追踪技术研究与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着互联网飞速迅猛发展,人们的工作和生活方式也已经发生了巨大的变化,互联网时代,信息在互联网上发布和传播,人们通过互联网可以获取到更多的信息,并且每个人都可以是信息的发布者和传播者。多种形式的信息载体的信息充斥着互联网,好的,坏的,真的,假的,使人难以辨认,因此互联网数据的监督和管理的工作变得越加重要。然而在针对互联网数据的研究中,从互联网上的海量信息中发现热点话题,并追踪话题的传播和发展情况,已经越来越受到各方面的关注和重视。
     互联网是一个庞大的非结构化的数据库,库中的数据类型和数据格式都互不相同,要从互联网上获取数据是一件比较困难的事情,同时要在这样巨大的信息量里发现实时产生的话题,并了解话题的传播过程,追踪话题更是有其现实性的困难。
     本文以数据采集和话题发现技术为基础,在综合国内外学者研究成果的基础上,通过对业务人员实际应用过程中遇到的问题的分析,研究并设计了基于互联网数据的数据采集,话题生成和话题追踪,并使相关分析人员参与到整个系统的运转过程中,提高了数据采集准确度,话题发现的效率,和追踪话题的精度。为相关部门更好的了解互联网新话题的产生及话题的传播过程起到了辅助作用。
     本文共分六章:第一章为研究背景、文献综述及论文研究内容介绍;第二章互联网话题发现及追踪的技术基础介绍;第三章介绍了基于互联网数据的话题发现技术的关键技术研究和实现。第四章对基于互联网数据的话题追踪技术进行了研究并阐述了实现方法。第五章:应用上文提出的基于互联网数据的话题发现和追踪的一些实现方法进案例研究。最后,提出结论和展望。
     本文给出了基于互联网数据搜索引擎和网站内部检索结果的实现,模版获取数据的实现,搜索引擎API数据的获取,及按照相关性排序对数据的筛选,最后给出了传播路径示意图。
     本文的选题及研究内容来自2009年国家自然科学基金重大研究计划培育课题(No.90924013)“非常规突发事件网络信息认知模式、传播规律及预警机制研究”。
With the rapid development of the Internet, great changes have taken place in people's work and way of life. Information and communication posted on the Internet, people can obtain more information, and everyone can be the publisher and disseminator. Various forms of information carrier of information filled with the Internet, good, bad, true, false, make it difficult to identify, so the supervision and management of Internet data becomes more important. However, the study of the Internet, found a hot topic, and track the spread and development topics, has received increasing attention and concerns all aspects.
     Internet is a huge unstructured database, libraries of data types and data formats are different from each other, to get the data from the Internet was a more difficult, to found immediate topic in such a huge amount of information, and learn about topics of the propagation process, track topics are reality even more difficult.
     In this paper, data acquisition and topic detection technology, comprehensive domestic and foreign scholars in research results, based on the practical application of operational staff through to the problems encountered in the process of analysis, research and designed Internet-based data, data collection, topic generation and topic tracking, and enable analysts to participate in the process of operation of the system to improve the accuracy of data collection, topic detection efficiency, accuracy and tracking topic. A better understanding of the relevant departments for the Internet, the emergence of new topics and topics of the communication process has played a supporting role.
     This article is divided into six chapters:Chapter One of the background, literature review and thesis Introduction; second chapter topic detection and tracking of Internet technology-based presentation; third chapter introduces the topic of Internet-based data discovery technology, key technology research and implementation. Chapter IV on the topic of Internet-based data tracking technology has been studied and elaborated realization. Chapter V:The above data raised the topic of Internet-based detection and tracking some of the implementation method into the case study. Finally, conclusions and outlook.
     This paper presents data based on Internet search engines and Web sites within the search results achieved the template for the realization of the data, search engine API access to data, and sorted according to relevance filtering of data, given the spread of the path diagram.
     Research topics and contents of this article from the 2009 National Natural Science Foundation research project training topics (No.90924013) "non-conventional emergency cognitive model of network information, communication and early warning mechanism of the law."
引文
[1]王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].开发研究与设计技术,2007(18):1617-1619.
    [2]林海霞,司海峰,张微微.基于Java技术的主题网络爬虫的研究与实现[J].微型电脑应用,2009,25(2):56-58.
    [3]万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2074.
    [4]方启明,杨广文,武永卫,朱安平,郑纬民.面向P2P搜索的可定制聚焦网络爬虫[J].华中科技大学学报(自然科学版),2007,35(增刊Ⅱ):148-152.
    [5]林海霞,原福永,陈金森,刘俊峰.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2007,43(10):174-178.
    [6]袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-64.
    [7]James Allan. Introduction to Topic Detection and Tracking 2002
    [8]James Allan. Topic Detection and Tracking:Event - based Information Organization [M]. USA:Kluwer Aca.
    [9]Juha Makkone, ect. Simple Semantics in Topic Detection and Tracking[M]. USA: Kluwer Aca.
    [10]Thomas Galen Auh, Yiming Yang. Information Filtering in TREC-9 and TDT-3: A Comparative Analysis [J]. USA:Kluwer Aca.
    [11]Ata Kaban, ect. A Dynamic Probabilistic Model to Visualise Topic Evolution in Text Streams[J]. Journal of Intelligent Information Systems; Mar-May 2002; 18,2-3; ABI/INFORM Globalpg.107.
    [12]刘芳芳.Web链接分析中HITS算法的研究[D].大连理工大学,2006.
    [13]刘毅,略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12.
    [14]郭建永,聚类分析在文本挖掘中的应用与研究[D].江南大学,2008.
    [15]高超,智能搜索中中文网页分类和聚类的初步研究[D].哈尔滨工程大学,2007.
    [16]陈浩.自定义主题信息抽取的研究与应用[D].大连理工大学,2008.
    [17]蒋凡,高俊波,张敏,王煦法.BBS中话题发现原型系统的设计与实现[J].计算机工程与应用,2005(31):151-153.
    [18]陈定权.基于超链分析的Web资源自动发现技术[J].图书情报工作,2009(9): 94-100.
    [19]吴昊,耿焕同,吴祥.一种基于聚类分析的BBS话题发现算法研究[J].安徽师范大学学报(自然科学版),2009,32(1):9-15.
    [20]李华云.基于潜在语义分析的中文文本聚类方法研究[J].科技情报开发与经济,2008,18(27):86-87.
    [21]王广新,单从凯.课程BBS讨论的漂移现象与表现特征[J].开放学习,2007(1):43-48.
    [22]陈洁华.潜在语义分析理论研究及其应用[D].上海大学,2005.
    [23]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79.
    [24]胡珀,何婷婷.基于自适应聚类的文本潜在主题的自动发现[J].郑州大学学报(理学版),2007,39(2):92-95.
    [25]邱东洋,汤小春.一种基于超链和锚文本分析的话题发现算法[J].微电子学与计算机,2009,26(6):125-128.
    [26]俞辉,赵玉国.基于LSA和PLSA的网页聚类算法研究[J].计算机系统应用,2008(4):65-68.
    [27]罗成.Web新闻话题检测与追踪技术研究[D].中国人民解放军信息工程大学,2007.
    [28]王会珍,朱靖波,季铎,叶娜,张斌.基于反馈学习自适应的中文话题追踪[J].中文信息学报,2006,20(3):92-98.
    [29]虞玲玲.基于文本分类的话题跟踪及其—元语法模型的应用[D].南京理工大学,2005.
    [30]王会珍.面向话题追踪的特征选取与文本表示技术的研究[D].东北大学,2004.
    [31]陈育芳.突发事件对网络媒体传播机制的诉求[J].经济研究导刊,2009(12):30-31.
    [32]王丽丽.网络群体传播特点分析——以家乐福事件为例[J].东南传播,2009(5):92-94.
    [33]陈远,倪超群,邹晶.网络社区信息传播的相关理论述评[J].图书情报知识,2008(2):70-75.
    [34]余建清.网络条件下流言的传播机制与特点——非常态传播的个案研究[J].理论与现代化,2008(2):105-108.
    [35]王丫.网络新闻流中热点事件识别与跟踪算法的改进与验证[D].燕山大学,2007
    [36]贺筱媛,胡晓峰,司光亚,罗批.网络信息传播动力学研究[J].装备指挥技 术学院学报,2009,20(3):85-90.
    [37]任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224.
    [38]郭辉.网络媒体在突发性公共事件中的传播机制[J].新闻爱好者,2009,(4):42-43.
    [39]陈航.群体性事件的信息传播分析[J].武警学院学报,2006,22(2):18-19.
    [40]谭应伟,莫倩.基于Web的有监督自适应话题追踪系统的设计与实现[J].郑州大学学报(理学版),2007,39(2):25-29.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700