基于XML的WEB数据抽取模型研究
详细信息 本馆镜像全文    |  推荐本文 | | 获取馆网全文
摘要
介绍了基于XML技术的WEB信息抽取方法.搭建了WEB信息抽取的三层数据模型,重点在于数据抽取层,在该层先借助于Tidy工具将HTML转换成XHTML,通过Path路径定位与抽取内容相关的锚,再利用XSL将抽取结果映射成XML文件.该XML文件可以直接作为辅助决策的信息源,也可以直接存入数据库为其他所用.这是由非结构化数据向结构化数据转换的一种方法,为应用程序利用WEB中的数据提供了可能.并实现了有关天气预报信息抽取的系统实例,抽取规则简单、健壮,代码移植性好.
The paper introduced a method of WEB information extraction based on XML technology and constructed a three layer data model of WEB information extraction.Data extraction layer is the most important among the three layers.First it converted the data from HTML to XHTML with Tidy tools,and then by path orientation and extracting the content-related anchor,mapped the extraction result to XML file with XSL.A system example was realized about weather forecasts information extraction.The extraction rules are simple,robust and the codes can be widely adopted.
引文
[1]陈佳,胡燕,轩艳艳.一种基于XML的Web信息抽取方法[J].计算机数字与工程,2007,38(6):101~103.
    [2]范立峰.XML实用教程[M].北京:人民邮电出版社,2009:1~13.
    [3]周晓梅,王潜平,苏琳.基于XML的Web数据挖掘模型的设计[J].计算机工程与设计,2007,28(2):272~274,277.
    [4]李姗,黄水源.基于XML的WEB信息抽取模型设计[J].微计算机信息,2009,25(3-3):207~208,211.
    [5]HTML Tidy[EB/OL].http://www.w3.org/MarkUp/
    [6]毛国君,段立娟,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007:39~43.
    [7]周翔.基于XML的web内容挖掘研究[D].重庆:重庆大学,2007.
    [8]盖磊,王海军,刘俊民.一种基于XML的Web地震信息抽取的实现[J].计算机应用与软件,2007,24(8):103~105.
    [9]陈佳.基于XML的Web信息抽取技术的应用研究[D].湖北:武汉理工大学,2007.
    [10]陈景霞,张鹏伟.基于XML的Web数据挖掘模型的研究[J].情报杂志,2006(11):100~102.

版权所有:© 2021 中国地质图书馆 中国地质调查局地学文献中心