硅谷网学院:Web数据库集成技术及其发展趋势 |
2014-02-12 12:11 作者:李春林 来源:硅谷网 HV: 编辑: 【搜索试试】
|
|
摘要:从集成架构角度介绍Web数据库集成技术的发展现状,并对Web数据库集成技术的发展趋势进行分析。
关键词:Web数据库;DeepWeb;数据库集成
中图分类号:TP31文献标识码:A文章编号:1671—7597(2012)0510
【《硅谷》杂志2012年5月刊文】
0引言
现今Web已经成为Internet信息获取和资源共享的重要手段,整个Web中几乎包含了大量我们所需要的信息。其中海量的Web数据库分布在世界各地,内容涵盖了现实世界的各个领域,是十分丰富而重要的信息资源,这种Web中蕴含的深度信息也称为DeepWeb,是目前一个新兴的研究领域.由于Web数据在形式、内容和结构上有很大差异,从中自动获取有价值的信息并不容易.如何有效地利用这些信息资源是一项迫切而有挑战性的工作,Web数据库集成技术立足以自动的方式对海量、异构以及无序的Web数据库进行有效的利用,随着Web应用在深度和广度上的不断拓展,Web数据库集成技术显示出了广阔的发展空间和重要意义。
1Web数据库集成框架
随着人们对DeepWeb领域的关注,Web数据库集成技术得到了很大的发展,同时也存在着许多的研究问题,有必要对Web数据库集成框架有一个全面的认识,文献[1]中给出了一种较为全面的DeepWeb数据集成系统架构,该架构将Web数据库集成系统划为三个模块:查询接口集成模块、查询处理模块和查询结果处理模块,见图1,下面就此架构对Web数据库集成的各模块进行介绍:
1.1查询接口的集成
查询接口的集成包括web数据库发现、查询接口模式抽取、web数据库分类和查询接口集成:
web数据库发现指在大量web网站中发现可访问的数据库.按照先找到网站,再发现数据库查询接口的步骤进行,第一步的解决方法有:从已有的按领域分类的Web数据库网站中获取,如completeplanet.com等,但规模有限;理论上可以遍历所有网络IP,找出含有的Web数据库,但实际代价过高;通过向搜索引擎提交有效的查询,尽可能多地找到某个领域的Web数据库网站,文献提出了一种基于机器学习的查询自动生成器方法来为搜索Web数据库提供互动查询建议,并能提高搜索效率,对第二步解决的关键是如何将查询接口从网站大量的Form元素中准确地区分出来以及降低代价,目前的解决方法主要通过对查询接口的位置、标识及搜索深度等特征分析来高概率识别查询接口。
查询接口模式抽取是指通过对查询接口的属性进行分析和重组,获得完整的查询接口特征集合,模式抽取的关键是如何准确地抽取查询接口中包含的各个属性,主要的解决方法有采用文法分析、页面结构分析、本体技术等对属性进行抽取,其中已经开发的抽取工具WISE-iExtractor适合于复杂接口的抽取。
web数据库分类即按照抽取的查询接口模式信息对web数据库进行分类.由于查询接口通常按照领域进行集成,web数据库同样按领域进行分类,所以这种分类实质上是对查询接口的分类,由于web数据库数量庞大,人工进行分类显然是不现实的,所以主要研究web数据库的自动分类,web数据库分类通常有两种方式,一类是根据查询数据库返回的结果页面内容进行分类,另一类是根据网页页面及表单中的文本信息对数据库进行分类,其中使用了网页上下文感知、领域样本查询以及模型匹配等技术方法。
查询接口的集成过程最后利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而获得一个属于特定领域、集成的查询接口,目前查询接口集成技术得到了较为广泛的研究,技术日趋成熟,已经提出并实现了查询接口集成的原型系统。
1.2查询的处理
查询的处理是指将用户在集成接口上的查询转化到对各个web数据库的本地查询,这部分包括web数据库选择、查询转换和查询提交子模块:
web数据库选择涉及到如为特定用户何选取合适的数据源。其中降低访问数据库的数量和查询结果的冗余是关键问题,这需要解决web数据库特征获取的问题,结构化的web数据库主要是关注各个属性上值的分布特征,而非结构化的web数据库主要关注特定查询返回结果的数量,而对于搜索引擎的选择目前已有了许多较为成熟的工作,其中一些技术思想可以借鉴到对结构化的web数据库选择的实现中。
查询转换是指将用户在集成查询接口上提交的查询转换到web数据库本地的查询,查询提交是指自动地将转换后的查询进行提交,其关键是如何在集成查询接口与数据库本地查询接口之间进行等价的查询转换,从而提高查询的准确性,由于Web数据库分布在不同地点且具有自治性,不同数据库查询接口千差万别,集中体现在查询接口的形式定义及查询能力的不同上,因此要做到完全的等价转换似乎是不可能的,只能进行近似的转换,其中模式匹配问题贯穿查询处理的整个过程,对查询的准确性产生重要影响.
1.3查询结果的处理
查询结果的处理是指将各个web数据库返回的结果抽取合并到一个统一的结构化的模式下,该部分包括结果的抽取、结果的注释和结果的合并子模块。
结果的抽取是指将结果数据通过各种技术手段进行抽取并保存为可自动处理的XML文档或关系模式,目前,web数据抽取是web数据库集成系统中发展最为成熟的部分,已经有了很多数据抽取的工具,常用的抽取方式有:使用特定的抽取语言进行编程,如页面抽取语言Minerva与Web-OQL,这种方法准确率高,但效率较低;基于DOM树的工具XWRAP、RoadRunner、Lixto、MDR,这种方法能较好地实现自动或半自动抽取,应用广泛,但建立及匹配DOM树比较耗时,影响数据抽取的效率;基于样本学习来生成抽取规则的工具WIEN、STALKERH主要从大量训练样本中产生抽取规则,但需要花大量的时间进行样本训练;基于模式的工具NoDosEH和DEByE,强调与用户的交互和适应性。
除此之外,数据的抽取还有很多其他的方法,评价不同抽取工具的性能可以从准确性、自动化程度、交互性以及适应性这几个角度进行,从而选择合适不同领域、不同要求的数据抽取工具和方法。
结果的注释是指对抽取的结果进行语义注释,查询结果的合并是指对查询结果进行有效的合并并去掉重复的内容,存储在一个统一的模式下,目前一些研究方法把这两个功能融入了查询结果的抽取中,随着接口集成技术和数据抽取技术的日益成熟,查询结果模式的映射问题已经得到有效的解决,而查询结果重复记录的识别和去除工作仍有较大的提升空间。
2Web数据库集成技术的展望
随着web数据库在web中的数量不断增加,对Web数据库进行大规模集成的研究变得非常重要,至今,人们在这一领域已经作了大量的研究,提出了一些web数据集成系统,但确切地说至今还没有一个真正可以作为实际应用的web数据库集成系统,有相当的研究工作仍然处于探索阶段,随着web技术的发展,新的方法不断地出现,语义web、本体构建、Web个性化服务等技术的兴起和发展,给web数据库集成技术带来了机遇和挑战,在体系结构方面,web数据库集成系统正在从分布式集成系统向基于WebServices的信息集成系统迈进,在WebServices的框架下,使用一组WebServices协议,构建信息集成系统.这种方法具有完好封装、松散耦合、规范协议和高度的集成能力等特性。
因此,基于WebServices的集成方案是构建Web数据集成系统较为理想的体系结构,而在XML数据管理、移动无线网络、传感器网络等Web技术的发展带动下,Web数据库集成技术有很大的发展空间。
参考文献:
[1]刘伟、孟小峰、孟卫一,DeepWeb数据集成研究综述[J].计算机学报,2007,30(9):1475-1489.
[2]刘芳,查询自动生成器在Web数据库发现中的应用[J].信息技术,2009(06).
[3]崔晓军、肖红宇、丁立新,基于距离的自适应Web数据库记录匹配方法[J].武汉大学学报(理学版),2012,58(1):89-94.
[4]孟小峰、周龙骧、王珊,数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836.
作者信息:
李春林(1982-),女,大学本科,助教,现工作于百色学院数学与计算机信息工程系。(注:本文版权归作者本人和硅谷杂志所有,禁止他人未经授权转载)
|
|
|
|
【对“硅谷网学院:Web数据库集成技术及其发展趋势”发布评论】 |
版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
|
|
|
|