admin 管理员组

文章数量: 1086019


2024年5月5日发(作者:微智汇广告联盟)

2021基于元数据仓储统一检索系统设计

范文

  1、引言

  统一检索也叫异构数据源整合检索,是以多个分布式异构数据源为对象的检索系

统,可以实现不同规模、不同类型资源库的资源整合与一站式检索服务,实现检索结

果的统一展现和知识关联发现。系统向用户提供统一的检索接口,将用户的检索要求

转化为不同数据源的检索表达式,并发地检索广域网上和图书馆本地的多个分布式异

构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结

果呈现给用户。

  统一检索系统是针对图书馆内部来源不同的数字资源进行数据整合与检索的一站

式搜索与知识发现服务系统。

  基于元数据仓储的统一检索系统除具备异构数据源检索分发、结果页面分析、结

果去重合并、结果集统一和分类展示等功能外,其重大改进在于实现多数据源的元数

据本地化采集、存储和管理,实现基于本地元数据仓储的资源整合检索与全文获取服

务。因此,基于元数据仓储的统一检索系统不仅仅是一种统一检索系统,更是一种本

地化的知识发现与服务系统。

  2、元数据仓储平台建设

  元数据仓储平台是实现图书馆数字资源整合与利用的最有效手段,它的主要工作

是采集各异构数据源的元数据信息,构建的难点在于元数据的采集、存储管理及数据

同步。

  2.1元数据采集

  建成一个良好的元数据仓储,是信息服务的基础,只有拥有规范的、高质量的元

数据,才有可能建成灵活实用的资源服务体系。元数据采集设计示例如图1所示。

 

  2.1.1采集对象分析

  元数据采集的主要对象为能够提取元数据信息的数据库。一般有本地自建数据

库、分布式自建数据库以及外购数据库。

  2.1.2本地自建数据库

  本地自建数据库是图书馆对内部资源进行加工整理而形成的专题或特色数据库,

其表结构等数据库详细信息均可获得,因此对于该部分数据库的元数据获取相对容

易。

  行业数据库的建设应遵循一定的指导原则,应具有可使用性、互操作性和可持续

性。这样在后期的使用、升级或者构建其他服务时才能顺利进行。

  2.1.3分布式自建数据库

  分布式自建数据库为其他机构建立的数据库,其对象数据不在本地。这部分数据

与行业数据库类似,可以抽取出元数据信息,但是其数据库不在本地,所以其对象数

据调用服务过程与行业数据库会有所不同。

  当用户向本地Web服务器发送检索请求时,查找到自己想要信息并调用其详细内容

时,如果对象数据在本地,则直接在本机构内数据库中获取数据返回到发布页面;如

果不在本地的话,可以直接从异地数据库中取回数据返回到本地发布端,此过程并不

会把异地数据库中的数据取回来放在自己的服务器上,而是同步显示在发布端。

  2.1.4外购数据库

  外购数据库一般都是封装好的,我们无法获得其元数据信息。但是对于少数可以

提供其元数据信息表的,我们提供导入工具。

  数据库可以按照特定格式导出数据库内容。对于不同性质的数据库,如图书、期

刊数据库,可以分别按照其元数据必备字段要求导出,支持的格式包括xls、txt、

dbf、xml等,但是建议最好是xml文件,这样易于统一管理。

  对于外购电子资源,根据电子资源供应商提供的服务方式,可以通过开放Z39.50

协议、WebService接口、相关API接口等获取该电子资源供应商授权的元数据信息。

  2.2元数据库存储与管理

  2.2.1元数据存储架构

  数字图书馆需要整合大量的馆藏资源、外部电子资源与网络资源。因此,从数据

存取效率和存储安全性方面考虑,建议元数据仓储采取架构在多个物理服务器之上的

分布式服务,支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合

运用。

  方式一是根据数据分类、功能不同,把内容分开存储。

  将整个元数据仓储的数据根据内容不同分为两类,分别存放于数据库(a)和数据

库(b)中,(a)(b)内容不同。

  方式二是内容相同,数据不分开,只是每套数据分别存储在不同的数据库中,数

据库(a)和数据库(b)内都存放全部元数据仓储内容,(a)(b)内容相同。

  资源调度服务器分发任务的方式可以根据网络流量、检索并发或者来访IP地址来

进行任务分发。

  元数据仓储数据库集群系统服务模式如图2所示。当用户向元数据仓储平台Web服

务器发送检索请求时,其请求可能会被资源调度服务器分配到检索集群中的任意一个

检索服务器,如分配给(a),(a)检索后并从原数据库中取回检索结果,资源调度

服务器在发布集群中选择一个发布服务器,如(b),则(b)选择接受数据,并返回

结果,将结果页面以一定方式显示给用户。

  

  2.2.2元数据库管理

  构建元数据库仓储一样要有很好的维护性。元数据仓储管理重点在于其中的数

据,所以当数据有了新的变化,增加或减少,元数据仓储管理端都应该能够方便地进

行处理。

  ①当自建原数据库内数据发生变化时,元数据库需要随之变化。②当增加新的自

建数据库时,元数据库需要增加同步的数据库量。③数据库增加新内容或者增加新的

数据库,由于网络环境不能实现同步,可通过表单提交元数据信息。

  2.3元数据同步更新

  元数据同步更新可以分为实时和非实时。非实时同步可以通过查看数据库表的关

系得到。其操作步骤一般为:①查看数据库表的关系;②在源机器上根据表的关系导

出数据;③在目标机器上根据表的关系使用命令删除数据;④在目标机器上根据表的

关系使用命令导入数据。

  但是这种方式有很大的时间损耗,数据不能实时更新,因此我们采用实时同步的

方式。元数据实时同步分为两种方式,一种为主动的,一种为被动的。主动的元数据

同步:元数据库服务器定时查找对象数据库是否有更新,如果有更新,则进行增量同

步。被动的元数据同步:对象数据库更新后,定期上传更新数据到元数据服务器。

  由于机构内各个专题库数据库结构各异,如果要设定数据库对元数据仓储服务器

的自动上传,需要对每个数据库进行改造,因此我们采用主动的元数据同步方式,由

元数据服务器定期检测对象数据库,进行增量同步。

  3、基于元数据仓储统一检索系统设计

  检索服务是统一检索系统的主要功能。为了具备更好的用户体验,采用简洁的检

索入口(类似Baidu的一框式搜索),通过元数据内容全文索引来检索和返回结果,对

结果进行合并、排重、排序等处理,并通过全文调度引擎分析全文链接,提供全文获

取服务。基于元数据仓储统一检索系统架构如图3所示。

  

  3.1简单检索

  统一检索系统为用户提供简单检索入口。用户在检索前,可以选择资源类型进行

检索,如期刊、图书、学位论文、会议、报纸等。每种资源类型还可以选择相应的元

数据字段,以进一步缩小检索范围。用户也可以直接输入检索词进行检索,系统默认

在所有资源元数据中进行检索。

  系统将用户的检索请求转化为统一的检索表达式,并发送到本地的元数据仓储

中,根据检索范围分发到对应的元数据库索引中进行检索。检索结果通过处理引擎进

行合并、排重、排序等操作后,以统一的格式将结果呈现给用户。

  统一检索提供一站式的检索入口和检索结果展现,能够减轻用户学习检索不同数

据源的负担;采用多元数据库分布式全文检索,能够有效提升检索效率,节省用户检

索时间;检索结果合并,为用户呈现格式统一、分类聚合、多种排序的检索结果,大

大方便用户的浏览和选择。

  3.2高级检索

  统一检索系统提供高级检索功能。用户可以对选中的多个数字资源同时进行检

索,可以输入复杂的组合检索条件来提高检索精度,包括组配检索、日期限制、排序

限制以及字段内部的截词和逻辑检索等。

  3.3检索结果展示

  统一检索系统提供统一的检索结果展现方式,包括检索结果概览和细览,用户可

以在一个页面中浏览不同资源库中检索出的结果信息。可以浏览每条结果的详细信

息,甚至直接下载全文。

  检索结果概览支持多库结果的统一展现,同时提供不同资源库的检索结果集分类

和分面展现。这些展现方式都可以在一个页面上集中体现,方便用户根据自己的需要

选择性查看。

  3.4全文获取

  结果细览页面提供该检索结果的全文获取方式。不同资源类型所提供的全文获取

服务不同,从总体上来看,资源全文获取服务可以包括以下几部分。

  ①电子资源服务,包括电子资源全文下载和电子资源在线阅览。电子资源全文下

载需具有电子资源访问权限。电子资源在线阅览分为两种,一种为常见的非结构化文

档,如Word、PDF、PPT、Excel、HTML、图片等,可以提供格式转换和在线查看;另一

种为电子资源。

  ②馆藏服务,查看各个参与图书馆的馆藏信息,并提供图书馆藏状态查看、预

借、续借服务(需要与图书馆OPAC系统集成)。一般显示3个有此馆藏的图书馆名称,

点击“更多”可以展开该页面,显示全部有此馆藏的图书馆列表(需要与馆际互借和

文献传递系统集成)。

  ③互联网服务,互联网公共搜索引擎,如百度新闻、百度文库、豆瓣书评等,需

要进行统一检索配置。互联网专业搜索引擎,如国家知识产权局专利检索、标准技术

网标准搜索等,需要进行统一检索配置。

  ④文献传递服务,虚拟参考咨询要与本馆虚拟参考咨询系统集成,馆际互借要与

馆际互借和文献传递系统集成。

  4、结语

  文献资源的检索与利用是科研工作的重要组成部分,基于元数据仓储的统一检索

系统能够整合图书馆现有数据库资源、外购的各种数据资源以及互联网搜索引擎资

源,提供资源的一站式检索与服务。可以实现不同规模、多种资源库的资源整合与检

索,实现检索结果统一展现,缩短了读者查找文献的时间,延长了读者科研的寿命。


本文标签: 检索 数据 数据库 资源