2016华为杯数学建模:数字图书馆研究综述

来源:百度文库 编辑:偶看新闻 时间:2024/07/02 17:15:18
一、数字图书馆的理论研究
概念的起源,数字图书馆首先是从技术角度提出来的。1993年,美国克林顿政府提出的信息高速公路计划中,将数字图书馆规划作为“试点”建设的重要项目。 1994年9月,美国国家科学基金会、美国国防部高级研究计划署、美国国家航空与太空总署联合发起了“数字图书馆创始工程” (DigitalLibraryInitiativeDLI)。
1993年,英国图书馆电子化贝奥伍夫项目开始创建,目的是要借助网络技术和图像来提高对馆藏数字化文献的存取。
世界上许多国家都开展了数字化图书馆的建设。法国、日本以及其他一些国家的国家图书馆都计划实施了各自国家的数字图书馆计划。如日本国会就实施了“关西图书馆工程”计划,国家投资4亿美元。
一些著名的信息技术公司也介入数字图书馆试验中来,如1995年初IBM公司推出“全球数字图书馆计划”。
由此,数字图书馆一词被计算机科学界、图书馆界和其他各界所采用。
关于数字图书馆的类型和定义
何谓“数字图书馆”?目前,国内外尚未有一个公认的、精确的定义。
早期的数字图书馆的实践者更多地从技术角度看待数字图书馆概念。1997年美国国家科学基金赞助的专题讨论会上认为:数字图书馆的概念不仅仅是一个有着信息管理工具的数字收藏的等价词,数字图书馆更是一个环境。它将收藏、服务和人带到一起以支持数据、信息乃至知识的全部流程,包括从创造、传播、使用到保存的全过程。
加利福尼亚大学信息管理和系统学院的Peter Lyman将数字图书馆分为四种类型:
1.数字图书馆(Digital Library)。这种类型的数字图书馆包括各种媒体的数字化馆藏。数字化馆藏是由职业图书馆员和图书馆组织来管理的。馆藏由传统的印刷型馆藏发展为书和期刊的数字化版本的收藏,这是图书馆的一种组织性的延续。
2.新生的纯数字图书馆(Born digital libraries)。这种类型的数字图书馆包括从一开始便以数字形式创造的各种文献类型的汇聚。
3.数据图书馆(Data libraries)。这种类型的数字图书馆包括大量不同的由服务器上的数据库管理的各种不同类型的数据。
4.数据通信(Digital communications)。这种类型的数字图书馆包括一组被称为数字通信的电子文件,像环球网、电子邮件和用户组,未来还可能包括数字电视、数字广播、数字电话等。
给数字图书馆下定义的研究者分为两派。
一种观点是从技术角度、资源库、信息空间去认识数字图书馆的概念。持此种观点者认为,数字图书馆一词是从英文Digital Library翻译过来的,Digital即“数字化的”,在文中Library一词有两种基本解释,一个含意是“图书馆”,另一个含义是“库”(文献库或资料库)。Digital Library的英文本意应该更强调的是“库”,而不是“图书馆”。因此,Digital Library最准确的翻译应该是数字资料库。他们认为:数字图书馆作为国家信息基础设施的核心,为国家信息基础设施提供关键性的信息管理技术,同时提供主要的信息资源和资料库。
目前,代表性的定义有:
(1)美国研究图书馆协会(ARL)给出的定义是:数字图书馆是把众多地方资源连在一起的虚拟技术,能够使最广大的透明用户最大限度的获取信息,得到信息服务。数字图书馆馆藏不应局限于原件的替代品,还应包括无法用印刷方式表现或传递的实物,并将其数字化。
(2)美国“数字图书馆创始计划”认为:数字图书馆不仅是数字馆藏和管理工具的集合,还应包括信息、数据和知识在整个创建、发布、利用、存储等生命周期内的所有活动。
(3)张维庆等人认为,数字图书馆是没有时空限制、便于使用的超大规模的知识信息储存和服务系统,是将载体不同、地理位置分散的各种信息资源以数字化、网络化方式储存、链接、利用,以实现资源共享的各项技术的集合。
(4)李惠珍认为:数字图书馆就是应用现代信息技术,对数字信息资源进行采集、整理和贮存,并向所有连接网络的用户提供,为一定的社会政治、经济服务的文化教育机构以及这种机构组合。
(5)王教清等认为:数字图书馆是采用现代高新技术所支持的数字信息系统,是下一代因特网上信息资源管理模式,它将从根本上改变目前因特网上信息分散,不便使用的现状。它是超大规模的,分布式的,便于使用的,没有时空限制的,跨无缝连接与智能检索的知识中心。
(6)梁平先生认为:所谓数字图书馆,是指运用计算机技术、网络技术、通信技术、数据库技术等多种信息技术及其设备,对不同类型、不同载体、不同形式的各种文献信息资源进行搜集、选择和规范化处理,使之以数字化的方式和多媒体的形式存储,建立分布式的馆藏信息资源库和虚拟馆藏信息资源库,并通过各种局域网、广域网和因特网,向世界各地所有连接因特网的用户提供信息服务的数字化和网络化的信息系统。它的主要职能是搜集、保存和传递数字化文献信息,因此也称为数字化信息的存储和传递中心。
(7)数字图书馆可定义为电子图书馆,它使人数众多而又处在不同地理位置的用户能够方便地利用大量的、分散在不同的存贮介质上的电子出版物(OBJECTS)的全部内容。
(8)龚亦农先生认为,数字图书馆是构建一个基于是Web环境的综合性文献信息服务平台,把各类分布式文献信息资源按一定管理方式和应用目的组织起来,实现内容间的无缝关联,以统一的界面提供对各类资源的透明访问,并最终把文献信息资源融入知识服务体系中。
(9)张维庆先生认为,数字图书馆是指积累数字化公共知识信息资源,并对社会开展有效便利的公益服务的场所和机构。
(10)数字图书馆是建立在图书馆内部业务高度自动化的基础之上,不仅能使本地和远程用户联机存取其OPAC以查询传统图书馆馆藏(非数字化和数字化的),而且能够使用户通过网络联机存取图书馆内外的其他信息资源的现代化图书馆。
(11)数字图书馆是一种多媒体制作的分布式信息系统。它把各种不同载体、不同地理位置的信息资源用数字技术存贮,形成一个以网络查询和传播的大型信息系统。
(12)数字图书馆就是运用当代信息技术,数字信息资源进行采集、整理和贮存,并向所有连接网络的用户提供,为一定的社会政治、经济服务的文化教育机构以及这种机构的组合。
(13)杨毅先生认为,数字图书馆是分布于局域网上的数字资源的集合,从理论上讲,它是一个数字化资源管理系统,可以包括数字资源从数字化产生或获取到被人吸收利用之前的整个生命周期。
数字图书馆的特征:
数字图书馆是国家信息基础的重要核心组成部分,是搜集、整理、存贮和传递数字化知识信息的重要社会设施。数字图书馆不是传统图书馆简单意义上的数字化,其实质内涵与存在方式等诸多方面与以纸介质为主相对封闭和注重文献收藏的传统图书馆相比有着很大区别。
数字图书馆集成了计算机技术、网络技术、通信技术、数据库技术和多媒体等多种技术,以计算机为主的各种硬件设备作为管理信息资源的基本手段,拥有一整套先进的制作、存贮、发布和维护数字化信息资源安全的软件系统。
数字图书馆拥有信息资源库群,拥有有序化组织和结构化存贮信息的能力。通过网络系统有效地连接用户和各个图书馆、信息服务中心和数据库及各类网络信息资源等,实现信息资源传递的网络化,存取不受时空的局限,实现了信息资源存取自由化。
数字图书馆要通过国家骨干通信网和因特网,实施全方位、多元化和高效能的数字化信息服务,实现对全球数字图书馆及网络信息资源的访问、查询、检索和利用。与传统图书馆相比较,经过分析、综合研究,可将数字图书馆的特征概括如下:
1.信息资源数字化。使用计算机技术将各种文献信息资源数字化,并提供网上服务。
2.信息内容多元化。数字图书馆广泛吸收了来自各种类型的图书馆、档案馆、信息资料中心及其他广域范围的包括各种传统印刷资料、影像资料、缩微文献及电子资源。
3.信息组织传递网络化。在信息资源数字化的基础上,数字图书馆通过计算机网络系统和各种电子通信手段,将国内外的数字化信息资料联为一体,从顺序的、线性的方式转变为直接的网状的非线性组织形式,在网络上传递、利用、开发与共享。
4.资源存贮分布化。数字图书馆是分布式信息资源库群,具有有序化信息组织和结构化存贮,有统一检索机制,可支持跨库访问和检索,能够适应网络环境要求,成为全球信息网络的交换节点。
5.用户服务个性化。面向用户,主动服务,服务内容可针对每一用户的独特需要,可以采用用户定制的方式提供所需信息。
二、数字图书馆信息资源开发建设
(一)数字图书馆资源建设原则
数字(化)信息资源即数字化文献,是构成数字图书馆的要素之一。无论是建设现实资源,还是虚拟资源,都应该遵循以下原则:
(1)整体性原则
狭义数字图书馆仅仅是广义数字图书馆众多节点之一,是广义数字图书馆的组成部分。因此,狭义数字图书馆的信息资源建设无疑应该融入广义数字图书馆信息资源建设的规划之中(如目前国家教育部正在进行的CALIS项目就是一个广义数字图书馆建设规划)。对于整个广义数字图书馆来说,它并不需要“复本”。树立全局观念,坚持整个图书馆情报事业一盘棋的指导思想是狭义数字图书馆信息资源建设的重耍原则之一。遵循整体性原则各馆的馆藏建设也必须具有特色,才不会和其他狭义图书馆重复。在发展本馆的信息资源时,每个馆都要把大量的印刷型文献转化成数字文献,如果不进行分工协调,将造成大量的重复劳动。
(2)特色化原则
各馆应首先确定本馆的馆藏特色,在确定馆藏特色范围之后,一方面应该将本馆有特色的印刷型文献逐渐转换成数字化文献,另一方面根据所确定的馆藏范围,到网上寻找有关网上信息,经过长期积累,也可形成特色馆藏。特色化数据库建设应注意以下几点:
1、独特性。要保证所建的数据库的数据具有唯一性,不能和其他馆的数据重复。
2、全面性。在坚持特色性原则时,耍保证数据的完整性和全面性,即不仅要求数据库全面覆盖某一学科的全部文献信息,而且对有关数据的标引著录要完整、全面。
(3)科学性原则
数字图书馆的信息资源建设与传统图书馆的区别主要就在于需要对网络信息资源进行采集和加工。与传统的印刷型文献相比,网络信息资源具有产生速度快、数量大、信息发生源固定性差,缺乏社会的监督和评审等特点。因此数字图书馆的信息资源建设一定要遵循科学性原则。一是要运用科学方法来研究网络信息的分布规律;二是必须用科学的态度对那些缺乏社会监督的网络信息资源进行鉴别,从中筛选出有价值的信息。
(二)信息资源整合
信息资源整合中的“整合”一词来源于“integration”,其含义包括综合、融合、集成、整体化、一体化等。信息资源整合是信息资源数字化实践发展的需要,对于各类型图书馆而言传统的馆藏模式受到网络的冲击,数字化的信息资源成为图书馆的虚拟馆藏,与原有的印刷型纸质文献即实物馆藏共同构成其馆藏资源。未来图书馆的发展方向应是复合图书馆,它的特点之一就是其馆藏模式为:实物馆藏+虚拟馆藏,而且两者构成相互联系的有机整体。
图书馆对实物馆藏的组织和收藏历史悠久,技术与方法都趋于成熟。在计算机技术与自动化技术的促进下,图书馆对信息资源的组织由手工阶段向自动化、现代化阶段转变,机器可读目录(MARC)取代了传统的卡片目录,用户通过联机公共查询目录系统OPAC便可查询图书馆的书目数据库。图书馆由于性质、任务、经费等条件的限制,馆藏信息资源总是有限的,需要馆际合作、资源共享来扩大信息来源,从而更好地满足用户的信息需求。
除了实物馆藏以外,图书馆还拥有数量相当丰富的数字化形式记录,存储在网络、计算机、磁、光介质以及各类通信介质上的虚拟馆藏。目前,这类数字资源主要包括数据库、电子期刊、电子图书3种类型。
数据库是图书馆数字资源的主要部分,既有联机数据库也有网络数据库。由于Internet的普及,绝大多数联机数据库都联入了Internet,目前主要以网络数据库为主,联机数据库的数据量已经非常稀少了。全文数据库是数据库发展的方向,目前这类数据库己逐步在概念上脱离源数据库,日益成为一种独立的电子资源类型。需要指出的是,全文数据库并非所有文献均以全文的形式出现,由于版权和收录时滞等问题,全文数据库的全文收录率一般在百分之六十左右。图书馆对数据库资源的收藏,主要通过向数据库运营商购买数据库的使用权的使用方式实现,具体的使用期限由图书馆与数据库运营商之间协议约定。
电子期刊(包括电子报纸)分为两种类型,一种是印刷型期刊的电子版,另一种是严格意义上的电子期刊,即期刊从投稿、编辑、出版发行到订购、阅览都是通过网络实现的。图书馆对第二种期刊的收藏方式,与对数据库的收藏方式大致相同。图书馆在进行信息资源组织时,在同一个书目数据库内应对两种载体形态的资源进行充分揭示,并在两者之间建立关联,用户可以根据自身的需要与实际情况进行选择。目前的电子图书大多数是对已出版图书的电子化,没有统一的格式,需要下载安装相应的专门阅读浏览器。图书馆拥有数量与种类繁多的数据库、电子期刊及电子图书,它们分布在不同的检索平台上,用户利用这些数字资源时需要分别进入各个系统,而无法实现一站式检索,这给不熟悉资源和系统的用户带来信息查询和检索上的很多困难。
网络资源数量巨大、类型丰富,形式多样,内容广泛,使用方便,且更新速度快,用户置身于网络的海洋之中,常常感到无所适从,由于它的分散与无序化,用户常常在无数的网页中穿梭,却找不到符合自己需要的信息资源。因此,迫切需要为网络资源提供有序化的结构,使之成为有机整体。数字图书馆是生存在Internet上的数字信息系统,面对的是 Internet上的海量信息资源,这些信息不但类型复杂、内容多样,而且分散程度、无序化程度、重复率都比较高。而数字化资源、网络化存储、分布式管理是数字图书馆的基本要素,它将要在数字信息资源的生产、加工、存储、检索、传递、保护、利用、归档和剔除等一系列过程中实现标淮化和规范化,从根本上改变 Internet上信息分散、零乱及使用不方便的现状,营造高度有序化并方便用户的数字信息资源环境。由于不同信息机构分别采用不同的硬、软件平台建立各自的数字图书馆系统及馆藏资源,由于体系结构和采用技术上的差异,造成数字图书馆之间相互通信和资源共享的障碍。用户为了获得所需要的信息,通常需要访问多个数字图书馆,同一检索请求不得不重复提交给每个数字图书馆。在现实的信息资源组织过程中,由于缺乏理想的统一标准,缺乏资源共建共享的意识,信息资源类型存在差异,组织技术方法存在差异,追求服务个性化等,单一的信息系统组织信息资源时尽管独立使用效果好、有序化程度高,但置于整个信息资源环境时,则变得缺乏效率,呈现整体无序化的现象。
(1)信息资源整合的含义
信息资源整合是信息资源优化组合的一种存在状态,是在符合一定条件的前提,根据一定的需要,对各个相对独立的已经实现了一定程度有序化的信息系统进行融合、类聚、重组,重新构成一个新的效能更好、效率更高的信息资源体系的发展过程和结果。整合后形成的信息资源体系,可以是逻辑的,也可以是物理的。物理的信息资源体系是指,除各成员信息系统拥有自己的数据库系统以外,整个信息资源体系还拥有一个中央数据库,为各个信息系统所共享;逻辑的信息资源体系则不存在这个中央数据库,它只是各个信息系统整合之后的逻辑意义上的统一表达。
信息资源整合的对象是经过一定程度加工整序的、一个个相对独立却存在差异的信息系统,而不是完全没有经过有序化处理、自身没有任何控制的信息资源。它是信息资源发展到一定程度的客观要求。我们通常把信息系统内部的信息资源组织称为纵向的微观意义上的信息资源组织,而把那些横向的、不同类型、系统之间宏观意义上的信息资源组织称之为信息资源整合。它强调单个信息系统之间的横向联系,强调信息资源之间的融合重组,強调整体之间的资源共享。
(2)信息资源整合的目的
当前,信息资源开发利用日益受到广泛地关注,越来越多的信息机构或团体致力于信息资源的有序化整理,产生了数据库、电子期刊、电子图书、搜索引擎等信息产品或检索工具,甚至数量众多的数字图书馆等独立的信息资源。它们往往具有独立的信息资源组织方法、检索系统和信息发布系统,并彼此独立、各自为政,缺乏交流,造成信息资源环境整体分散无序知识关联程度不高的状态,用户需要掌握不同信息系统的检索方法与技巧,在不同的信息系统之间穿梭和往还切换,给检索和利用信息资源带来极大的困难。
信息组织的最终目的就是使用户能方便检索各种信息资源。因此,信息资源整合目的就是减少信息资源的混乱程度,加强各个独立信息系统与用户的联系,实现不同信息系统之间的沟通,揭示相关信息资源之间的关联,为用户获得高质量的信息资源提供方便。
信息资源整合在原有的各个信息系统的基础之上进行了信息资源的融合、重组,形成了一个新的有序化的信息资源体系,减少了信息资源的混乱程度,同时也节约省了广大用户穿梭于不同信息系统之间所造成的时间和精力耗费,提高了整个社会信息活动的效率。
(3)信息资源整合的层次
信息资源整合的参与主体范围可以包含多个信息机构(数字图书馆)之间,也可以发生在单个信息机构内部的各个部门之间,也可以是单个部门的多种不同服务之间。现有的信息资源整合的类型包括纸质馆藏资源与数字馆藏资源之间的整合、数字馆藏资源之间的整合、数字图书馆之间的资源整合、各种馆藏资源与网络资源之间的整合、不同类型的网络资源之间的整合等。不同资源类型之间的整合活动,决定了不同的信息资源整合的实现模式和技术方法的差异。
龚亦农先生将信息资源整合划分为三个层次,即表现层、应用层和元数据层。Judith Pearce提出整合检索是复合图书馆的未来发展趋势,并将整合检索分为信息地图(information maps)、代理结构(broker architectures)、信息资源提供者系统的整合(integration of provider systems)三个层次。
1、表现层的信息资源整合
表现层的整合主要针对信息源进行,目的是为多样化分布式存在的信息系统(如各种数据库、检索系统等)的信息源提供的逻辑组织和导引。信息源即信息来源,也就是信息系统的地址等信息,通常以链接的形式表现,因此,表现层的信息资源整合就表现为按照一定的逻辑主线,对各种不同的信息系统的链接进行排列组合,从而构成“信息地图”。所谓“逻辑主线”就是信息系统地址排列组合的标准,可采用的逻辑导引的标准有资源类型、学科主题、字母顺序等。我们将各类型信息系统按照一定的逻辑主线串接起来,就形成了新的有序化的资源体系。
信息资源表层的整合,实现的技术和方法较为简单,只需在同一个网站或网页中创建所有信息系统的地址的链接,并根据一定的标准将这些链接进行有序化排列。与信息系统指南或导航相类似,指引数据库(Referral Database)也属于信息资源在表层的整合,它是对数据库等信息系统进行集中、分类、整理,然后再以主题树的形式指引用户利用,指引数据库中的每条记录都经过严格的选择,具有较强的针对性和较高的可靠性,每条记录存放的是相关主题的数据库或服务器的地址等信息,以及指引用户的特定信息。
信息资源的表现层整合是信息资源整合的初级形态,其整合的对象只是停留在信息源的表面层,而没有触及信息系统的内容和检索层面。整合后新形成的信息资源体系虽然在一定程度上拥有了统一的界面,但实质上只是一个虚浮的框架,并不储存各独立信息系统的实际内容,而只是对信息系统的地址做简单的链接。表现层信息资源整合汇聚了经过人工选择的多种信息系统,不仅数量齐全,而且形成逻辑体系,起到良好的导引作用,极大地方便了用户在大量相关的信息系统中发现和选择符合自己信息需求的目标信息系统。
2、应用层的信息资源整合
应用层的整合,主要针对信息资源的内容及其易用性而进行的,通常是通过与整合对象的互操作获取元数据的资源对象,再提供统一的操作界面实现对不同资源的透明访问,其基本方法就是从结构及内部信息资源组织方式互异的各个信息系统中获取满足用户需求的信息资源的元数据以及数字对象本身,并构建中间访问层。
应用层的信息资源整合,使用户能够在统一化的界面中对各个异构的信息系统的内容进行“一站式”的检索与利用,大大节省了用户的时间,也提高了信息资源的利用率。各个信息系统在统一的界面下得了有效的整合,共同构筑了新的信息资源体系,在一定程度上解决了各个信息系统之间存在的信息资源内容交叉、互不关联、各自孤立等问题。
经过应用层的整合,在新的信息资源体系中的各个信息系统之间只是一种较松散的整合关系。它们之间的异构性还依然存在,各自的个性化因素还未能改变。整合后形成的新的信息资源体系并不拥有各个信息系统,而只是调用各个信息系统的内部资源,原有的各个信息系统在某种程度上仍然制约着整个信息资源体系。应用层整合中常常要借助一些商业化信息技术或产品来扩展整合范围,深化整合功能。常用的技术有两种:跨库检索技术和参考链接技术。
应用层的信息资源整合通常不会直接改变信息资源对象的底层元数据,各个信息系统之间的异构性并没有消除,只是暂时隐藏了起来。在现实的信息资源检索与利用过程中,也常常由于其异构性而造成用户利用的重重不便。
3、元数据层的信息资源整合
元数据层的信息资源整合,是一种从信息资源组织的源头入手的整合程度最高的信息资源整合方式。
元数据是关于数据的数据,在数字图书馆中它提供完整的数据描述形式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分的互操作性和可扩展性的基础,是提供数字图书馆中资源描述、资源发现、资源处理、资源评价与排序以及资源的人机交互和理解的基本要素,同时也是对信息资源进行组织和处理的基础。信息系统除了包括信息资源对象本身以外,还包括描述信息资源对象的元数据。信息资源对象本身的检索与利用,是通过获取描述它的元数据来实现的。
元数据层的信息资源整合的目标,应当使各个信息系统采用的元数据格式按照统一标准,相互之间通过元数据能够相互转换,进而实现各个信息系统之间的同构,并依此为基础,将它们整合到同一个信息资源体系中,从根本上解决各个系统之间由于异构性而带来的内容交叉、各自孤立等问题,实现资源与应用服务(尤其是个性化服务)的高度整合,把数字图书馆的服务上升到一个新的高度。
实现信息系统间的同构包括两层含义,其一为事实上的同构,是整个信息资源体系采用统一的元数据格式。其二为形式上的同构,主要指各个信息系统之间能够实现互操作,这种互操作性使得仍然存在异构性的各个信息系统之间能够通过某种转换机制取得形式上的一致性。各个信息系统之间互操作的实现,要求来自技术、内容和组织三方面的合作。技术是指各信息系统之间进行数据通信时,所遵循的协议和采用的格式等;内容是指各个信息系统内部的信息资源数据、元数据及其语义等;组织则是指各个信息系统的基本访问原则、访问方式和认证等。在元数据层的信息资源整合的过程中,各个信息系统内部原本采用的元数据格式并没有发生改变,只是通过元数据的互操作实现了一致的表达,在统一的检索界面中,用户已经觉察不出元数据格式的互异性了。
元数据层的信息资源整合通常采用以下两种方式。一是采用统一的元数据格式。二是允许互异的元数据格式存在,以此为基础解决不同信息系统的互操作问题,进而实现元数据层的信息资源整合。
(三)信息资源整合与元数据
随着元数据格式的增加,元数据的互操作问题越来越成为图书情报学界关注的重点,它直接影响信息资源的共建共享。
元数据标准包含若干元素,有的元素下面还包含若干修饰词(Qualiers),元素和修饰词都有着特定的语义内容和句法结构。元数据的语义内容包括3个方面:元素和修饰词的定义、内容的编码规则、不同元素和修饰词之间的语义关系。元数据的句法结构定义了元素和修饰词的描述方法和描述格式。元数据的互操作主要从元数据的语义内容和句法结构入手,采用不同的实现方法和技术。随着RDF框架和XML语言的发展,跳过语义内容而直接从句法结构上实现元数据的互操作成为可能。
元数据转换(解决元数据互操作性问题的一种方法是进行元数据格式转换,被称为元数据映射(Metadata Mapping、metadata Crosswalking)。所谓映射就是作一种元数据格式的元素和修饰词在另一种元数据格式里找到相同功能或含义的元素和修饰词。
映射又分为语义映射和结构映射两个方面。语义映射主要是针对不同的描述型元数据体系,例如MARC/DC/EAD/TEI/IMS等,提供数据元素对照表,近似地实现数据资源的“跨库”揭示。结构映射主要解决不同元数据包之间的对应关系,更多的表现为一种“格式转换”,例如将RDF转换成XML Schema,或数据库支持的Warwick包的形式,以此来提供异构系统之间的互操作。
映射可采取动态和静态的方式,动态方式采用元数据中间件,将相应的查询请求中的有关内容转换成资源站点支持的元数据模型或可以识别的元数据格式,返回时再转换成本系统支持的元数据形式,以支持本系统的查询结果处理。静态转换类似于目前的搜索引擎,将资源站点的数字对象抓取到本地,按照本地的元数据模型建立索引,提供服务。抓取是为了尽可能多的保持原有系统的信息,应该按照原系统支持的结构化方式抓取,然后转换成本地的元数据形式存储。
映射可以解决几种格式间的统一检索,映射方法的进一步发展是选译一种格式作为映射中心,其他格式都向这一格式映射,这就大大降低了复杂性。从理论上讲,作为一个描述性系统,元数据应该允许系统间的描述性映射。如果不同系统能够允许在元数据间创建映射,那么每一个系统都可以查找其它系统的元数据;如果所有的系统都创建了通用的映射,那么就可以实现跨系统的广泛检索。目前,已经创建了许多映射方式,有关元数据进行映射或互相转换研究已有了初步成果,己有大量的转换程序存在。根据元数据之间的对应关系(Mapping),供若干元数据格式之间进行相互转换,支持元数据间的语义互操作性。例如:DC与MARC、DC与EAD、DC与GILS、GILS 与MARC、GILS与TEI、TEI Header与MARC、FGDC与MARC等,其中在DC与MARC进行桥接时,因为MARC数据比DC丰富,所以从MARC映射到DC与反向映射截然不同。因为在前者中许多MARC字段被映射到一个DC元素,后者则是一个DC元素映射到一个单一的MARC字段。在这两种反向的映射过程中,一个MARC 数据转换成DC数据后,在此基础上又重新转回MARC数据时,就不可避免存在着信息缺失。由于DC的句法分为限定性与非限定性两种,因此DC与MARC之间的转换映射也分成限定性与非限定性两种情况。同时,并非所有的MARC字段参与映射过程,只有那些被认为有利于广泛的跨领域资源发现的字段被映射。目前,有许多国家致力于研究DC与MARC的转换映射已取得了一定的成果。国际上已经有了一些DC转换到MARC的实用工具。
但是,再好的映射方案也是近似的,况且因为各种方案的角度/粒度不同,单纯平面的映射关系会带来很多歧义,有时甚至是不可行的。因此,必须从更高层面---本体论层次上寻找或建立这些不同元数据体系之间的互相联系,从而更好地建立映射关系。
在我国,有关DC与CNMARC之间的相互转换问题也成为研究热点,这其中包括DC十五个基本元素与CNMARC之间的相互映射转换以及扩展的DC元数据集与CNMARC之间的相互映射转换。由于MARC的描述能力大大丰富于DC,因此,如何尽量解决两者之间转换所产生的歧义与不确定性依然是一个很大的难题。
当人们选定DC15个基本元素作为映射中心时,OAI就产生了。OAI的全名是Open Archive Initiative,其研究始于电子出版(E--Print)团体。最初的研究目标是通过电子出版团体内部联系的互操作来达到团体内的信息共享,后来将目标扩大为:寻求一种简便的方法来实现不同的数字资源系统间的开放检索(也就是跨系统检索)目前它的具体做法是:DC具有15个既可选择又可可重复的核心元素,可被用于简单或复杂的元数据描述以创建任何搜索引擎和数据库结构可用的元数据。其目的是提供能被用于任何应用软件、数据格式或主题领域的字段和描述,是适合于任何Web资源、任何标准的元数据。它提供了跨学科和格式的语义互让操作性,与现存的其它元数据兼容,可作为结构化元数据进行编码和转换的模块化基础结构,是可被任何数字图书馆和网络出版商用以描述和标引电子资源的有力工具。以Dublin Core的15个核心元素为“中间件”,使不同的元数据方案下相等或近似相等的元数据元素相互映射,以实现语义上的互操作。
由W3C 推出的RDF(Resource Description Framework)是套描述资源及其属性和属性值的模型,其制定的目的主要是为元数据在Web上的应用提供一个基础结构,以方便不同元数据间的互操作。随着互联网信息的与日俱增,对网络信息资源的描述与组织变得越来越重要,迫切需要一种元数据描述结构来支撑。
RDF是一个能对结构化的元数据进行编码、交换及再利用体系框架。它为元数据提供了一个可操作的载体。这种体系结构通过通常意义上的语义、语法和结构的支持,在RDF的描述体系中,针对不同资源类型对象的描述要求,选用不同的元数据方案,同时对同一资源类型的不同属性描述也可以采用不同的元数据标准。这样可以在标准开放的前提下更好、更深层次地对资源类容进行描述,从而提供了在各种不同的元数据体系之间的互操作性,以提供未更好的资源检索与获取服务的能力
元数据复用(Metadata Reuse)采用不同的方法复用若干种元数据格式的部分元素或修饰词,通过扩展元数据格式的适用范围、兼容不同元数据格式等方式来描述复杂的信息资源对象,以促进新生成的元数据格式与被复用的元数据格式之间的互操作。
元数据复用通常有三种表现形式,即以一个元数据格式为核心,复用其他元数据格式中的少量元素或修饰词作为新元数据格式中的新元素的扩展性复用;复用某一种元数据格式的多数甚至全部元素,然后建立新的元素,共同构成新的元数据格式的融合性复用;涉及多个元数据格式的交叉混合性复用。对于新形成的元数据格式而言,采用何种元数据复用形式,复用何种元数据格式,是有待于描述的复杂信息资源对象的属性和特征决定的。但是,无论何形式的元数据复用,都需委要有严格的复用规则来保证新形成的元数据格式的规范性,包括整体逻辑性、语义一致性。
元数据的复用避免了专门为复杂信息资源对象设计全新的元数据格式,既继承了原有的研究成果,减少了资源及人力浪费,又促进了不同元数据格式之间互操作的进行。
(四)信息资源整合的相关协议
众所周知,网络资源的生成、传播及被用户利用都离不开共同的协议,其中互操作协议是实现互操作的重要基础。
1.Z39.50协议
Z.50 协议,即《信息检索:开放系统互联的应用服务定义与协议说明》(Information Retrieval :Application Service Definition and Protocol Specification for Open SystemInterconnection),是美国标准学会(American National Standards Institute简称ANSI)与美国信息标准化组织(National Information Standards Organization,简称NISO)关于信息检索的标准,也就是美国ISOZ3950标准。它规定了异构的开放信息系统之间传递检索指令和检索结果的标准方法,基于客户机(Client)/服务器(Server)体系结构,使一个信息系统(源系统)作为另一信息系统(目标系统)的客户机,利用源系统的检索指令和方法去检索目标系统的信息资源,从而实现了用一种方法通过一个信息系统连接和检索多个不同的信息系统。利用Z39.50协议,建立分布式的虚拟联合,在不同结构、内容、格式的信息系统之间使用一种标准的、能够使可相互理解的方式进行通信和数据传输,实现异构平台、异构系统之间的关联与相互检索。
Z39.50是一种客户机/服务器体系结构的网络通讯协议,属于开放的网络平台上的应用层协议,由一套用来控制和管理计算机之间通信过程中所涉及的格式和进程的规则所组成。用户通过客户机向服务器发出检索请求,说明检索条件,指定要检索的一个或多个数据库,服务器返回符合要求的结果集,客户机从中提取需要的记录显示给用户,最后终止检索过程。在Z39.50协议中,客户机称为“源”(origin),服务器称为“目标” (target)。客户机通网络发出符合协议规范的服务请求,服务器依照协议规范做出回应,Z39.50提供的服务就在两者信息交换的过程中体现。
⒉OAI与OAI元数据收获协议
OAI 是开放文档先导计划(Open Archives Initiative)的简称。它是一个旨在实现学术思想与内客有效传播的互操作标准而制定的具有先导性的协议,旨在促进网络信息资源开发、发布与共享,为实现数字图书馆间的互操作提供简单、有效的机制。OAI下设指导委员会(Steering Committee)和技术委员会(Technical Committee)分别负责OAI的运作发展和技术创新。美国国家科学基金会(Nationnal Science Foundation,简称NSF)、数字图书馆联盟(Digital Library Federation,简称DLF)、网络信息联合会(Coalition Networked Information,简称CNI)等机构联合对OAI予以资助。OAI提出了基于元数据的电子文档互操作框架,由此逐渐形成了OAI元数据收获协议(OAI--PMH)。
OAI的技术构架(working mechanism)是为了制造一个低障碍的互操作途径而建立的,主要包括服务器(server)、元数据(metadata)、记录(record)、知识库和标识符(repositories and identifiers)、选择性收获(selective harvesting)OAI元数据收获协议(Open Archives Initiatives Protocol for Metadata Harvesting 简称OAI━PMH)和数据提供者守则与注册机制(data provider conformance and registration)。
OAI—MHP协议定义了6个谓词(Verb),这些谓词在服务提供者(Service Provider)与数据提供者(Data Provider)之间交互,其中Identify、ListSets与ListMetadata Formats提供对文档的描述、联系方式、用户协议以及其它有关规定,而元数据收获的主要实质性工作是由ListIdentifiers、 GetRecord以及ListRecords这三个谓词完成的,其中,标识Identifier指元数据本身唯一标识,并非是指向全文文档的标识。 ListIdentifier与ListRecords可以接受参数、指定日期或日期范围,以实现增量元数据收获。
开放文档先导计划元数据收获协议(OAI--PMH)是一个允许元数据从一个场所传输到另一个场所的工具,作为数字图书馆的基础基石将有助于增强多种不同元数据集合间的互操作性。。
、(五)数字文献主题标引
以敦煌学研究文献为例,为了保证主题标引的质量,客观报导揭示文献内容,必须严格遵守国家标准《文献主题标引规则(GB3860---83)》的规定和《敦煌学检索词表》的标引规定。在标引时,对于以上标准的基本原则、基本内容、基本标识等项规定必须认真执行。
(1)客观二地反映文献所论述的事物和研究内容,分析知识记录中的情报信息,选择文献中可标引的概念并用标引系统的语言表示这些概念。
(2)保证标引用语和检索用语的一致性,标引用词必须是《敦煌学检索词表》中的正式检索词,书写格式应与词表中完全一致。
(3)标引选词应准确,以最切合文献主题的专指词为标准,一般不选用其上位词和下位词标引。
(4)没有专指主题词时,应选用最相关的主题词组配标引。
(5)为满足敦煌学研究的特殊需要,在机检系统标引中应有一定的深度,应首先在文献中选出洞窟号、敦煌遗书编号(不受数目限制),及时间(年代)、地点、方位等。一般应不少于9个主题词。
文献主题标引,应抓住文献的主题中心与主题要素,对文献中心内容进行分析,了解写作目的,研究内容与范围,选定有关主题词。各文献单位应考虑到检索途径的全面性与表达主题的专指性,充分利用词表提供的各种选词手段,以保证标引质量。
标引方案次序选择
(1)直接标引
在转换反映文献主题的标引概念时,要用专指度最相符的主题词来标引,只要词表中有相应专指度的主题词,就不允许用其上位词或下位词来标引,也不允许采取组配或其它标引方案。
(2)组配标引
当主题表中找不到与标引的概念对应的主题词时,如能找到组配此概念的主题词,应进行组配标引。
(3)上位词标引
在主题表中找不到与标引概念对应的主题词,又不能进行组配标引时,可采用最近一级的上位词标引。
(4)近义词标引
在主题表中找不到与标引概念对应的主题词,而且既不能用组配方式标引又不能用上位方式标引时,可标引含义相近的主题词。
(5)增词标引
当主题表中没有选录与标引概念对应的主题词,需要增加某一主题词时,可以增词进行标引。
文献主题分析
主题是概括文献中关于某一事物的情报内容的概念。文献主题类型一般分为:
单主题文献和多主题(并列主题)文献
单元主题与复合主题
显见主题与隐含主题
整体主题与局部主题
主要主题与次要主题
(6)专业主题与相关主题
(7)主题分析的步骤:
阅读文献
-------析出文献主题
-------文献主题分组与筛选
-------主题因素的分解
----------主题因素字面形式的选择
当文献主题能直接从字顺表或分类表中选出相应的叙词标引时,则无需进行主题因素分解。当文献主题必须选用表中的叙词进行标引时,首先应将文献中主题分解为本表中两个或两个以上的概念词,这些概念词称为主题因素。
主题因素分为主要因素和次要因素。主要因素是文献论述的学科理论、方法、现象等基本概念。主要因素可以选用两个以上的概念词表示。
次要因素包括通用概念、地理位置(指国家与地区)、时代及文献类型等,上述四种次要因素可根据文献内容选用概念词标引。分面组配标引的一般公式为:
主要因素----通用因素----位置因素----时间因素----文献类型因素
敦煌学研究的理论、学说、观点和问题方面的文献标引模式为:
研究对象-----研究范围-----地名----时代-----文献类型
主题结构及标引实例
敦煌学文献的主题可划分为若干个构成要素,同时各学科、各研究领域的专业文献的构成因素也不尽相同。下面是石窟研究文献的主题结构,以此为例进行标引。
事物
---事物种类
---事物的部分(部分的部分)
---事物的方面(方面的方面)
---地区
---时间
---文献类型
例如:
万庚育敦煌壁画中的构图.敦煌研究.1989(4):25--33
(内容提要:探讨了敦煌壁画的构图形式及风格特点,认为它继承和发展了我国民族和民间绘画的意境结构、形式风格特点。)
分类号:k879.4L573.1
手检标题采用全面标引:
敦煌石窟---敦煌壁画
敦煌壁画—壁画布局
形式风格---美术考古
美术考古---形式风格
根据敦煌学研究的特殊需要,在机检标引中应进行深度标引,除分析出文献的外部特征外还应当深入全面的揭示文献所反映的丰富内容。
关键词为:敦煌石窟敦煌壁画壁画艺术构图风格构图形式主体式构图对称式构图连环式构图混合式构图本生故事画经变画装筛性绘画散点透视
洞窟编号:285窟 158窟 275窟 220窟 254 窟 285窟 295窟 428窟 290窟 172窟
55窟 296窟 61窟 321窟 217窟
时代:北魏西魏北周唐代五代宋代
的构图小
201 $f 万庚育330 $a 探讨了敦煌壁画的构图形式及风格特点,认为它继承和发展了我国民族和民间绘画的意境结构、形式风格特点。
610 $a 敦煌石窟
610 $a 敦煌壁画
610 $a 壁画艺术
610 $a 壁画风格
610 $a 构图形式
610 $a 主体式构图
610 $a 对称式构图
610 $a 连环式构图
610 $a 混合式构图
610 $a 本生故事画
610 $a 经变画
610 $a 装饰性绘画
610 $a散点透视
610 $a 北魏
610 $a 西魏
610 $a 北周
610 $a 唐代
610 $a 宋代
三、数字图书馆的服务
数字图书馆服务是基于网络进行的多样化的用户服务,是数字图书馆中与用户进行交互、充分理解和满足用户需求、使数字收藏得到充分获取与利用的不可或缺的手段或途经,其目标就是为用户营造一个基网络的虚拟图书馆环境,体现数字图书馆在互联网上存在的价值。
(一)数字服务体系
数字资源的增加促进了服务的开展,越来越成为数字图书馆活动的主导,而且已成为数字图书馆建设者近期所追逐的最高目标。如上海交通大学图书馆曾明确提出建设“服务主导型”(service oriented)图书馆,把服务放在首要的位置上。
① 资源检索服务和资源导航服务:这两个方面是最先发展起来,并日渐成熟的两个服务领域。在国内大约有20余所有影响的图书馆都建有电子资源导航系统,如数据库导航、电子期刊导航、电子图书导航等,有的高校图书馆甚至把此导航系统整合在一个系统里。这些都使有效地引导用户对图书馆提供的网上资源的利用不断增加。
②虚拟咨询服务:这是随着资源的利用而开展起来的新型服务,目标是在互联网上提供随时随地的远程咨询服务。国内最先开展这类服务的是上海交通大学图书馆和北京大学图书馆,现在已有10多所高校图书馆开展了实时咨询服务。
③传统服务:在传统图书馆工作中的很多业务都可以利用网络功能来完成,如馆际互借和文献传递服务,借阅以及相关的预约、续借等服务等,都己经借助自动化系统和其他相关的数字图书馆系统放到了网上,读者可以远程使用。
④支撑服务:其中优先发展的是资源调度和用户统一认证,目前尚处于试验和开发阶段。
(二)个性化信息服务
随着数字图书馆的发展,数字化信息服务的模式将逐步取代传统的手工服务模式;信息资源日益增长,使得用户难以从海量的信息资源中快捷准确的检索到所需信息。因此,数字图书馆有必要针对不同用户的不同需求,为用户指引方向,提供个性化的信息服务,使他们能够充分有效地利用信息资源。
实际上,个性化信息服务的讨论在国外情报学界相当热烈。学术界对网上主动的个性化信息服务这一种信息交互方式,根据自己的认识给出了不同的定义,如个性化信息服务、网络信息智能检索、个性化主动信息推荐、个性主动化信息服务、个性化智能信息检索等。
目前,国内情报信息学界对此也进行了深入的讨论,内客涉及个性化信息服务的概念、网络环境、技术环境、个性化系统的一般模式、个性化定制信息服务的实现技术等各个方面。对于个性化信息服务概念,代表性的观点有:
中山大学信息管理系王悦认为:所谓个性化信息服务,是指在网络环境下,读者可以借助数字提供的一套工具来购建自己的个人馆藏,以满足读者或特定任务的需求,提高检索效率。它是一种能够在某一特定的网上功能和服务方式中,自己设定网上信息的来源方式、表现形式、特定网上功能及其它网上服务方式等,而主动向用户提供其可能需要的信息服务。个性化信息服务,既是一种个性化服务,又是一种信息服务。
卢共平先生认为:所谓个性化信息服务,首先它应该是一种能够满足用户的个体信息需求的服务,即根据用户提出的明确要求,或通过用户个性、习惯的分析而主动向用户提供其可能需要的信息服务;其次它应该是一种培养个性,引导信息需求的服务,以此促进信息业的多样化和多元化发展。
(二)数字图书馆参考服务概况
数字图书馆的参考服务又称为虚拟参考方询服务(Virtual Reference Services,VRS)、在线参考咨询服务(Online Reference Services),电子参考咨询服务(E-reference Services)等。它是一种基于Internet或者Web的帮助服务机制(help services),是建立在网络基础上的将用户和专家以及学科专门知识联系起的问答式服务。
目前,数字参考服务己成为全世界数字化图书馆建设中的热点,受到专业人士的密切关注。20世纪80年代,最早出现的数字参考服务是以E-mail为主要形式的。1984年,美国马里兰大学图书馆率先推出了“参考服务的电子化访问”(The Electronic Access to Reference Services,EARS)服务项目,这是数字参考咨询服务的最初形式;1999年9月,美国有5家图书馆开展实时交互参考咨询服务,到2003年3月全世界开展这一服务的已有200多家;20世纪末,一些英美图书馆开展了跨越馆际的合作数字参考服务。1997年11月英国EAEL推出Ask a Librarian,1999年美国国会图书馆与OCLC合作启动CDRS(Collaborative Digital Reference Services)。
(三)国内的差距
1.发展的滞后性
国内图书馆开始数字参考咨询服务是在近10年。1992年,清华大学图书馆开展的类似FAQ的“利用图书馆100问”,西安交通大学图书馆基于E-mail建立的“虚拟咨询台”等,是国内起步最早的一批DRS。后来,北京大学图书馆、上海交通大学图书馆等也先后推出了多种类型、影响较大的数字参考服务。2001年5月上海图书馆推出 “网上联合知识导航站”,开创了国内合作数字图书馆参考服务的先河。
从时间上看,国内DRS的开展落后于国外约十年。虽然数字图书馆参考服务已引起我国图书馆界广泛关注,许多图书馆已起步运作,但是与国外数字图书馆参考服务已经发展得具有相当规模和有一定国际性相比,国内DRS的开展从总体上来讲是比较滞后的。
2、服务方式单一
数字图书馆参考服务方式主要有异步服务(asynchronous)、实时交互服务(real--time)及合作数字参考服务三大类:①异步DRS服务是指用户的提问与专家(或参考馆员)是非即时的,主要采用E—mail、FAQ以及webform等几种方式及其结合来实现;②实时DRS服务是一种在虚拟环境中专家(或参考馆员)直接“面对”用户,即时回答用户提问的形式,又称为实时交互式参考服务(Interactive Reference Services,IRS)。目前主要采用网络“聊天”(chat)或视频会议(videoconferencing)等软件方式来实现;③目前国内外图书馆在DRS的基础上又发展了一种新的服务模式──合作数字参考服务(Collaborative Digital Reference Services,CDRS)。CDRS是指多个图书馆或咨询机构建立起协作关系,充分利用网络的协同整合力量和各图书馆及咨询机构的信息资源、人力资源,通过资源共享,延长服务时间,扩大服务范围,提高服务质量,从而促进图书馆及参考咨询机构信息服务的发展。
国外图书馆DRS异步服务起步早,发展快,目前已相当普及。国外图书馆DRS的实时交互服务在过去3年中也得到了迅速的发展,如美国加州大学Irvine分校科学图书馆利用网络会议为学生提供的“科学参考桌”(Science Reference Desk)服务,科罗拉多大学图书馆利用ICQ、美国宾州大学商学院利用商业性咨询软件Live person提供的实时数字参考服务。美国国会图书馆启动的CDRS项目,全世界参与的成员馆已达100多个。最近美国国会图书馆与OCLC合作推出了 Question Point全球合作系统。该系统分为地区部分与全球部分,用户可通过Web咨询表、电子邮件等方式得到快捷的服务。
五、数字图书馆发展的技术环境
数字图书馆建设,依赖于信息技术的发展。信息技术是随着人类对外部世界的认识和控制能力的不断提高而逐步由低层次向高层次发展的。随着社会经济的发展、科学技术的进步,信息技术已成为一个综合性很强的高新技术领域。它以通信、电子、计算机、自动化和光电等技术为基础,己成为产生、存贮、转换和加工图像、文字、声音及数字信息的所有现代高技术的总称。
现代信息技术包括现代计算机技术、电子通信技术、数据处理技术、微电子技术、网络技术及数据库技术等。现代信息技术的最主要特点和发展趋势是:高速度、数字化、网络化、宽频带智能化和多媒体化。
(一)计算机技术
现代信息技术革命源于计算机技术,计算机技术的发展进步直接推动了信息技术革命和其他方面的巨大进步。现代化计算机技术是与数字图书馆建设最为密切的技术,正是因为有了计算机,才使人类处理信息的能力得到了极大的提高。其他一些信息技术如信息存贮技术、计算机网络通信技术、多媒体技术等,都是围绕计算机技术而发展起来的,而反过来又推动了计算机技术的发展。
计算机技术发展速度很快,主要表现在比下几个方面:
1.运算速度和信息贮存量大幅度提高。
2.多媒体技术的发展使计算机成为能够接受和处理声音、图像和文字信息,可以集声音、图像、文字三种主要的媒体于一体。
3.网络功能越来越强。
(二)、通讯技术
1. 进入九十年代,光纤通讯技术日益成熟,开发研究仍在飞速前进,其应用范围及利用程度正在日益加快。卫星通讯已成为远程通讯的主要支柱之一,正在向扩大容量、建立无缝连接系统方面努力。在网络方面,发达国家的通讯网的数字化进程已经过了综合数字网(IDN)和窄带综合业务数字网(N--ISDN)两个阶段,迈入了宽带综合业务数字网(B--ISDN)的试验与建设阶段。ATM方式克服了电路和分组交换技术限制,具备快速传输多媒体信息的能力。
2.随着网络、数据通信、计算机及软件等技术的发展,利用现有通讯网络实现计算机通讯已经成为现实。它具有上网容易、建网费用低、易于维护和管理等优点。主要增值业务包括电子邮件、电子公告板、数据库查询、实时通信、电子数据交换(EDI)等。
(三)网络技术
“网络”概念源于数学用语“计算网络”(Computational Grid),是指将各自独立的电脑处理节点,通过通信线路连接而成的计算机通信系统。通过网络,可以连结分散于各处的信息系统,使各种资源(包括人、计算机和信息等)实现全社会共享。
网络是一种新的全方位的、功能完备的信息生产、传递、获取、使用机制。它是构筑在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网络则试图实现互联网上所有资源的全部连通,网络的目标是将所有计算机连接成一个整体,实现高度的资源共享,高速的信息存取,向每个用户提供一体化的信息服务。由于网络所具有的处理信息快速、人机交互性强、以统一的数字化符号处理多媒体信息的特性等,使人类社会进入数字化、网络化时代,以因特网为代表的各种计算机网络为人类提供了更为开放、更广泛的新型服务项目和功能。
随着互联网的普及,以及网络技术和计算机技术的发展,广域网范围内的高复杂性的数字音频和视频的多媒体应用得到迅速发展。这些多媒体应用具有信息载体的多样性、集成性和交互性等特点,要求实时连续地传送大量数据,以及服务形式的多样性,对网络及其协议提出了新的要求。
网络系统由资源层、中间层和应用层三个基本层次构成:其中,网络资源层是构成网络系统的硬件基础,包括各种硬件资源,如超级计算机,可视设备和现有的计算机应用软件等。中间层也称为网络操作系统,包括一系列的工具和协议软件。网络应用层是为用户具体使用而设的,用户可以在网络应用软件上根据自己的需要开发不同的应用系统,以解决各种大型计算或资源共享的矛盾。
网络是由网络站点、数据库、贵重仪器和设备、可视化设备、宽带网和网络软件等 6个部分组成。计算机信息处理的对象是网络结点上的数据。网络结点是地理空间独立的计算和信息中心,根据功能可分为两类结点:计算结点和信息处理结点,计算结点为计算网络提供原始计算能力、高速带宽和数据处理能力。而由信息处理结点组成的集合称为信息网络。
在网络系统中,使用基于知识的方法学和技术学而生成的网络称为知识网络(Knowledge Grid)。知识网络包括元计算(Metacomputing)、对等计算(Peer—to--peercomputing)、分布计算(Distributed computing)等计算基础及知识工程工具、决策咨询智能软件、知识存储、数字建模、模拟计算等网络软件。元计算的基础是建立知识元结构,知识元的独立性和链接方法是生成新知识的主要途径。网格可以将整个科学分类体系立体分布在网络结点上,通过不同的结构链接方法使诸多交叉学科体系由隐性知识转化为显性知识,或创造出新的学科研究领域,达到知识创新的目的。
网络技术采用接口连接分散的网上信息资源,网络软件通过各种协议将同质的和非同质的信息进行连接,并通过高级分析减少各种形式的信息所带来的技术的复杂性。网络操作系统还可以提供自动生成目录和缓存等技术,可极大地提高网络信息查询和浏览速度。
在因特网和Web上,信息资源零散地分布在各个网络站点,图书馆可以采用信息网络技术进行资源管理。
(四)流媒体技术
流媒体(Streaming Medina)实际上是一种新的媒体传送方式。它是指在网络中使用流式传输技术的连续时基媒体,其特点是在播放前并不下载整个文件,只将开始部分存入客户端,剩余的数据随时传送随时播放。流媒体实现的关键技术是流式传输,其方式有两种:实时流式传输(Real-timesteaming)和顺序流式传输(Progressive streaming)。当视频为实时广播,或使用流式传输媒体服务器,如RTSP的实时协议,即为实时流式传输。它是现在较常用的流媒体传输方式,具有以下优点:用户可以边浏览边下载,整个下载过程都在后台运行,等待时间可以大大缩短;流媒体运用了特殊的数据压缩/解压缩技术,使文件小于原始文件,从而节省了大量的磁盘空间;传媒过程中使用了一种全新的数据缓冲技术,保证了文件传输的可靠性。
一个完整的流媒体平台,应包括流服务应用系统、视频管理发布系统、视频采集制作系统、媒体内容检索系统、媒体存储系统、客户端系统等重要组成部分。一个网站提供流媒体内容时,需要使用编码工具将一般的多媒体文件进行高品质、适合网上串流的压缩,再将转好的文件传送到服务器端,最后通过媒体服务器发布。
流媒体技术与无线通信技术的结合,则被称之为移动流媒体技术。
(五)数字信息技术体系
数字图书馆是现代高新技术支持的数字信息资源系统,是下一代因特网上信息资源的管理模式。它将从根本上改变目前因特网上信息分散、不便于使用的状况,提供集成化的信息服务。它要求从信息采集、信息加工、信息处理、信息存储、信息发布到网络化服务,都需要按照一定的标准,采用一定的数字信息技术,建立统一的数字图书馆信息集成系统。
1.信息采集技术
主要包括文本信息和图像信息采集。文本信息采集工作,主要指对原来纸介质文献进行数字化信息采集;图像信息的采集,可利用数码照拍技术来完成,而原来存储在磁介质上的图像资料则可通过相应的技术完成数字化。
2.信息加工技术
建立在信息集成基础上的数字图书馆系统的功能,不仅提供一次信息,还应当提供经过加工处理的二次信息。因此,支持管理决策过程的、面向主题、集成稳定的数据仓库技术也是数字图书馆不可缺少的技术之一。
3.数字存储技术
随着数字图书馆信息量的剧增,存储规模会越来越大,信息度量单位也不断变化,从KB到MB,进而到TB、MB。存储海量信息不但要求存储设备有很大的储存容量,而且还需要大规模数据库存储和处理这些数据。这就涉及到硬件随时读取的速度、数据集中与分布存储管理方法等问题。
4.信息检索技术
统一界面的Web技术与主题分析、传统分类相结合,使用户在使用数字图书馆时方便而有效地支持SGML/XML的搜索引擎。建立在信息集成基础上的数字图书馆信息资源组织采用SGML/XML的搜索引擎。相应的建立在信息集成基础上的数字图书馆的检索系统应能支持SGML/XML,这个检索系统能有效地检索数据资源,以实现对信息的快速准确检索。
5.信息服务技术
多语种技术可以通过多语言浏览功能,通过机器翻译功能,为用户提供多语种服务,从而满足更多用户需求,使构建的数字图书馆集成系统发挥更大作用。采用音频、视频播放技术开展集成化服务,耍根据用户对信息类型以及提供方式的不同需求来实现数字图书馆的信息服务。
6.汉字信息的数字化技术
所谓汉字信息的数字化技术,就是依靠计算机技术将汉字转换成二进制编码,以便对它们进行组织、处理、加工、存贮,采用数字传输技术加以传送,并在需要时加以还原的一种信息处理技术。汉字输入方法有手工键盘录入,手写输入,语音输入和OCR扫描输入等。
OCR (Optical Character Recognition)即光学字符读入识别,也可以简单地称作文字识别,是将文字扫描后的图像阵点信息转换为计算机内码表示的文本,扫描是一种常用的转换技术。它是通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。通过图像在格点上的取样来扫描文挡,每个点都有个格的亮度编码,最简单的情况是只区分黑色和白色如果横向和纵向均以每英寸300点的分辨率取样,可以得到大多数印刷品的精制图像。如果分辨率增加到每英寸600点,或者使用八个灰度级,图像就会非常清晰,而且可以表现出半色调效果。高质量的艺术品需要至少每点24位来表示颜色的所有组合。这样扫描后会产生一个很大的文件。加了便于存储和处理,需要将文件压缩,但即便是一页黑白正文文件也有50, 000字节。
通过扫描可以再现印刷页的外貌,但是它把文字筒单地看成图像,这根本无法与已标记文本.或ASC 码字符相提论,特别是不能在一页图像中寻找特定的文字严谨的学者有时需要原作进行工作,而且要确切了解原作的外貌。
OCR是一种快捷、省力的文字输入方式,也是在今天文献数据量异常庞大的情况下被人们广泛采用的输入方法。从信息处理的角度上讲OCR技术是一种将传统文献上的文字信息转换为数字化电子文本的技术。
扫描仪OCR
纸质介质━━━━━━━>数字图像━━━━━━━━━━>数字文本
光学字符识别是一种将扫描图像中的符号转换为等价字符的技术,其基本技术是先由计算机程序将单独字符个体分离出来,然后将它们与精确的模板进行比较。尽管经过了几十年的研究,光学识别始终还是一个不完全精确的过程。出错率随原作的可辨认程度而不同。如果原始文件可辨认,出错率要小于1%;对于质量很差的资料,出错率会变得很高。在很多场合,千分之几的出错率还嫌太高,这种出错率给每页上造成许多的错误字符。人们已经研究出不同方法来解决这些问题。有一种技术是用不同的字符识别程序作用于同一份资料上,希望这种程序不能识别的字符可以被别的程序所识别。
(六)数据库技术
数字图书馆使用的数据库可概括分为两大类:一类是应用数据库管理系统(DBMS)进行二次开发建立数据库,常用的软件包括单用户关系型数据结构软件(如 MFOXBASE和FOXPRO等)和多用户、网络化关系型数据库软件(如ORACLE、INFORMIX、SYBASE、INGRES等);另一类是本身带有管理软件的商品化数据库。数字图书馆中庞大的数字化信息经过规范化处理后需要以数据库的形式存贮起来。目前,客户机(Client)/服务器(Server)结构的分布式数据库是最常用的模式。作为数据库技术与计算机网络技术相结合的产物,分布式数据库系统技术已日益成熟,基于客户机/服务器结构的分布式数据库管理系统具有以下优点:
1.通过客户机/服务器的DBMS可以很容易地实现数据库与应用程序的集成,即能够提供数据处理和客户服务的无缝集成。
2.系统中安全性与数据库完整性都由服务器集中控制。
3.客户机/服务器结构的DBMS能为联机事务处理提供高质量的服务,能支持成百乃至上千用户,并使数据库系统对操作系统的依赖性减少到最低程度。
4.客户机/服务器结构的DBMS提供开放的客户机接口和服务器接口,使用户可以自由选用多种数据库应用开发工具,而且可以透明地访问多个异质的数据库资源,包括关系型数据库和非关系型数据库。
(七)全文检索系统软件技术
印刷型文献资料被数字化以后,还需要依靠检索软件,才能够通过题名、著者姓名、主题词、分类号、关键词等各种途经进行检索,而只有如此,才能真正显示数字化文献的优越性。因此,全文检索软件技术是否成熟,是图书馆实现数字化的重要技术条件之一。
全文检索是以文本为主要处理对象,实现内容信息的贮存与检索的技术。目前,国内用于中文全文信息检索的软件系统逐渐成熟,如易宝北信公司TRS、中国科技信息研究所的Quick IMS、浙江经济信息中心的天宇(CGRS)以及南辰电脑公司的多媒体全文检索系统都已经成为知名品牌。它们都达到了系统功能齐全、检索技术先进、网络连接畅通、汉字处理较好及系统平台多样化等要求。其中TRS为用户提供的技术先进、稳定可靠、性能超群的开放式Internet/Intranet新闻发布和检索平台,具有对各种结构化和非结构化信息、文档、图像、声音动画等进行收集、加工、编制索引和检索以及数据库维护、安全控制、保持数据完整、数据备份和恢复及用户管理等功能。
(八)图书馆自动化集成管理系统软件技术
在网络环境下,图书馆信息管理系统需要高度集成化,不仅是传统图书馆应用功能的集成,而应当成为承担不同作业任务的多服务性能的集成。如Web服务;数据库检索引擎Z39.50服务;专用数据库传送及转换服务;不同字符集代码转换服务等。
1.集成化信息管理系统面对当前的网络环境及资源服务环境,一般要求究有多个开放
的对外接口。如面对用户查询的浏览器接口;面对系统查询的Z39.50接口;面对网络可联机获取的信息资源的访问与权限控制接口及面对商业化光盘载体信息库的查询及数据传递转换接口等。
2.在系统功能性要求方面,除保证系统在本地局域网环境下涵盖图书馆基本业务流程及一些辅助性功能外,还应为用户提供更多的自我需求设计的功能,主要包括:界面设计,图书馆自我管理方案设计、检索策略设计等。
重要的是:采用因特网网络环境下的获取资源、共享资源的各种先进技术、标准和协议;能跨越地理位置的限制与多种LAN和WAN兼容,用户可通过局域网或因特网访问远端数据库信息。
3.应当建立统一的元数据对象库,组织开放体系结构的数字对象库,建立通用的库访问协议;建立分布式不同源数字对象的调度系统;数字对象的描述方式要支持不同源的分布式查询和检索。
(文/李鸿恩)
参考文献
1.What’s Digital Reference?[2002-05-13].http://www.vrd.org。/about.shtml
2.夏青云.一些国家的数字图书馆.图书情报工作,1999(4)
3.沈迪飞.对当前我国图书馆数据库建设的思考.图书馆学刊,1999(6)
4.李德升.中美数据库产业比较研究.图书馆学刊,1999(6)
5.莫少强.关于建设我国数字图书馆的若干理论与实践问题.见:世纪之交:图书馆事业回顾与展望.北京:北京图书馆出版社,1999:1—9
6.吴志荣.论图书馆数字信息资建设.上海高校图书情报学刊,2000(1)
7.潘卫.数字参考服务:发展与思考.大学图书馆学报,2002(4):63-69
8.薛崧.基于Web数据库平台的图书馆个性化服务:MyLibrary,2002(8)
9.卢共平.数字图书馆的个性化信息服务.图书情报工作,2002(8)
10.刘颖、以用户为中心的数字参考服务研究.理论与探索,2003(4):6-9
11.梁平.我国数字图书馆建设中的几个问题.中华医学图书情报杂志,2004(3)
12.王世伟.论数字图书馆的特点及其对当代图书馆学教育的影响.图书情报工作,2001,(3)
13.王鉴辉.数字图书馆评价体系问题研究.中国图书馆学报,2004(4)
14.刘文梅.国外数字图书馆绩效评估研究述评.津图学刊,2003(6)
15.李鸿恩.敦煌学研究文献资料主题分析与标引.敦煌研究,2003(4)