总统博客: 数字化资源命名寻址的利器-DOI(zz)

原文发表在中原大学张静愚纪念馆馆讯2002年冬季刊上，作者郑阳明。
本文采用MS Word 2003进行繁简转换。
原文链接: http://www.lib.cycu.edu.tw/lib_pub/news129.html

数字化资源命名寻址的利器-DOI

壹、前言
　　在浏览网页的时候出现「HTTP v1.0/1.1 Error404」讯息时，表示所点选欲连结的资源已经被移除，以致于无法利用，遇到这种状况通常令人无奈，尤其是在撰写报告需要参考文献时，更会急得跳脚。这时难免会想，网络资源是不是能像图书馆的图书索书号一样，每一个资源都给一个具有永久性（persistent）且唯一的（unique）辨识号码？当读者查询馆藏目录，可依图书索书号至书架上取书，不会有因馆藏移架造成馆员要重新编索书号或读者需另记索书号的困扰。

　　在图书馆各种类型的馆藏中，期刊因内容新颖、出版快速，报导最新学术发展动态及发表研究成果，一向受到读者的高度重视与广泛使用。在学术图书馆中，更将购书经费的70%以上用于订购学术期刊。由于因特网的普及化，不少科学、科技、医学类学术性刊物出版商，意识到要想长久生存，取决于出版刊物必须增加销售管道，因此纷纷在因特网上建立网页，开始将大部分纸本印刷出版品再以电子形式出版，有的甚至只出版电子版形式供订购阅览。

　　近来，电子书大量崛起，可以说是出版商另外开发的一块大饼。对出版商而言，电子出版可以将文字、声音、影像、动画等各种媒体的数据，加以数字处理，增加纸本书刊所无的边际效益，但是，若是仅止于此并无法保证增加出版商的销售量，一方面必须要提供像图书ISBN、期刊ISSN、录音录像数据ISRC等让使用者很容易检索的辨识码(identifier)，另一方面还要防止被轻而易举地非法复制盗拷，这种盗版的现象在软件和音乐作品中已屡见不鲜。出版商必须在保障提供稳定来源的数据与保护智能版权二者之间加以努力，以获取最大利益。

贰、DOI系统介绍
　由于上述这些原因，美国出版商协会（The Association of American Publishers，简称AAP）于1994年建立了「技术授权委员会」(Enabling Technologies Committee)，进行设计一种既能保护智慧产权且能保障版权所有者商业利益的系统。第一个步骤是先引进一种出版业标准的电子出版内容识别码以支持出版商与用户之间各种系统的相互转换，为版权与使用权之间的协调管理提供基础。该系统以美国全国研究创新联合会（The Corporation for National Research Initiatives，简称CNRI）研发的「处理系统」(The Handle System)作为技术平台，用来对数字化出版物提供持久和可靠的识别码。网络资源大都采用直接寻址方式，其最大优点是简单便捷，但当资源有异动时，则需要通知并修改相关联之数据，否则就会出现像本篇文章一开头所提到的讯息了。为了避免这问题，网络资源可改采间接寻址 (相对地址)，透过一台记载文件名与网址对照的主机，若网址更改，只要通知该主机即可，这种处理主机一般称为 Handle System。

　　这一系统在1997年法兰克福图书博览会首次亮相，名称为The Digital Object Identifier，简称DOI 正式成为数字化资源命名的一项标准，1998年在法兰克福并成立一个宣称非营利性之国际DOI基金会 (International DOI Foundation，简称IDF) 负责政策制定、技术支持、注册及缴纳规费、维护在线的使用指南等业务。这个基金会由一个董事会监管，会员成员包括(1)大型音乐、平面影像、广播、在线新闻、软件、其它内容产业的出版商(2)上述产业的技术供货商(3)上述产业的协会代表(4)因特网科技公司(5)代表作家、画家、图书馆、使用者的组织(6)政府相关部门(7)其它网络上政治、经济或社会人文重要机构。会员分为四个等级：
(一)、第一级是创始会员(Charter Members)，成员有Association of American Publishers* 、Elsevier Science* 、International Publishers Association* 、John Wiley & Sons* 、McGraw-Hill, Educational and Professional Publishing Group* 、Springer Verlag* (*代表也是IDF的董事会成员)。
(二)、第二级是签约会员(Registration Agencies Members)，有ContentDirections, Inc.* 、CrossRef* 、Enpia Systems Co., Ltd. 、Learning Objects Network Inc.* 、Copyright Agency Limited*等。
(三)、第三级是一般会员(General Members)，较知名的有American Chemical Society、Cambridge University Press、Copyright Clearance Center*、Hewlett-Packard Company*、IEEE、Microsoft Corporation*、Joel Baron Associates*、OCLC Online Computer Library Center Inc.、Publishers Licensing Society、Wolters Kluwer International Health & Science等。
(四)、第四级是附属会员(Affiliates)，有Adobe Systems Inc.，此种会员不具投票权。
目前有超过二百个公司使用DOI系统，注册四百万笔以上DOI数据，注册中心（Registrant Agency）有两个，分别为IDF和 CrossRef。IDF于2001年2月提出 The DOI Handbook v.1.0.0 供全球使用(至2002年11月为 v.2.5.0)，内容收集DOI的技术、建置、管理方式，为有意加入者提供一入门手册。2000年9月，CrossRef 成为第一个由国际DOI基金会所授权的官方DOI注册代办机关，负责分发DOI前引、注册DOI，并提供基础建设让使用者能公告及维护元数据(Metadata)。[1]

　　DOI主要功用就是对网络上的内容能作唯一的命名与辨识，藉以保护智慧财产。DOI译成「数字对象辨识码」，是一组由数字、字母或其它符号组成的字符串。包括前缀(Prefix)和后缀(Suffix)两部分，中间用一道斜线区分。前缀由辨识码管理机构指定，后缀由出版机构自行分配。前缀又由两部分组成，中间用一个圆点分开。第一部分<ＤＩＲ>有两个字符，代表该DOI由哪个注册中心分配，目前都是以10两个数字代表。以后可能会有多家注册中心，例如一个国家一个，或一个行业一个（如出版、摄影、音乐、软件等行业）。前缀的第二部分<ＲＥＧ>代表被分配使用该DOI前缀的出版机构,或在辨识码注册中心进行登记的任何版权所有者。后缀由出版商或版权所有者自行给号，是一组唯一的字符串，用来代表特定的数字化资料。许多出版商选用已有的识别符号作为后缀，如ISBN、ISSN等。
DOI 命名的语法主要是遵照 ANSI/NISO Z39.84 标准，其编码规则如下：
...语法......................................备注
<ＤＯＩ> = <ＤＩＲ>.<ＲＥＧ>/<ＤＳＳ>.....Character set is Unicode 2.0
<ＤＩＲ>=10..............................前缀(Prefix)
<ＲＥＧ>Registrant's Code.....<ＲＥＧ>码是由注册中心发给各要注册单位
<ＤＳＳ>DOI Suffix String......后缀(Suffix) <ＤＳＳ> 的起始字符不能为*/
例一：10.1000/1....................是DOI系统在Web上的首页识码前缀是10.1000，后缀是1
例二：10.1016/SO921877797000232......是Elsevier 出版社一篇期刊文章的DOI辨识码后缀是直接引用Publisher Item Identifier（PII）

DOI系统的实际运作目前是采用Handle System技术，浏览器所需要内嵌（embed）软件及系统运作软件可从http://www.handle.net网址下载。

参、DOI系统运作与应用
ISBN、ISSN等现有的标识码用于印刷型出版物中，而DOI系统是专门用于标识数字数据的。简单地说，其原理是：
1. 每个会员出版商为其所出版的每一数字数据（可能是一本书其中一个章节或是某一篇期刊文章，更甚或是某一个图片文件），编制一个含有出版社本身DOI前缀的DOI，并将其附加到文献元资料（Metadata）和URL上，如此DOI成为数字数据的一部份，始终与该数字数据共存。
2. 每个DOI记录与该数字数据的URL 信息一起被送往DOI注册中心数据库，得到登记、进行存贮。这种被集中存贮起来的数据形成了一个数据辨识库。利用特殊的软件，这一数据辨识库可以连接、或分辨某个DOI，使与其有关的数字数据的位置联系起来。(参见图一)
3. 当用户寻找一个数字数据、或有关这一数据的相关信息，DOI查询需求就会被传送到DOI注册中心数据库主机。
4. 该数据库主机寻找到DOI的记录及与其相关的信息地址,将二者连接起来，将其URL送回给用户浏览器并将结果显示给用户，其过程与寻找URL一样快捷。(参见图二)
5. 当出版商将其产品版权转让或出售时，即某一数字数据的位置发生了变化，该出版商应将这一数据改变的信息送到DOI服务器,该服务器将自动更新,中心服务器将会保持数据的完整。

图一：建立DOI数据

图二：检索并回复DOI数据

　　以CrossRef为例，CrossRef 是一个系统处理过程，它的功能就像是种智能型数字式总机。每个会员出版商为其所出版的每一篇期刊文献，编制DOI后将其附加到文献元资料（Metadata）和URL上。这些纪录会以XML为基础的DTD格式，批次提供给 CrossRef 元数据数据库（MDDB：Metadata DataBase），CrossRef再将每一篇文献的DOI和URL注册在一个统一的DOI名录中。另一方面，出版商也将每篇文献中所节选的参考数据引文（Reference Citation）提供给参考书目转化器（Reference Resolver），此一转化器的功用是用来检索DOI群，为MDDB的主要部分。出版商能把CrossRef连结加进所有本文已在CrossRef系统中注册的文献内引述文中。整个索引连结流程图示于图三。[2]

图三：索引连结流程图

　　举本馆订购的WILEY InterScience数据库为例，经由点选电子期刊文章，除了可以观看全文外，也可以经由参考资料引文的连结，透过CrossRef的功能，连结到其它出版社的文章。

肆、DOI系统的评价
　　DOI对所有形式的知识内容都适用，因此对文章、图书、课堂实验、影像图片、音乐等各种数据都可进行连结、检索，由于DOI系统这种持续追踪文献目前地址的能力，可以让使用者直接从某家出版商的产品如书目数据库（Bibliographic database）或引用文献（Article citation）连结到其它出版商的数字化产品，如摘要（Abstract）或全文（Full-text）。其识别码系统可以使得传统的数字产品具有进一步的延伸能力，意即从识别码可以指引到资源本身，不再是静态的表现，这是DOI编码系统最有价值之处。

　　在变化万端的电子出版世界中，由于数据版权所有者的更迭、电子文件的存放位置变化频繁，尤其在使用那些在各主机之间来回转换的文件、新版的软件、不同文件案格式的数字化音乐作品、或经过更新内容的科学文章中特别需要一种技术，以保证虽然被连结的版权所有者的出版时间和地点有了变化，仍能正确无误地连结，DOI正好可以达成这个需求，这是它的另一项优点。DOI系统为出版商提供了一个既能用于出版物电子版权的内部管理机制，又能进行电子商务的工具。它对文件检索、票据交换、出版许可等电子出版日常的交易程序提供了自动化管理的工作基础，这也是美国出版者协会 (AAP) 之所以对它青睐的主要原因。

　　就学术界的观点而言，DOI 虽具有上列的特点级优越性，但Lloyd A. Davidson and Kimberly Douglas在文章中提到[3]，DOI系统主要是为了迎合出版者的需求而制定的，缺乏图书馆学会及大学在基金会主体内运作，在这样的环境下发展出来的系统，虽然出版者的需求和图书馆界的需求会有重迭，但是还是难以涵盖图书馆界之需求。此外它还有下列待解决的问题：
1. 在编码规则上DOI系统可以长达128个字符，扣除前缀的8个字符，后缀的120字符可以定出1.8*10192个DOI识别码（因每一字符可以是字母、数字或符号等至少40种可能），这个天文数字使得设计显得不切实际，且这种命名长度太长不易记忆因而难以应用，以Publisher Item Identifier（PII）为例，只有17个字符的长度，就足以识别出版品。根据Norman Paskin估计约用10 11个对象就足以完成每一项出版品的唯一识别码[4]，目前DOI的命名法对系统内存而言是相当浪费的。
2. 因为DOI系统需要经过注册及付费，并非免费使用的系统，且不允许个人注册，因此并不是任何人都可使用。为了同时兼顾商业往来及智慧产权的保护，这些出版商也不会把所有的产品都在因特网释出。另外，在DOI系统问世之前，其实也有其它的控制方式存在，如由因特网协会（IETF）1993年3月所提出的一致性资源命名（Uniform Resource Names，简称URN）计划，这使得DOI系统对出版商的约束力变小。再者，IDF对参与成员的审核标准也相当严格，因此也使得小型出版商不愿再付费加入DOI系统。造成DOI系统对大出版商很有帮助，可以支持他们在网上的商业性交往、保护他们的知识版权。但这些出版商生产的产品只占网上能够获得的所有数据的一部分。此外，在DOI系统引入之前，大出版商的数据已经相对比较稳定。实际上，URL的不稳定和因特网上的出版物缺乏持久性的最大问题来自这些没有直接参与DOI系统的其它出版者，因此网络上出版的混乱局面仍将无法得到有效的控制。
3. 如果太多的非正规的出版机构也被允许加入到DOI系统中，系统有可能因为积累大量不存在的对象的识别码而导致崩溃。但从另一个角度看，如果不允许那些非正规出版机构参与到DOI系统中，他们有可能被迫建立一个类似的系统，具有同样的功能，自己对这些系统进行管理以保证质量。但并不是各种类型的出版商都能花得起时间、金钱来经营像DOI这样一个复杂的、需要不断进行讯息更新的系统的。
4. DOI为出版商创造了一个系统，一方便可以保护出版商免遭使用者滥用数字数据而蒙受严重的经济损失，又可以让公益性政策如公平使用原则和馆际互借等制度延续下去。但是DOI有可能妨碍用户对出版物的公开获取，因为读者对DOI的查询，除非获得授权检索，大多数得到的可能只是各种出版物的清单，而非直接连结至被查询的出版物本身。如果终端用户发现DOI反而成为获取信息的障碍，他们就有可能倾向于去寻找那些非正式的文献来源，如目前出现的越来越多的预行刊物档(preprint archives)(关于preprint archives的介绍，请参照本馆馆刊124期，" 学术研究的宠儿：Preprints及E-prints"一文)。甚且如ARL(The Association of Research Libraries)的SPARC(The Scholarly Publishing and Academic Resources Coalition)计划(http://arl.cni.org/sparc/)，它们自行结合大学、学术图书馆与学术组织成立联盟，不再受商业出版的期刊出版者牵制，自己管理学术文章的出版与发行。所以对DOI会员出版商而言，其实它们最佳的策略应该是和它的客户--例如图书馆界-积极地合作，重新订定DOI系统的政策，如：入会条件、开放程度、编码格式、检索权限等。

伍、结语
网络资源命名寻址工作是一项复杂的议题，网络资源永久名称的指定，将是网络资源管理重要的一环，目前较有名的对象编码命名方式有DOI、URN(（Uniform Resource Names）、SICI Code(Serial Item and Contribution Identifier Code)、BICI Code(Book Item and Contribution Identifier)，各有其特色与限制，对于图书馆界而言，在发展数字典藏工作时，对于档案的命名就要考虑到要先确认它编码命名的方式，是否组织类似IDF的机构？或是加入类似之组织？加入后组织编码的设计等。在采访选择电子期刊或电子书时，除了内容的质量外，对于出版商或代理商提供的文章章节电子文件存取方式及是否提供跨出版商间之连结等服务也应该有所评鉴。对读者而言，出版商与资源中介单位如图书馆等的通力合作，提供稳定且多元的网络资源服务，才是他们所在乎的。
(作者为本馆采编组组长)

参考数据：
1. DOI Handbook
http://www.doi.org/handbook_2000/index.html

2. 刘淑德、曾宇薇，"CrossRef电子期刊文献正文引文跨越连接共通规范"，
http://www.ncl.edu.tw/pub/c_news/89/04.html

3. Lloyd A.Davidson and Kimberly Douglas,"Promise and Problems for Scholarly Publishing",
http://www.press.umich.edu/jep/04-02/davidson.html

4. Paskin,Norman,"Information Identifiers," Learned Publishing vol.10,no.2,pp.135-156 (April 1997). http://www.elsevier.com/inca/homepage/about/infoident/Menu.shtml

总统博客

9/12/2006

数字化资源命名寻址的利器-DOI(zz)

0 Comments:

关于我(About Me)

欢迎光临

博客归档(Blog Archive)

最新评论(Recent Comment)

标签(Labels)

友情链接(Friends Link)

联系我(Contact Me)