Ⅳ. 오픈 아카이브 기술 동향 및 해외 사례 분석



   ‘한글 문화유산 디지털 아카이브’는 국립한글박물관이 허브 역할을 담당하는, 한글 문화유산에 관한 범국가적 차원의 ‘Open Archives’이다. 그것의 구현 방향을 모색하기 위해 이 분야의 선도적인 기술 동향과 대표적인 기술 표준을 살펴보기로 한다.



1. 개방과 공유: 디지털 아카이브의 새로운 패러다임


   현재까지 국내 공공기관에서 운영하는 ‘디지털 아카이브’는 자기 ‘기관’이 소장 또는 생산하는 자료의 디지털화와 온라인 서비스를 위주로 하는 것인데 반하여, 디지털 데이터의 생산과 유통에 관한 국제 사회의 선진적인 논의는 이른바 ‘Open Archives’ 또는 ‘Linked Open Data’(LOD)라고 하는, 개방과 공유의 세계를 지향하는 데 초점을 모으고 있다.


   ‘Open Archives’는 아카이브 기능을 갖는 기관(Institutional Repository)들이 표준적인 메타 데이터를 생산하고 공유함으로써 이용자들로 하여금 장소와 조직의 경계에 구애됨이 없이 필요한 데이터에 자유롭게 접근할 수 있게 하는 것이며, Linked Open Data’(LOD)는 디지털 자원들이 서로에 대해 갖는 ‘의미’를 명시적으로 기술함으로써 인터넷 상에 유관한 자원들로 엮어진 광대한 의미망이 형성될 수 있도록 하려는 제안이다.




  [그림 4-1] 전통 시대의 지식: 독립적이고 자기 완결적인 지식




  [그림 4-2] 디지털 시대의 지식: 다른 지식으로 가는 길을 담고 있는 소통의 교점(交點, Node)


2. OAI의 기술 표준


 1) OAI 활동: 웹 콘텐츠의 상호운영성을 위한 표준 개발


   정보과학 분야의 전문가 그룹이 이끄는 OAI(Open Archives Initiative)는 디지털 콘텐츠의 효율적인 보급을 촉진하는 기술 표준을 개발하고 있다. OAI 활동은 원래 전자 문서(e-print) 아카이브에 대한 접근을 용이하게 함으로써 학술 정보의 소통을 증진시키려는 목적에서 출발하였는데, 현재는 다양한 디지털 자원의 개방적인 이용 환경을 조성하는 방향으로 연구 영역을 확대해 가고 있다. 미국의 앤드류 멜론 재단(Andrew W. Mellon Foundation), CNI(Coalition for Networked Information), DLF(Digital Library Federation), NSF(National Science Foundation) 등이 이 OAI 활동을 재정적으로 지원하며, 성과 확산을 돕고 있다.


 2) OAI-PMH: 메타 데이터 교환을 위한 상호운영성 확보 표준


   OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)는 여러 곳의 다른 아카이브로부터 그들이 가지고 있는 디지털 자원의 메타데이터를 수합하는 규약이다. 데이터를 제공하는 기관이 이 규약에 따라 자기 데이터를 구조화된 형태로 노출시키면, 그 데이터를 받으려는 측에서 역시 이 규약에 따라 데이터를 요청하여 획득할 수 있도록 하고 있다. OAI-PMH는 아래와 같은 6개의 명령어로 이루어져 있으며, 이 명령어들은 웹상에서 HTTP(Hypertext Transfer Protocol) 신호에 담겨 전송된다.


  . Identify: 아카이브에 대한 설명

  . ListMetadataFormats: 아카이브로부터 이용 가능한 메타 데이터 형식을 조회

  . ListSets: 데이터 저장소의 저장 구조 조회

  . ListIdentifiers: 레코드의 헤더 부분 조회

  . ListRecords: 데이터 저장소로부터 레코드 취합

  . GetRecord: 데이터 저장소로부터 개별 메타데이터 레코드 조회



[그림 4-3] OAI-PMH에 의한 메타데이터 취합 시퀀스1)



[그림 4-4] OAI-PMH를 통해 취합할 수 있는 메타데이터 형식의 예시2)


 3) OAI-ORE: 웹 자원의 집합체(Aggregation)를 위한 기술 표준


   OAI-ORE(Open Archives Initiative Object Reuse and Exchange)는 집합체 형태의 웹 자원을 기술하고 교환하기 위한 표준이다. 웹 자원은 텍스트, 이미지, 데이터, 비디오 등 분산되어 존재하는 멀티미디어 자원이 하나로 묶여진 형태(집합체: aggregation)로 만들어질 수 있다.

   누군가가 이렇게 집합체 형태로 만들어진 웹 자원을 재이용(reuse)하고자 한다면 그것의 내용에 대한 충분한 정보가 있어야 할 것이다. OAI-ORE는 웹 자원의 재이용과 교환을 가능하게 하기 위해 그와 같은 집합체를 표준적인 방법으로 기술하는 틀을 제공한다.

   

   OAI-ORE는 다음과 같은 4개의 핵심 클래스로 구성된다.


 . ore:Aggregation

   URI: http://www.openarchives.org/ore/terms/Aggregation

   집합체. 하나의 자원으로 집성된 개별 자원의 집합


  . ore:AggregatedResource

   URI: http://www.openarchives.org/ore/terms/AggregatedResource

   하나의 집합체에 포함된 개별 자원


  . ore:Proxy

   URI: http://www.openarchives.org/ore/terms/Proxy

   집성된 것과 동일한 내용의 자원이 다른 집성체의 자원으로 존재하는 것을 기술.

   ※ 나의 웹 문서(A-1)가 문화재청의 유물 사진(AR-1)을 포함하는데, 동일한 유물 사진(P-1)을 국립중앙박물관에서 다른 설명으로 제공하는 경우.

        A-1 ore:Aggregates AR-1.

        P-1 ore:ProxyIn A-1.

        P-1 ore:ProxyFor AR-1.


  . ore:ResourceMap

   URI: http://www.openarchives.org/ore/terms/ResourceMap

   집성된 자원 사이의 관계에 대한 기술. OAI-ORE 데이터 모델에 따라 RDF(Resource Description Framework) 문으로 기술한다.

   ※ 예시:

        my:resource-map rdf:type ore:ResourceMap.

        my:aggregation rdf:type ore:Aggregation.

        my:proxy-1 rdf:type ore:Proxy.



3. LIDO(Lightweight Information Describing Objects)


   LIDO는 국제박물관협회(ICOM, International Council of Museums)에서 제정한,3) 문화유산 정보의 기술을 위한 XML 스키마이다. 박물관의 유물 등 문화유산에 관한 정보를 명시적으로 전달하기 위한 목적으로 고안되었다.


 1) LIDO의 기능


   LIDO의 제정 목적은 여러 박물관이 표준적인 형식을 좇아 문화유산 데이터를 생산하게 함으로써 종합적인 포털 서비스와 데이터 교환을 용이하게 하자는 것이다. LIDO는 문화, 기술, 자연과학 등 모든 영역의 문화유산에 대한 설명 정보(descriptive information)를 담을 수 있는 틀을 제공한다.


   오늘날 박물관들은 자체적으로 문화유산 정보를 제공하는 데 머물지 않고, 그것을 다양한 수준의 포털 - 주제별, 지역별, 국가적, 국제적 – 에 제공함으로써 종합적인 지식 정보 네트워크를 이루어낼 필요성에 당면하고 있다. 그런데 개별 박물관들은 대부분 독자적인 유물 관리 시스템을 운영하기 때문에 여기에 담긴 데이터가 그대로 온라인 네트워크 상에서 통용될 수 없다. LIDO의 사용이 권장되는 이유는 이러한 문제점을 극복하려는 것이다.


   LIDO는 어느 면에서 도서관에서 도서 목록 규칙에 따라 생산하는 MARC(Machine Readable Catalogue)와 유사한 면이 있지만, 목록 작성이나 데이터 교환을 위한 모든 정보를 담는 형식이 아니라는 점에서 MARC와는 성격을 달리한다. LIDO는 유물의 획득, 관리, 대여에 관한 정보를 포함하지 않고, 단지 유물 그 자체에 대해 서술하는 내용만을 담을 수 있도록 하였다. (※ 관리적 정보라 하더라도 넓은 의미에서 유물의 속성으로 간주될 수 있는 것은 포함)


 2) LIDO의 구조


   개념적으로 LIDO 레코드는 7개의 영역으로 구성되는데, 그 가운데 4개는 문화유산 그 자체를 서술하는 정보(descriptive information)를 담고, 나머지 3개는 이 레코드에 관한 관리적인 성격(administrative character)의 데이터를 담는다.4) 박물관들은 자관의 유물 데이터를 온라인으로 서비스하거나 포털에 제공할 때 사용할 항목을 그 중에서 선택할 수 있다.


   LIDO의 가장 중요한 부분은 CIDOC CRM5)에서 채용한 ‘event’ 개념이다. 예를 들어, 어떤 대상의 창작, 수집, 사용 등이 모두 ‘event’로 서술되는데, 이 ‘event’ 요소는 그 안에서 다시 언제(date), 어디서(place), 누가(actor) 했는지를 기술할 수 있게 하고 있다.



[그림 4-5] CIDOC CRM의 Event 클래스 구조6)

 3) LIDO Data Model


 A. Descriptive Information: 작품 자체에 관한 정보


 ① 분류에 관한 정보


Descriptive Information

 

작품 자체에 관한 정보

Object Classification - information about the type of the object:

 

작품의 분류

- Object type [mandatory];

작품의 유형

- Other classification terms for the object – e.g. style, form, age, sex, phase, etc.

작품의 분류 정의



 ② 이름(식별자)에 관한 정보


Descriptive Information

 

작품 자체에 관한 정보

Object Identification - basic information about the object:

- Title (or object name if no title) [mandatory];

제목

- Inscriptions – transcript and/or description;

명문

- Repository – the organizations that holds the physical object and its identifier;

소장처

- Display and edition information – especially for prints;

사항

- Description – descriptive text;

설명

- Measurements.

규격





 ③ Event에 관한 정보


Descriptive Information

 

작품 자체에 관한 정보

Event - events that the object has taken part in. Of specific importance are: Acquisition, Creation, Finding, Modification, Use.

 

대상(유물, 작품)의 전 생명 주기(Life Cycle) 상에서 발생한 event들을 기술.

 

유물은 정태적인 사물이 아니라 ‘역사’를 간직한 것이라는 철학에 기반을 둔 사고.

- Event ID;

Event의 ID.

참고할 코드정보가  존재할 경우 코드정보에 대한 출처를 표기하고 명시.

- Event type;

Event의 유형

- Object’s role in the event;

Event에서 대상의 역할

- Event name;

Event의 이름

- Actors (persons and organizations);

행위자의 이름, 국적, 생몰시간 등.

행위자의 ID는 참고할 코드정보가 존재할 경우 코드정보에 대한 출처를 표기하고 명시.

- Cultures involved;

 

- Date;

event가 일어난 시간. earliestDate와 latestDate를 사용하여 기간을 표시

- Period;

event가 일어난 시대.

- Places;

event가 일어난 장소

- Event method;

 

- Materials and techniques used;

사건에 쓰인 기술. event가 creation인 경우 제작 관련기술

- Other objects present at the event;

동일event에 관련된 다른 대상들.

- Related events;

관련 event

- Description of the event.

 



 ④ 내용 주제 및 관련 작품


Descriptive Information

 

작품 자체에 관한 정보

Relation - relations of the object to:

 

유물, 작품과 관련이 있는 사항

- Its subject (content or visual) – concepts, actors, events, dates, places, objects)

작품의 내용에 관련된 사항

- Other objects directly related to the object at hand.

관련 작품




B. Administrative Information: 작품의 관리와 관련이 있는 정보


저작권에 관한 정보


Administrative Information

 

작품의 관리에 관한 정보

Rights Work - information about the rights associated with the object:

 

저작권 관련 사항

- Rights type;

저작권의 유형

- Rights holder;

저작권자

- Rights dates;

저작권 발생일, 기간

- Credit line.

저작권에 대해 특별히 알아야 할 사항



이 기록에 대한 정보


Administrative Information

 

작품의 관리에 관한 정보

Record - basic information about the record:

 

이 기록에 관한 정보

- Record ID [mandatory];

 

- Record Type [mandatory];

기록의 유형

- Record Source [mandatory];

기록의 출처

- Record rights – of the metadata where different from the object;

기록의 저작권. 작품 자체의 저작권과 다를 경우 명기.

- Metadata references for the presented information.

 


 

③ 디지털 자원에 관한 정보


Administrative Information

 

작품의 관리에 관한 정보

Resource - information about digital resource being supplied to the service environment:

 

서비스 환경에서

함께 제공되는 디지털 자원에 대한 정보

- Link – URL of the resource;

 

- Resource ID;

 

- Relationship type – e.g. conservation, historical, reconstruction;

 

- Resource type – its medium (e.g. x-ray);

 

- Resource rights – of the resource where different from the object;

 

- View description;

 

- View type – vantage point of the resource;

 

- View date;

 

- Resource source – if not from the holding organisation;

 

- Related resources;

 

- Resource metadata location – pointer to other information about the resource

 




3. 유로피아나(Europeana)


 1) Europeana.eu


   유로피아나는 유럽 전역의 2,200여 박물관, 도서관, 기록관이 보유하고 있는 문화적 자료(도서, 그림, 영화, 그 밖의 박물관 소장 유물 및 기록물 등)의 디지털 콘텐츠를 서비스하는 가상의 디지털 박물관이다.


   유로피아나 설립의 취지: “디지털화와 온라인 접근은 문화 및 학문적 유산을 복원하고 새로운 콘텐츠의 개발을 촉진하며, 최신 온라인 서비스를 배양하는 중요한 채널이다. 이 두 요소는 정보 접근성을 민주화하고 정보 사회와 지식 기반 경제를 발전시키는 데 기여한다.” (2008. 11. 유로피아나 출범 유럽 각료 회의. 브뤼셀)



[그림 4-6] 유로피아나의 온라인 서비스 홈페이지

 2) 시맨틱 웹으로서의 유로피아나


   유로피아나에서 서비스되는 모든 디지털 자료는 한 곳의 중앙 시스템에 저장되어 있는 것이 아니다. 유럽 각 처에 있는 기관에서 네트워크를 통해 제공된다.


   그 기관(도서관, 박물관, 기록관, 시청각 자료관 등)들은 각각 다른 표준에 따라 그들의 자료를 생산하며, 그 자료에 대한 접근 방법 역시 다양하다. 무엇을 어떻게 디지털화할지는 그 원천 자료의 소장 기관이 결정하며, 유로피아나는 디지털화된 콘텐츠의 메타데이터만을 제공받는다.


   하지만 유로피아나는 이 메타데이터의 형식을 설계함에 있어, 다양한 디지털 데이터가 의미적 연관을 가지고 서비스될 수 있도록 하였으며, 이를 기반으로 유럽 전역의 문화유산 디지털 콘텐츠를 포함하는 거대한 지식망을 구현하는 데 성공하였다.



[그림 4-7] 유로피아나의 콘텐츠 서비스 화면 예시 (www.europeana.eu)



[그림 4-8] 유로피아나에 제공되는 원천 콘텐츠(www.mimo-db.eu)




[그림 4-9] 유로피아나와 데이터 제공 기관 사이의 메타데이터 수·발신 체계 (OAI-PMH 기반)




 3) edm: 유로피아나 데이터 모델


   유로피아나의 데이터 모델 edm은 다양한 문화유산 소장 기관이 유로피아나에 제공하는 데이터를 구조적으로 표현하는 방법이다.  

   edm은 시맨틱 웹(Semantic Web)과 링크드 데이터(Linked Data)의 확산에 기여하고자 하는 취지에서 그것의 핵심 원칙을 준수하고 있으며, 이미 제정된 시맨틱 웹 개념의 여러 가지 표준 - RDF(S), OAI-ORE, SKOS, DC(Dublin Core) 등 - 의 기반 위에서 만들어졌다.


 ① 핵심 클래스와 문맥 정보 클래스


   유로피아나 문화유산 콘텐츠를 담는 데이터 구조는 세 개의 핵심 클래스(Core Class)와 4가지 유형의 문맥 정보 클래스로 구성된다.


  - 3 종의 핵심 클래스(Core Classes):

  . edm:ProvidedCHO – 문화유산 그 자체에 대한 정보

  . edm:WebResource – 문화유산에 관한 디지털 웹 자원의 정보

  . ore:Aggregation – 문화유산 정보와 디지털 웹 자원의 집합체

       ※ 데이터 제공자가 Europeana에 보내는 데이터 제공 정보


  - 4 종의 문맥 정보 클래스(Contextual Classes):

  . edm:Agent – 개인, 기관, 단체 등 행위의 주체 LIDO의 Actor에 상응하는 요소

  . edm:Place – 장소

  . edm:TimeSpan – 시간, 사건

  , skos:Concept – 개념, 용어



 ② 클래스의 관계(Class Relationship)


  - 핵심 클래스의 상호 관계


   유로피아나는 OAI-ORE 데이터 모델에 따라 정보제공자(유럽 각국의 박물관)가 유로피아나 포털에 제공하는 데이터의 형식을 정의하였다. 즉 정보제공자는 문화유산 자체에 대한 정보(edm:ProvidedCHO 클래스)와 이에 관한 다양한 웹 자원 정보(edm:WebResource 클래스, 웹 자원의 수만큼 복수로 존재한다)를 하나의 집합체(ore:Aggregation 클래스)로 묶어서 전송한다. 비유하자면, ore:Aggregation은 제공자가 수령자에게 보내는 물품(메타데이터) 꾸러미의 명세서이며, edm:ProvidedCHO는 그 물품 중 문화유산 자체인 것에 대한 명세서, edm:WebResource는 웹 자원인 것에 대한 명세서이다.

[그림 4-10] 3종의 핵심 클래스의 관계7)



   유로피아나가 단순히 아카이브 소장 물품의 정보 서비스에 머물지 않고, 그것들 사이의 지식망을 형성할 수 있게 하는 것은, 문화유산 콘텐츠 속에서 문맥 정보를 식별해 내고, 그것을 매개로 유관 지식의 연계를 이루어낼 수 있게 하기 때문이다.

[그림 4-11] 2개의 문맥 정보 자원(Agent, Concept)을 포함하는 문화유산 오브젝트 예시8)



 ③ Xml Encoding


   edm 데이터 모델은 데이터 제공자(유럽 각국의 기관)가 포털(유로피아나)에 보내는 메타데이터를 담는 XML 문서 스키마(= 유로피아나 이용 고객에게 보이는 데이터 스키마), 그 메타데이터를 수록한 유로피아나의 데이터 저장소의 논리적 구조에 적용된다. 다음은 edm 데이터 모델에 의한 XML 문서 스키마의 예시이다.


[그림 4-12] 핵심 클래스와 문맥 정보 클래스의 데이터를 모두 담은 RDF/XML 문서



  - Namespace: edm에서 사용하는 이름 공간


   <rdf:RDF xmlns:dc="http://purl.org/dc/elements/1.1/"

        xmlns:edm="http://www.europeana.eu/schemas/edm/"

        xmlns:wgs84_pos="http://www.w3.org/2003/01/geo/wgs84_pos#"

        xmlns:foaf="http://xmlns.com/foaf/0.1/"

        xmlns:rdaGr2="http://rdvocab.info/ElementsGr2/"

        xmlns:oai="http://www.openarchives.org/OAI/2.0/"

        xmlns:owl="http://www.w3.org/2002/07/owl#"

        xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

        xmlns:ore="http://www.openarchives.org/ore/terms/"

        xmlns:skos="http://www.w3.org/2004/02/skos/core#"

        xmlns:dcterms="http://purl.org/dc/terms/">



  - ore:Aggregation


 

<ore:Aggregation rdf:about="http://www.mimo@db.eu/UEDIN/214">

 <edm:aggregatedCHO rdf:resource="#UEDIN:214"/>

 <edm:dataProvider>University of Edinburgh</edm:dataProvider>

 <edm:hasView rdf:resource="http://www.mimo@db.eu/media/UEDIN/VIDEO/0032195v.mpg"/>

 <edm:hasView rdf:resource="http://www.mimo@db.eu/media/UEDIN/AUDIO/0032195s.mp3"/>

 <edm:isShownAt rdf:resource=" http://www.mimo-db.eu/MIMO/infodoc/ged/view.aspx?eid=OAI_IMAGE_PROJECTS_LIB_ED_AC_UK_10683_17533 "/>

 <edm:isShownBy rdf:resource="http://www.mimo@db.eu/media/UEDIN/IMAGE/0032195c.jpg"/>

 <edm:object rdf:resource="http://www.mimo@db.eu/media/UEDIN/IMAGE/0032195c.jpg"/>

 <edm:provider>MIMO @ Musical Instrument Museums Online</edm:provider>

 <edm:rights rdf:resource="http://creativecommons.org/licenses/by@nc@sa/3.0/"/>

</ore:Aggregation>

 




  - edm:ProvidedCHO


<edm:ProvidedCHO rdf:about="#UEDIN:214">

 <dc:date>Circa 1840</dc:date>

 <dc:description>

   Technical description: Brass; ligature fitting on bell section at joint; stockings on main slides. Bell with one coil, angled to face forwards. Repair History: Main slide possibly not original (tenon of slide section of joint is tapered, bell section joint for cylindrical tenon).

 </dc:description>

 <dc:identifier>#UEDIN:214</dc:identifier>

 <dc:title>Buccin trombone. Nominal pitch: B?.</dc:title>

 <dc:type rdf:resource="http://www.mimo@db.eu/InstrumentsKeywords/4378"/>

 <dc:type rdf:resource="http://www.mimo@db.eu/HornbostelAndSachs/356"/>

 <edm:type>IMAGE</edm:type>

</edm:ProvidedCHO>



  - edm:WebResource

<edm:WebResource rdf:about="http://www.mimo@db.eu/media/UEDIN/VIDEO/0032195v.mpg">

 <edm:rights rdf:resource="http://creativecommons.org/licenses/by@nc@sa/3.0/"/>

</edm:WebResource>

 

<edm:WebResource rdf:about="http://www.mimo@db.eu/media/UEDIN/AUDIO/0032195s.mp3">

 <edm:rights rdf:resource="http://creativecommons.org/licenses/by@nc@sa/3.0/"/>

</edm:WebResource>

 

<edm:WebResource rdf:about="http://www.mimo@db.eu/media/UEDIN/IMAGE/0032195c.jpg">

 <edm:rights rdf:resource="http://creativecommons.org/licenses/by@nc@sa/3.0/"/>

</edm:WebResource>


  - edm:Place


<edm:Place rdf:about="http://sws.geonames.org/3017382/">

 <skos:preflabel xml:lang="en">France</skos:prefLabel>

</edm:Place>



  - skos:Concept

<skos:Concept rdf:about="http://www.mimo@db.eu/InstrumentsKeywords/4378">

 <skos:prefLabel xml:lang="en">Buccin</skos:prefLabel>

</skos:Concept>

 

<skos:Concept rdf:about="http://www.mimo@db.eu/HornbostelAndSachs/356">

 <skos:prefLabel xml:lang="en">423.22 Labrosones with slides</skos:prefLabel>

</skos:Concept>



1) Main Technical Ideas of OAI-PMH, Open Archives Forum,

  http://www.oaforum.org/tutorial/english/page3.htm

2) Main Technical Ideas of OAI-PMH, 같은 곳.

3) 2010년 국제박물관협회의 국제문서화위원회(ICOM-CIDOC, International Committee for Documentation) 컨퍼런스에서 LIDO v1.0이 공표되었다.

4) 여기에서 말하는 ‘관리적(administrative)’은 LIDO 데이터의 관리를 말하며, ‘유물의 관리’를 뜻하는 것이 아니다.

5) CIDOC CRM: Conceptual Reference Model (CRM). 국제박물관협회의 국제문서화위원회 (nternational Committee for Documentation of the International Council of Museums)에서 제안한, 문화적인 개념의 데이터화를 위한 온톨로지. 86개의 클래스(Class)와 137개의 속성(Property)으로 이루어져 있다. 2006년 ISO에 의해 국제표준으로 채택되었다.(ISO 21127:2006)

6) CIDOC CRM Class Hierarchy, International Council of Museums, http://www.cidoc-crm.org/cidoc_graphical_representation/crm_class_hierarchy.htm

7) Europeana.eu, 2013. 7. Europeana Data Model – Mapping Guidelines v2.0

8) 같은 글.