Workflow and Metadata involved in digital objects representations

Il Flusso di lavoro e i Metadati implicati nella rappresentazione degli oggetti digitali

The Library uses a workflow management software – the Dwork developed by the University of Heidelberg -  for all of the steps ranging from the acquisition of images to the storage of the digital object.

 

At ingest, Dwork can orchestrate processes to verify and validate formats, create derivative files (e.g. JPEG), and create structural and administrative metadata collected in METS files.

 

La biblioteca impiega il Dwork - software di gestione del flusso di lavoro, sviluppato dall’Università di Heidelberg - per tutti le fasi di lavoro cha vanno dall’acquisizione delle immagini all’archiviazione dell’oggetto digitale.

 

Alla presa in carico dei dati, il Dwork è in grado di organizzare i processi di verifica e validazione dei formati, la creazione di file derivati (es. JPEG) così come la compilazione dei metadati strutturali e amministrativi nei file METS.

 

 

The first step includes the automatic interpretation of the sequence of physical and logical sequences derived from the structure of the file name of each TIFF file composing the digitized item.

 

The file name includes several elements: two coded elements with formatted values, the sorting code and the code that specifies the eventual irregularity of the sequence. Dwork parses the file name of the batch of file processed and suggests the structure of the sequence: in Arabic or Roman numerals.

 

La prima fase comprende l’interpretazione automatica della sequenza fisica così come delle sequenza logica delle immagini la cui informazione è derivata dalla struttura della denominazione di ciascun file TIFF che compone l’oggetto digitale.

 

La denominazione del file comprende diversi elementi: due elementi codificati con valori formattati, il codice ordinatore e il codice che specifica le eventuali irregolarità della sequenza. Il Dwork processa la denominazione dei file da trattare e interpreta le sequenze numerate: in numerazione araba o romana.

 

 

 

 

After that, the system runs the conversion process which generates the JPEG files for Web publications and the METS file containing information related to sequences, descriptive and structural metadata.

 

The portion of descriptive and structural metadata is included in the METS container as MODS elements.

 

Structural metadata refers to the information needed to record the internal structure and contents of an item so that it can be rendered to the user in an appropriate form. This type of metadata is needed as an item may often be comprised of multiple images of individual pages that make up a digitized book.

 

Al termine di questa fase il sistema avvia il processo di conversione che genera i file JPEG per la pubblicazione Web e il file METS che contiene le informazioni relative alla sequenza delle immagini e ai metadati descrittivi e strutturali. La parte relativa a questi ultimi, è espressa nel METS mediante gli elementi MODS.

 

I metadati strutturali si riferiscono ai dati informativi che servono a descrivere la struttura e il contenuto dell’esemplare al fine di presentare l’oggetto digitale all’utente in una forma adeguata.

 

Questo tipo di metadato è indispensabile quando un esemplare consta di immagini multiple riferite a singole pagine di cui si compone un libro digitalizzato.

 

 

 

In the last step, the permanent URI of the digital object is added to the lists of shelfmarks related to digitized manuscripts and incunabula, available on the Library’s Web site, and the links to bibliographic records related to the description of the digitized items are added.

 

With regards to the connections to the catalogs, they are made through the use of a metadata structure. Links are provided by the Dublin Core structure for incunabula and using a sub-set of the MODS structure (whose elements are automatically derived from the data of the METS file) for manuscripts. The link is made using the URI of the digital of object.

 

 

To summarize, the workflow management, from the acquisition of images to the archiving of the digital object, includes the following steps and specific applications:

 

1. Filename of TIFF / RAW file: An application able to assign a highly structured filename has been implemented;

2. The file name is automatically interpreted by the above mentioned DWORK so that the logical and physical sequences for each file group are added in the METS file related to each unit/volume;

3. Structural metadata that contain a table of contents of a book with links to key structural elements (such as title pages, table of contents, chapters, parts, sections and subsections - depending on the item) are added and automatically converted in the METS file;

4. Essential descriptive metadata are given in the MODS section of the METS file. Mappings between MODS and TEI-Ms (for manuscripts) / MARC21 (for incunables) has been established;

5. METS files related to manuscripts are exported from the DWORK to be processed by a specific application where the URI of the Web presentation in a specific element is mapped as an ad hoc element in TEI-P5 structure related to the bibliographic record in the OPAC;

6. METS related to incunabula are exported from DWORK and a link to each MARC21 bibliographic record is added. The information about the description of the digital object is performed in a DC record in the OPAC;

7. Scholars can query the Web OPACs and get information about digitized manuscripts and incunabula or browse the list of shelfmarks for each digital collection available in the Web site.

 

Per riassumere, la gestione del flusso di lavoro, dall’acquisizione delle immagini all’archiviazione dell’oggetto digitale, include i seguenti passaggi e specifiche applicazioni:

 

1. Denominazione del file TIFF/RAW – E’ stata implementata un’applicazione in grado di assegnare ai file una denominazione altamente strutturata;

2. La denominazione del file è automaticamente interpretata dal sopramenzionato Dwork così che le sequenze, logica e fisica, di ciascuna collezione di file siano costituite nel file METS per ciascuna unità/volume;

3. I metadati strutturali che specificano l’indice dei contenuti del libro con i collegamenti agli elementi chiave della struttura (così come i frontespizi, i capitoli, le parti, le sezioni e sottosezioni – secondo le specificità dell’esemplare) sono aggiunti e automaticamente convertiti all’interno del file METS;

4. Nella sezione MODS del file METS sono gestiti i metadati descrittivi essenziali. Sono state stabilite le mappature tra MODS e gli elementi TEI-P5 (per i manoscritti) e MARC21 (per gli incunaboli);

5. l file METS relativi ai manoscritti sono esportati dal Dwork per essere elaborati da una specifica applicazione nell’ambito della quale l’URI della presentazione Web è mappato in un peculiare attributo ad hoc (nella struttura TEI-P5) della scheda descrittiva del manoscritto presente nell’OPAC;

6. I file METS relativi agli incunaboli sono esportati da Dwork e collegati a ciascun record bibliografico in MARC21. L’informazione relativa alla descrizione dell’oggetto digitale è resa in Dublic Core nell’OPAC;

7. Gli studiosi possono interrogare gli OPAC nel Web e trarre informazioni sui manoscritti e sugli incunaboli digitalizzati oppure scorrere la lista delle segnature per ciascuna collezione digitale disponibile nel sito Web.