1Začetki portala SIstory segajo v leto 2006, ko smo na INZ začeli z njegovo tehnično postavitvijo in kmalu nato tudi z vsebinskimi popolnitvami, rezultat – SIstory 1.0 pa smo javnosti predstavili leta 2008.40
2Prva verzija je bila precej preprosta različica portala, kot ga poznamo danes. Konfiguracija strežnika je obsegala:
1Leta 2011 je potekala prva nadgradnja portala, ki je obsegala šest sklopov.42 Prvi sklop je zajemal administracijo gradiva v sistemu SOLR,43 ki je omogočala:
2V prvem sklopu smo nadgradili tudi strukture map in imena datotek. Gradivo smo fizično kopirali v tri mape, ki si sledijo piramidno in samodejno kreirajo ime:
3Določili smo normativ, po katerem je treba v fazi dodajanja gradiv pri imenu datoteke upoštevati naslednja kriterija:
4Primera:
5Pri opisovanju gradiva, objavljenega na portalu, smo začeli uporabljati metapodatkovni standard DC, tako lahko drugi sklop opišemo kot standardizacijo metapodatkov po specifikacijah DC. Shema je vsebovala vseh petnajst osnovnih elementov DCMES-a (Dublin Core Metadata Element Set), vsi so bili vključeni pri vseh oblikah gradiva ne glede na vrsto formata (avdio, video, fotografije in tekstovno gradivo). Shema je vsebovala naslednje elemente:
6Iz dokumentacije o nadgradnji je razvidno, da smo se zgledovali po metapodatkovni shemi Digitalne knjižnice Slovenije – dLib.si (dLib.si – Pregled vodnih ptic in ujed Cerkniškega jezera; spremljanje številčnosti s poudarkom na preletu in prezimovanju, 2009):
Pregled vodnih ptic in ujed Cerkniškega jezera; spremljanje številčnosti s poudarkom na preletu in prezimovanju | |
Avtor(ji): | Kmecl, Primož (avtor) Rižner, Karin (avtor) |
Jezik: | slovenski |
Vrsta gradiva: | tekstovno gradivo, tiskano |
Vir: | Acrocephalus |
Leto: | 1993, letnik 14, številka 56/57 |
Vsebina: | Cerkniško jezero ornitologija ptice ujede vodne ptice |
Založnik: | Društvo za opazovanje in proučevanje ptic Slovenije |
Izvor: | Društvo za opazovanje in proučevanje ptic Slovenije |
URN: | URN:NBN:SI:DOC-02C5RWZA |
7Naknadno smo v metapodatkovno bazo dodali še polje za zbirko, katere del je lahko (tudi) publikacija.
8Tretji sklop nadgradnje je zajemal izdelavo unikatnega in stalnega URN-naslova – Uniform Resource Name. Ta naslov vsebuje unikatno (zaporedno) številko gradiva, ki je njen obvezen parameter. Ostali parametri v URN-naslovu so poljubni in se jih lahko dopolni v času izdelave oziroma testiranja. Po končanem testiranju URL-naslova ne smemo spreminjati.
9Kot primer URN-ja je bil v nadgradnji dokumentaciji zabeležena Digitalna knjižnica Slovenije – dLib.si:
11urn:isbn:0451450523
The URN for "The Last Unicorn", identified by its book number.
12Četrti sklop nadgradnje je zajemal uvedbo Sphinx iskalnika po metapodatkih.45 Implementirali smo dva iskalnika:
13Peti sklop je zajemal administracijo portala. Oblikovali in vzpostavili smo pregleden sistem, poimenovan SIstory administracija ali na kratko admin/ADMIN, vmesnik za urejanje kompletne vsebine, vseh modulov in vseh publikacij ter omejili dostop urednikom po modulih. Sistem ob prijavi omogoča različne storitve, ki so povezane z vzdrževanjem portala. Njegov največji del predstavlja orodje za vnos metapodatkov. Ob vnosu nove publikacije za objavo na portalu, popravljanju ali posodabljanju že obstoječih zapisov je v sistem vgrajeno orodje za vpis metapodatkov.
14Pri nadgradnji 2011 smo oblikovali strukturo in nivoje dostopa za uporabnike. Določili smo naslednje tipe uporabnikov in njihove naloge oziroma dovoljenja:
15Posodobljen uporabniški vmesnik je omogočil enostavno in pregledno sprehajanje po rubrikah portala, ker je vedno prikazoval »pot« (breadcrumbs), na kateri se uporabnik nahaja. Uveden je bil tudi preglednejši spustni meni, ki omogoča enostavnejše brskanje po portalu. Izboljšali smo iskanje oziroma omogočili hitro iskanje po PDF-dokumentih, filtriranje in rangiranje rezultatov. Uvedli smo sistem parent/child (publikacija/del publikacije – članek), ki je uporabniku portala omogočil takojšen prehod na iskani rezultat.
16Zadnji sklop nadgradnje, zaradi katerega je postalo delovanje spletne strani (predvsem ob večjem številu obiskovalcev) opazno hitrejše, je zajemalkonfiguracijo portala in strežnika. V procesu konfiguracije smo:
17Poleg oblikovne in strokovne dovršenosti novega portala sta bili prednosti tudi nova administracija oziroma pregleden vmesnik za urejanje kompletne vsebine, kar nam je zagotovilo manjšo odvisnost od zunanjih sodelavcev oziroma omogočilo interno upravljanje s sistemom.
18Nadgrajeni portal je bil narejen modularno, zato je dodajanje funkcionalnih rešitev časovno neomejeno, omogoča pa enostavno in pregledno uporabo po posameznih vsebinskih sklopih in podsklopih, hitrejše, stabilnejše in popolnejše delovanje sistema, nedvomno pa tudi kvalitetnejšo uporabniško in administracijsko izkušnjo.47
***
19V sklopu SIstory 2.0 smo se v letu 2012 posvetili posodobitvi in prenovi metapodatkovnega standarda SIstory, ki je ob prvi posodobitvi leta 2011 zajemal petnajst osnovnih elementov standarda DC, ki smo jim kmalu po prenovi priključili še naslednje metapodatke:
20Polja »menu«, »signatura«, »zbirka«, »tip«, »vir – URN naslov« in »jezik« so elementi, ki so dodani DC SIstory elementom. Zadnji trije našteti SIstory elementi so dobili svojo (novo) različico tudi v DC-elementih: dc:type, dc:source in dc:language.49
21S hitrim naraščanjem metapodatkovnih zapisov v MySQL bazi portala SIstory se je kmalu pojavila potreba po dodatni razširitvi obstoječega metapodatkovnega standarda. Tako smo v letu 2012 obstoječe osnovne DC-elemente še enkrat nadgradili z elementi kvalificirane DC-iniciative in pridobili možnost vpisov za 55 elementov. Tem se je dodalo še nekatere XML in DC-atribute, ki zajemajo sheme za kodiranje vokabularjev in sintakse. Ker bi upoštevanje prav vseh metapodatkovnih standardov DC-sheme na tej stopnji razvoja portala SIstory zahtevalo preveč kompleksno zgradbo MySQL baze, se je bilo treba natančno odločiti, kateri elementi bodo imeli katere atribute. Obstoječe pomanjkljivosti DC-sheme, ki ne omogoča jasnega razločevanja med metapodatki analognega in digitaliziranega objekta, smo po vzoru projekta HOPE rešili tako, da smo dodali metapodatkovne elemente za knjižničarsko, arhivsko, slikovno in avdiovizualno analogno gradivo. Obenem je nadgrajeni portal omogočal tudi prikaz digitalnega objekta v več formatih (poleg nekdanjega PDF in JPEG še ePub, MOBI, XML, TEI XML, naložiti pa je mogoče tudi PNG in TIFF, vendar se za potrebe galerije avtomatično pretvorijo v JPEG), zato je bilo temu treba prilagoditi tudi metapodatkovni standard. Dodali smo tudi posebna polja za opis posamezne datoteke.
22Nadgradnja iz leta 2012 je omogočila izvoz metapodatkov iz MySQL baze kot XML-datoteko. Zaradi nadgradnje metapodatkovnega standarda portala SIstory je bilo treba ustrezno prilagoditi tudi pravila za kodiranje XML-dokumenta. Ta pravila je sodelavec infrastrukturnega programa dr. Andrej Pančur uskladil s programerji, ki so bili kot zunanji izvajalci pristojni za programsko nadgradnjo. Pančur je na podlagi dogovorjenih pravil napisal osnovno XML-shemo, ki opisuje strukturo XML-dokumenta in omogoča njegovo validacijo.50
***
23Del nadgradnje portala v letu 2013 je zajemal oblikovanje aplikacijskega sistema SIstory. Razlog za to odločitev je bilo dejstvo, da samo elementi DCTERMS niso več zadostovali za to, da bi lahko zadostno opisali informacijske vire različnih vrst. Pri tem smo se zavedali, da ima večina teh vrst virov »lastne« metapodatkovne sheme, ki se ukvarjajo izključno s tem, kako tako vrsto virov čim bolje opisati (primer: za opisovanje arhivskih virov obstaja metapodatkovni standard EAD). V ta namen smo iskali elemente, ki bi tak opis omogočali – in jih našli v aplikacijskem profilu HOPE.51 Metapodatkovni standard SIstory je bil še dodatno nadgrajen z naslednjimi elementi:
24Na portal se je po novem lahko uvažalo nove formate datotek XML,53 ePUB, MOBI, PDF, URL-naslov in Zip. Prav tako se je uvedlo uvažanje slik v formatih JPEG, GIF, PNG in TIFF za arhiv. Vse slike so lahko vsebovale lastne metapodatke in so bile prikazane na uporabniškem vmesniku.
25V letu 2013 smo uvedli tudi avtomatsko pretvorbo PDF-jev v TEI prve stopnje po pravilih za knjižnice (avtomatizirana prva stopnja pravil): uvoz besedil s funkcijo OCR54 iz MySQL-a55 ter avtomatična označba preloma strani s številko strani in povezavo na vir. Uvoz obstoječih DC-metapodatkov v TEI Header je zahtevalo sodelovanje z Institutom »Jožef Stefan«.
26Leta 2013 je bila omogočena tudi funkcionalnost preverjanja kvalitete PDF-dokumentov, ki so bili ustvarjeni z OCR-tehnologijo:
27V admin smo implementirali možnost za prikaz naslednjih uporabnih sistemskih podatkov:
28Uporabniku smo pri vmesniku na novo ponudili iskanje po dodanih DC-metapodatkovnih poljih pri publikacijah, omogočili pa smo mu tudi iskanje po šumnikih in nemških znakih. Dodali smo možnost uporabe posebnih znakov (primer: če se išče po točno vpisani besedi ali frazi, se to postavi v narekovaje). Pod ikono »Pomoč« smo uporabnikom ponudili navodila za iskanje po SIstory.
***
29Leta 2015 smo izpeljali projekt »Vzpostavitev handle unikatnega identifikatorja za portal SIstory«. Projekt je vključeval:
1V letu 2016 je potekala še ena večja nadgradnja portala, ki je zajemala oblikovanje prehoda med AP SIstory in DC. Proces prehoda je na podlagi lastnih izkušenj v svojem diplomskem seminarju opisala Katja Meden.58 V opisu procesa prehoda med AP SIstory in DCTERMS bosta v ospredju dve pomembnejši fazi – harmonizacija (oblikovanje skupne sintakse izvorne in ciljne sheme) in semantična preslikava.
2Iz opisov aplikacijskega profila SIstory in metapodatkovne sheme DCTERMS smo izpostavili skupne lastnosti, ki smo jih v fazi harmonizacije preoblikovali v skupno sintakso. Pri oblikovanju prehoda med shemama AP SIstory in DCTERMS so bile upoštevane tri ključne lastnosti:
3Semantična preslikava (relativni prehod) je potekala s pomočjo tabele Excel. Vsak izmed elementov aplikacijskega profila SIstory je dobil preslikavo v element DCTERMS. Prehod je bil dodatno opremljen z URI-povezavami vsakega izmed preslikanih elementov, opredeljenim načinom zapisa in dodatnimi zahtevami pri vpisu metapodatka. Preslikava je potekala:
4Preslikava elementov je bila izvedena kot relativni prehod, v katerem je semantična ekvivalenca stranskega pomena. Večjih problemov pri iskanju ustreznih elementov za preslikavo ni bilo, saj je večina elementov ponovljivih v obeh shemah, prav tako pa ciljna shema ne predvideva obveznih elementov, ki bi lahko potencialno otežili preslikavo elementov.
5Danes torej admin temelji na aplikacijskem profilu SIstory – vsebuje vse elemente in kvalifikatorje v 33 sklopih elementov. Čeprav je bilo pri snovanju elementov upoštevano, da mora biti orodje za vnos metapodatkov čim bolj prijazno urednikom, so bile kljub temu potrebne in nato izvedene določene prilagoditve. Aplikacijski profil in njegova implementacija sta se odrazila v strukturi, sintaksi in semantiki orodja za vnos metapodatkov. Kot glavna značilnost aplikacijskega profila je bilo pripoznano dejstvo, da ta vsebuje elemente iz drugih shem. Zaradi jasnosti pomenov elementov in sledenja pravilu enostavnosti za vnašalca metapodatkov je bil prehod med AP SIstory in DCTERMS v sistemu admin izpuščen. Vključitev prehoda v sistem orodja za vnos metapodatkov bi namreč povzročil prevelike probleme pri vnašanju metapodatkov. Ker so se pri preslikavi elementov iz AP SIstory v DCTERMS elementi HOPE preslikali na način »mnogo-v-ena«, je bilo v preslikavo vključeno večje število elementov z enakim imenom (npr. trinajst elementov se je preslikalo v element dcterms:type). Če bi se elementi v sistemu preslikali na način »mnogo-v-ena«, bi prišlo do problema pri prepoznavanju konteksta elementa, zato smo se odločili znotraj sistema zanemariti implementacijo prehoda.
6Pri nadgradnji smo se posvetili tudi uporabniškemu vmesniku, sestavljenemu iz treh večjih delov. Prvi razdelek vsebuje sliko in osnovne metapodatke o informacijskem objektu:
7Naslednji razdelek vsebuje datoteke za prenos. Te imajo lastne metapodatke, kot so naslov, ime, velikost datoteke, oblika in stalna povezava do datoteke.
8Zadnji in najpomembnejši del za prikaz implementacije metapodatkov in prehod je razdelek »Vsi metapodatki«. Prikazuje, kako je implementiran nov nabor elementov, ki vključuje prehod med profilom aplikacije in shemo DCTERMS. Vsak element v tem razdelku ima povezavo do spletnega mesta DCMI z opisom elementa Dublin Core.
9Poleg oblikovanja prehoda med AP Sistory in Dublin Core smo v nadgradnji poskrbeli še za nekaj tehničnih izpopolnitev. V adminu so bile implementirane možnosti za nalaganje, dodajanje dodatnih formatov datotek in izvoz vsebine iz datotek (API), uvedena pa je bila tudi možnost, da se datoteko zaklene ali odklene. Če je zaklenjena, se datoteka ne indeksira in ni vidna uporabniku v vmesniku. Tudi pri tej nadgradnji nismo obšli metapodatkovne sheme:
10Pri handle sistemu za datoteke smo poskrbeli, da dodeljevanje identifikatorjev poteka preko handle sistema in da je URL-datotek drugačen od ostalih entitet na portalu. Uredili smo menijska razmerja do drugih identifikatorjev, dodali smo namreč dodatno polje za metapodatkovni element (hasPart/isPartof) z navedenim handle ID-jem. Kot zadnjo novost te nadgradnje naj omenimo implementirano možnost dodajanja datotek k metapodatkom menija.59
40. Dokumentacija IP INZ: Vabilo na predstavitev portala Zgodovina Slovenije – SIstory, 2008.
41. Dokumentacija IP INZ: Bogomir Rožman in Gregor Marolt. Analiza podatkov in postavitev standardov in infrastrukture za nadgradnjo portala Sistory.si. Interno gradivo.
42. Rožman in Marolt, Analiza podatkov in postavitev standardov in infrastrukture za nadgradnjo portala Sistory.si, 2011.
43. APACHE SOLR je odprtokodna iskalna platforma, ki se uporablja za izdelavo iskalnih aplikacij, napisana v javi. Glavne funkcije vključujejo iskanje po celotnem besedilu, označevanje zadetkov, fasetno iskanje, indeksiranje v realnem času, dinamično združevanje v gruče, integracijo baze podatkov, funkcije NoSQL in bogato obdelavo dokumentov (npr. Word, PDF). – Apache Solr (b. d.), https://en.wikipedia.org/wiki/Apache_Solr.
44. Rožman in Marolt, Analiza podatkov.
45. Sphinx je odprtokodni iskalniški strežnik za iskanje in indeksacijo podatkov. Omogoča neverjetno hitro iskanje in izpise rezultatov. Gl. Sphinx documentation, https://www.sphinx-doc.org/en/master/.
46. Rožman in Marolt, Analiza podatkov.
47. Dokumentacija IP INZ: Mojca Šorn, Poročilo o delu na programu Raziskovalna infrastruktura slovenskega zgodovinopisja za leto 2011.
48. Andrej Pančur, Metapodatki portala Zgodovina Slovenije – SIstory – Navodila za uporabo orodja za vnos metapodatkov, 2013, http://www.sistory.si/cdn/publikacije/36001-37000/36151/index.html.
49. Dokumentacija IP INZ: Gregor Marolt, Primopredajna dokumentacija – popis stanja, 2013.
50. Dokumentacija IP INZ: Andrej Pančur, Poročilo za leto 2012.
51. Meden, Implementacija metapodatkov.
52. Dokumentacija IP INZ: Marolt, Primopredajna dokumentacija.
53. Extensible Markup Language je preprost besedilni format za predstavitev strukturiranih informacij: dokumentov, podatkov, konfiguracije, knjig, transakcij, računov in še veliko več. – XML Essentials (b. d.), https://www.w3.org/standards/xml/core#:~:text=What%20is%20XML%3F,more%20suitable%20for%20Web%20use.
54. Optično prepoznavanje znakov ali optični bralnik znakov je elektronska ali mehanska pretvorba tipkanega, ročno napisanega ali natisnjenega besedila v strojno kodirano besedilo bodisi iz skeniranega dokumenta, s fotografije dokumenta, fotografije prizora (npr. besedila na znakih in reklamnih panojih v ležeči fotografiji) ali iz besedila podnapisov, prekritega s sliko (na primer: iz televizijskega prenosa). – Optical character recognition (b. d.), https://en.wikipedia.org/wiki/Optical_character_recognition.
55. Relacijska baza My Structured Query Language.
56. Več na Handle.Net Registry, http://www.handle.net/proxy.html.
57. Dokumentacija IP INZ: Gregor Marolt, G. Ponudba za nadgradnjo metapodatkovenga sistema Sistory.si, 2016.
58. Meden, Implementacija metapodatkov.
59. Dokumentacija IP INZ: Marolt, Ponudba za nadgradnjo.