Pierwsza strona
Warto wiedzieć

Anna Blażewicz

TECHNOLOGICZNE ASPEKTY DOSTĘPU DO INFORMACJI W ŚRODOWISKU ELEKTRONICZNYM


ROZDZIAŁ SZÓSTY

ARCHIWIZACJA DANYCH

6.1 SKALA PROBLEMU

Obecnie na całym świecie powstaje wiele projektów dotyczących bibliotek cyfrowych, jednak niewielu ludzi je tworzących, zdaje sobie sprawę ze skali problemu, jakim jest archiwizacja. Bardzo często dane są zachowywane machinalnie. Podczas gdy ilość informacji przechowywanych znacznie wzrasta, zmniejsza się dostępność sprzętu, na którym mogłyby one być składowane. Archiwizacja może być rozumiana dwuznacznie. Jedno podejście polega na tworzeniu zapasowych kopii, o gorszej w stosunku do oryginału jakości i udostępnianie ich zamiast oryginałów w celu ich ochrony. Natomiast drugie polega na udostępnianiu kulturalnych, historycznych oraz naukowych zasobów, w celu umożliwienia poszerzania wiedzy społeczeństwa. To znaczenie jest częściej używane i ma większy wpływ na rozwój ludzkości, dlatego będzie ono szerzej omówione. Z archiwizacją związany jest szereg problemów [33]. Pierwszym z nich jest odświeżanie, czyli transmisja cyfrowych danych na nowe media przechowywania informacji, np. kopiowanie materiałów z dyskietek 5 1 calowych na CD-ROM lub z CD-ROM na DVD. Kolejny jest związany z migracją danych. Ma on na celu umożliwienie dostępu do danych tworzonych na starszym oprogramowaniu, czyli jest to migracja danych do nowszego formatu. Oba powyższe czynniki mają na celu umożliwienie przeglądania danych powstałych np. na komputerze IBM286, które są przechowywane na 5 1 calowej dyskietce. Ostatni czynnik, który trzeba wziąć pod uwagę przy archiwizacji danych związany jest z postępem technologicznym. W dziedzinie komputerów zmiany następują niemalże codziennie i ten sprzęt, który nie tak dawno był używany, teraz jest już zupełnie nieprzydatny.
Archiwizacja zasobów dotyczy zarówno bibliotek standardowych, muzeów, uczelni jak i również, szczególnie w dzisiejszych czasach bibliotek cyfrowych. Cyfrowe technologie są coraz bardziej rozpowszechniane do produkcji, dystrybucji i przechowywania informacji XX wieku. Jednak dane cyfrowe są szczególnie narażone na stratę lub zniszczenie, ponieważ są przechowywane na delikatnych magnetycznych lub optycznych mediach pogarszających się w miarę ich używania. Ponadto są wrażliwe na ciepło, wilgotność, zanieczyszczenia powietrza oraz wadliwe urządzenia odczytu i zapisu. Wszystkie wymienione czynniki mają wpływ na kondycję przechowywanych danych.


6.2 BADANIA DOTYCZĄCE ARCHIWIZACJI

RLG (Research Libraries Group) to międzynarodowe konsorcjum uniwersytetów, bibliotek i muzeów. Głównym celem tej organizacji jest poprawianie dostępu do informacji naukowych i badawczych poprzez współpracę i wymianę doświadczeń pomiędzy poszczególnymi jej uczestnikami. Jednym z problemów jaki próbuje rozwiązać dotyczy archiwizacji materiałów cyfrowych [33]. Instytucje, które archiwizują materiały napotykają na szereg trudności z tym związanych między innymi są to problemy techniczne, organizacyjne oraz związane z legalnością przechowywanych materiałów. Połowa z instytucji należących do stowarzyszenia RLG odświeżała swe zasoby cyfrowe, kopiując je na nowe media przechowywania informacji oraz zachowywała je w nowych formatach. Większość instytucji traktowała odświeżanie i migrację danych jako proces dodatkowy do instalacji nowej wersji oprogramowania, a nie zgodnie z zaplanowanym programem archiwizacji danych. Natomiast ponad 3 z nich uważało, iż dane cyfrowe zostaną stracone, jeśli działania podjęte w kierunku ich zachowania nie będą bardziej stanowcze.
Badania dotyczące archiwizacji przeprowadzone zostały wśród 55 instytucji, metodą przeprowadzania ankiet i sporządzania statystyk [14]. Miały one na celu określenie strategii digitalizacji materiałów, zbadania formatów przechowywanych informacji oraz stanu wiedzy obsługi bibliotecznej a także zakresu prowadzonych szkoleń i zapotrzebowania na procesy archiwizacji w przyszłości.
Instytucje otrzymywały dane cyfrowe z wielu źródeł, dlatego miały one odmienną strukturę. Ponadto często także tworzyły informację cyfrową z dostępnych papierowych materiałów, w celu jej archiwizacji a także zapewnienia lepszego dostępu do zasobów. Badania obejmowały zarówno materiały dostępne od początku tylko w wersji cyfrowej oraz te, które były konwertowane w późniejszym czasie. Rysunek 6.1 obrazuje procentową ilość materiałów nabywanych przez organizacje w wersji cyfrowej oraz ilość tych konwertowanych.

Rys. 6.1 Nabywanie i konwertowanie cyfrowych materiałów poprzez instytucje RLG

Większość instytucji posiadała oba rodzaje materiałów cyfrowych. Tylko biblioteki naukowe dostawały materiały od razu w formie cyfrowej, natomiast inne instytucje musiały je konwertować we własnym zakresie. Także jak widać z powyższego rysunku, rozpowszechnianie materiałów cyfrowych jest jeszcze stosunkowo mało popularne.
Materiały cyfrowe zachowywane w instytucjach różnią się rozmiarem, formatem, długością przechowywania oraz czasem powstania. Ponadto poszczególne instytucje archiwizują odmienną ilość informacji. Rysunek 6.2 ukazuje przybliżoną wartość archiwizowanych materiałów.

Rys. 6.2 Rozmiar przechowywanych informacji w poszczególnych instytucjach

Większość instytucji, bo aż 16 na 19 badanych przechowuje niewiele informacji (do 100 GB maksymalnie), natomiast tylko trzy przekraczają ten rozmiar.
Istnieje wiele formatów plików używanych w archiwizacji poprzez poszczególne instytucje. Najczęściej jednak używany jest format TIFF, bo na 34 badane instytucje używało go aż 27 (co stanowi 80.6%). Formaty plików archiwizowane w instytucjach po konwersji z form papierowych przedstawia rysunek 6.3.

Rys.6.3 Formaty plików archiwizowane w instytucjach po konwersji z form papierowych

Ciekawy jest natomiast fakt, iż do archiwizacji nie zostały użyte materiały w formie HTML, który można umieścić na sieci. Może być to spowodowane tym, iż materiały są skanowane w celu zamiany na postać elektroniczną i przerobienie ich na format HTML mógłby zabrać za dużo czasu. Poza tym, formą zamienną z HTML może być PDF, w którym tekst jest reprezentowany w całości; jest to jeden plik. Dzięki temu można go łatwiej przenosić i wydrukować. Na rysunku widać również, iż JPEG jest znacznie częściej używany do reprezentacji obrazów niż GIF.
Większość z badanych instytucji nie posiadała żadnych informacji dotyczących strategii archiwizacji. Wywiady przeprowadzone wśród instytucji, przeprowadzających archiwizację, wykazały jednoznacznie, iż brak jest dobrych modeli archiwizacyjnych oraz świadomości na temat archiwizacji wśród pracowników biblioteki. Nie wpływa to pozytywnie na dobry przebieg procesu archiwizacji. Efektywne zachowywanie zasobów cyfrowych ma bowiem charakter cykliczny i zarządzanie informacją elektroniczną zaczyna się podczas jej stworzenia, następnym etapem jest przechowywanie, migracja oraz ostatni, związany z wieloma procesami to zapewnienie ciągłego dostępu do informacji elektronicznej.
Większość z badanych instytucji przechowuje dane głównie na tych mediach, na których je otrzymali, natomiast część z nich jest zachowywana na innych mediach. Są to przeważnie magnetyczne taśmy lub kasety (68%), twarde dyski (64%) lub CD-ROM (52%). Przez 17 instytucji dane są również przystosowywane do nowych konfiguracji, wynikających ze zmian sprzętu i oprogramowania; jest to tzw. proces migracji danych.
Z przeprowadzonych badań wynika, iż pracownicy czują potrzebę szkoleń w zakresie archiwizacji, by móc lepiej przechowywać zasoby elektroniczne. Takie szkolenia powinny być prowadzone profesjonalnie na kursach lub też odbywać się lokalnie w danych instytucjach. Powinny poruszać kluczowe problemy dotyczące archiwizacji związane z konwertowaniem danych (75% badanych wymieniło ten problem jako najważniejszy), ich migracją (72%) oraz wyborem odpowiedniego sprzętu i oprogramowania do archiwizacji (55%). Inne problemy dotyczą zarządzania metadanymi (43%), wyborem bazy danych (39%) a także jej odpowiedniego indeksowania (34%).
Przeprowadzone badania ukazują wyraźnie, iż archiwizacja byłaby procesem częściej i lepiej stosowanym, gdyby pracownicy mieli większą wiedzę, doświadczenie dotyczące tego zagadnienia a także świadomość korzyści wynikających z dostępu do materiałów elektronicznych. Również bardzo przydatne byłyby pisemne materiały opisujące światowe standardy przechowywania informacji oraz przyszłą strategię archiwizacji. Archiwizacja materiałów elektronicznych wymaga jednak znacznie częstszej pracy ludzkiej, w przeciwieństwie do zachowywania materiałów papierowych, ponieważ postęp technologiczny w dziedzinie komputerów jest znaczny.


Początek strony  |   Spis treści   |   Poprzednia strona   |   Następna strona