Pierwsza strona
Warto wiedzieć

Anna Blażewicz

TECHNOLOGICZNE ASPEKTY DOSTĘPU DO INFORMACJI W ŚRODOWISKU ELEKTRONICZNYM


3.5 PROJEKT TULIP

3.5.1 POCZĄTKI PROJEKTU

Projekt TULIP [20] rozpoczął się na początku 1991 roku. Uniwersytety USA oraz wiodące biblioteki razem z organizacją naukową Elsevier chciały wspólnie stworzyć szybszy dostęp do materiałów naukowych, w tym również czasopism w formie elektronicznej. Szczegółowy plan rozwoju przedstawia tabela 3.9.

Tab.3.9 Kolejne etapy projektu TULIP

rok

Osiągnięcia

1991

- organizacja Elsevier ustala, który z dostawców będzie materiał przetwarzać i za pomocą jakich narzędzi

1992

- omówienie celów projektu oraz wkładu poszczególnych uczestników

- 9 uniwersytetów wyraża chęć do uczestnictwa w projekcie (specyfikacja formatu dokumentu wymiany)

- zakup sprzętu w celu skanowania oraz stosowania mechanizmu OCR

- konfiguracja Internetu oraz baz danych w celu przystosowania ich do poszczególnych uniwersytetów

1993

- pierwsze z regularnych spotkań współtwórców projektu TULIP

- przetwarzanie danych. Wysłanie płyt CD do poszczególnych uniwersytetów

- pierwsze spotkanie poruszające zagadnienia czysto techniczne projektu

1994

- promocja systemu TULIP za pomocą plakatów oraz Internetu w uniwersytetach

- logi opisujące zachowania użytkowników są dostarczane do Elsevier

- uniwersytety implementują platformy MS-Windows i systemy WWW/Mosaic

1995

- bibliografia jest przedstawiona w SGML i dodana do projektu TULIP

- ilość magazynów zostaje zwiększona z 43 do 83

- materiały dostarczane do uniwersytetów za pomocą płyt CD, ponieważ jest problem z usługą FTP

- prowadzone badania w celu polepszenia interakcji systemu z użytkownikiem

- Elsevier ma nowy skaner, znacznie poprawiła się jakość fotografii

- ostatnie techniczne spotkanie w Amsterdamie

1996

- publikacja końcowej wersji projektu TULIP


Projekt TULIP rozpatruje trzy główne problemy:
  • TECHNICZNY - określenie sposobu przesyłania informacji elektronicznej do wszystkich instytucji zgodnie z ich techniczną infrastrukturą. Sieciowa dystrybucja oznacza dostarczanie danych za pomocą Internetu oraz sieci kampusowej do poszczególnych studentów.
  • ORGANIZACYJNY I EKONOMICZNY - sporządzenie kosztorysu, wycena prenumeraty, stworzenie "rynkowych modeli", które mają być realne w elektronicznej dystrybucji. Głównym celem jest zredukowanie kosztów dostarczenia i otrzymania jednostki informacyjnej.
  • ZACHOWANIE UŻYTKOWNIKA - studiowanie zwyczajów użytkowników korzystających z biblioteki cyfrowej w ujęciu różnych metod rozprowadzania materiałów: technicznej, organizacyjnej i ekonomicznej. Ulepszenie funkcjonalności informacji, zarówno struktury artykułu jak i narzędzi do jego wyszukiwania.
Powyższe problemy zostaną teraz omówione szerzej.

3.5.2 PROBLEMY TECHNICZNE

3.5.2.1 OPIS TWORZENIA ELEKTRONICZNYCH MATERIAŁÓW

Przekształcanie dzienników papierowych w elektroniczne w projekcie TULIP odbywa się w następujący sposób.
Pierwszą czynnością jest wysłanie czasopism poprzez pocztę lotniczą do biur, w których będą skanowane. Następnie, kiedy czasopismo przybędzie do biura sprawdza się jego kompletność i jest rejestrowane w systemie.
W dalszej kolejności odbywa się skanowanie stron. Są one oddzielone i po kolei skanowane. Wydajność skanera wynosi 40 stron na minutę. Zwraca się uwagę na kolejność stron oraz poprawność ich po zeskanowaniu. Strony są skanowane z rozdzielczością 300 dpi i zaraz potem kompresowane, w celu zmniejszenia obszaru na dysku. W 1992 roku ustalono format pliku na biało-czarny TIFF.
Po skanowaniu strony są poprzez sieć przesyłane do urządzenia, gdzie następuje ich zamiana na plik ASCII. Proces zamiany nieedytowanej strony na stronę ASCII trwa 30 sekund. Obbywa się to za pomocą mechanizmu OCR. W ciągu ostatnich kilku lat jakość otrzymanych wyników znacznie się poprawiła, jednak matematyczne symbole i inne graficzne znaki wciąż pozostają nierozpoznawalne.
Pliki ASCII są edytowane w celu otrzymania plików w formie SGML i bibliografii. Ten proces jest przeprowadzany dla każdego artykułu. Pliki SGML mogą być umieszczane w Internecie. Ponieważ każde czasopismo ma inny wygląd proces zamiany plików OCR na SGML nie może być w pełni zautomatyzowany. Pomimo prób wykorzystania sztucznej inteligencji, okazało się, że tylko ludzie są w stanie dobrze zamienić taki artykuł.
Po ostatecznej kontroli jakości materiały są łączone w zbiory danych. Bibliografię przyłącza się do pliku dataset.toc, który jest głównym spisem treści dla każdego takiego zbioru. Na końcu przeprowadza się badania dotyczące spójności całego zbioru danych (badania sumy kontrolnej).
Gdy dokument jest gotowy do umieszczenia na sieci rozważa się, który z otrzymanych formatów będzie najlepiej, pod względem zajętości miejsca, reprezentować się na stronach WWW. Poniższy komentarz rozważa różne przypadki.
Każda strona po skanowaniu jest plikiem w formacie TIFF o rozdzielczości 300dpi. Rozmiary stron są różne dla każdego czasopisma. Największe są dla Europy - A4. Każda taka strona jest później kompresowana zgodnie ze standardem Fax Group IV (CCITT), co redukuje 1Mb pliku TIFF do 80Kb. Następnie przetwarzana jest na plik ASCII za pomocą mechanizmu OCR i potem do HTML. Poniższa tabela przedstawia rozmiary czasopism (około 200 stron), w różnych formatach

Tab.3.10 Rozmiary plików w zależności od rodzaju dokumentu

rodzaj pliku

Rozmiar

TIFF

16Mb

OCR

800Kb

HTML

80Kb


Jak widać z tabeli rozmiary plików są bardzo zróżnicowane, co przy dużej liczbie przechowywanych dokumentów ma ogromne znaczenie. Najbardziej opłacalne, ze względów oszczędności miejsca na dysku jest przechowywanie ich w formie HTML.
Do każdego artykułu trzeba doliczyć jeszcze spis treści, około 80Kb dla całego czasopisma. Roczne wydanie czasopisma, licząc 14 wydań na rok wynosi 238Mb. Jednak liczba wydań w roku jest inna dla każdego czasopisma.

3.5.2.2 OPIS DOSTOSOWYWANIA BAZ DANYCH DO POTRZEB POSZCZEGÓLNYCH UNIWERSYTETÓW ORAZ PRZESYŁANIA ICH POPRZEZ INTERNET.

Materiały, po digitalizacji są umieszczane na dyskach magnetycznych o dużej pojemności. Dla każdego uniwersytetu poprzez wskaźniki zapamiętuje się zaprenumerowane czasopisma. Zapobiega to duplikacji materiałów. Poza tym poszczególne uniwersytety otrzymują tylko te magazyny, za które zapłaciły. Dla każdej z uczelni tworzone są także pliki dataset.toc (spisy treści).
Poprzez usługę ftp czasopisma są rozsyłane do uniwersytetów. Następnie ich rozmiar jest porównywany z oryginałem i gdy zawartość jest różna pliki są retransmitowane. Na końcu przesyłany jest plik dataset.toc wraz z bibliografią. Średnio przesyłany zbiór danych ma rozmiar 200-300Mb. Przy takiej wielkości jego przesyłanie trwa 2-14 godzin, średnio 6.5 godziny, w zależności od pory dnia, typu połączenia, routingu oraz liczby użytkowników w sieci.
W projekcie TULIP istnieją dwie metody przesyłania informacji: metoda "push" oraz "push on demand". Pierwsza z nich zakłada, że uniwersytety mają zawsze dość miejsca na dysku i nowe bazy danych są równocześnie do nich rozsyłane. Opisane rozwiązanie nie przyjęło się ze względu na to, iż nie wszystkie uczelnie zawsze były gotowe na przyjęcie nowych informacji. Druga metoda polega na sprawdzaniu z uczelni co pewien czas, czy nie ma nowych informacji i jeśli są, przygotowuje się dla nich miejsce na dysku i dopiero potem zostają przesłane. W końcu jednak zdecydowano się na wersję umieszczaną na CD z powodu wielu błędów powstałych podczas transmisji. Zdaniem pracowników uczelni wymiana informacji jest możliwa także poprzez Internet przy zastosowaniu poczty elektronicznej, usług ftp oraz skryptów w języku Perl. Sieciowe przesyłanie informacji ma jedną bardzo ważną zaletę - proces ten może być w pełni zautomatyzowany, co nie jest możliwe dla wersji z CD-romem. Każdy uniwersytet uczestniczący w projekcie TULIP posiada odrębny system i dla każdego z nich trzeba oddzielnie przygotowywać bazy danych. W większości przypadków nowe zbiory danych są sprawdzane i dzielone na kilka odrębnych pełnotekstowych baz danych. Czasem błędy powstałe podczas umieszczania informacji wymagają ludzkiej interwencji.

3.5.2.3 PROBLEMY PODCZAS REALIZACJI PROJEKTU

Jednym z problemów podczas realizacji projektu jest problem związany ze strukturą zbioru danych. Zbiór danych składa się ze struktury katalogów oraz pojedynczego pliku dataset.toc, stanowiącego spis treści. Taki standard umożliwia kolekcję oraz transmisję dużej ilości informacji, niezależnie od medium. Ponadto jest prosty w konfiguracji na różnych platformach systemowych i otwarty na dołączanie innych struktur takich jak np. HTML czy wideo w formacie MPEG. Opisana tutaj struktura danych nosi nazwę EFFECT (Exchange Format for Electronic Components and Text) i jest jedną z propozycji internetowego standardu. Została wykorzystana także w innych projektach np. JSTOR.
Kolejnym punktem rozważań jest wielkość i format skanowanych stron. Wielkość stron jest charakterystyczna dla danego czasopisma, dlatego różne czasopisma mogą mieć inny ich rozmiar. Początkowo wszystkie strony skanowane były w największym rozmiarze, co przy małych rozmiarach prowadziło do powstawania czarnych ramek i w efekcie przyczyniało się do marnowania tuszu i miejsca na dysku. Aby zoptymalizować przechowywanie informacji każde nowe czasopismo przed skanowaniem było ręcznie mierzone. Ta metoda okazała się jednak żmudna i nie bez błędów. Również programy automatycznie mierzące rozmiar stron charakteryzowały się pewną nieścisłością. Dlatego ostatecznym rozwiązaniem okazało się nakładanie masek w zależności od tytułu czasopisma, które przechowywały dane dotyczące ilości pikseli obcinanych z każdego brzegu strony.
Następnie brano pod uwagę również reprezentację obrazów o obniżonej jakości (z zastosowaniem odcieni szarości). W ostatnich latach jakość skanowanych dokumentów znacznie się poprawiła. Nie dotyczy to jednak fotografii, szczególnie tych z małymi kontrastami. Są one zapamiętywane w postaci dwukolorowych bitmap. Każdy piksel charakteryzuje jeden bit, czyli jest to kolor czarny lub biały. Zaletą tych bitmap jest dobra kompresja w standardzie TIFF. Jednak gdy fotografia z odcieniami szarości jest skanowana do dwukolorowej bitmapy, jej jakość znacznie pogarsza się, gdyż każdy odcień szarości musi być zapamiętany jako biały lub czarny kolor. W rezultacie rysunki te zawierają duże czarne przestrzenie. Nowa technologia skanowania polega na rozpoznawaniu szarych odcieni i zastosowaniu dla nich specjalnego trybu przetwarzania. Jest to możliwe dzięki ulepszeniach skanerów. Rezultat tej metody znacznie poprawia jakość obrazów, jednak w dalszym ciągu nie jest ona równa oryginalnej fotografii. Ta technika pojawiła się zbyt późno, by mogła być zrealizowana w projekcie TULIP.
W celu zapewnienia poprawności przesyłanych informacji wprowadzono sumy kontrolne. Strony w formacie TIFF są bardzo podatne na uszkodzenia. Zamiana jednego bitu w pliku powoduje, że obraz jest już nieużyteczny. Błędy mogą pojawić się zarówno na Cd-romach jak i podczas transferu w Internecie. Średnio jeden błąd przypada na 20 tys. prawidłowych obrazów. Aby zapobiec błędom wprowadzono mechanizm sumy kontrolnej. Plik sumy kontrolnej tworzy się dla każdego podkatalogu i po nagraniu całego CD sprawdzana jest na podstawie tych plików jego poprawność. Dopiero po tej korekcie płyty rozsyła się do uniwersytetów.
By zawarte informacje były jednoznacznie reprezentowane w bazie danych wprowadzono unikatowe identyfikatory. Są one niezbędne w dużej bazie danych, by poprawnie odwoływać się do wszystkich jej elementów. W projekcie TULIP wprowadzono następujące identyfikatory:
  • IDENTYFIKATOR CZASOPISMA - wybrano standard ISSN (the International Standard Serials Number),
  • IDENTYFIKATOR NUMERU MAGAZYNU - nie ma jednoznacznego, znanego standardu. Ogólnie poszczególne numery charakteryzowane są przez numer tomu oraz numer czasopisma. Jednak istnieją także wydania łączone, co utrudnia ich identyfikację. W projekcie TULIP wprowadzono więc ogólny numer sekwencyjny, niezależny od tomu i numeru magazynu,
  • IDENTYFIKATOR ARTYKUŁU - w projekcie rozważano dwa standardy: SSDI (the Standard Serial Document Identifier) oraz standard Z39.56. Ten ostatni jest szczególnie przydatny dla dokumentów papierowych, nawet tych wydanych dawno. Odnosi się do konkretnych stron, co nie jest możliwe do zrealizowania elektronicznie w formie HTML oraz ogranicza tylko do materiałów gotowych do publikacji. Dlatego w projekcie TULIP wybrano standard SSDI. Numer ten jest kojarzony z artykułem w momencie, gdy jest on gotowy do publikacji. Jeśli numer jest krótki (16 cyfr) może być użyty jako klucz podstawowy. Numer SSDI jest używany jako odniesienie dla autorów, wykorzystywany podczas kolejnych faz produkcji oraz drukowany na każdej stronie artykułu w czasopiśmie,
  • IDENTYFIKATOR TEMATYCZNY - Niektóre czasopisma mają możliwość tematycznego dzielenia swoich wydań lub tworzenia rozdziałów z artykułów. Artykuły o podobnej dziedzinie są przydzielane do tej samej grupy i identyfikowane poprzez kategorię ze spisu treści. W projekcie TULIP nie zostało to zaimplementowane, lecz przyszłe projekty powinny rozważyć również ten podział.
Podczas digitalizacji materiałów tworzyły się zaległości produkcyjne. Kiedy TULIP powstawał w 1992 roku, był na ówczesne czasy, oparty na najnowszych technologiach takich jak: ulepszone skanowanie obrazów z odcieniami szarości, mechanizm OCR, przesyłanie danych przez Internet, itp. Skompletowanie i przetestowanie systemu zajęło rok. Odkąd powstała decyzja na skompletowanie czasopism z 1992 roku, trzeba było digitalizować te z poprzedniego roku i obecnego. Ponieważ nie nadążano z teraźniejszymi i przeszłymi magazynami tworzyły się zaległości produkcyjne. Zaczęto więc najpierw przetwarzać dane najnowsze, posuwając się stopniowo do tyłu w czasie. Zaczęto także dołączać dane wykonane w nowych technologiach, które pojawiały się z upływem czasu np. SGML. Jednak bardzo trudno jest zachować poprawną pracę sprawnego systemu, gdy dołączane są do niego nowe, niesprawdzone technologie. Nowe technologie wymagają dodatkowego zarządzania, szkolenia operatorów, odpowiedniej pracy personelu itp.


3.5.2.4 TECHNICZNA IMPLEMENTACJA W UNIWERSYTETACH

Uniwersytety uczestniczące w projekcie TULIP są zróżnicowane między sobą. Biblioteki uczelniane często są oddzielone od centrów komputerowych oraz zarządzane zdalnie przez operatorów. W takiej sytuacji istnieje potrzeba osobnego rozpatrywania każdej z uczelni, by dostęp do niej był jak najlepszy. Największym problemem nie jest technologia, tylko infrastruktura systemu oraz jego zasięg. Większość systemów poszczególnych uczelni składała się z wielu komponentów i nie można było łatwo przetransformować go do innej biblioteki. Dlatego starano się szukać darmowych rozwiązań.
Wszystkie systemy TULIPA zostały prototypami, ponieważ nie zawierały odpowiedniej dokumentacji, procedur sporządzania kopii zapasowych oraz odpowiednich narzędzi zarządzania. Większość bibliotek uczelnianych ma obecnie możliwość wyszukiwania wg czasopism, wydań oraz artykułów. Natomiast wszystkie dają możliwość wyszukiwania za pomocą operatorów logicznych czy słów kluczowych.
W projekcie TULIP rozróżniane są następujące implementacje:
  • bazy danych wraz z oddzielnym interfejsem użytkownika - najbardziej popularne są systemy oparte na RS6000/AIX, Decstation/Ultrix oraz SunSparcstations/ Solaris,
  • oddzielne bazy danych wraz ze wspólnym interfejsem - wszystkie uniwersytety posiadają OPAC , większość oparta jest na platformie IBM lub Unix. OPAC używany jest do wyszukiwania i przeglądania rekordów bibliograficznych. Informacje zostały umieszczone oddzielnie, w systemie Unix.
  • integracja istniejących usług informacyjnych wraz z drugorzędnymi bazami danych - początkowy dostęp do baz danych odbywał się poprzez system MELVYL, a następnie każda strona była wyświetlana dzięki przeglądarce X-Windows.
3.5.2.5 CHARAKTERYSTYKA KLIENTÓW - SYSTEMY KLIENCKIE

Podczas tworzenia projektu TULIP próbowano stworzyć klientów działających na wielu platformach. Okazało się to jednak trudne w realizacji i po wielu próbach najlepszym wyjściem okazały się przeglądarki sieciowe. Posiadają one wiele zalet takie jak np. dostępność publiczna, przyjazne środowisko oraz możliwość współpracy z licznymi platformami. W środowisku sieciowym wszystko dzieje się po stronie serwera, klient jest tylko odpowiedzialny za przedstawienie informacji. Standard ten oparty jest na języku HTML, protokole HTTP oraz klientach WWW takich jak NCSA Mosaic i Netscape Navigator. Obecne narzędzia WWW mają ograniczone działanie, lecz z biegiem czasu ich funkcjonalność wzrośnie dzięki narzędziom takim jak Hot Java oraz zagnieżdżonym przeglądarkom. Inną zaletą jest fakt, że ci klienci są ogólnie dostępni, co sprawia że są łatwi w użyciu i potrzeba szkoleń w tym zakresie jest niewielka. Główną wadą natomiast jest brak dobrej jakości drukowanych stron internetowych i implementacja takiego oprogramowania w różnych środowiskach jest jednym z podstawowych zadań. Jednak opisane powyżej rozwiązanie jest obecnie jedyną słuszną drogą.
Systemy klienckie, by nie zniechęcić użytkownika powinny umożliwiać szybkie przeglądanie stron. Średnio czynność ta powinna trwać krócej niż dwie minuty. By przyspieszyć ten proces stosowane są nowe technologie, takie jak umieszczanie w tle najbardziej prawdopodobnej następnej strony lub tymczasowe przetrzymywanie kilku stron w pamięci, gdy użytkownik chciałby do nich wrócić. Większość implementacji nie daje możliwości przeglądania wybranych stron z całości artykułu. Przeglądanie jest rezultatem wyszukiwania, po selekcji artykułu wyświetlana jest jego pierwsza strona i później kolejne. Przyciski umożliwiają jedynie przegląd pierwszej, ostatniej, następnej oraz poprzedniej strony.
Następna cecha to umożliwienie szybkiego drukowania stron. Jak wynika z badań ten czynnik okazał się być najważniejszą sprawą dla wszystkich uniwersytetów. Duży rozmiar stron (300 dpi) wraz z zastosowanym odpowiednim algorytmem kompresji jest dużym wyzwaniem dla starych, laserowych drukarek. Nawet te nowsze drukarki, przy dobrej konfiguracji mogą doprowadzić do powstawania wąskich gardeł, zapchania sieci i tworzenia kolejek do drukowania. W celu uniknięcia powyższych problemów użytkownicy powinni mieć możliwość lokalnego drukowania artykułów. Jednak nie jest to również zadanie łatwe, ponieważ ciągle zmieniające się położenie drukarek i innych zasobów sieciowych uniemożliwia sprawnego, centralnego zarządzania drukowaniem. W początkowej fazie projektu TULIP drukowanie nie kompresowanej strony trwało średnio 15-30 minut. Obecnie, w celu zmniejszania natężenia ruchu w sieci większość uniwersytetów umożliwia centralne drukowanie na drukarce laserowej bezpośrednio połączonej do serwera zawierającego artykuły. Jednak ta metoda nie jest bardzo popularna w projekcie TULIP. Użytkownicy preferują szybko dostępną lokalną drukarkę o gorszej jakości niż lepszą jakość drukarki centralnej, na której wydruki trzeba dłużej czekać.
Ponadto system powinien umożliwiać eksport materiału w szerokim znaczeniu. Żaden uniwersytet nie umożliwia eksportowania informacji, innego niż przeglądanie czy drukowanie. W sieciowych implementacjach można jedynie kopiować i wklejać tekst w ograniczonym wymiarze.


3.5.2.6 CHARAKTERYSTYKA SERWERÓW - SYSTEMY SERWERÓW

Każdy z uniwersytetów posiada inny system do wyszukiwania informacji. Uczelnie posiadające systemy OPAC stosują oprogramowanie wyszukujące OPAC, natomiast pozostałe używają wyszukiwarek pełnotekstowych. Wybór jest szeroki, od rozwiązań krajowych (FTL), poprzez public domain, oprogramowanie eksperymentalne (WAIS, Clarit) do komercyjnie dostępnych systemów takich jak BRS, Newton oraz SiteSearch. Wszystkie powyższe systemy umożliwiają wyszukiwanie logiczne oraz wg słów kluczowych. Większość uczelni umożliwia wyszukiwanie danych bibliograficznych dostarczonych w pliku dataset.toc. Informacja jest tam podzielona na następujące pola: tytuł artykułu, autorzy, słowa kluczowe, nazwa dziennika, data publikacji oraz streszczenie. Użytkownik może także wyszukiwać informacje w plikach ASCII. Sposób zdobywania informacji z plików OCR, podczas kolejnych faz projektu był stopniowo polepszany. Ponadto Uniwersytet w Michigan przechowuje zapytania studentów i gdy dołączona jest nowa baza danych są one na niej również wyszukiwane. By usprawnić ten proces użytkownicy korzystając z biblioteki określają profil swoich zainteresowań, który zawiera predefiniowany zbiór słów kluczowych zgodny z ich obszarem poszukiwań. Każda nowa baza danych jest przeszukiwana wg profili i użytkownicy dostają streszczenia pasujących ich zainteresowaniom artykułów za pomocą poczty elektronicznej.
By dane mogły być wyszukiwane za pomocą serwera, muszą być odpowiednio przechowywane. W początkowej fazie projektu TULIP koszt magnetycznych mediów przechowywania informacji był bardzo duży. Większość uniwersytetów przechowywała dane za pomocą optycznych technologii. Różnice w obu powyższych metodach przedstawione są w tabeli 3.11.

Tab.3.11 Porównanie dysków magnetycznych z optycznymi

dyski magnetyczne

dyski optyczne

-szybsze - dzięki zastosowaniu magnetycznych dysków typu cache, najbardziej potrzebne strony wyświetlane są natychmiast

- do odczytu i zapisu

- znane i powszechnie używane

- wolniejsze - ważna wada szczególnie w operacjach wymagających szybkiej odpowiedzi np. przeglądanie stron

- głównie używane tylko do odczytu (nie można wprowadzać poprawek)

- są relatywnie nowe, co w połączeniu z systemami serwerowymi może prowadzić do powstawania wielu problemów niekompatybilności


W ostatnich latach znacznie zmniejszyło się wykorzystanie dysków magnetycznych. Przyczyniła się do tego między innymi nowa technologia przechowywania informacji RAID (Redundant Array of Inexpensive Disks), przydatna szczególnie w zachowywaniu danych i posiadająca dobry współczynnik cena/wydajność wraz z niezawodnością i kompatybilnością z wieloma systemami serwerowymi.
Nowe standardy reprezentacji danych (SGML, HTML, PDF) również nie redukują objętości informacji, lecz umożliwiają ich lepsze wyszukiwanie, odzyskanie i przedstawienie.
Oprócz przechowywania, danym trzeba zapewnić odpowiednią ochronę przed osobami niepowołanymi. Licencja TULIP pozwala na nieograniczoną dystrybucję i korzystanie z danych bezpośrednio z biblioteki cyfrowej, natomiast ograniczone korzystanie z informacji z miejsca innego niż ośrodek uniwersytecki. Jednym ze sposobów kontroli użytkowników jest ich logowanie i hasło. Jednak zarządzanie wieloma nazwami i hasłami użytkowników jest trudne szczególnie ze względu na różne oddziały, ich lokalizację a także ciągłe zmiany. Ograniczenia mogą być ustawione również na komputerach za pomocą adresów IP. Ten sposób zabezpieczenia danych jest jednak niewystarczający, ponieważ różni użytkownicy mogą mieć wtedy dostęp do zasobów, muszą oni tylko skorzystać z odpowiedniego komputera. Obecnie tworzone są nowe metody uwierzytelniania oraz kodowania, by zapewnić większe bezpieczeństwo zasobów sieciowych.


3.5.2.7 SIECIOWE USŁUGI DOSTARCZANIA INFORMACJI

Informacje TULIPA zajmują wiele miejsca na dysku i dlatego ich transmisja z centralnego przechowywania do komputera użytkownika zajmuje dużo czasu. Użytkownicy oczekują, że przeglądanie i lokalne drukowanie będzie zabierać im niewiele czasu. Podczas tworzenia projektu okazało się, że lokalna sieć, by umożliwiać normalną pracę użytkowników powinna być porównywalna pod względem przepustowości z siecią Ethernet. Średnia prędkość takiej sieci to 10 Mb/s. Modem oparty na połączeniach SLIP lub PPP jest za wolny do wykonywania transakcji biblioteki elektronicznej.


3.5.3 PROBLEMY ORGANIZACYJNE I EKONOMICZNE

3.5.3.1 KRYTYCZNE CZYNNIKI WPŁYWAJĄCE NA POPRAWNY PRZEBIEG IMPLEMENTACJI PROJEKTU TULIP

Najważniejszym czynnikiem przy poprawnym tworzeniu projektu jest współpraca pomiędzy wszystkimi członkami zespołów oraz sprawne, centralne zarządzanie.
Ponadto ważna jest także znajomość potrzeb i możliwości użytkowników. Oprogramowanie powinno być tak skonstruowane, by w pełni zaspokajać ich potrzeby i by umieli oni się nim posługiwać. Użytkownicy projektu TULIP uważają, że jest on dobry, lecz tylko w niewielkim stopniu zaspokaja ich zapotrzebowanie na elektroniczną informację. Chcą oni mieć dostęp do biblioteki cyfrowej ze swoich stacji roboczych, ponadto chcą mieć możliwość przeglądania pełnotekstowych baz danych a nie tylko słów kluczowych oraz również bardzo pożądaną cechą jest lokalne, szybkie drukowanie. Oczywiście nie wszyscy ludzie zdają sobie sprawę z zalet informacji elektronicznej i często również nie umieją się nią posługiwać.
Kolejnym czynnikiem jest odpowiednia struktura i zasoby biblioteki cyfrowej. Istnieją trzy podstawowe czynniki mające wpływ na kształtowanie struktury biblioteki cyfrowej:
  • SYSTEM OPERACYJNY
  • POŁĄCZENIA SIECIOWE ORAZ CENTRALNE DRUKOWANIE - możliwość współdzielenia sieci pomiędzy poszczególnymi uniwersytetami wchodzącymi w skład projektu, jest kluczowym elementem sukcesu. By zapewnić użytkownikom przeglądanie informacji graficznych niezbędna jest szybka sieć. Użytkownicy po długim czekaniu na odpowiedź serwera mogą być sfrustrowani i mogą nie chcieć już więcej korzystać z systemu. Również usługa drukowania powinna być wszechobecna, łatwa i szybka. W niektórych przypadkach prędkość sieci lub wolne drukowanie mogą być czynnikami ograniczającymi pracę w sieci.
  • SYSTEMY STACJI ROBOCZYCH UŻYTKOWNIKÓW - istnieją dwie możliwości: dobre stacje robocze (do przeglądania stron) lub przystosowanie istniejących komputerów do obecnego standardu. Często zdarza się jednak, że w danym uniwersytecie istnieje bardzo zróżnicowany sprzęt i istnieje potrzeba odpowiedniej konfiguracji. Oprogramowanie w ostatnich czasach bardzo poprawiło się ze względu obecności systemów opartych na architekturze klient-serwer. Klienci w środowisku sieciowym mogą być uruchomieni niezależnie od sprzętu i platformy.
Wreszcie na końcu powinno przeprowadzić się promocję biblioteki. Na początku projektu promocja nie była uważana za ważny czynnik, lecz z biegiem czasu pogląd autorów zmienił się. Istnieje bardzo wiele informacji w elektronicznym świecie i dlatego trzeba odpowiednio ukazać ludziom, gdzie mogą jeszcze znaleźć interesujące ich dane. Pomimo to niektórzy bibliotekarze uważają, że dobre produkty, nie potrzebują reklamy, lecz jej brak może spowodować mniejsze jej zastosowanie. Początkowa promocja jest tym minimum, w które trzeba zainwestować. Na przykładzie projektu TULIP widać, iż te strony internetowe, które miały większą promocję są częściej odwiedzane przez użytkowników. Promocje mają za zadanie uświadamiać użytkowników o wszystkich ulepszeniach dokonywanych podczas implementacji projektu.
Równie potrzebną rzeczą są początkowe szkolenia przyszłych użytkowników w celu zapoznania ich z podstawowymi cechami i usługami biblioteki cyfrowej. Często, gdy użytkownicy sami poznają system, niezależnie od tego jaki jest obszerny, zatrzymują się w pewnym punkcie nauki systemu, ponieważ informacje zdobywane na tym poziomie zupełnie im wystarczają. Jednak większość naukowców woli samodzielnie, intuicyjnie poznawać system, zamiast uczęszczać na szkolenia i czytać dokumentację.


3.5.3.2 CZYNNIKI EKONOMICZNE -KOSZTY

Koszty implementacji systemu Page Image Delivery (PIDS) to koszty techniczne oraz zatrudnionej obsługi, natomiast w skład kosztów sprzętu wchodzi serwer oraz koszty przechowywania np. dyski, CD-ROMy itp. Te ostatnie w projekcie TULIP wynoszą $100,000 i są uważane za niewielkie biorąc pod uwagę duży ich zwrot podczas korzystania z biblioteki.
Następne koszty to koszty przechowywania. Te koszty są jednym z najważniejszych poniesionych w projekcie. Ponadto dyski i inne media przechowywania informacji powinny być co 10 lat wymieniane. Koszt ten zwiększa się 10-krotnie w porównaniu z drukowaniem materiałów i ich lokalnym przechowywaniem. Ważnym kosztem jest także koszt poniesiony na zarządzanie dużą ilością danych elektronicznych.
Model oparty na lokalnej własności i przechowywaniu danych w poszczególnych uniwersytetach zdominował współczesną scenę biblioteczną. Lecz sensowne i bardziej opłacalne jest przechowywanie informacji centralnie, prenumerata dowolnych czasopism oraz współdzielenie kosztów baz danych. Jest to nowy sposób dzielenia informacji i powinny być także starannie ustalone prawa autorskie oraz pozwolenie na wgląd w dane informacje. Bibliotekarze chcą mieć pewność, że zaprenumerowane czasopismo będzie stale dostępne niezależnie od serwera czy awarii sieci.
Obok wymienionych wyżej kosztów istnieją także koszty zawartości. Gdyby koszty materiałów elektronicznych były mniejsze od kosztów papierowych, ludzie często woleliby prenumerować czasopisma w bibliotece elektronicznej. Jednak obecnie jest odwrotnie. Dystrybutorzy elektronicznych informacji byliby atrakcyjni dla czytelników gdyby wyeliminowali pocztową i papierową konkurencję.
Wreszcie na końcu rozważa się koszty biblioteki cyfrowej. W przyszłości szacuje się, iż biblioteki cyfrowe będą tańsze niż standardowe, a nawet dostępne bezpłatnie. Obecnie jednak patrząc na projekt TULIP widać iż tworzenie biblioteki cyfrowej to proces długi i kosztowny. Nie wiadomo jak będzie za kilkadziesiąt lat, czy będzie zdalny dostęp, jeden komputer świadczący usługi dla świata czy też będą powstawać lokalne biblioteki z lokalnymi patronami i lokalnym budżetem?


3.5.4 PREFERENCJE UŻYTKOWNIKÓW

Podczas korzystania z biblioteki cyfrowej TULIP prowadzono wiele badań mających na celu zbadanie podstawowych zachowań naukowców i bibliotekarzy podczas zdobywania informacji, określenie czynników powodujących zainteresowanie użytkowników informacją elektroniczną oraz wymagań, jakie powinny spełniać elektroniczne materiały, by były wartościowe i atrakcyjne. Ponadto starano się zdefiniować sposoby dostarczania pełnotekstowych baz danych do stacji roboczych użytkowników oraz środki promocji materiałów elektronicznych.
Te ogólne zagadnienia w bardziej szczegółowym ujęciu obejmują również środki wyszukiwania informacji oraz typowe wzorce przeglądania czasopism. Ponadto badano ilość czasu spędzonego przed komputerem oraz sprawdzano czym użytkownicy zajmowali się najdłużej (wyszukiwarki WWW, specjalistyczne bazy danych). Sprawdzano jak dane były pozyskiwane przez użytkowników i jacy to byli użytkownicy. Badano również tych użytkowników, którzy kiedyś korzystali z baz danych TULIPA a później przestali oraz jakie czynniki spowodowały zmianę ich decyzji. Prowadzone badania można podzielić na dwie główne kategorie: jakościowe i ilościowe.


3.5.4.1 BADANIA ILOŚCIOWE

Opierają się na analizie plików typu log, gdzie zapamiętywane są wszystkie czynności użytkowników, jakie wykonywali korzystając z biblioteki cyfrowej. Podczas badań szczególnie brano pod uwagę przeglądanie streszczeń, wyszukiwanie informacji oraz drukowanie. Wykonywanie tych czynności jest różne w każdym uniwersytecie ze względu na inną architekturę systemów.
Badania zostały przeprowadzone w latach 1994-1995 w uniwersytetach biorących udział w projekcie TULIP. Poniżej zostały przedstawione badania prowadzone w Uniwersytecie Michigan. Rysunek 3.5 przedstawia wykaz usług z jakich użytkownicy korzystali najczęściej. Badania przeprowadzono na podstawie miesięcznej analizy plików typu log.

Rys. 3.5 Miesięczny zestaw podstawowych czynności wykonywanych podczas korzystania z TULIPA

Użytkownicy poszukując interesujących ich materiałów najczęściej czytali streszczenia a dopiero później wybrane artykuły. Gdy po szczegółowej analizie artykuł wydawał im się interesujący decydowali się na jego wydruk, lecz tylko w nielicznych przypadkach. W połowie '95 roku większe znaczenie miało przeglądanie szczegółowe artykułów oraz widać także znaczny wzrost usługi drukowania. Przyczyną wzrostu wydruku artykułów było umożliwienie dostępu do TULIPA za pomocą sieci. Wykres 3.6 przedstawia miesięczne korzystanie z TULIPA przez wykładowców i absolwentów.


Rys. 3.6 Miesięczne korzystanie z TULIPA przez wykładowców i absolwentów

Z powyższego wykresu widać, iż najwięcej z baz danych TULIPA korzystali absolwenci, a znacznie mniej wykładowcy i inni użytkownicy. Przeglądanie materiałów elektronicznych stało się dużo bardziej popularne w początku '95 roku i nastąpił wtedy wielki wzrost zainteresowania książkami cyfrowymi. Później lekko spadł, utrzymując się jednak na dużo wyższym poziomie w porównaniu z początkowym zainteresowaniem. Rysunek 3.7 pokazuje miesięczne korzystanie z TULIPA w zależności od typu użytkownika.


Rys. 3.7 Miesięczne Korzystanie z TULIPA w zależności od typu użytkownika

Spośród badanych użytkowników znaczną większość stanowią studenci, dopiero później absolwenci i wykładowcy. Bardzo nieznaczna ilość korzystających, właściwie niewidoczna na tym wykresie to obsługa biblioteki. W obu powyższych wykresach widać wyraźnie, iż od nowego '95 roku TULIP stał się bardziej popularny. Najmniejsze wykorzystanie w czerwcu '94 roku jest czterokrotnie mniejsze od czerwca '95 roku, natomiast największe w marcu '94 roku jest również w porównaniu z marcem '95 roku czterokrotnie mniejsze. Jest to w dużej mierze spowodowane tym, iż na początku '95 roku dołączono do kolekcji cyfrowych materiałów TULIPA dwukrotnie większą ilość czasopism.
W innych badanych uniwersytetach dane przedstawiały się podobnie jednak usługa drukowania była od początku bardziej doceniona i wykorzystywana, często nawet na równi z przeglądaniem artykułów. Użytkownicy po znalezieniu artykułu dużo częściej decydowali się na jego drukowanie.


3.5.4.2 BADANIA JAKOŚCIOWE

Badania jakościowe zostały przeprowadzone na podstawie indywidualnych wywiadów z wykładowcami oraz grupowych wywiadów ze studentami. Ankiety zawierały pytania i punkty dyskusyjne, które omawiały oczekiwania, potrzeby oraz satysfakcje użytkowników podczas korzystania z systemu TULIP.
Wnioski wyciągnięte z badań dotyczą ogólnych i podstawowych zachowań naukowców podczas wyszukiwania informacji. Naukowcy podczas wyszukiwania informacji posługiwali się głównie tytułem artykułu, nazwą czasopisma, autorem, streszczeniem, obrazkami oraz tabelami. Rzadko czytali oni artykuły dogłębnie. Wyszukiwali oni informacje bardzo konkretne, zawężone. Często czytali też czasopisma w domu. Absolwenci szukali informacji bardziej aktywnie, posługując się mniejszą ilością dostępnych czasopism. Wielu użytkowników jest nierozerwalnie związanych z tradycyjną biblioteką, choć często problemem jest odległość czy dostępność szukanego czasopisma.
Podczas przeprowadzonych badań poznano następujące wymagania dotyczące elektronicznych produktów. Prostota użycia, czyli przyjazny interfejs oraz intuicyjne poruszanie się po bibliotece oraz dostęp do wszystkich informacji z jednego źródła. Ponadto użytkownicy cenili sobie efektywne możliwości wyszukiwania informacji i dużą prędkość przetwarzania danych, czyli ich przeglądanie i drukowanie. Natomiast tekst powinien posiadać dobą jakość i być powiązany z innymi zagadnieniami za pomocą linków oraz każdy artykuł powinien mieć dobre streszczenie.
Wg opinii użytkowników informacja elektroniczna jest dobrze dostarczona, gdy spełnione są wszystkie powyższe warunki. Przeglądanie bibliotek cyfrowych jest dużo szybsze i bardziej efektywne, ponieważ użytkownicy nie czytają całych tekstów, tylko przemieszczają się za pomocą linków lub wyszukiwarek do zagadnień, które najbardziej je interesują. Większość użytkowników woli jednak czytać informacje wydrukowane niż z ekranu monitora. Dlatego usługa drukowania powinna być prosta, szybka i mieć dobrą jakość.
Ostatnim czynnikiem wziętym pod uwagę są promocje. Mają one służyć lepszemu zapoznaniu się użytkowników z oprogramowaniem, a ponadto ukazać jego możliwości. Po wszelkich promocjach TULIPA zauważono wzrost zainteresowania tą biblioteką cyfrową wśród nowych użytkowników.


3.5.5 WNIOSKI I ZALECENIA

3.5.5.1 PRZECHOWYWANIE INFORMACJI

Obecne technologie przechowywania informacji oraz przepustowość sieci ograniczają znacznie ilość przechowywanych zasobów. Propozycja na przyszłość to lokalne serwery zawierające najbardziej potrzebne informacje w połączeniu z serwerami zdalnymi z drugorzędnymi informacjami dla danej instytucji.


3.5.5.2 PRZEGLĄDANIE I DRUKOWANIE

Kluczowym elementem jest szybki dostęp do zasobów z komputera użytkownika. Komponenty, które mają wpływ na szybkość przeglądania informacji to prędkość mediów przechowujących informacje (optyczne media są wolniejsze od magnetycznych), prędkość sieci (minimum to dobra sieć LAN), prędkość komputera klienta oraz wykorzystanie pamięci cache do uruchamiania aplikacji.
Również bardzo ważną zaletą systemu jest szybkie drukowanie. Wąskie gardło stanowią drukarki. Dobre są te, które umieją przetwarzać obrazy skompresowane wg standardu Group IV fax. Stare, laserowe drukarki nie umieją poradzić sobie ze skompresowanymi stronami o rozdzielczości 300 dpi. Drukowanie powinno być dostępne lokalnie, ze stanowiska roboczego użytkownika.
Inne zalecenia dotyczą metody skanowania w dwóch kolorach (biało-czarnym). Jest ona dobra dla tekstu, lecz nie nadaje się dla obrazów z odcieniami szarości i kolorowych. Ponadto do przechowywania dużej ilości danych niezbędna jest odpowiednio udokumentowana struktura. Powinna ona ponadto być niezależna od medium transmisyjnego. Poprawność transmisji danych powinna być sprawdzana za każdym razem za pomocą sumy kontrolnej. W projekcie TULIP zaimplementowano przenośną, niezależną od platformy usługę sumy kontrolnej oraz algorytm RSA zapewniający bezpieczeństwo danych.

Początek strony  |   Spis treści   |   Poprzednia strona   |   Następna strona