refik.in.ua 1

УДК 02:004

О.І.Шилюк, директор наукової бібліотеки

Чернівецький національний університет імені Юрія Федьковича

вул. Лесі Українки,23 Чернівці, Україна, 58000

shylyuk@chnu.cv.ua

складові частини роботи по формуванню цифрової бібліотеки: роздуми практика

Аналізуються різні аспекти роботи при створенні цифрових бібліотек.


Останніми роками цифрові бібліотеки (ЦБ) створюються лавиноподібно і практично неконтрольовано. В основному це відбувається у вузах, часто при безпосередній участі наукової бібліотеки. Маючи проблему в недостатній кількості літератури і особливо навчальної, вузівські бібліотеки створюють повнотекстові колекції навчально-допоміжних матеріалів. Частіше бібліотеки використовують їх лише в локальних мережах чи навіть на локальних машинах, щоб уникнути проблем пов’язаних з вирішенням питань авторського права.

Розкид того, що саме називається ЦБ, справді величезний. На мій погляд є різниця між термінами цифрова і електронна бібліотека. Цифрова більш широке поняття (включає і електронну бібліотеку) – матеріали представлені в цифровій формі. Електронна бібліотека представляє самостійні електронні видання на відміну від оцифрованих друкованих документів. Крім того слід розрізняти цифрову бібліотеку від колекції оцифрованих документів та електронних видань.

Не заглиблюючись в дискусію про коректне визначення ЦБ, в контексті даного питання розумітимемо під ЦБ організацію масиву електронних документів, забезпечених коректним бібліографічним описом і доступний через засоби телекомунікаційного доступу для пошуку, витягання і доставки споживачеві.

При всьому різноманітті форм ЦБ, існують типові етапи їх створення, які в кращому разі дублюються, і потенційно приводить до несумісності створюваних ресурсів в мережевому середовищі. Це стосується не тільки програмно-технічних, але і організаційно-методичних рішень.

Крім того, виникає масове дублювання робіт, коли, скануючи одні і ті ж книги, бібліотеки вузів багато разів дублюють роботу. При цьому дублювання іноді буває вимушеним: грубе порушення авторських прав не дозволяє бібліотекам виставляти накопичені ресурси зовні, вони надаються у внутрішній мережі або на CD-ROM тільки цільовим користувачам цієї бібліотеки. Складається парадоксальна ситуація, коли в століття цифрових технологій при створенні цифрових бібліотек використовується принцип накопичення, типового для традиційних бібліотек замість принципу надання доступу, характерного для мережевих технологій.…


На перший погляд процес переводу документів у цифровий формат здається досить простою справою, оскільки, для створення цифрової копії друкованого документу досить мати недорогий комп'ютер і сканер зі стандартним програмним забезпеченням. Однак, коли доводиться враховувати такі питання, як якість кінцевого зображення, формат, у якім воно зберігається, його опис, призначення й умови збереження, то дана процедура набуває набагато більш складного характеру.

Та сама поверхнева простота основного процесу може привести розробників політики й недосвідчених працівників до помилкової впевненості в тому, що програма переводу документів у цифровий формат здійснитися швидко й без особливих витрат. Вони не праві ні в тому, ні в іншому. Надання цифрових матеріалів кінцевим користувачам може проходити відносно прямолінійно, оскільки розвиток Інтернет і Всесвітньої Мережі забезпечило необхідний рівень інфраструктури, програмного забезпечення й технічних стандартів. І знову, незважаючи на ту легкість, з якою можна підключитися до Мережі, під поверхнею приховуються певні складності. Приміром, якщо планується не безкоштовно надавати доступ до зображень, то для збору доходів і захисту від порушників закону про право на інтелектуальну власність можуть знадобитися більш складне програмне забезпечення й заходи.

При підході до рішення створення ЦБ постає три основні групи питань які потребують вирішення. І в певній мірі це повинно бути ооночасним, комплексним. І ось це рішення я хочу продемонструвати на прикладі нашої бібліотеки. Дещо з певних пунктів вже зроблено, дещо в процесі впровадження а деякі пункти ми лише накреслюємо щоб бачити орієнтири руху.


  1. техніка;

  2. організаційно-методичні питання;

  3. програмне забезпечення.

Хоча це методологічно неправильно, але я почну з техніки і лише оглядово. Це пояснюється різницею між тим що є реально в світі і тим що ми можемо собі дозволити.


Цифрова бібліотека, достатньо дороге задоволення. Неможливо привести які-небудь узагальнені дані за вартістю оцифрування, тому що розцінки залежать від величезного числа різноманітних факторів, залучених у даний процесс, але левова частка припадає на техніку. По підрахунках, отриманих на основі огляду даних із усього світу, проведеного в 1999р., Гоулдом і Ебдоном (Gould and Ebdon), середня вартість процесу переводу в цифровий формат у розрахунку за сторінку склала US$7.72 (в інтервалі від US$0.12 до US$15), за книгу - US$70.66 (в інтервалі від US$28 до US$154) і за номер періодичного видання US$14 (в інтервалі від US$14 до US$14). [1] У документі з розцінками, складеному С. Таннером і Дж. Ломаксом-Смітом (S. Tanner and J. Lomax-Smith), також містяться корисні поради. Це матеріали 1999р. але до цього часу не втратили актуальності. [2]

Звичайно можливо обійтись і потужним сканером (але виникає проблема з оцифровкою старих видань і документів, які потребують бережливого поводження) або цифровим фотоапаратом (що потребує спеціальної конструкції для кріплення фотоапарата, монтажу освітлення і розміщення видання). І частіше в наших бібліотеках обходяться саме цими двома варіантами. А що ж пропонують нам нові технології?

Комплексне обладнання, яке включає спеціалізовані книжкові сканери, програмне забезпечення, освітлення, допоміжні пристрої - вартує починаючи з 10 тис. євро. Достатньо дорого. Проте і їх можливості вражають.

Такі сканери дозволяють без проблем обробляти "лицем доверху" книги практично будь-якої товщини й будь-якого формату. Спеціальне програмне забезпечення компенсує просторові перекручування, що виникають через те, що скануюча голівка перебуває на великій відстані від площини сторінки. Також компенсується кривизна вигину аркушів біля корінця книги. Система підсвічування книжкового сканера виключає поява темної смуги на згині сторінок, а також забезпечує рівномірне освітлення всього поля аркуша сканованого оригіналу. Палітурка й аркуші книг при скануванні на книжковому сканері не деформуються й не ушкоджуються. Додатково поставляються спеціальні тримачі книг, що не допускають розкриття палітурки більш, ніж на 120-150 градусів. Швидкість роботи – до 3 тис. сторінк за годину. Розміри - до А1, А0.


Однак, це обладнання відрізняється високою вартістю (від 25 тисяч євро), воно досить громіздке й чуттєве до зовнішніх факторів (наприклад, вібрація, умови освітленості в приміщенні), і його застосування, як правило, виправдане тільки при необхідності оцифровувати дуже великі обсяги матеріалу в бібліотеках, архівах, сховищах і т.п.

Серед спеціалізованих книжкових сканерів слід назвати слідуючи моделі Zeutschel OMNISCAN, Kodak Filemaster+, ЭЛАР ПланСкан та ін.

Посилання в Інтернеті:

ImageWare Bookeye

http://www.csoft.spb.ru/Product/Scan/Scan_Bookeye.htm

BookScannerandBookCopier

http://www.imageware.de/en/systems/

Bookcopy 5000 TT

http://www.zeutschel.de/produkte.html

i2S Land of Vision

http://www.4digitalbooks.com/

Більш простішим, на сьогоднішній день, рішенням є cистема для фотографування документів і книг DigCopy, яка призначена для автоматичного переводу масивів паперової інформації в цифрову форму з максимальною якістю при мінімальних витратах часу. Ця система є відносно недорогим, компактним і багатофункціональним рішенням, що дозволяє швидко і якісно провести фотозйомку різного паперового матеріалу, зберігши цифрові копії на жорсткому диску комп'ютера. Фотографування документів здійснюється цифровим фотоапаратом Olympus або Canon, установленому на штативі з освітлювачем. Повне керування всіма настроюваннями фотоапарата й автоматичне фотографування документів ведеться за допомогою програмного забезпечення inPhoto Capture. Орієнтована вартість від 1200 до 2000 тис євро в залежності від технічних параметрів. Єдина проблема – поставка сьогодні лише по Росії. http://www.akond.ru/digcopy.html

Слідуючи група питань – це підготовка методично-інструктивних матеріалів. Якщо на бібліографічний опис є стандарт, то на створення ЦБ у нас сьогодні таких речей немає. Кожна установа чи наприклад, якщо стоїть питання національних програм по оцифруванню культурної спадщини, підходить до цього питання індивідуально. В першу чергу вирішуються питання технічних параметрів та технології процесу, дотримання авторських прав.


В Науковій бібліотеці ЧНУ на сьогоднішній день підготовлено положення про Цифрову бібліотеку, яка являється складовою частину інформаційних ресурсів всього університету. Зокрема в положені розписана взаємодія Наукової бібліотеки, університетського видавництва та ГІТЦ (головного інформаційно-телекомунікаційного центру). Це також було спробою вирішити питання авторського права.

Крім положення наявні декілька методичних рішень стосовно технічних параметрів при процесі створення ЦБ. Є ідея на основі цих рішень, проаналізувавши досвід роботи інших бібліотек та інформаційних установ та власний практичний досвід підготувати узагальнені рекомендації техніко-технологічного характеру.

Для колег я рекомендую в першу чергу ознайомитись з матеріалами Проекту Европейской комиссии PULMAN-XT =Extending the European research Network for Public Libraries, Museums and Archives. ( Одне із завдань прокту - напрацювання єдиних стандартів інформаційних послуг в публічних бібліотеках) Розділ 3 цих матеріалів: Рекомендації при вирішенні технічних питань (технічні принципи). Даний проект розпочинався в 2001 році, але достатньо цікава інформація. В 2004 році вийшла книга „Публичные библиотеки в век цифровой информации: Рекомендации проекта PULMAN Европейской Комиссии”.

Проект „Американська пам’ять”=American Memory Бібліотеки Конгресу США. Рзглядаються питання авторського права, метаданих, сканування і перетворення

http://memory.loc.gov/ammem/about/techIn.html

Інститут музейних та бібліотечних послуг (США)

http://www.imls.gov/about/digitalCorner.asp

Зокрема тут є матеріал від Національної інформаційної організації стандартів – Керівництво для побудови добрих цифрових зібрань (приблизний переклад)

Numérisation du patrimoine culturel (Франція)=Цифрове кодування культурного спадку

http://www.culture.gouv.fr/culture/mrt/numerisation/index.htm


Основні етапи і завдання проектів переводу матеріалів в цифровий формат. А також конкретний приклад по переводу в цифровий формат матеріалів бібліотеки м.Ліон, а також опис як вони здійснювались. http://www.addnb.org/fr/docs/numproj.htm

Програма по переводу в цифровий формат Фонду нових можливостей і її технічні стандарти і рекомендації (Великобританія) http://www.ukoln.ac.uk/nof/support/manual/

Перевод в цифровий формат: питання переводу в цифровий формат для публічних бібліотек http://www.ukoln.ac.uk/public/earl/issuepapers/digitisation.htm

І ще один ресурс який можливо віднести і до даної групи питань і до наступної – Створення книг в електронному вигляді із паперових книг http://www.djvu-soft.narod.ru/. Тут також наявні рекомендації стосовно технічних параметрів при оцифровці, але сам сайт присвячено програмі DjVu (ДежаВю). Дана програма, разом з Acrobat Reader (формат pdf) є найбільш використовуваними при створенні цифрових бібліотек.

І ми переходимо до останньої групи – програмне забезпечення. Дана група слід поділити на дві частини – програми для використання і програми для створення (обробки оцифрованих документів).

По першій підгруппі слід назвати, навіть не програму а інструмент, DigiTool (управління цифровими активами) компанії ExLibris.

Інший варіант бачимо на прикладі програми ИРБИС, розробки ДПНТБ Росії, де до бібліографічного опису в електронному каталозі прикріплюється посилання на цифрову версію документу. Крім того з’явився новий АРМ – „Повнотекстові бази даних”. Звичайно про можливості цих інструментів краще розказали б розробники.


Існує ряд безкоштовних (з відкритим кодом) програм-інструментів по роботі з цифровими матеріалами.

DSpace –новітня електронна система зберігання даних, яка фіксує, зберігає, індексує, зберігає та перерозподіляє наукові дані організації. Dspace є спільним продуктом MIT Libraries та  Hewlett-packard Labs і служить для вирішення ряду завдань по електронній архівації, таких як створення сховищ на базі будь-яких установ, а також сховищ освітніх ресурсів, зберігання в електронному вигляді, електронний оперативний облік, видавнича справа та ін. http://www.dspace.org/

EPrints від Саусхемптонського університету. Аналогічна за можливостями система цифрового репозитарію, але вона базується на більш стандартному ланцюжку: MySQL+Apachi+PHP. EPrints - одна із найбільш поширеніших систем, яка використовується для формування і управління відкритими архівами і призначена для створення архівів наукових досліджень з різноманітними інформаційними ресурсами (наукові статті, звіти, дисертації, монографії, матеріали конференцій, дані результатів експериментів та спостережень і т.п.). http://www.eprints.org/

Greenstone – Програмне забезпечення сервера цифрової бібліотеки http://www.greenstone.org/. Система забезпечує пошук з попереднім індексуванням по документам всіх популярних форматів, і перш за все doc і pdf, які можуть бути представлені в заархівованому вигляді. Система створює каталог документів, конвертує їх в xml-формат а потім забезпечує віддалений доступ до бібліотеки посередництвом браузера. В Україні з цією програмою працює Інститут програмних систем НАН України.

І друга підгрупа - програми для обробки зображень. Ми створюємо цифрові, можливо поки не бібліотеки, а колекції, але робота триває. Звичайно виникає потреба в програмах для обробки цифрових зображень, конвертування у зручні форматі.


Кінцевим продуктом процесу оцифровки є зображення, або інший інформаційний об'єкт у цифровому форматі. Однак, використовується безліч різних форматів і вибір необхідного виду повинен здійснюватися з особливою старанністю. Візьміть до уваги, що звичайно є дві копії, основний екземпляр і користувацький, і дуже часто буває доречним зберігати їх на носіях різних форматів.

Звичайно для процесу оцифрування використовуються наступні формати, це формати графіки: TIFF (для високоякісних первісних екземплярів), JPEG або GIF (для користувацьких екземплярів), але слід враховувати, що в кожного формату існують і свої версії. У процесі діяльності необхідно враховувати критерії, які можна знайти в джерелах.[3]

А в цифрових бібліотеках основними форматами документів є, як вже згадувалось, pdf та djvu. Вище було посилання на сайт, де знаходятиться початкова необхідна інформація.

Для обробки зображень можемо назвати дві основні програми: платна Adobe Photoshop та безкоштовна ACDSee ( це як приклад, звичайно їх більше). Але нам потрібна программа обробки зображень для текстів. І є потреба автоматизувати цей прцес, в певній мірі трохи монотонний і рутинний

ScanKromsator – автоматичний оброблювач зображень. Містить у собі безліч функціональних можливостей, таких як очищення чорних смуг, чищення фону, розбивка на дві сторінки, автоматична компенсація нахилу сторінки, автоматичний і ручний розрахунок полів сторінки й зрозуміло, збереження настроювань для черги, поворот і всіляка обробка, конвертування форматів зображень. Ідеальний для обробки зображень до їхнього перевоту в формат djvu. http://www.djvu-soft.narod.ru/kromsator/

Більш детально – основні можливості.

• конвертація формату й DPI зображень;

• розворот зображень на 90, –90, 180 градусів;

• автоматичне виправлення нахилу сторінок;


• розрізування розворотів сторінок на дві окремі сторінки;

• автоматичне визначення ширини книги й приведення розмірів усіх її сторінок до єдиного

значення, автоматичне виправлення полів сторінок;

• прибирання зайвих або "брудних" полів;

• прибирання чорних смуг на розвороті сторінок;

• напівавтоматичне чищення чорних смуг (як правило, на розвороті), що "налазять" на текст;

• гнучкі правила найменування вихідних файлів (додавання префікса, нумерація із кроком, нумерація починаючи з певного значення);

• smart- сортування імен вихідних файлів: правильно розташує файли типу [xxx]1.tif, [xxx]1[x].tif, [xxx]2.tif, …, [xxx]100.tif, … де [xxx] – довільний опційний префікс, [x] – довільний опційний однобуквений суфікс;

• висока швидкість обробки: від 7 (600dpi – вихідний, 300dpi – кінцевий) до 30 (300dpi-300dpi) розворотів сторінок за хвилину. (Дані для P-IV-2400).

Програма працює в пакетному режимі, але з повною візуалізацією вихідного й кінцевого результатів. Процес обробки проходить у два етапи: на першому етапі користувач формує завдання: задає для кожної станиці або цілої групи сторінок певне правило обробки. На другому етапі відбувається властиво сама обробка зображень відповідно до побудованих правил.

Процес складання завдання повністю інтерактивний і візуальний. Завдання можна зберігати у файл для повторного використання або коректування. Після завершення обробки завдання користувач має можливість відразу переглянути результат, звірити його з оригіналом, і при необхідності повернутися до завдання й відредагувати його правила, цілком, або для будь-яких вибіркових сторінок.

Бібліографічний список

1."IFLA/UNESCO Survey on Digitisation and Preservation", compiled and edited by Sara Gould and Richard Ebdon under the direction of Marie-Thérèse Varlamoff. International Preservation Issues, No 2, 1999 - http://portal.unesco.org/

2.Tanner and J. Lomax-Smith “Digitisation: How much does it really cost?” http://heds.herts.ac.uk/resources/papers/drh99.pdf