Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - Alfizik

Страницы: 1 [2]
16
monday2000

1.
Цитировать
Но ведь это же, насколько я понимаю, кратное увеличение - в 2, 4 и т.д. раз.
Для hqnx да, для других затрудняюсь ответить, не вникал.

Конечно ограничение на увеличение только в целое число раз, ограничивает применение данных алгоритмов, но не делает их неприменимыми совсем. Зачастую задача при обработке сырых сканов и лежит в увеличении изображения в целое число раз (обычно в 2 раза).

Сканируют ведь в основном в 300 dpi, а в CK и СT чаще всего потом приводят их к 600 dpi. Насколько я понимаю делается это увеличением изображения в 2 раза (?).

Понятно, что для сфотографированных изображений данные алгоритмы не подойдут, хотя вполне возможно оправдает себя двухстадийная методика.
Объясню, допустим у нас есть фотографии в 257 dpi, вполне возможно их обычными алгоритмами (бикубическим или каким то подобным (я просто не в курсе какие алгоритмы используются в CK и СT)) привести к округленному значению (в данном случае к 300 dpi), а уж затем воспользоваться целочисленными алгоритмами (hqnx и т.п.) и довести изображения до 600 dpi.

Вполне вероятно, что такой двухстадийный подход даст качество более высокое чем однократное увеличение сразу в 600 dpi обычными алгоритмами (бикубическими и т.п.).

P.S.
Буду благодарен если просветите какие алгоритмы для увеличения используются в CK и СT.

2.
Цитировать
Например, Geniune Fractals

Не факт что Geniune Fractals даст хороший результат для битональных изображений с четкими границами (буквы). Все таки Geniune Fractals как мне кажется заточен для полноцветных изображений без резких переходов (пейзажи и т.д.).   

17
monday2000, Вы представляете сколько все это будет стоить? И какого размера будет? Все это экзотика, и не то что для домашнего, а даже для библиотечного дела не подходит.
Применение такой техники оправдано только для рассыпающихся документов возраст которых исчисляется тысячелетиями.
И если с буквами допустим такой сканер и будет справляться быстро (если прогресс действительно в этом деле преуспел), то на иллюстрации застрянет на долго.

Какой смысл бить из пушки по воробьям...

18
Право не знаю, уместен данный пост в этой теме или его надо в другую тему перенести, это уже на усмотрение модерации.

Прочитал в Википедии весьма любопытную статью про масштабирование растровой графики - http://ru.wikipedia.org/wiki/Масштабирование

Обратили на себя примеры увеличения ч\б текста разными алгоритмами. Особенно впечатлил алгоритм hq2x даже по сравнению с бикубической интерполяцией.

Цитировать
Для увеличения малоцветных изображений в малом разрешении лучше всего подходят специальные алгоритмы, разработанные для компьютерной графики (т.н. „pixel art“), позволяющие при незначительных искажениях точности прорисовки форм сохранить и подчеркнуть чёткие контуры и мелкие детали.

 
Слева бикубическое масштабирование, справа по алгоритму hq2x, разница налицо!

Исходное изображение:


Прошустрив интернет навскидку подобных алгоритмов оказалось не так уж и мало: EPX, Scale2x, Scale3x, AdvMAME2x, AdvMAME3x, Eagle, 2xSaI, Super 2xSaI, Super Eagle, семейство hqnx (hq2x, hq3x и hq4x).

О семействе hqnx можно почитать тут:
- http://ru.wikipedia.org/wiki/Алгоритмы_масштабирования_пиксельной_графики
- http://web.archive.org/web/20080208215126/http://www.hiend3d.com/hq3x.html

О Scale2x тут - http://scale2x.sourceforge.net/index.html

Имхо перспективные алгоритмы, кто, что думает?

19
2. Томограф. Это я сам придумал - "книжный томограф".  :) Сканирование страниц книги, даже не раскрывая её.

Статья:

Терагерцевый луч позволит прочесть закрытую книгу

http://www.membrana.ru/print.html?1014918840

Очень интересная и перспективная информация. Надо же - а я тоже, независимо от них, ещё несколько лет назад пришёл к идее терагерцевого сканнера для книг.

Потому что это самая изящная идея в плане техники сканирования: она устраняет необходимость перелистывать книгу в процессе сканирования.

В одном из номеров журнала ЮныйТехник 80-х годов была краткая заметка о созданном советскими ученными установки позволяющей используя радиоволны читать книг не открывая их. Говорилось, что установка была создана для археологов, так как древние тексты бывают рассыпаются если их попытаться пролистать.
Правда упоминался и недостаток, на "прочтение" одного символа уходит несколько минут.
Думаю с тех пор ничего принципиально нового не придумали, так что подобные "томографы" не для обычного применения, слишком медленно.

20
Общий / Re: Сканирование фотоаппаратом
« : 30 ЅЮпСам 2010, 17:37:59 »
Фотоаппараты бытовые сейчас, если не ошибаюсь, уже по 10 МПикс вполне доступны.
И даже 12 Мп. А через год еще что нибудь придумают.

Подстветка - надо делать специально, видимо, какую-то равномерную.
В приведенных мной выше ссылках на различные методики этот вопрос достаточно просто решается - использованием двух источников света по бокам от книги (например обычные бытовые настольные лампы). Рекомендуют также чтобы в качестве источников света использовались ЛДС (лампы дневного света), так как лампы накаливания дают желтоватый оттенок (но это наверное лечиться балансом белого и вообщем не смертельно). Да и с появлением энергосберегающих ламп (компактные ЛДС) имхо проблем с подходящим освещением теперь вообще нету.

А так из общих рекомендаций по фотосканированию:
- использовать камеру с разрешением не ниже 4 Мп (чем больше тем лучше);
- отключение фотовспышки (иначе будут блики);
- равномерный яркий свет (снимать или возле окна или используя две настольные лампы);
- при использовании ламп оптимальный угол падения света около 45° (чтоб не было бликов и теней);
- чем более ярким будет свет, тем более контрастным получится изображение, рекомендуют 40-60 Вт (чем больше контрастность тем лучше);
- ISO порядка 600-800;
- выбирать число диафрагмы побольше (увеличивает глубину резкости и это уменьшает ошибки в настройках резкости);
- выдержка в пределах ½ - ¼ секунды при использовании штатива, при съемке без штатива (с рук) следует выбирать выдержку меньшую, но не не менее 1/30 секунды (при больших выдержках при съемке с рук будет наблюдаться смазывание, а при слишком маленькой выдержке упадет яркость и контрастность).
- формат снимков предпочтительно RAW или иной, не использующий сжатие с потерей качества;
- если света не хватает (низкая яркость и контрастность) поиграйтесь вручную с параметрами диафрагма / ISO;
- если белая бумага на снимках приобретает цветные оттенки подберите баланс белого вручную.
 

21
Общий / Re: Сканирование фотоаппаратом
« : 30 ЅЮпСам 2010, 16:57:02 »
monday2000
Спасибо :)

Думаю в профессиональных планетарных сканерах используются непростые камеры (явно не мыльницы), да и встроенный в них процессор\микроконтроллер использует заточенные под книги алгоритмы обработки RAW-ов. Поэтому и результат может быть лучше.

Думаю у большинства любителей домашние камеры не профессиональные зеркалки, а скорее всякие цифромыльницы. Хотя оптимизм в этом вопросе все же есть.
Так например в  некоторых цифромыльницах среди прочих присутствует такой сюжетный режим съемки как документы\текст (например Olympus FE-350, FE-310 и другие FE). Имхо наличие такого сюжетного режима очень упрощает фотсканирование, не надо возиться с подбором оптимальных настроек - одним нажатием выбрал режим и все остальное за тебя сделает автоматика ;)
Да и технологии не стоят на месте, год от года растут мегапиксили в мыльницах и улучшается их оптика (уже в прошлом году мыльницу меньше 6 Мп было не возможно найти, подавляющее разрешение было 8 Мп), а сейчас уже и мобильники с 5 Мп камерами есть ::)

Так что тенденция очень оптимистична :) 

22
Общий / Сканирование фотоаппаратом
« : 30 ЅЮпСам 2010, 12:19:04 »
Лирическое вступление
Да я знаю, что в большинстве случаев фотоаппарат хуже сканера, и почти всегда, когда есть возможность пользоваться сканером лучше пользоваться им, чем фотоаппаратом.
Но наш мир далек от идеала - не всегда сканер бывает под рукой, а иногда другой возможности кроме как воспользоваться фотоаппаратом нету, например читальный зал библиотеки, формат источника больше А4 и др.  :(

И уж если бывают случаи использования фотоаппарата, то было бы упущением не обсудить этот вопрос с целью выработать (найти) методы и приемы использования фотоаппарата для сканирования, дающие приемлемые, а возможно и хорошие результаты.  ;)

Глупо по одиночке изобретать велосипед и наступать на одни и те же грабли.

Конкретика
Порывшись в сети я довольно быстро нашел неплохие советы и методы:

  • Статья. Изготовление электронных книг при помощи фотоаппарата - http://evil-punker.livejournal.com/138488.html

    Хорошая, толковая методика, содержит целый ряд ключевых (т.е. имеет смысл взять за основу) приемов и много полезных советов.

    Достоинство данной методики:
    - устранены или во всяком случае сведены к минимуму геометрические искажения страниц;
    - обеспечивает отсутствие черных полос на разворотах.

    Недостатки:
    - имхо неудобная возня со стеклом (применимо только в домашних условиях, библиотека отпадает).

  • Изготовление электронных книг при помощи фотоаппарата - http://www.infanata.org/news/1146100271-izgotovlenie-jelektronnykh-knig-pri-pomoshhi.html

    Та же самая статья на infanata.

  • Как превратить фотоаппарат в сканер, и переснимать документы? - http://subscribe.ru/archive/culture.photo.fotokazdomu/200911/01185752.html

    Имхо излишне оптимистическая статья, но тем не менее описанная в ней методика содержит ряд полезных приемов.

    Достоинство данной методики:
    - воспользоваться описанной методикой можно где угодно, нет особенных условий, кроме наличия самого фотоаппарата. Подходит для читального зала и т.п. 

    Недостатки:
    - множество (например, геометрические искажения страниц и т. д и т.п.).

  • Цифровая фотокамера вместо сканера - http://www.compress.ru/article.aspx?id=11876&iid=461

    Мнение профессионалов, статья содержит ряд полезных приемов и фактов, в частности дано обоснование, почему камера должна быть не ниже 4 Мп.

    Также приведена имхо полезная табличка - Изменение значений разрешающей способности результирующего изображения (в ppi — количестве пикселов на дюйм) в зависимости от разрешения сенсора камеры и физического размера оригинала.

  • Как самому сделать сканер для книг? - http://iblog.net.ua/2009/10/14/kak-samomu-sdelat-skaner-dlya-knig/

    Архи полезная статья! Пошагово с иллюстрациями описывается, как относительно просто и быстро сделать специальный штатив ("заточенный" под оцифровку книг) для фотоаппарата.

    Имхо от этого описания имеет смысл отталкиваться конструируя свой штатив.

    Достоинство данного штатива:
    - легкая и разборная конструкция;
    - компактен в разобранном виде (да и в собранном виде не очень велик);
    - быстро собирается\разбирается;
    - в связи с выше приведенными достоинствами, им можно легко воспользоваться где угодно (например в читальном зале).

Софт
Нашел весьма интересную программу для обработки (и исправления) сфотографированных документов - Cam to Scan v 1.0 - http://www.cam-to-scan.com/en/index.html, сам пока еще не юзал, некогда.

Краткое описание:
Цитировать
Это очень удобная и понятная программа для оптимизации сфотографированных документов, изображений и исправления искажений на снимках. Фотографии документов и бумаг часто бывают искажены и всегда выглядят слишком темными. Cam to Scan выравнивает документ и возвращает ему первоначальную прямоугольную форму и оптимизирует яркость.
C Cam to Scan v 1.0 Вы также сможете получить изображение слишком больших документов или таких, которые нельзя отсканировать стандартными способами. Используя программу Cam to Scan вы сможете исправить перспективное искажение (трапецеидальное искажение) и искажение объектива.
Подробности со скриншотами - http://www.cam-to-scan.com/en/press_images.html


P.S.
Обзор методик из интернета думаю продолжить в ближайшее время. Так что продолжение следует...

23
Общий / Re: Каталогизация DjVu книг
« : 16 јРав 2010, 17:21:26 »
monday2000, так я запутался в какую тему теперь писать (в эту или в  Система именования и метаданных DjVu ) соображения и информацию о кодах УДК, ББК и др. системах классификации? 

24
Общий / Re: Каталогизация DjVu книг
« : 12 јРав 2010, 17:43:08 »
Идея прекрасная! Я просто не успеваю комментировать посты, сразу.

Я тоже про это думал, но такая компактная и удобная форма записи мне не приходила в голову.

Насчет системы оценки качества DjVu думаю стоит создать отдельную тему, так как вопрос довольно обширен. Пока отпишусь здесь.

Качество можно оценивать по объективным и субъективным критериям.

Объективные.

1. dpi
Обычно это 300 и 600, хотя встречается еще хотя и реже 450 (400). Также бывают случаи когда мне попадались книги и с 200 и даже 150 dpi (руки отрывать надо). Слышал, что иногда бывают книги с разрешением и выше 600 (О_о но не слишком ли это?).

Имхо, тогда оценивать можно по следующей системе (ввести несколько разрядов): 1 - ниже 300 dpi; 2 - 300 dpi; 3 - 450 (400) dpi; 4 - 600 dpi и 5 - выше 600 dpi. Возможно есть смысл  добавить и больше разрядов (короче требует обсуждения). 

Если вдруг попадется книга с разрешением между 300 и 600, но не совпадающее со значением: 300, 450/400 или 600, то тогда округлить значение dpi до ближайшего предусмотренного. Например книга имеет разрешение 500 dpi, ближайшее из выше приведенной системы это 450 dpi, относим книгу к 3 разряду.

2.цвет книги
ч\б, отенки серого, цветная, малоцветная (менее 16, 8 или 4 цветов).
Наверняка там есть различные нюансы. Например если илюстрации в книге "газетного типа" (из множества точек), то следует учитывать как их обрабатывали/приводили к определенному виду?

Различать ли какую методику применяли для битонизации (приведение к ч\б )?

Убирали ли фон и приводили ли его к белому?

Еще слышал можно обложку книги по разному обрабатывать.

И т.д.

3. Deskew

4. Искривление строк

5. Наличие черных полос на разворотах.

6. Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.

7. Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле

8. Есть ли OCR-слой

9. Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.

10. Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.

x. И наверное еще пункты есть И т.д. и т.п.



Субъективные

1. Размыты буквы или нет (насколько они четкие), не слипшиеся они между собой? (или это можно отнести к объективным критериям, хм?)

2. Качество иллюстраций

3. Че то у меня полет мысли закончился, но точно тут еще пункты должны быть: "x. И наверное еще пункты есть и т.д. и т.п."       

25
Общий / Re: Каталогизация DjVu книг
« : 12 јРав 2010, 15:31:17 »
monday2000, мне кажется, что не хватает еще одного пункта.
Цитировать
2. Какую бы программу-каталогизатор использовать. Такая программа должна обладать как минимум следующими свойствами:
г. уметь проводить поиск DjVu-книг по XMP-метаданным.

26
Общий / Re: Каталогизация DjVu книг
« : 12 јРав 2010, 15:19:39 »
monday2000, вопрос немного не по теме.
Цитировать
Я тоже полностью с Вами согласен (кто не знает - такой подход предлагает DjVuOCR).
Я использую DjVuOCR для внедрения текстового слоя в DjVu, оптимальна ли DjVuOCR для этого или другие программы дают лучьший результат (читал о Document Express Editor и Document Express Enterprise с IRIS OCR)?


Теперь по теме

Цитировать
Тоже не очень хотелось бы - т.к. это коммерческая программа. Надо бы по-возможности стремиться исключительно к бесплатным программам.
Полностью согласен!

Насчет поиска в текстовом слое, такие программы как:

- Google Desktop Search + DjVu Indexer Plugin или DjVu Plug-in

- Яндекс-Персональный поиск (desktop.yandex) + DjVu parser

- dtSearch + LizardTech DjVu iFilter.

Имеют на мой взгляд один недостаток - они являются индексирующими поисковиками. Поясню, дело в том, что на индексацию тратиться место (минимум 10% от индексируемой информации, а бывает, что и все 50%). Т.е. если мы имеем библиотеку на 80 Гб, то на размещение базы индексов уйдет где то 8 Гб. В итоге получается фактически тоже самое, что размещать рядом с DjVu-файлом txt-файла в zip архиве. Тайд или кипячение! )))
Один лишь плюс, мы сначала только один раз тратим много времени на индексацию, чтоб потом быстро производить поиск по базе индексов.

Имхо, индексирующие поисковики хороши для сетевых хранилищь, RAID-масивов и CD\DVD сборников, но не для домашних коллекций на персональном ПК. Для домашней коллекции все же предпочтительнее иметь не индексирующий поисковик, читающий текстовый слой напрямую из DjVu.

Правда в описании dtSearch вроде упоминается, что есть возможность поиска без индексации, но программа платная :(

Так что остаеться только DjVu IFilter v1.1 с поиском через стандартное средство Windows (Пуск ---> Поиск), но виндовский инструмент поиска, имхо еще тот поиск :(

Не разобрался пока еще, что из себя представляет JSSINDEX, но судя по названию похоже это тоже индексируемый поисковик.

27
Общий / Re: Каталогизация DjVu книг
« : 11 јРав 2010, 18:18:00 »
Цитировать
По этому вопросу пока затрудняюсь что-то сказать конкрентное. Хотя сразу же ясно - ни Excel, ни Access тут не подойдут - т.к. они являются коммерческими программами.
Коммерция это зло, однозначно. Но в принципе есть аналоги из мира Open Source, например OpenOffice и т.п.

Цитировать
Может быть, следует даже сделать специальную самодельную программу для эт их целей (с возможностью экспорта в Excel).
Вот об этом я и думал когда создавал данную тему. В идеале мне представляется программа которая бы именовала DjVu-книги по стандартизованной схеме, вела их учет (базу данных), умела редактировать и экспортировать в базу данных метаданные из DjVu и могла бы осуществлять полнотекстовый поиск по всей библиотеке (прямо в текстовом слое DjVu). Ну и раз я сказал: "учет (базу данных)", то ответственно обеспечивала бы поиск книг в базе по различным категориям (автору, названию, тематике, издательству, мета-тегу и т.п.). Эх, мечты, мечты ::)
 
Цитировать
По-моему, в этой области также существуют некие готовые бесплатные решения. Например, Greenstone http://ru.wikipedia.org/wiki/Greenstone
Подобных и похожих программ похоже много (каталогизаторы всякие и т.п.), судя по тому что я за пол часа понаходил в google, например смотрите CD Collection (http://www.nicomsoft.com/cdc_ru/) и пример применения данной программы по отношению к электронной библиотеке - http://pdfdjvu.narod.ru/index.html Красиво! Но не идеально :( 
Вообще все подобных и похожие программы на мой взгляд имеют те или иные недостатки, в особенности, что изначально при разработке их не ориентировали на работу с DjVu.

28
Общий / Re: Каталогизация DjVu книг
« : 11 јРав 2010, 16:52:13 »
Насчет NameCreator-а. Да, пожалуй он действительно не очень хорошо подходит для всех книг, тем более насколько мне известно "Колхоз" ориентирован на научные и технические книги.

Цитировать
Например, поле "Topic code" в NameCreator подразумевает введение неких коротких кодов, принятых в библиотеке "Колхоз". Эти коды означают конкретную область знания, к которой относится данная книга.
Хм, незнал (все думал че за "Topic code"). Чем то похоже на класификацию ББК и УДК (см. википедию).

Цитировать
Пожалуй, нам следует либо коллективно разработать некий свой стандарт описания DjVu-книги, либо подобрать какой-то подходящий из существующих. Т.е. никто нас не заставляет насильно использовать именно NameCreator и колхозную схему именования книг - мы можем придумать что-нибудь более универсальное.
Да было бы неплохо. Добавлю пока лишь свои замечания по данному поводу.

1. Если подбирать какой-нибудь из существующих стандартов, то наверняка ни один из них не подойдет полностью. Будет или недостаточно информативен, или недостаточно универсален или в конце концов непонятен рядовому пользователю эл. книг. Хотя это конечно не значить, что не стоит попытаться, возможно все окажется не так пессимистично как я предположил.

2. Если разработать свой стандарт, то возникнет проблема другого рода, как его донести (даже точнее навязать) до конечных пользователей. Иначе если им не будут пользоваться, то теряется весь смысл стандарта. Впрочем данная проблема касается и случая если будет выбран какой либо из уже существующих стандартов.   

Цитировать
Для начала давайте глянем в сторону ISBN: http://ru.wikipedia.org/wiki/ISBN . Правда, не совсем ясно, что делать со старями советскими книгами - есть ли для них ISBN?
Т.е. Вы предлагаетет именовать DjVu-файлы кодами ISBN (пример: ISBN 972-3-16-148410-0.djvu или ISBN 9723161484100.djvu), я вас правильно понял?

Если да, то есть ряд ограничений:

- как вы заметили не все книги имеют ISBN (например старые или издателство не присоединено к системе ISBN)

- если книга "самиздат" то тоже не выйдет, так как идентификаторы изданиям присваивают национальные агентства в области международной стандартной нумерации книг и только они.

Плюс, имхо такая система именования как по мне хороша только для создателя эл. библиотеки (в целях управления ею), но не для пользователя библиотекой (хотя это субъективное мнение и я могу ошибаться).

29
Общий / Re: Каталогизация DjVu книг
« : 11 јРав 2010, 15:19:50 »
Насчет ExifTool насколько я понял относительно DjVu она может только прочесть метаданные, изменить или добавить их с помощью данной программы не получиться.

Подробнее смотрите таблицу - http://www.sno.phy.queensu.ca/~phil/exiftool/#top

File Type      |   Support    |   Description
======================================
DJVU, DJV    |       R       |   DjVu image (AIFF-like)


Зато прояснился немного вопрос с метаданными в DjVu, точнее с мета-тегами (Ура!!!) :) Смотрите здесь - http://www.sno.phy.queensu.ca/~phil/exiftool/TagNames/DjVu.html

Привожу перевод (возможны неточности):
Цитировать
DjVu мета-теги

В этой таблице перечислены стандартные метаданные DjVu тегов, но ExifTool будет извлекать любые теги, которые существуют даже если они не перечислены здесь. DjVu v3 документации поддерживает теги заимствованные из двух стандартов: 1) BibTeX библиографическая система  тегов (все строчные теги ID в таблице ниже), и 2) PDF DocInfo теги (заглавные тега ID's).

Тег ID                         Имя тега      Записываемые    Ценности / Notes
'Автор'                Автор                            N    
'CreationDate'     CreateDate                N    
'Creator'                Создателем                N    
"Ключевые слова"    Ключевые слова          N    
'ModDate'                ModifyDate                N    
'Производитель'    Производитель    N    
'Тема'                            Тема                            N    
'Название'                Название                N    
'Trapped'                Trapped                N    
'адрес'                 Адрес                            N    
'annoté'                 Аннотация                N    
'Автор'                 Автор                     N    
'booktitle'                 BookTitle                 N    
'глава'                          Глава                            N    
'CrossRef'                CrossRef                N    
'Edition'                Edition                            N    
'Eprint'                            Eprint                            N    
'howpublished'    HowPublished                 N    
'учреждение'                Учреждение                N    
'Журнал'                Журнал                N    
'ключ'                            Ключ                            N    
'месяц'                Месяц                            N    
'Примечание'                Примечание                 N    
'число'                            Номер                            N    
"организация"    Организация                N    
'Страницы'               Страницы                N    
'издателя                Издатель                N    
'школа'                Школа                            N    
'Серия'                Серии                            N    
'Название'                Название                N    
'Type'                            Печатать                N    
'URL'                            URL                            N    
"Том"                           Том                            N    
'год'                            Год                            N    

Признаться такого разнообразия тегов я и не ожидал, можно сказать предел мечтаний :) Да осталось только разобраться как добавлять теги в DjVu-файлы и считывать их (а также осуществлять поиск нужных книг по ним в эл. библиотеке).

Цитировать
Кроме того, в WinDjView нужно бы добавить просмотр/редактирование XMP-данных.
Да это было бы просто замечательно! Интересно разработчики смогут это осуществить? Думаю в WinDjView достаточно было бы и функции просмотра метаданных, а создание и изменение оставить за другими программами. 

30
Общий / Каталогизация DjVu книг
« : 09 јРав 2010, 17:17:21 »
Уважаемые участники форума предлагаю обсудить вопрос каталогизации DjVu книг.

На мой взгляд не освещенность данного вопрос, создает большие трудности и неудобства всем кто пользуется электронными книгами, а также собирает\ведет электронные библиотеки. Как по мне данный вопрос давно уже стал проблемой и значительно сдерживает полноценное развитие электронных коллекций и поиск необходимых книг (и статей из книг) в этих самых коллекциях (как частных так и общедоступных в интернете).

Прежде всего хочу определиться с терминологией. Под каталогизацией DjVu книг я понимаю создание и ведение базы данных о книгах (и их содержании) хранящихся в электронной библиотеке (коллекции), с целью быстрого и желательно автоматизированного поиска конкретных книг и более того с возможностью текстового поиска по содержимому книг (!).

Теперь непосредственно по существу вопроса. Насколько мне известно возможности по каталогизации в настоящее время не очень широкие (и соответственно не очень удобные):

1. это именование книг по стандартизованной схеме (например NameCreator-ом);

Пример.

Ivanov I.I., Petrov P.P. Bibliotechnoe delo dlya chajnikov (2e izd., Moskva, 2001)(ru)(T)(C)(K)(300dpi)(250s)

2. ведение базы данных в Excel или Access;

3. для полнотекстового поиска по библиотеке хранение OCR-слоя из DjVu книги отдельным txt файлом сжатым в zip архив рядом с DjVu-книгой.

Теперь несколько подробнее по выше перечисленным пунктам.

1. именование по какой либо стандартизованной системе в том числе и NameCreator-ом как по мне не совершенный и временный (за неимением лучшего) метод. Так как запихивание (по другому и не назовешь) всей информации о книге в название DjVu файла делает его (название) через чур длинным и от того неудобным, плюс ограничение на длину имени файла (255 символов), что для именования некоторых книг может оказаться недостаточным.
Хотя должен признать в любом случае именование по стандартизованной системе гораздо информативнее и удобнее, чем названия из серии: Radio.djvu, Шапошников.djvu, tel_lub_astr.djvu или Prakt_shemotehnika_1.djvu и т.п.

На мой взгляд полным и наиболее удобным решением данной проблемы было бы ведение в формат DjVu метаданных, как это сделано например в PDF, DOC или MP3 (теги), посмотрите в википедии например стандарты: EXIF, IPTC и XMP. Тогда бы все стало просто и очевидно, да и поиск нужных книг происходил бы удобно и просто, причем сам поиск можно было бы осуществлять по самым различным запросам и категориям, как и сортировку книг.
Очевидно есть два пути или ждать пока разработчики DjVu формата (Caminova или кто там уже?) сами придут к такой необходимости и добавят стандарт на метаданные в DjVu или разработать и самому встроить их в формат DjVu (если конечно DjVu достаточно открытый формат и не возникнут различные технические проблемы).

3. Хранить OCR-слой отдельным txt файлом пусть даже сжатым в zip архив как по мне это лишнее дублирование данных и трата места. Слышал есть некая программа Archivarius по отзывам вроде как единственная нормальная программа для поиска в текстовом слое DjVu, если она действительно нормально это делает это значительно упрощает поиск по всей библиотеке :)

Пока все, прошу к обсуждению.

Страницы: 1 [2]