Автор Тема: Каталогизация DjVu книг  (Прочитано 84799 раз)

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #15 : 12 јРав 2010, 15:19:39 »
monday2000, вопрос немного не по теме.
Цитировать
Я тоже полностью с Вами согласен (кто не знает - такой подход предлагает DjVuOCR).
Я использую DjVuOCR для внедрения текстового слоя в DjVu, оптимальна ли DjVuOCR для этого или другие программы дают лучьший результат (читал о Document Express Editor и Document Express Enterprise с IRIS OCR)?


Теперь по теме

Цитировать
Тоже не очень хотелось бы - т.к. это коммерческая программа. Надо бы по-возможности стремиться исключительно к бесплатным программам.
Полностью согласен!

Насчет поиска в текстовом слое, такие программы как:

- Google Desktop Search + DjVu Indexer Plugin или DjVu Plug-in

- Яндекс-Персональный поиск (desktop.yandex) + DjVu parser

- dtSearch + LizardTech DjVu iFilter.

Имеют на мой взгляд один недостаток - они являются индексирующими поисковиками. Поясню, дело в том, что на индексацию тратиться место (минимум 10% от индексируемой информации, а бывает, что и все 50%). Т.е. если мы имеем библиотеку на 80 Гб, то на размещение базы индексов уйдет где то 8 Гб. В итоге получается фактически тоже самое, что размещать рядом с DjVu-файлом txt-файла в zip архиве. Тайд или кипячение! )))
Один лишь плюс, мы сначала только один раз тратим много времени на индексацию, чтоб потом быстро производить поиск по базе индексов.

Имхо, индексирующие поисковики хороши для сетевых хранилищь, RAID-масивов и CD\DVD сборников, но не для домашних коллекций на персональном ПК. Для домашней коллекции все же предпочтительнее иметь не индексирующий поисковик, читающий текстовый слой напрямую из DjVu.

Правда в описании dtSearch вроде упоминается, что есть возможность поиска без индексации, но программа платная :(

Так что остаеться только DjVu IFilter v1.1 с поиском через стандартное средство Windows (Пуск ---> Поиск), но виндовский инструмент поиска, имхо еще тот поиск :(

Не разобрался пока еще, что из себя представляет JSSINDEX, но судя по названию похоже это тоже индексируемый поисковик.

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #16 : 12 јРав 2010, 15:31:17 »
monday2000, мне кажется, что не хватает еще одного пункта.
Цитировать
2. Какую бы программу-каталогизатор использовать. Такая программа должна обладать как минимум следующими свойствами:
г. уметь проводить поиск DjVu-книг по XMP-метаданным.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #17 : 12 јРав 2010, 16:09:00 »
Alfizik
Цитировать
оптимальна ли DjVuOCR для этого или другие программы дают лучьший результат (читал о Document Express Editor и Document Express Enterprise с IRIS OCR)?
Да, это лучшее. IRIS OCR (в Document Express Enterprise) - общепризнана как некачественная.
Цитировать
Имеют на мой взгляд один недостаток - они являются индексирующими поисковиками.
Да, я знаю.
Цитировать
Для домашней коллекции все же предпочтительнее иметь не индексирующий поисковик, читающий текстовый слой напрямую из DjVu.
Само собой.

А что Вы думаете насчёт моей идеи об "идентификаторе качества" (4 hex-числа)? См. http://www.djvu-scan.ru/forum/index.php?topic=34.msg251#msg251
« Последнее редактирование: 12 јРав 2010, 16:12:18 от monday2000 »

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #18 : 12 јРав 2010, 17:43:08 »
Идея прекрасная! Я просто не успеваю комментировать посты, сразу.

Я тоже про это думал, но такая компактная и удобная форма записи мне не приходила в голову.

Насчет системы оценки качества DjVu думаю стоит создать отдельную тему, так как вопрос довольно обширен. Пока отпишусь здесь.

Качество можно оценивать по объективным и субъективным критериям.

Объективные.

1. dpi
Обычно это 300 и 600, хотя встречается еще хотя и реже 450 (400). Также бывают случаи когда мне попадались книги и с 200 и даже 150 dpi (руки отрывать надо). Слышал, что иногда бывают книги с разрешением и выше 600 (О_о но не слишком ли это?).

Имхо, тогда оценивать можно по следующей системе (ввести несколько разрядов): 1 - ниже 300 dpi; 2 - 300 dpi; 3 - 450 (400) dpi; 4 - 600 dpi и 5 - выше 600 dpi. Возможно есть смысл  добавить и больше разрядов (короче требует обсуждения). 

Если вдруг попадется книга с разрешением между 300 и 600, но не совпадающее со значением: 300, 450/400 или 600, то тогда округлить значение dpi до ближайшего предусмотренного. Например книга имеет разрешение 500 dpi, ближайшее из выше приведенной системы это 450 dpi, относим книгу к 3 разряду.

2.цвет книги
ч\б, отенки серого, цветная, малоцветная (менее 16, 8 или 4 цветов).
Наверняка там есть различные нюансы. Например если илюстрации в книге "газетного типа" (из множества точек), то следует учитывать как их обрабатывали/приводили к определенному виду?

Различать ли какую методику применяли для битонизации (приведение к ч\б )?

Убирали ли фон и приводили ли его к белому?

Еще слышал можно обложку книги по разному обрабатывать.

И т.д.

3. Deskew

4. Искривление строк

5. Наличие черных полос на разворотах.

6. Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.

7. Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле

8. Есть ли OCR-слой

9. Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.

10. Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.

x. И наверное еще пункты есть И т.д. и т.п.



Субъективные

1. Размыты буквы или нет (насколько они четкие), не слипшиеся они между собой? (или это можно отнести к объективным критериям, хм?)

2. Качество иллюстраций

3. Че то у меня полет мысли закончился, но точно тут еще пункты должны быть: "x. И наверное еще пункты есть и т.д. и т.п."       
« Последнее редактирование: 12 јРав 2010, 17:44:40 от Alfizik »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #19 : 12 јРав 2010, 18:29:34 »
Alfizik
Цитировать
Насчет системы оценки качества DjVu думаю стоит создать отдельную тему, так как вопрос довольно обширен.
Я тоже так подумал. Тему я создал - вот:

http://www.djvu-scan.ru/forum/index.php?topic=37.0

Давайте там подробнее обсудим этот и смежные вопросы.

А в этом топике (где я сейчас пишу) давайте продолжим обсуждение программ-каталогизаторов. Т.е. у нас теперь 2 топика, и как раз по схеме:
Цитировать
В общем, получается, что вся проблематика данного топика ИМХО укладывается в 2 глобальных направления:

1. Как именовать файлы DjVu-книг (плюс как, что и чем писать в XMP-метаданные DjVu-файла).

2. Какую бы программу-каталогизатор использовать. Такая программа должна обладать как минимум следующими свойствами:
« Последнее редактирование: 12 јРав 2010, 18:31:53 от monday2000 »

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #20 : 12 јРав 2010, 21:03:22 »
Я думаю над процедурой поиска дублей книг в DJVU. Если нет OCR подслоя  и если имеется ряд файлов с разным разрешением, разной обрезкой полей, разным качеством очистки от артефактов, можно ли найти что-то общее в этих файлах, или это как небо и земля?
Поясню идею. У меня есть мощная прога нейросетевого анализа данных. Если есть что-то, что можно классифицировать (распознать образ), прога четко сработает. Важно иметь материал, на котором можнор обучить нейросеть. Вот если у всех, вышеупомянутых файлов DJVU, есть много общего, то есть смысл применения нейросетевого анализа.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #21 : 12 јРав 2010, 23:20:06 »
Eugeen1948
Цитировать
можно ли найти что-то общее в этих файлах, или это как небо и земля?
Думаю, самое простое (из полностью автоматических решений) - это наладить процедуру автоматической пакетной вставки OCR-слоя во все эти книги. Например, вот это: http://alexrey036.narod.ru/ocrdjvu_v.1.0_alpha.html

На деле, естественно, в Вашем случае наиболее верно просто перебрать все книги вручную и сверить правильность соответствия "имя файла - название книги". Потому что автоматическая пакетная вставка OCR рискует протянуться до бесконечности. :)

Какие-то иные характерные признаки трудно придумать. Да и овчинка выделки не стоит. Быстрее руками перебрать - чем изобретать некие суперсложные способы сверки.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #22 : 13 јРав 2010, 12:02:45 »
Вот вроде бы топик, похожий по смыслу на данный, на форуме Library Genesis:

http://gen.lib.rus.ec/forum/viewtopic.php?f=3&t=546

P.S. ИМХО в вопросах каталогизации книг нужно советоваться с большими сетевыми библиотеками - вроде Library Genesis, потому что, к примеру, я лично (а, может, и многие другие), в основном что-либо понимаю только в технологиях создания DjVu-книг - а в вопросах их каталогизации я ничего не смыслю, т.к. никогда этим не занимался.

Т.е. я за то, чтобы координировать свои усилия совместно - с такими проектами, как, например, Library Genesis.

Зато, к примеру, я мог бы сделать какую-нибудь DjVu-программу - в соответствии с (возможными) рекомендациями от Library Genesis - в области DjVu-каталогизации (или близкой к ней).
« Последнее редактирование: 13 јРав 2010, 12:12:50 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #23 : 14 јРав 2010, 22:02:06 »
По поводу справочника УДК: http://www.djvu-scan.ru/forum/index.php?topic=34.msg254#msg254

Я думаю, что хорошо бы поставить цель каким-либо способом заиметь самый полный УДК-справочник, оцифровать его, и забить его данные в какую-нибудь программу (чтобы удобно было пользоваться). Пригодится. Задача "определить код области знания" может не раз возникнуть в нашем книгосканировочном деле - и тут пользоваться какими-то неполными УДК-справочниками на чьих-то чужих сайтах ИМХО явно ненадёжно.

Самое сложно тут - это где его взять (не покупать же его в самом деле). А оцифровать - желающие найдутся, вон целые словари бумажные для Lingvo оцифровывают же массово - а это тоже своего рода словарь.
« Последнее редактирование: 14 јРав 2010, 22:04:54 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #24 : 15 јРав 2010, 23:13:31 »
Интересные ссылки:

Регистрационные записи российской государственной библиотеки (РГБ)

http://rutracker.org/forum/viewtopic.php?t=1470611

К вопросу об автоматическом разборе и упорядочивании большого кол-ва литературы

http://rutracker.org/forum/viewtopic.php?t=2067127
« Последнее редактирование: 15 јРав 2010, 23:37:45 от monday2000 »

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #25 : 16 јРав 2010, 17:21:26 »
monday2000, так я запутался в какую тему теперь писать (в эту или в  Система именования и метаданных DjVu ) соображения и информацию о кодах УДК, ББК и др. системах классификации? 

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #26 : 17 јРав 2010, 14:48:17 »
Alfizik
Топик http://www.djvu-scan.ru/forum/index.php?topic=37.0 я задумал для разработки конкретной программы (работающей с DjVu), цель которой - генерировать имена для DjVu-файлов (+ одновременно XMP-метаданные). Я планирую делать такую программу. Коды УДК, ББК и пр. коды классификации в той программе использовать я не планирую  - т.к. явно пока это нереально (пока нет 100% ясности в отношении как их использовать).

2. Данный топик - пусть он остаётся для общих рассуждений относительно того, какие коды классификации бывают (УДК-ББК и пр.), как вообще и в частности можно классифицировать книги.

В принципе, это условное деление (по топикам) - особо на нём не настаиваю. Просто мне показалось, что так будет удобно (там - конкретика, тут - общие рассуждения).

Т.е. конечным итогом обсуждения в топике http://www.djvu-scan.ru/forum/index.php?topic=37.0 должна стать некая реальная программа.
« Последнее редактирование: 17 јРав 2010, 14:50:45 от monday2000 »

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #27 : 01 ЅЮпСам 2010, 21:45:21 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #28 : 02 ЅЮпСам 2010, 09:24:42 »
Eugeen1948
Цитировать
Заработал, наконец, форум:
http://gen.lib.rus.ec
Спасибо за информацию! Проснулись, наконец-таки. :)

Rezvan

  • Гость
Re: Каталогизация DjVu книг
« Ответ #29 : 15 ЅЮпСам 2010, 22:12:22 »
C интересом прочитал тему
Сам давно задумывался над этой проблемой.
Столкнулся с такой задачей - в названии книги очень часто встречаются символы, которые не должны входить в имя файла (система Windows). Например, двоеточие. Надо бы придумать систему их замены на что-то другое с возможностью восстановления. Может быть номер кода. А может упрощать название книги. Кто-нибудь решил для себя эту задачу?