Автор Тема: Каталогизация DjVu книг  (Прочитано 193763 раз)

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Каталогизация DjVu книг
« : 09 јРав 2010, 17:17:21 »
Уважаемые участники форума предлагаю обсудить вопрос каталогизации DjVu книг.

На мой взгляд не освещенность данного вопрос, создает большие трудности и неудобства всем кто пользуется электронными книгами, а также собирает\ведет электронные библиотеки. Как по мне данный вопрос давно уже стал проблемой и значительно сдерживает полноценное развитие электронных коллекций и поиск необходимых книг (и статей из книг) в этих самых коллекциях (как частных так и общедоступных в интернете).

Прежде всего хочу определиться с терминологией. Под каталогизацией DjVu книг я понимаю создание и ведение базы данных о книгах (и их содержании) хранящихся в электронной библиотеке (коллекции), с целью быстрого и желательно автоматизированного поиска конкретных книг и более того с возможностью текстового поиска по содержимому книг (!).

Теперь непосредственно по существу вопроса. Насколько мне известно возможности по каталогизации в настоящее время не очень широкие (и соответственно не очень удобные):

1. это именование книг по стандартизованной схеме (например NameCreator-ом);

Пример.

Ivanov I.I., Petrov P.P. Bibliotechnoe delo dlya chajnikov (2e izd., Moskva, 2001)(ru)(T)(C)(K)(300dpi)(250s)

2. ведение базы данных в Excel или Access;

3. для полнотекстового поиска по библиотеке хранение OCR-слоя из DjVu книги отдельным txt файлом сжатым в zip архив рядом с DjVu-книгой.

Теперь несколько подробнее по выше перечисленным пунктам.

1. именование по какой либо стандартизованной системе в том числе и NameCreator-ом как по мне не совершенный и временный (за неимением лучшего) метод. Так как запихивание (по другому и не назовешь) всей информации о книге в название DjVu файла делает его (название) через чур длинным и от того неудобным, плюс ограничение на длину имени файла (255 символов), что для именования некоторых книг может оказаться недостаточным.
Хотя должен признать в любом случае именование по стандартизованной системе гораздо информативнее и удобнее, чем названия из серии: Radio.djvu, Шапошников.djvu, tel_lub_astr.djvu или Prakt_shemotehnika_1.djvu и т.п.

На мой взгляд полным и наиболее удобным решением данной проблемы было бы ведение в формат DjVu метаданных, как это сделано например в PDF, DOC или MP3 (теги), посмотрите в википедии например стандарты: EXIF, IPTC и XMP. Тогда бы все стало просто и очевидно, да и поиск нужных книг происходил бы удобно и просто, причем сам поиск можно было бы осуществлять по самым различным запросам и категориям, как и сортировку книг.
Очевидно есть два пути или ждать пока разработчики DjVu формата (Caminova или кто там уже?) сами придут к такой необходимости и добавят стандарт на метаданные в DjVu или разработать и самому встроить их в формат DjVu (если конечно DjVu достаточно открытый формат и не возникнут различные технические проблемы).

3. Хранить OCR-слой отдельным txt файлом пусть даже сжатым в zip архив как по мне это лишнее дублирование данных и трата места. Слышал есть некая программа Archivarius по отзывам вроде как единственная нормальная программа для поиска в текстовом слое DjVu, если она действительно нормально это делает это значительно упрощает поиск по всей библиотеке :)

Пока все, прошу к обсуждению.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #1 : 11 јРав 2010, 11:38:27 »
Alfizik
Тема интересная и весьма обширная, спасибо за интерес.
Цитировать
1. это именование книг по стандартизованной схеме (например NameCreator-ом);
Как известно, эта схема была придумана для библиотеки "Колхоз". И программа NameCreator была создана "колхозником" и для "Колхоза".

Поэтому эта схема, возможно, не очень хороша для вообще всех книг. Схема описана тут: http://www.djvu-soft.narod.ru/soft/namecreator.htm . Например, поле "Topic code" в NameCreator подразумевает введение неких коротких кодов, принятых в библиотеке "Колхоз". Эти коды означают конкретную область знания, к которой относится данная книга.

Понятно, что такой код вряд ли годится для описания вообще любой произвольной книги - слишком уж будет неинформативно.

Пожалуй, нам следует либо коллективно разработать некий свой стандарт описания DjVu-книги, либо подобрать какой-то подходящий из существующих. Т.е. никто нас не заставляет насильно использовать именно NameCreator и колхозную схему именования книг - мы можем придумать что-нибудь более универсальное.

Для начала давайте глянем в сторону ISBN: http://ru.wikipedia.org/wiki/ISBN . Правда, не совсем ясно, что делать со старями советскими книгами - есть ли для них ISBN?
Цитировать
2. ведение базы данных в Excel или Access;
По этому вопросу пока затрудняюсь что-то сказать конкрентное. Хотя сразу же ясно - ни Excel, ни Access тут не подойдут - т.к. они являются коммерческими программами. Может быть, следует даже сделать специальную самодельную программу для эт их целей (с возможностью экспорта в Excel). По-моему, в этой области также существуют некие готовые бесплатные решения. Например, Greenstone http://ru.wikipedia.org/wiki/Greenstone .
Цитировать
3. Хранить OCR-слой отдельным txt файлом пусть даже сжатым в zip архив как по мне это лишнее дублирование данных и трата места.
Я тоже полностью с Вами согласен (кто не знает - такой подход предлагает DjVuOCR).
Цитировать
Слышал есть некая программа Archivarius по отзывам вроде как единственная нормальная программа для поиска в текстовом слое DjVu,
Тоже не очень хотелось бы - т.к. это коммерческая программа. Надо бы по-возможности стремиться исключительно к бесплатным программам.

Из бесплатных вариантов мне известны следующие:

1. Google Desktop Search DjVu Indexer Plugin v1.0 (Автор: Андрей Жежерун)
http://puzzle.dl.sourceforge.net/sourceforge/windjview/GDSDjVuIndexerSetup-1.0.exe

2. Google Desktop DjVu Plug-in (Автор: Вилен Камалов) http://desktop.google.com/plugins/i/djvu.html

Оба эти решения базируются на бесплатном http://desktop.google.com/ .

3. Яндекс - Персональный поиск http://desktop.yandex.ru/

4. JSSINDEX http://jssindex.sourceforge.net/

Коммерческие варианты:

1. DjVu IFilter v1.1 (для dtSearch)

2. Архивариус 3000 http://www.likasoft.com/ru/document-search/

Есть ещё некие вартанты - они перечислены на http://www.djvu.org/links/ в разделе "Indexing & Search Tools".

Ни один из них я никогда не пробовал вживую - так что сказать пока ничего не могу.
Цитировать
На мой взгляд полным и наиболее удобным решением данной проблемы было бы ведение в формат DjVu метаданных, как это сделано например в PDF, DOC или MP3 (теги),
С этой идеей всегда носился Джим Райли, автор JRA Publish. В последнем SDK были какие-то упоминания о XMP: http://dev.caminova.jp/sdk/classCelartem_1_1DjVu_1_1Annotation.html#9a149670cfa1feb69aefa204dab2c376 . C этим вопросом пока неясно, буду разбираться.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #2 : 11 јРав 2010, 12:36:10 »
По поводу XMP.

Кажется, этот вопрос уже решён. Просто я как-то его упустил ранее из виду. ;)

Подробнее см. http://www.djvu.org/forum/phpbb/viewtopic.php?t=530 .

Насколько я понял, Леон Боту совместно с автором ExifTool (Phil Harvey) сделали так, чтобы XMP-информация хранилась в стандартном теге аннотаций. Подробнее см. http://djvu.cvs.sourceforge.net/viewvc/djvu/djvulibre-3.5/doc/djvuchanges.txt?r1=1.15&r2=1.16 .

И теперь вроде бы можно внедрять XMP-метаданные в DjVu-документы при помощи инструментария DjVuLibre. Поиск таких XMP-метаданных вроде бы добавлен в ExifTool http://www.djvu.org/news/index.php?subaction=showfull&id=1222443650 и даже в официальный DjVu Shell Extension Pack http://tokage.celartem.com/beta/djvu-wic/ - который теперь (как я понял) включает функциональность iFilter.

Как именно всем этим пользоваться - нужно будет ещё разобраться. Как добавлять XMP в DjVu-файлы, как их считывать и т.п. Кроме того, в WinDjView нужно бы добавить просмотр/редактирование XMP-данных.
« Последнее редактирование: 11 јРав 2010, 12:55:42 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #3 : 11 јРав 2010, 12:53:58 »
Страница ExifTool: http://www.sno.phy.queensu.ca/~phil/exiftool/ . Из описания получается, что им и можно вставить, прочесть и отредактировать XMP-метаданные в DjVu-файле (?).

Надо будет попробовать.

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #4 : 11 јРав 2010, 15:19:50 »
Насчет ExifTool насколько я понял относительно DjVu она может только прочесть метаданные, изменить или добавить их с помощью данной программы не получиться.

Подробнее смотрите таблицу - http://www.sno.phy.queensu.ca/~phil/exiftool/#top

File Type      |   Support    |   Description
======================================
DJVU, DJV    |       R       |   DjVu image (AIFF-like)


Зато прояснился немного вопрос с метаданными в DjVu, точнее с мета-тегами (Ура!!!) :) Смотрите здесь - http://www.sno.phy.queensu.ca/~phil/exiftool/TagNames/DjVu.html

Привожу перевод (возможны неточности):
Цитировать
DjVu мета-теги

В этой таблице перечислены стандартные метаданные DjVu тегов, но ExifTool будет извлекать любые теги, которые существуют даже если они не перечислены здесь. DjVu v3 документации поддерживает теги заимствованные из двух стандартов: 1) BibTeX библиографическая система  тегов (все строчные теги ID в таблице ниже), и 2) PDF DocInfo теги (заглавные тега ID's).

Тег ID                         Имя тега      Записываемые    Ценности / Notes
'Автор'                Автор                            N    
'CreationDate'     CreateDate                N    
'Creator'                Создателем                N    
"Ключевые слова"    Ключевые слова          N    
'ModDate'                ModifyDate                N    
'Производитель'    Производитель    N    
'Тема'                            Тема                            N    
'Название'                Название                N    
'Trapped'                Trapped                N    
'адрес'                 Адрес                            N    
'annoté'                 Аннотация                N    
'Автор'                 Автор                     N    
'booktitle'                 BookTitle                 N    
'глава'                          Глава                            N    
'CrossRef'                CrossRef                N    
'Edition'                Edition                            N    
'Eprint'                            Eprint                            N    
'howpublished'    HowPublished                 N    
'учреждение'                Учреждение                N    
'Журнал'                Журнал                N    
'ключ'                            Ключ                            N    
'месяц'                Месяц                            N    
'Примечание'                Примечание                 N    
'число'                            Номер                            N    
"организация"    Организация                N    
'Страницы'               Страницы                N    
'издателя                Издатель                N    
'школа'                Школа                            N    
'Серия'                Серии                            N    
'Название'                Название                N    
'Type'                            Печатать                N    
'URL'                            URL                            N    
"Том"                           Том                            N    
'год'                            Год                            N    

Признаться такого разнообразия тегов я и не ожидал, можно сказать предел мечтаний :) Да осталось только разобраться как добавлять теги в DjVu-файлы и считывать их (а также осуществлять поиск нужных книг по ним в эл. библиотеке).

Цитировать
Кроме того, в WinDjView нужно бы добавить просмотр/редактирование XMP-данных.
Да это было бы просто замечательно! Интересно разработчики смогут это осуществить? Думаю в WinDjView достаточно было бы и функции просмотра метаданных, а создание и изменение оставить за другими программами. 
« Последнее редактирование: 11 јРав 2010, 15:42:26 от Alfizik »

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #5 : 11 јРав 2010, 16:52:13 »
Насчет NameCreator-а. Да, пожалуй он действительно не очень хорошо подходит для всех книг, тем более насколько мне известно "Колхоз" ориентирован на научные и технические книги.

Цитировать
Например, поле "Topic code" в NameCreator подразумевает введение неких коротких кодов, принятых в библиотеке "Колхоз". Эти коды означают конкретную область знания, к которой относится данная книга.
Хм, незнал (все думал че за "Topic code"). Чем то похоже на класификацию ББК и УДК (см. википедию).

Цитировать
Пожалуй, нам следует либо коллективно разработать некий свой стандарт описания DjVu-книги, либо подобрать какой-то подходящий из существующих. Т.е. никто нас не заставляет насильно использовать именно NameCreator и колхозную схему именования книг - мы можем придумать что-нибудь более универсальное.
Да было бы неплохо. Добавлю пока лишь свои замечания по данному поводу.

1. Если подбирать какой-нибудь из существующих стандартов, то наверняка ни один из них не подойдет полностью. Будет или недостаточно информативен, или недостаточно универсален или в конце концов непонятен рядовому пользователю эл. книг. Хотя это конечно не значить, что не стоит попытаться, возможно все окажется не так пессимистично как я предположил.

2. Если разработать свой стандарт, то возникнет проблема другого рода, как его донести (даже точнее навязать) до конечных пользователей. Иначе если им не будут пользоваться, то теряется весь смысл стандарта. Впрочем данная проблема касается и случая если будет выбран какой либо из уже существующих стандартов.   

Цитировать
Для начала давайте глянем в сторону ISBN: http://ru.wikipedia.org/wiki/ISBN . Правда, не совсем ясно, что делать со старями советскими книгами - есть ли для них ISBN?
Т.е. Вы предлагаетет именовать DjVu-файлы кодами ISBN (пример: ISBN 972-3-16-148410-0.djvu или ISBN 9723161484100.djvu), я вас правильно понял?

Если да, то есть ряд ограничений:

- как вы заметили не все книги имеют ISBN (например старые или издателство не присоединено к системе ISBN)

- если книга "самиздат" то тоже не выйдет, так как идентификаторы изданиям присваивают национальные агентства в области международной стандартной нумерации книг и только они.

Плюс, имхо такая система именования как по мне хороша только для создателя эл. библиотеки (в целях управления ею), но не для пользователя библиотекой (хотя это субъективное мнение и я могу ошибаться).
« Последнее редактирование: 11 јРав 2010, 16:55:35 от Alfizik »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #6 : 11 јРав 2010, 17:50:48 »
Цитировать
Да осталось только разобраться как добавлять теги в DjVu-файлы
Если XMP сделано как обычная DjVu-аннотация - то тогда добавлять это можно будет просто через djvused.
Цитировать
Хм, незнал (все думал че за "Topic code").
Я так понимаю, что это вот что: в примере
Цитировать
Avtor A.A., DrugojAvtor B.B., i dr. (red.) (_A.Author,B.Another_) Zaglavie knigi.. kak ono est' (Izdatel'stvo, 1901)(net str.225-226)(ru)(K)(L)(T)(C)(600dpi)(ISBN 0000000000)(233s)_MAa_.djvu
это кусочек "MAa" - означающий некий раздел библиотеки Колхоз. Пример взят из http://www.djvu-soft.narod.ru/soft/namecreator.htm .
Цитировать
2. Если разработать свой стандарт, то возникнет проблема другого рода, как его донести (даже точнее навязать) до конечных пользователей. Иначе если им не будут пользоваться, то теряется весь смысл стандарта.
По-видимому, путём изготовления программы, аналогичной NameCreator (и то - только если потребуется). Кстати - там ещё хотелось бы сделать 100%-обратимое соответствие "русская буква-латинская буква". Вроде бы сейчас это не так.
Цитировать
Т.е. Вы предлагаетет именовать DjVu-файлы кодами ISBN (пример: ISBN 972-3-16-148410-0.djvu или ISBN 9723161484100.djvu), я вас правильно понял?
Да это я чисто для примера упомянул ISBN - как одна из существующих справочных систем книг. ISBN, наверное, следует помещать в XMP - а не в название книги.

Что касается имени файла книги - то здесь концепция NameCreator ИМХО достаточно неплоха. Просто у неё есть слабые места - Topic code действителен лишь в пределах Колхоза, и транслитерация не обратима на 100% (есть ГОСТы на транслитерацию, надо бы глянуть, как это правильно делать - ru.wikipedia.org/wiki/Транслитерация ).

Интересно - а может, уже существует некий стандартный официальный классификатор кодов областей знания, которые можно назначить той или иной книге? Хотя бы достаточно обобщённо, разумеется. Или же такой код области знания вообще не нужен для "просто книги вообще". (?)
« Последнее редактирование: 11 јРав 2010, 17:56:39 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #7 : 11 јРав 2010, 18:01:01 »
О классификации книг:  http://maxbooks.ru/classification.htm

Кстати, там как раз упомянуты такие "классификаторы кодов разделов знания". Это т.н.

1. ББК   http://ru.wikipedia.org/wiki/ББК

2. УДК   http://ru.wikipedia.org/wiki/УДК

Довольно любопытно - нельзя ли как-то их использовать в наших целях.
« Последнее редактирование: 11 јРав 2010, 18:10:08 от monday2000 »

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Re: Каталогизация DjVu книг
« Ответ #8 : 11 јРав 2010, 18:18:00 »
Цитировать
По этому вопросу пока затрудняюсь что-то сказать конкрентное. Хотя сразу же ясно - ни Excel, ни Access тут не подойдут - т.к. они являются коммерческими программами.
Коммерция это зло, однозначно. Но в принципе есть аналоги из мира Open Source, например OpenOffice и т.п.

Цитировать
Может быть, следует даже сделать специальную самодельную программу для эт их целей (с возможностью экспорта в Excel).
Вот об этом я и думал когда создавал данную тему. В идеале мне представляется программа которая бы именовала DjVu-книги по стандартизованной схеме, вела их учет (базу данных), умела редактировать и экспортировать в базу данных метаданные из DjVu и могла бы осуществлять полнотекстовый поиск по всей библиотеке (прямо в текстовом слое DjVu). Ну и раз я сказал: "учет (базу данных)", то ответственно обеспечивала бы поиск книг в базе по различным категориям (автору, названию, тематике, издательству, мета-тегу и т.п.). Эх, мечты, мечты ::)
 
Цитировать
По-моему, в этой области также существуют некие готовые бесплатные решения. Например, Greenstone http://ru.wikipedia.org/wiki/Greenstone
Подобных и похожих программ похоже много (каталогизаторы всякие и т.п.), судя по тому что я за пол часа понаходил в google, например смотрите CD Collection (http://www.nicomsoft.com/cdc_ru/) и пример применения данной программы по отношению к электронной библиотеке - http://pdfdjvu.narod.ru/index.html Красиво! Но не идеально :( 
Вообще все подобных и похожие программы на мой взгляд имеют те или иные недостатки, в особенности, что изначально при разработке их не ориентировали на работу с DjVu.
« Последнее редактирование: 11 јРав 2010, 18:23:53 от Alfizik »

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #9 : 11 јРав 2010, 23:24:44 »
Здесь:
http://gen.lib.rus.ec/forum/index.php
идет предметная работа по катлогизации. Советую подключиться к обсуждению конктетных вопросов.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #10 : 12 јРав 2010, 09:59:26 »
Alfizik
Цитировать
Эх, мечты, мечты
Да почему же мечты. В крайнем случае, такую программу можно сделать самим (аналогичные уже готовые наверняка есть - но вряд ли у них есть именно тот набор фич, что нужен).

Можно сделать, например, самодельную программму, которая будет включать базу на MySQL + поиск по OCR-слою книг на базе Персонального поиска Яндекс (ППЯ). В ППЯ имеется SDK http://desktop.yandex.ru/plugins.xml - так что можно Яндекс-поиск использовать в своей самодельной программе.

Такой же SDK имеется в Google Desktop: http://code.google.com/intl/ru/apis/desktop/ . В своей программе можно будет сделать выбор - то ли Яндекс, то ли Google (кому что нравится).

По поводу именования файлов: сейчас Name Creator прописывает в имени файла всякие условные обозначения качества DjVu-книги. Например, (T)(C)(K).

Идея хорошая, правда, ИМХО, с недостатками. Дело в том, что подобных признаков качества гораздо больше, чем имеется в Name Creator. Например:

1. Делали ли Deskew.
2. Искривлены ли строки.
3. Какой режим - серый/ч.б./
И т.д. и т.п.

Поэтому я бы предложил иной вариант: взять двоичное число - длиною, скажем, 16 бит. И каждому биту назначить тот или иной признак качества. 0 или 1 в данном бите будет означать наличие/отсутствие того или иного признака качества. Полученное 16-битное число - прописывать в имени файла - в шестнадцатиричном виде (для краткости). Это будет выглядеть как "1FD5" или "34AA".

Причём, можно в этом 16-битном числе назначить битам признаки качества по нарастающей важности - для того, чтобы чисто визуально, глядя на шестнадцатиричное число, можно было оценить уровень качества книги.

Также можно условно поделить весь диапазон значений 16-битного числа на 5 поддиапазонов - т.е. классы качества. Почему 5 - по аналогии со школьными оценками, т.е. как бы "выставлять" качеству DjVu-книги ту или иную оценку, как в школе - от 1 до 5. Тогда в дальнейшем опытный глаз, глянув на шестнадцатиричный индикатор уровня качества в имени файла, сразу умозрительно прикинет, к какому из 5 классов качества относится данная DjVu-книга. Плюс это можно будет в своей программе показывать.

По поводу кодов области знания:

Надо бы познакомиться поближе с УДК и ББК. Вообще-то я не знаю - а так ли уж важно прописывать в имени файла DjVu-книги некий код области знания (как то пытается фактически делать NameCreator)? Зачастую из самого имени книги ясно, к какой области знания она относится: "Ximicheskie apparaty galvanicheskix cexov".

Но, предположим, что нам хотелось бы всё-таки указывать в имени файла DjVu-книги некий код области знания. Возникает вопрос - как же его выбрать?

Это, конечно, большая тема. Я думаю - нужно использовать УДК и ББК в качестве основы для генерации кода области знаний. Может быть даже, брать код по ББК и код по УДК, и вычислять по некой формуле свой гибридный код (чтобы он был, во-первых, достаточно кратким, во-вторых однозначно "раскладывался" назад в исходные коды ББК и УДК). Зачастую в книгах уже указаны коды УДК и ББК - а если их нет, тогда нужно делать специальную программу-справочник по всем кодам УДК и ББК. Такая программа должна помогать выбрать подходящий код из справочника УДК-ББК. Потребуется раздобыть и оцифровать все коды УДК-ББК, запихнуть их в самодельную программу, и сделать механизм поиска по ним (можно по персональному поиску Яндекс).
Eugeen1948
Цитировать
Советую подключиться к обсуждению конктетных вопросов.
Спасибо за приглашение!

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #11 : 12 јРав 2010, 11:18:08 »
Вот есть аналогичный топик:

http://forum.ru-board.com/topic.cgi?forum=93&bm=1&topic=1282

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #12 : 12 јРав 2010, 11:40:47 »
Справочник по УДК (надеюсь, это полный) можно купить. Он стоит порядка 13 тыс. рублей (в сумме):

http://forum.udcc.ru/showthread.php?t=1122



P.S. Всё-таки, какое безобразие, что такая информация продаётся за деньги - а не доступна полностью бесплатно.

Но зато есть какой-то сайт: http://teacode.com/online/udc/ - где имеется удобная система навигации по УДК. Правда, неясно - все ли там коды?
« Последнее редактирование: 12 јРав 2010, 11:51:35 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #13 : 12 јРав 2010, 12:21:19 »
Вот какой-то ГОСТ - вроде по теме:

http://www.complexdoc.ru/lib/%D0%93%D0%9E%D0%A1%D0%A2%207.90-2007

Цитировать
ГОСТ 7.90-2007. Система стандартов по информации, библиотечному и издательскому делу. Универсальная десятичная классификация. Структура, правила ведения и индексирования.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Каталогизация DjVu книг
« Ответ #14 : 12 јРав 2010, 14:24:14 »
В общем, получается, что вся проблематика данного топика ИМХО укладывается в 2 глобальных направления:

1. Как именовать файлы DjVu-книг (плюс как, что и чем писать в XMP-метаданные DjVu-файла).

2. Какую бы программу-каталогизатор использовать. Такая программа должна обладать как минимум следующими свойствами:

а. Уметь строить HTML-список всех DjVu-книг в папке (на DVD-диске).

б. Уметь проводить поиск по тексту OCR-слоя - по всем DjVu-книгам в папке, поиск по именам файлов книг, и по деревам-оглавлениям в DjVu-книгах (на базе Яндекс-десктоп или Google-десктоп).

в. Поддерживать все основные форматы электронных книг - DjVu, PDF, HTM, DOC,TXT,CHM. Может быть, также и FB2.

Обсуждения по обоим пунктам ИМХО должны привести к созданию соответствующего программного инструментария (либо готового, либо самодельного). Причём, это обязательно должен быть набор свободно-бесплатного софта (а дополнительно - можно, кому нравится, ещё и сделать вариант с коммерческими программами).

P.S. Я думаю, что использование какого-либо кода области знаний в наименовании имени файла DjVu-книги пока нецелесообразно. Слишком уж это большая морока, оказывается - правильный выбор такого кода. То, что годилось для Колхоза - вряд ли подойдёт (чисто практически) для "любой DjVu-книги вообще".
« Последнее редактирование: 12 јРав 2010, 14:30:47 от monday2000 »