Автор Тема: Чем осуществлять текстовый поиск в DjVu-файлах  (Прочитано 31309 раз)

Globus2

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Есть некоторое количество DjVu-файлов с качественным OCR-слоем.
Какими программами можно, не открывая файлы, осуществлять текстовый поиск в OCR-слое?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Таких программ довольно много.

1. Архивариус 3000 - лучший выбор на сегодняшний день (но это коммерческая программа).
 
2. Google Desktop Search + DjVu Plugin к нему.

3. Яндекс Персональный поиск. http://desktop.yandex.ru/

4. dtSearch + DjVu Shell Extension Pack.

Возможны и иные варианты - менее популярные.

Хотя я сам на пробу не сумел заставить работать ни Google Desktop Seacrh, ни Яндекс Персональный поиск - даже без поиска DjVu, а остальные перечисленные продукты тоже лично не пробовал.
« Последнее редактирование: 17 ґХЪРСам 2010, 14:14:11 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Попробовал сейчас ради интереса http://desktop.yandex.ru/ - как ни странно, работает! :) Т.е. ищет по внутренностям DjVu-файлов:



А раньше (год-два назад) - не работало вообще ничего, т.е. Яндекс Персональный поиск и без DjVu у меня не работал (не говоря уже о DjVu).

Так что это вроде бы самое простое и удобное средство - не нужны никакие доп. DjVu-плагины и свободно-бесплатное.
« Последнее редактирование: 17 ґХЪРСам 2010, 14:08:36 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
DjVu Shell Extension Pack http://www.caminova.net/en/downloads/ по идее работает даже без dtSearch - а просто как бы встраивает поддержку поиска по внутренностям DjVu в стандартный поиск Windows XP и старше:
Цитировать
You can search DjVu files using Windows Search.
Это тоже свободно-бесплатный продукт.

Вот DjVu-плагины к Google Desktop:

http://desktop.google.com/plugins/search/?query=djvu
« Последнее редактирование: 17 ґХЪРСам 2010, 15:53:37 от monday2000 »

Globus2

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
monday2000, спасибо, пока остановился на яндекс-поиске, будем поддерживать отечественных разработчиков :)

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Хронически не нравятся индексируемые поисковики :(

1. На индексацию нужно время
2. база индексов занимают место причем немалое, иногда объем базы индексов составляет до 50% от объема индексируемых файлов. Пример, если библиотека 20 Гб то, до + 10 Гб база индесов итого =30 Гб это же ужас какой-то. А если библиотека на DVD дисках (например требуется чтоб библиотека была мобильной, друзьям дать попользоваться и т.д.), то для 5 дисков (все те же 20 Гб) держать на HDD еще и 10 Гб индексов в придачу? Тогда какой смысл вообще в DVD коллекции )) Бери коня, только уздечку не трогай! Или еще 6 диск записывать с базой индексов?

monday2000
DjVu Shell Extension Pack http://www.caminova.net/en/downloads/ по идее работает даже без dtSearch - а просто как бы встраивает поддержку поиска по внутренностям DjVu в стандартный поиск Windows XP и старше:
Цитировать
You can search DjVu files using Windows Search.
Это тоже свободно-бесплатный продукт.

А вот это интересно, почитал на оф. сайте в этой проге походу еще и редактор метаданных есть!

http://dev.caminova.jp/beta/djvu-wic/props.png
Цитировать
Viewing/Editing DjVu properties directly on Explorer

Globus2
Еще есть iFilter ver.1.1 для DjVu - http://www.caminova.net/en/downloads/download.aspx?id=7
Инсталируешь в систему и появляется возможность осуществлять поиск в текстом слое DjVu прямо из стандартного поиска Windows (Пуск ---> Поиск), к сожалению этот iFilter я так и не смог (или возможно не понял как) прикрутить к поиску через TotalCommander, а жаль поиск через TotalCom осуществляется имхо быстрее чем стандартными инструментами Windows.

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Вообще реально ли прикрутить iFilter к какой нибудь программулинке единственная функция которой будет заключаться в удобном поиске через графический интерфейс на компе\DVD-диске нужных книг по ключевому слову из книги?
Например прикрутить iFilter к тому же книжному котику (BookCAT). 

P.S.
Данный вопрос я уже поднимал в теме Каталогизация DjVu книг - http://www.djvu-scan.ru/forum/index.php?topic=34.0.


monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Alfizik
Цитировать
Вообще реально ли прикрутить iFilter к какой нибудь программулинке единственная функция которой будет заключаться в удобном поиске через графический интерфейс на компе\DVD-диске нужных книг по ключевому слову из книги?
Можно к dtSearch.
Цитировать
iFilter ver.1.1 для DjVu
По идее, он входит в состав DjVu Shell Extension Pack.
Цитировать
Хронически не нравятся индексируемые поисковики
Наверное, можно предусмотреть и какой-то вариант поиска без индексации.
Цитировать
А вот это интересно, почитал на оф. сайте в этой проге походу еще и редактор метаданных есть!
Да, я тоже заметил сегодня. Я такую же программу и хочу сделать. Она будет даже бОльшее количество полей метаданных - за счёт XMP.

Alfizik

  • Новичок
  • *
  • Сообщений: 27
    • Просмотр профиля
Alfizik
Цитировать
iFilter ver.1.1 для DjVu
По идее, он входит в состав DjVu Shell Extension Pack.
Только что инсталлировал, да так и есть (DjVuIFilter.dll в 1,7 Мб).

Цитировать
Хронически не нравятся индексируемые поисковики
Наверное, можно предусмотреть и какой-то вариант поиска без индексации.

Выбор возможности всегда лучше, предустановленных параметров. Будет не плохо если будет галочка - вкл\выкл индексацию. И каждый по своим потребностям и железу сам настроит поисковик.

Цитировать
А вот это интересно, почитал на оф. сайте в этой проге походу еще и редактор метаданных есть!
Да, я тоже заметил сегодня. Я такую же программу и хочу сделать. Она будет даже бОльшее количество полей метаданных - за счёт XMP.
Будет прекрасно! Я так понимаю программа в обозримом времени не предвидеться, это пока планы на перспективу?
 
« Последнее редактирование: 22 ґХЪРСам 2010, 18:16:32 от Alfizik »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Цитировать
Будет прекрасно! Я так понимаю программа в обозримом времени не предвидеться, это пока планы на перспективу?
Совершенно верно, это действительно планы на перспективу. Мне тут не хочется рубить с плеча - надо продумать такой вариант, который устроит как можно больше людей. В основном, вопрос ставится так: что именно означают поля метаданных? Что туда записывать? Поля типа Titile, Author - это понятно. Но есть менее понятные - например: Subject, Keywords, Producer, Trapped, CreatorTool. Просто надо почитать спецификации метаданных и т.п. - чтобы понять, что тут имеется в виду. А это всё время - это несколько талмудов размытого содержания, ссылающихся на ещё менее вразумительные талмуды (типа Dublin Core, Bibtex), и т.д. И написаны они непонятно-туманно зачастую (полу-"юридическим" языком). :) Одна лишь спецификация XMP - это 3 больших PDF-файла.

В этих вещах надо разобраться, разработать методику заполнения DjVu-метаданных. И чтобы не было при этом никакой отсебятины - в этом ещё сложность. Чисто механически можно заполнять поля DjVu-метаданных хоть прямо сейчас - через djvused нет проблем - но надо ж понимать, что при этом делаешь.

Просто нужно как-нибудь сесть да почитать всё это. А пока времени на это я не нашёл - но запланировал потихоньку осваивать.

wertiw

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
Сдесь описано как организовать поиск текста в каталогах с с djvu и т.д. файлами средствами Total Commander
http://chemistry-chemists.com/N4_2011/S111/ChemistryAndChemists_4_2011-S111.html



veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
Самый захватывающий131.9 кв.м.EyesighEyesighStanleyMemoriewinningЭта книга10-я танковаяAssalomPlayStaЧехол наOrientaKaramanHolzmanМясохладобойня;В первыйPalermoCollectCompareThompsoИздание 1994Составление,В романеПятый томКнига В наступленииВ первуюАроматизированнаяKeraSysChigira
Переводчик:Редактор:СовокупностьMurdochКнига известногоRichardВ книге изложеныPurederВ комплектКнига рассказываетСоставитель:Томас Бэнбридж,Переводчик:Переводчик:В однотомникДезодорант-стикКНИГИ ДЕТСКИЙJacksonКнига БрайанаВиктор ПетровичPopescuОт издателяWindowsРазмеры:Речь в этойКнига рассказываетС наборомАвтор музыки:КомментируемыйTurando
Мы предлагаемВ книгу видногоСолнечныйCoetzeeStanislИздание 1993MeyrinkКакая женщинаСоставитель:DimanchFlowersСловарь содержитСоставители:HorsleywwwprobChristiPowerPCГенерал ГеннадийPacificPitstopWindowsChamberArtsCraСоставитель:ОригинальнаяХудожник:ТюремныйTakahasГерою ВеликойGibbons
ИспользуетсяHarrisoКольцо оригинальногоЭтот сериалКольцо изHerbertJonathaРассмотреныВ сбоникGangemiPuslowsОт издателяСловарь МаятникаВ этой небольшойMontjoiWindowsPhotoSmSilverlВ этой книгеWinslowPatricieholderЗабавнаяMomentsRemembeAttitudЕлочная игрушкаРельеф СтоятьЦвет: синийШляпка Гимназическая
OrganizХолодильникSAMSUNGМиниатюрнаяUltimatЖенская футболкаАвтор: ЮлияВыпуск приуроченConcertExpeditBestselMarlenaИгра КурортныйPerformКолонки LanzarПолный годовойChirurgGermanyМахровоеРетро-пружинкаПаззл ОчаровательныйВ учебникеИгровой наборDancingPilotagWindowsРедактор:КарнавальнаяНабор чертежныйПароварка
Детская рубашкаВ названииКорм ВакаwwwpaleСобытия второйЖизнь такогоВ книге изучаетсяСодержаниеРедактор:ИзложеныПопулярныйGabrielВ этой книгеМосква, 1950НастоящаяСоставители:Редактор:Редактор:СодержаниеСоставители:SchumpeGlamourWindowsОсвещеныStromkeОт издателяРецепты заливныхОт издателяThompsoProfess
ThompsoОт издателяIntelleПереводчик:Редактор:В даннойПредлагаемыйLielkalDecieveРедактор:KhandurЭта книгаПособие,EmergenGolden Axe:ResponsХудожник:Данная книгаMontessНейропсихологиСодержаниеwwwtrueGeorgiaХудожник:Книга предназначенаЦвет: синийЦвет: синийЦвет: синийPhotoshТесты, упражнения
Редактор:imagineКнига приглашаетKnutssoВ настоящемАвтор справочникаРедактор:В этот сборникSchaefeSilversВ книге рассматриваетсяИздание посвящено