Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 59154 раз)

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Цитировать
Насколько я понимаю пословное выделение в DjVu Вы не станете реализовать?
так оно есть, если версия фр не ниже .583..

Да, так оно и есть, пробовал сегодня "модифицировать" с помощью Вашей программы сделанную мной книгу в DjVu. Результат весьма положительный, Вы сделали то чего разрабы ФР так и не реализовали.
Но, я спрашивал несколько об ином. Возможно ли используя Ваш подход сделать пословное выделение в DjVu формате таким как это реализовано в PDF? Слово выделяется как, часть слова - перенос - вторая часть слова. Я понимаю, это изыски, просто хотелось бы знать, возможна ли такая реализация. Просто как вариант.
Ещё раз, спасибо за программу, придётся меньше перераспознавать книги в своих раздачах.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
Цитировать
Возможно ли используя Ваш подход сделать пословное выделение в DjVu формате таким как это реализовано в PDF? Слово выделяется как, часть слова - перенос - вторая часть слова.
я выделения не делаю, способы выделения реализовывают разработчики вьюверов.. если сравнить, как происходит выделение в наиболее популярных просмотрщиках - то можно увидеть, что оно различается..
то же самое происходит и с копированием текста.. например, в WinDjView при копировании текста с переносом, который реализовался в старых версиях DjVuOCR старый пере-
перенос
в буфер попадает старый пере-
нос
тогда как в остальных вьюверах попадает исходный текст полностью..
в PDF выделение происходит посимвольно.. в DjVu спецификация тоже позволяет задавать координаты каждой букве, но в этом случае размер файла сильно увеличивается, поэтому традиционно в DjVu используется минимальный блок (с заданными координатами) - это слово целиком..
в своей программе я переносы объединяю как в новых версиях DjVuOCR новый пере¬
нос
новый
перенос
можно будет сделать возможность выбора метода склейки слова с переносом..
все остальное - к разработчикам просмотрщиков..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Ясно, спасибо за ответ.
Кстати, в последнем WinDjView, если задать в поиск слово "перенос" то найдёт так:
Цитировать
..... пере-
нос ......
Т.е. выделиться вторая часть этого текста.

("надо будет в других вьюверах попробовать")

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
не удивительно, ибо именно в нижней части на текстовом слое находится слово целиком.. другие просмотрщики должны себя точно так же вести..

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
обновил прогу - добавил пару фич..
описание и ссылки на ру-борде

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Нашёл первый глюк (а может и не глюк, называйте как хотите). Когда прогоняешь через Ваш FR11 DjVu Text Layer Crutch DjVu файл сделанный ФР11 то склеивает слова с переносами он классно, но есть маленький недочёт, что-ли. Иногда попадаются сложные слова через дефис и тогда получается разрыв. Например:
"пространственно-
временного"
В ФР11 после дефиса не было пробела. Можно ли в данном случае, в таких словах, убрать этот пробел? Собственно как и двойные пробелы.
Отправляю Вам DjVu файл, страницу из журнала. Если я путано пояснил то этот листок, для наглядности)
Спасибо.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
это djvused вставляет пробелы после каждого слова.. пару страниц назад это уже обсуждалось.. убрать пробелы можно лишь отказавшись от использования djvused и самостоятельно внедряя текстовый слой в файл.. но, у меня не получилось разобраться в исходниках DjVuLibre как происходит кодирование.. с декодированием проще - кроме исходников есть еще и описание алгоритма в спецификации (хоть и с ошибками), а кодирование ниасилил и забросил.. м.б. через какое-то время снова захочу этим заняться, а пока только утилиты из DjVuLibre юзать приходится..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
это djvused вставляет пробелы после каждого слова.. пару страниц назад это уже обсуждалось.. убрать пробелы можно лишь отказавшись от использования djvused и самостоятельно внедряя текстовый слой в файл.. но, у меня не получилось разобраться в исходниках DjVuLibre как происходит кодирование.. с декодированием проще - кроме исходников есть еще и описание алгоритма в спецификации (хоть и с ошибками), а кодирование ниасилил и забросил.. м.б. через какое-то время снова захочу этим заняться, а пока только утилиты из DjVuLibre юзать приходится..

Т.е., я так понял, "стандартной" заменой двух пробелов на один никаким экшеном провернуть нельзя?
Грубо говоря, в txt'шнике с OCR один значок на другой не заменишь?))
Простите, возможно я по филистерски излагаю свою мысль, просто хочется понять почему так трудно произвести замену хотя бы на стадии декодирования.
Спасибо.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
yuree
или я чего-то не понимаю, или одно из двух..
как я понял, изначально проблема заключалась в лишнем пробеле после слова "пространственно-"..
на это я дал ответ, что программа djvused, с помощью которой происходит внедрение текстового слоя в книгу САМОСТОЯТЕЛЬНО ДОБАВЛЯЕТ ПРОБЕЛЫ, несмотря на то, что в текстовом файле, внедряемом в книгу ПРОБЕЛОВ НЕТ!!! и это - НЕ ОТКЛЮЧАЕТСЯ в djvused!
Цитировать
заменой двух пробелов
чтоб не было пробела - выбирай метод 2.. вообще пробел (второй) появляется в местах, где половина слова переносится на след. строку.. а нужен он для того, чтоб при выделении строки перенесенная часть слова тож выделялась.. этот метод придумал не я, в DjvuOCR абсолютно также всё происходит.. лучшего метода пока никто не предложил..
Цитировать
почему так трудно произвести замену хотя бы на стадии декодирования.
и действительно.. в самой DjVu-книге эти "лишние" пробелы никому не мешают и на поиск не влияют.. и уж если "ловить блох" на стадии извлечения текста из книги, то легко можно найти и заменить всё что нужно в практически любом текстовом редакторе..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
или я чего-то не понимаю, или одно из двух..

А, я-мая-понимай-нема. Извини что так путано изложил свою мысль к тебе.

Цитировать
как я понял, изначально проблема заключалась в лишнем пробеле после слова "пространственно-"..
на это я дал ответ, что программа djvused, с помощью которой происходит внедрение текстового слоя в книгу САМОСТОЯТЕЛЬНО ДОБАВЛЯЕТ ПРОБЕЛЫ, несмотря на то, что в текстовом файле, внедряемом в книгу ПРОБЕЛОВ НЕТ!!! и это - НЕ ОТКЛЮЧАЕТСЯ в djvused!

Я-а-сно!! Семён-семёнычь. Т.е. это чисто программерская фича, и решить её можно только программерским путём. И получается что пробел он ставит не только после слов но и др. значков (дефисов, например) а также там где идёт слово→дефис(пробел)→переход на новую строчку→вторая часть составного слова.

Цитировать
и действительно.. в самой DjVu-книге эти "лишние" пробелы никому не мешают и на поиск не влияют.. и уж если "ловить блох" на стадии извлечения текста из книги, то легко можно найти и заменить всё что нужно в практически любом текстовом редакторе..

Эти лишние пробелы на поиск не влияют, согласен, а вот с "двойными" словами и правда, плохо. Впрочем, можно при сёрчинге только одну часть слова задавать)) Во всяком случае, пока.
Спасибо за развёрнутый ответ.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
... а ларчик просто открывался.
В случае описанном выше, про "двойные" слова, вполне достаточно после дефиса поставить мягкий перенос. И никаких пробелов.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
N.M.E. - можете сделать англификацию и крааатенький readme для иностранцев?

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
NBell
я есть плёхо говорить по-англицки.. будешь мне помогай? :)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Яволь, майн фюрер!
А чего сделать?

добавьте поддержку drag'n'drop

запуск из командной строки с аргументом чтоб мона было Open with... юзать

сделайте кнопку рус/eng

англ имена кнопкам и опциям

верхняя
Open Finereader 11 produced DjVu
левая
Save corrected text layer in source DjVu
Правая
Save corrected text layer in other DjVu
опции
Remove soft hyphenation

word hyphe-
nated

Orthodox for easy search

word
hyphenated

Easy select for WinDjview

word hyphe-
hyphenated

чекбокс
Delete temporary files on exit


« Последнее редактирование: 16 ДХТаРЫм 2013, 22:25:44 от NBell »

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
добавьте поддержку drag'n'drop
запуск из командной строки с аргументом чтоб мона было Open with... юзать
сделайте кнопку рус/eng
этого я делать пока не буду ибо не умею.. познания в программировании скудны, а разбираться/изучать сейчас желания нет..
кроме морды надо англофицировать еще несколько диалогов.. на след. неделе пару фич в программку внесу и диалоги в личку кину..
для англ. варианта наверное отдельную версию сделаю.. хотя, возможно подумаю насчет кнопки..