Автор Тема: Спецификация Djvu, русский мануал Djvused, FR11+DjvuOCR, DjvuOCR2.4mod  (Прочитано 8023 раз)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
тест
из названий файлов все понятно - сравните текст в доках - почти все получилось. "опытнопромышленная" - в ФР11 - это уже вручную огрех ФР11 надо поправлять - определил дефис как перенос. вот и все.

счастливого пути  8)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Спасибо за критику :D. Разложил текстовый слой на атомы и узрел, что (!) все как надо.
fr11.djvu.dsed.txt - строка 114 - склеенное слово
fr8djvuocr.djvu.dsed.txt - строка 72, 74 - то же слово

Это WinDjView кривой... Руководство про finereader 11 обновил - см. в конце текста

 8)Счастливого пути и удачной поездки 8)
« Последнее редактирование: 20 ѕЪвпСам 2012, 19:37:48 от NBell »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Когда я делаю OCR слой fr11, похоже (так показывает windjvu) единицей получается не слово, а строка.
Читаю я книги на читалке PocketBook902, и там такое строение OCR слоя мешает пользоваться поиском и словарями.
Да и есть ли какие реальные преимущества 11 перед 8, кроме разнообразных проблем?

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Когда я делаю OCR слой fr11, похоже (так показывает windjvu) единицей получается не слово, а строка.
Это вы устаревшей подверсией пользуетесь, новая .583 уже дает выдялять слово.

Да и есть ли какие реальные преимущества 11 перед 8, кроме разнообразных проблем?

Нету. Пока нету преимуществ.


NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Преимущество в том, что djvuocr падает бывает. а тут текст сразу создается. жежерун уверяет, что проблема с выделением - это неточное обозначение зон фр11 - пишите абббиии.
а так - текстовый слой аналогичный djvuocr по моей методе вполне можно создавать.
а по sergiokapone - pdf можно получать аналогично фр8 - текст разбит на блоки line-word

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Да и есть ли какие реальные преимущества 11 перед 8, кроме разнообразных проблем?

Нету. Пока нету преимуществ.

Конечно. Если всю свою жизнь оцифровывать только русско-английские тексты.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Конечно. Если всю свою жизнь оцифровывать только русско-английские тексты.
задача определяет инструмент.
хочется узнать еще чье то мнение по поводу -
мой опыт - фр8 и фр11 почти одинаково распознают. фр11 был взят из-за djvu напрямую.
фр11 меньше находит текста, но вычищать после него тоже меньше.
зае... только окошечко, которое постоянно надо вручную закрывать после перераспознания.
прошу конкретно высказаться. предпочтения - дело личное.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
задача определяет инструмент.

Золотые слова.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Обновлены Руководства к PDF DJVU Bookmarker, Djvused
« Последнее редактирование: 04 ЅЮпСам 2012, 22:22:55 от NBell »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Попробовал DjvuOCR2.4mod. И (как и ожидалось) работать он отказался - сказал при вствке OCR- слоя какую-то ошибку. Обычный (без mod) преспокойненько вставил.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Попробовал DjvuOCR2.4mod. И (как и ожидалось) работать он отказался - сказал при вствке OCR- слоя какую-то ошибку. Обычный (без mod) преспокойненько вставил.
весьма странно.
я и еще несколько человек юзаем этот mod уже два месяца и все ОК. frfgrab сюрпризы подкидывает и все. извлечение -вставка обеспечивается djvulibre - тут все работало.
так что файл и текстовый слой, плиз. дайте через файлообменник файл, текст, выдранный djvuocr - посмотрю. опишите вашу OS, CPU, RAM. Приведите полный путь до DjvuOCRmod, полный путь до обрабатываемого файла djvu и txt. И списочек файлов в каталоге DjvuOCRmod - в консоли dir>>cat.txt. Если это сложно - сделайте скриншот окна проводника или тоталкомандера с открытой папкой djvuocrmod, каталога с проблемным файлом.
 В противном случае оговорка " (как и ожидалось) " говорит о том, что Вам нерабочесть утилиты (заранее предполагаемая с уверенностью 100%) принесла истинное удовлетворение ценителя старины (да, в наше время были утИлиты, а теперь... Эх! Молодежь...). У паровозов тоже есть поклонники. Уважаю. :)

P.S. Специально для Вас перепаковал, залил, скачал, распаковал, запустил, применил и (как и следовало ожидать) все сработало. Вот перепакованный DjvuOCR2.4betaR4m
« Последнее редактирование: 19 ЅЮпСам 2012, 15:47:26 от NBell »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail

P.S. Специально для Вас перепаковал, залил, скачал, распаковал, запустил, применил и (как и следовало ожидать) все сработало. Вот перепакованный DjvuOCR2.4betaR4m

Скачал, запустил, ничего не изменилось по сравнению с предыдущим модом. Но работать их я заставил: путь к txt был C:\Documents and Settings\Admin\Мои документы\1.txt. Когда он стал C:\Documents and Settings\Admin\1.txt, всё заработало. Все остальные пути целиком русские, кроме буквы диска.
До решения проблем с русскими буквами в путях работало и с "Мои документы".
Насчёт как и ожидалось, это не любовь к старому, а опыт. Хотя должен признать, бывает, новое как то работает, и бывает, что кое-что даже бывает лучше чем старое. Но обязательно что-то добавится такое хорошее, что и  не знаешь, надо ли это самое новое?

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Вы правы. djvused из djvulibre 4.9 не любит русски буквы в пути. зато файл с русским именем не сохраняется кракозябликом как это делает djvused dvuocr2.4br4  ( 󿼏󿼏󿼏 󿼏󿼏󿼏 DSmallql.djvu )... мне удобнее - ррр ррр DSmallql.djvu, , а русски имена каталогов почти не пользую...
« Последнее редактирование: 21 ЅЮпСам 2012, 16:57:34 от NBell »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
ну сподвигли вы меня на исследование.
до djvulibre 3.5.21 включительно djvused при русском имени каталога и русском имени файла делает все ОК
если каталог русский файл английский (каталог английский файл русский) - корежит имя файла
после - имя файла не корежит, но не понимает русский каталог...
прямо не понятно что и делать.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
ну сподвигли вы меня на исследование.
до djvulibre 3.5.21 включительно djvused при русском имени каталога и русском имени файла делает все ОК
если каталог русский файл английский (каталог английский файл русский) - корежит имя файла
после - имя файла не корежит, но не понимает русский каталог...
прямо не понятно что и делать.

Может поддержку юникода оттуда выкинули?
Первое что приходит на ум.