Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - sergiokapone

Страницы: 1 2 [3] 4 5 ... 8
31
Кстати, заметил что FR11 поддерживает опции в командной строке, если в консоли написать Finereader.exe book.djvu, то открывается GUI файнрилера и начинается распознавание указанного файла. Правда я не нашел, пока, как в командной строке заставить его сохранить распознаное куда-нибудь, хоть в тот же djvu. Поскольку нового frfgrab-а ждать придется ждать чуть больше, чем бесконечно долго, то мне думается, что можно как-то найти недокументированную возможность FR11 сохранять лишь текстовий djvu-слой, без кодирования djvu-файла. Наверняка, должна быть такая возможность, ребята из ABBYY всегда придумывают скрытые фичи лишь для себя любимых.

32
а фреймворк под виндовс - каждая вторая игра его требует. в чем с ним проблема?

Проблема в портабельности, если вдруг вам вздумается поработать на чужом компе, где нету фреймворка, то все. Но, конечно, это не такая большая проблема, как глобальное потепление или озоновые дыры.

33
DjVu / Re: Программа DjVu Small Mod
« : 10 ѕЪвпСам 2012, 23:54:15 »
textsharik , все та же проблема  с редактированием списков осталась, о которой я писал, посмотрите видео
Похоже это беда моего компа, потому что пробовал на рабочем, там все ОК.
Да, и еще, не могли бы Вы сделать так, чтобы sep-файлы после кодирования djvu автоматически подклеивались в фон, т.е. внедрить функции Djvu Imager в DjvU Small Mod?

Характеристики моей системы:

Имя ОС  Microsoft Windows XP Professional
Версия  5.1.2600 Service Pack 3 Сборка 2600
Изготовитель ОС  Microsoft Corporation
Имя системы 
Изготовитель  ASUSTeK Computer Inc.
Модель  A8Le
Тип  X86-based PC
Процессор  x86 Family 6 Model 15 Stepping 13 GenuineIntel ~1729 МГц
Версия BIOS  American Megatrends Inc. 203, 25.10.2007
Версия SMBIOS  2.4
Папка Windows  C:\WINDOWS
Системная папка  C:\WINDOWS\system32
Устройство загрузки  \Device\HarddiskVolume1
Язык  Украина
Аппаратно-зависимый уровень (HAL)  Версия = "5.1.2600.5512 (xpsp.080413-2111)"
Имя пользователя 
Часовой пояс  Финляндия (лето)
Полный объем физической памяти  2 048,00 МБ
Доступно физической памяти  931,83 МБ
Всего виртуальной памяти  2,00 ГБ
Доступно виртуальной памяти  1,94 ГБ
Файл подкачки  3,84 ГБ
Файл подкачки  C:\pagefile.sys


IE
Версия   8.0.6001.18702
Сборка   86001
Путь приложения   C:\Program Files\Internet Explorer
Язык   Английский (США)
Активный принтер   Microsoft XPS Document Writer,winspool,Ne00:
   
Стойкость шифра   128-разрядный
Ограничение доступа   Отключено
Установка IEAK   Нет

MS OFFICE 2003

34
спасибо за ссылку. только если в fr8 поправить зоны, текст, то djvuocr с его frfgrab падают... а в fr11 можно сделать все что надо и получить готовый текстовый слой.
может кто поправит djvuocr и он будет иметь опцию correct fr11-text?

Поправить djvuocr может только gencho, но он,аверное, уже забросил проект.

Вопрос - а у Вас pdf с картинкой и текстом под ней производства FR11 нормально дают текст скопировать? у меня подозрение на недовзлом (помните как дважды надо было крякать fr8)
Я не помню, давно ничего не равпознавал FR11, я пересел на FR8 и доволен.

35
У меня есть комбайн на основе FR8, который распознает Djvu-файл, как и Сuneidjvu, т. е. выбираем djvu-файл (в Total Commander), нажимаем на кнопку, ждем некотрое время, и рядом с исходным djvu появляется Djvu  с внедренным OCR. Идея принадлежит Melirius'у, описание здесь Комбайн запускается из коммандной строки, либо кнопкой из Total commander'а, будет ли у кого желание написать для этого дела GUI? Тогда будет что-то типа FinereaderDjvu, и тогда не нужно никаких танцев с бубном вокруг FR11.

Видеоролик-демонстрация вышеописанного

36
У меня есть комбайн на основе FR8, который распознает Djvu-файл, как и Сuneidjvu, т. е. выбираем djvu-файл (в Total Commander), нажимаем на кнопку, ждем некотрое время, и рядом с исходным djvu появляется Djvu  с внедренным OCR. Идея принадлежит Melirius'у, описание здесь Комбайн запускается из коммандной строки, либо кнопкой из Total commander'а, будет ли у кого желание написать для этого дела GUI? Тогда будет что-то типа FinereaderDjvu, и тогда не нужно никаких танцев с бубном вокруг FR11.

37

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо:
открыть полученный txt-файл в текстовом редакторе, поддерживающим UTF-8 и поиск-замену
Найти: <пробел>(ch
Заменить на: # (ch
Нажать "Заменить все"
Сохранить

Внедрить текстовый слой как обычно.
Открыть полученный djvu и насладиться текстом без двойных пробелов.

Вообще-то кто знает, почему эти из ABBYY опять сделали все через жопу не по людски, неуж-то нельзя было сделать без этих пробелов?... (вопрос риторический, наверное)

38
DjVu / Re: Программа DjVu Small Mod
« : 09 јРЩ 2012, 17:25:54 »
Скорее всего, это символ Ctrl+BackSpace. Вы могли случайно нажать эту комбинацию клавиш, удаляя строки с конца.
Просто удаляйте такие квадратики, если они возникнут. Делать продвинутый текстовый редактор для редактирования списка файлов вряд ли целесообразно.

Ничего подобного, это баг. На нескольки файлах в списке он не проявляется, список редактируется, если же файлов много (я проверял на 400-700) то список никак нельзя отредактировать. Удалял как кнопкой BackSpace, так и Del, одна и та же малина.

или уменьшить размер словаря вручную.

Баг в том, что когда я поставил галку на PPD=100, то все равно кодируется как прописанов стандартном профиле, никакой реакции на галочку в опциях.

39
DjVu / Re: Программа DjVu Small Mod
« : 01 јРЩ 2012, 00:57:44 »
Вот сейчас попробовать 345 файлов, прогресс бар дошел до конца, и программа не зависла, ибо кнопка Cancel срабатывает, прога просто задумалась на неопределенное время (я специально поставил секундомер, время оказалось 21 минута ). Что она делала это все время, одному богу известно, при этом загрузка процессора documenttodjvum утилитой 50%

Вот лог:
Starting processing...


---------- Profile ----------
#
DjvuSmall:

# Extreme / Empty profile

# Base / bitonal
tobitonal=true

# Original / Bitonal(600 dpi)
dpi=-600
aggressive=true

# Base / modern-pc
resolution-multiplier=1
pages-per-dict=99999
block-overlap=2

# Standard / Bitonal(600 dpi)
---------------------------------


"d:\Programs\BookShop\DjVuSmallMod_v0.5\Bin\DocumentToDjvuM.exe" --verbose
--config="d:\Programs\BookShop\DjVuSmallMod_v0.5\instances\cdae4tlonkonh\profile.conf"
--profile=DjvuSmall
--filelist="d:\Programs\BookShop\DjVuSmallMod_v0.5\instances\cdae4tlonkonh\filelist.txt"
"C:\DjVu Encoded.djvu"

Файл '-' : tif файл
...

Файл '-' : tif файл
   [Страница 1]
Страница: 3696x5856 dpi:600
...

Страница: 3696x5856 dpi:600
Страница 0001. mif_0005.tif -> mif_0005.djvu
...
Страница 0345. mif_0350.tif -> mif_0350.djvu
Результаты  (Время/Файл):  Предв. обработка=0.00   Сегментация=0.00   JB2=3.79   IW44=0.00

Conversion successfully ended.


Запустил еще паралельно версию 4.4, которая уже отработала и выдала результат, а mod-версия все еще была в подвисшем состоянии.
Вот лог версии 4.4:
Starting processing...

"d:\Programs\BookShop\DjVuSmall\bin\documenttodjvum.exe"
 --profile=bitonal600
 --filelist="d:\Programs\BookShop\DjVuSmall\settings\filelist.txt" --lossy
 --verbose "C:\1\DjVu Encoded2.djvu"

File '-' : tif file
...


   [Page 1]
Page: 3696x5856 dpi:600
File '-' : tif file
... 
   [Page 394]
Page: 3696x5856 dpi:600
File '-' : tif file
   [Page 395]
Page: 3696x5856 dpi:600
Page 0001. mif_0005.tif  -> mif_0005.djvu
...
Page 0395. mif_0400.tif  -> mif_0400.djvu
User Time(s)/image: Preprocess=0.00   Segment=0.00   JB2=0.72   IW44=0.00

Conversion successfully ended.


Что за фигня? Чё программа делает после завершения обработки хрен знает сколько времени????
 

Еще косяк, при попытке редактировать список файлов  (когда на ножницы нажимаю) выдает:

Чё за квадратик возле файла? Этот файл, на который прога матерится, первый в списке был, а я удалил пару файлов с конца списа, так что я тот символ ну никак добавить по собственной воле не мог.



40
DjVu / Re: Программа DjVu Small Mod
« : 30 °ЯаХЫм 2012, 19:17:22 »
Заметил какой-то косяк с Mod-версией. После завершения кодирования, программа подвисает на неопределенное время (свыше получаса), или что-то типа того, и потом выдает результат. Сделал то же на 4.4, все нормально, после завершения кодирования с тем же профилем, результат сразу.
XP SP3

41
DjVu / Re: Программа DjVu Small Mod
« : 01 °ЯаХЫм 2012, 22:00:30 »
"Пониж. ресемплинг ПП" - Не знаю, как расшифровывается. Речь идет о цветовой маске.

Может ПП это "Переднего Плана"

42
DjVu / Re: Программа DjVu Small Mod
« : 20 ґХЪРСам 2011, 18:58:50 »
Наверное, имеет смысл сделать интеграцию DjVu Small с FSD

Я тоже думаю, что имеет смысл.

43
DjVu / Re: Программа DjVu Small Mod
« : 20 ґХЪРСам 2011, 18:30:01 »
Сейчас читаю справку (спасибо за нее отдельно) и кручу ручки настроек, чтобы правильно закодировать малоцветный скан. С пом. FSD сегментация прекрасно получается с настройками по-умолчанию. С пом. documenttodjvu дело гораздо сложнее, пока не могу получить результат как c пом. FSD.
Вот, что получилось с пом. FSD

Такое получается с пом. DjvuSmall (набор:стандартный, тип: стандарный, опции->текст->(качество цвета:75, прореживание цвета:1))

Такое получается с пом. DjvuSmall (набор:экстремальные, тип: цветной текст, опции->сегментация->пестрый текст, опции->текст->(качество цвета:75, прореживание цвета:1))

Во втором случае результат сегментации лучше, но есть цветовые артефакты.
Что порекомендуете?

44
DjVu / Re: Программа DjVu Small Mod
« : 20 ґХЪРСам 2011, 17:42:19 »
Неофициальное обновление DjVu Small

Спасибо. По словом "Неофициальное" Вы имеете ввиду, что это Ваше обновление?
Справку еще детально не смотрел, поэтому вопрос: "А что такое псевдо-djvu?"

45
Подниму свою старую тему, так как нашел решение проблемы в SK.

У меня, почему-то после обработки СК стали пропадать тонкие перекресные черточни у букв "и" и "н". Раньше делал, все было ОК. Все установки беру из ScanAndShare1.07 .  Увеличение контраста увеличивает толщину букв, но вот черточки как были невидны, так и остались.

Для того, чтобы не пропадали детали букв на плохих сканах, нужно использовать в SK despeckle-метод Safe. После этого открытия уже нашел сию рекомендацию и в советах bolega
Цитата: bolega
24. По поводу Despeckle.
Во-первых, в Кромсаторе заложен алгоритм (fine despeckle), при котором он в процессе чистки распознает буквы i и j (часто используемые в индексах формул) и не позволяет "зачищать" ихние точки. Для этого используется упрощённый OCR, при помощи которого эти точечки распознаются и despeckl-ом не трогаются (иначе нельзя, т.к. размеры таких точечек чаще всего меньше предельно допустимых).  Главное, что мне удалось совместить одновременное выполнение этих двух операций (OCR и despeckle), и с очень высокой скоростью. На это ушло 2 месяца мучений.

Во-вторых, имеется специальный safe-метод despeckle, суть которого в следующем: сначала на странице выделяются все символы, строится спец.хэш из их контуров, и в процессе despeckle чистятся только те точки, которые не принадлежат контурам букв. Метод не идеальный, но буквы страдают гораздо меньше.
Не идеальный, потому что чересчур сильно разрозненные части букв могут и не слиться в один контур. Здесь тоже есть над чем подумать. (Хотя такие случаи я уже обрабатываю в draft, там ведь тоже теперь проводится полный layout-анализ страницы: выделение букв, строк текста, иллюстраций и т.д., вероятностный анализ буква-мусор и т.д.).

Главное в нашем деле, чтобы было из чего выбирать. Имею ввиду ПО. Тогда и книг будет больше сделано.
Всем удачи.

25. Если скан неважный (буквы с сильными разрывами), и despeckle заметно портит их, на закладке Options выберите режим despeckle = safe. В этом случае в процессе обработки области, занимаемые буквами, чиститься не будут. Как альтернатива, можно на закладке Pages нажать кнопку Special и там "смягчить" степень деспеклирования (fine-2, fine-3 и т.д.)

И ещё: НЕ Применяйте despeckle для сканов плохого качества, когда буквы рваные и бледные. Либо задайте для всех страниц despeckle=[fine-3].

Кстати: despeckle он и есть despeckle. По определению убирает изолированные точки заданного размера. И если линия превратилась в набор точек, то это уже не линия. Это на экране при уменьшенном масштабе и фильтре она глазом воспринимается как линия, а с точки зрения pixels это уже не так.

При despeckle при каком виде despeckle? удаляются ещё и ряд спеклов, больших чем заданный предел. При этом анализируется соотношение площади чёрных точек к площади спекла и его ориентация. Методика чисто эвристическая и подбиралась экспериментально.

Fine despeckle действительно чистит капитально (в пределах заданного допуска). Для бледных сканов лучше, конечно, не использовать.

В ST, по-умолчанию, наверное используются подобные алгоритмы.

Страницы: 1 2 [3] 4 5 ... 8