Главное > Общий

как ещё ужать бинаризованые сканы (есть идея, кто поможет?)

(1/562) > >>

morean:
занимаюсь частенько редактированием и перерисовкой технических книжек...
бывает ценную выкладывают литературу, но увы! - качество и размер файлов сильно в последнее время ухудшились...
перекошеные, серые сканы начисто лишают формат его главного качества - маленький размер файлов, а агрессивно ужатые картинки с низким разрешением - иногда просто пугают возникшим количеством ошибок...
вот иногда приходится просто вручную перебивать буквы - процесс сами понимаете - медленный и нудный  :-\
и пришла такая мысль, - неплохо бы этот процесс автоматизировать...
в самих программах уже всё нужное, я так понял есть, а именно:
- опция "агрессивный режим" при сжатии
- опция "OCR"
а сталобыть дело за тем, чтоб написать плагин или самостоятельную програмулю,
которая находила и выводила бы похожие начертания на экран,
подсчитывая попутно сколько раз начертание было применено,
(эдакий агрессивно-интеллектуальный режим)....
задача юзера после этого, - выбрать наилучшие начертания и заменить им ВСЕ!
размер файла при этом конечноже существенно уменьшится

вот такой к примеру интерфейс могла бы иметь программа



...для удобства пользования в окне найденых результатов было бы неплохо сделать так:
- навести курсор - появляется увеличеная картинка и через секунду контекстное меню;
- левый клик - отметить окошечко;
- правый клик - отметить как ГЛАВНОЕ;
- колёсико:
   после "правый клик на сером" - прокрутка вверх-вниз;
   после "левый клик на сером" - укрупнить-уменьшить (изменить количество столбцов);
- команда ПОСМОТРЕТЬ в контекстном меню открывает вкладку ПРОСМОТР с подсвечеными найдеными начертаниями...

ну и конечно совсем простой, монохромный точечный графический редактор,
(чтоб улучшать начертание, если даже лучшее из найденых не устраивает)
в нём такое управление:
- левый клик - чёрная точка (рисовать)
- правый клик - белая точка (стирать)
- нажать колёсик - "сохранить и закрыть"

естественно после каждой замены похожих букв "эталоном", число окошечек уменьшается...

такая программа могла бы стать практически ФАЙНРИДЕРОМ для ДЕЖАВЮ,
(ибо вид, стиль и шрифт документа полностью сохраняется),
и при этом быть просто плагином размером в пару мегабайт...

к сожалению, сам я далёк от программирования, поэтому и прошу помочь

monday2000:
morean
Замечательная идея. :) Она, кстати, давно уже носится в воздухе. Нечто похожее многие уже увидели в последнем Document Express Enterprise - 7-м - но что это это там именно такое - никто толком пока не знает.

Сделать такое возможно - на мой взгляд. В сущности, такую программу можно назвать "редактор маски DjVu". Маска в DjVu-файле - это слой текста, причём каждая отдельная буква кодируется в маске отдельным объектом - т.н. шейпом (shape), имеющим своё графическое начертание и координаты на листе. И, как известно, схожие на вид шейпы объединяются воедино - в виде общего шейпа - в т.н. словаре разделённых символов.

Ваша идея - это вручную объединять схожие символы в единый общий словарный символ (когда программа затрудняется это делать автоматически). Чисто технически такая программа, думаю, вполне возможна. Может быть, можно даже OCR туда каким-то боком применить (для автоматизации поиска схожих символов).

Хотя, конечно, такую программу будет явно непросто сделать. В смысле, настолько качественную, чтобы от неё был реальный прок. Так что в ближайшем будущем вряд ли её можно ожидать.

ИМХО в настоящее время более актуальной задачей является создание программ, аналогичных ScanKromsator и Scan Tailor. А описанная Вами программа - скорее всего, дело более отдалённого будущего.

А пока что можно попробовать ClearScan - это который в Adobe Acrobat http://acrobatusers.com/print/2215 . Но только осторожнее с ним - говорят, что с ним иногда целые абзацы пропадают.

morean:

--- Цитата: monday2000 ---........такую программу можно назвать "редактор маски DjVu". Маска в DjVu-файле - это слой текста, причём каждая отдельная

буква кодируется в маске отдельным объектом - т.н. шейпом (shape), имеющим своё графическое начертание и координаты на листе.

И, как известно, схожие на вид шейпы объединяются воедино - в виде общего шейпа - в т.н. словаре разделённых символов.
--- Конец цитаты ---



вотЪ-вотЪ! "по научному" - просто не знал как они там называются

...честно говоря, я это делал следующим образом:
(на правку одной страницы при этом полдня уходит),
так что не смейтесь пожалуйста кто это осилит прочитает

1 -открытие DJVU странцы в IrfanView и сохранение в GIF

2 -распознавание в ФАЙНРИДЕРЕ проверка и экспорт в PDF....

3 -пробный снимок страницы (FoxitReader), и выяснение масштаба который надо выставить при следующем снимке
(странное дело - этот масштаб ещё ни разу не был КРАТНЫМ, после экспорта масштаб какой нить 625% или 365% к примеру)

для этого оригинал страницы, и снимок экрана открываю в PHOTOEDITOR
(практически всеми забытая(незаслужено!), глюковатая программа из раннего ОФИСА),
и в ней смотрю фактический размер картинок и текста там и там...

4 -подсчитываю КАЛЬКУЛЯТОРОМ пропорции, снова открываю PDF, снимок делаю уже с правильным масштабом

5 -вставлять из буфера приходится в IRFAN, ибо в PHOTOEDITOR буфер какимто образом ограничен
хотя файлы больших размеров он открыть может, обрезаю возникшие поля, и сохраняю в GIF, чтоб снова открыть в PHOTOEDITOR-е

6 -в PHOTOEDITOR-е долго играюсь регуляторами ГАММА и КОНТРАСТ, чтоб из серого сделать чёрный и при этом буквы не склеить...

7 -в Document Express Editor выставляю агрессивный режим и кодирую в DJVU, в чёрнобелом...

8 -снова пункт 1 (открытие DJVU странцы и сохранение в GIF)

9 -первые буквы вверху тщательно подрисовываю в PHOTOEDITOR

10 -снова пункт 7 (Document Express Editor кодирую в DJVU)

11 -пункты 8, 9, 10, повторяю пока всё не станет красиво
при этом размер файла с каждым проходом сильно уменьшается

12 -после этого, в IrfanView из старой страницы вырезаю картинки, перекошеные повернув и максимально улучшив что можно

средствами IrfanView, (замена цветов, заливка, подрисовка, медианный фильтр)

13 -в PHOTOEDITOR-е  вставляю картинки на место, - в новую страницу - с чёрными исправлеными буковками...
всётаки нет больше таких программ - где это так просто как в PHOTOEDITOR

14 -в Document Express Editor в многостраничный DJVU вставляю новую улучшеную страничку

незаметно полдня прошло - а ещё столько дел не сделано!
чуство глубокого удовлетворения почемуто не ощющяеца, - ВЕДЬ ВСЕГО ОДНА СТРАНИЦА!
6 программ для этого приходится держать...
ах, - забыл ещё! Paint - тоже иногда использую :o

И ВСЮ ЭТУ ГАЛИМАТЬЮ МОЖНО БЫЛО БЫ ЗАПЕРДОЛИТЬ ПРИ ПОМОЩИ

--- Цитата: monday2000 ---"редактор маски DjVu"
--- Конец цитаты ---

так что очень жаль что :

--- Цитата: monday2000 ---....скорее всего, дело более отдалённого будущего
--- Конец цитаты ---
:'(

monday2000:
morean
Ну и ну, какие усилия! :o

--- Цитировать ---так что очень жаль что :
--- Конец цитаты ---
Я имел в виду, что у меня лично на это время найдётся нескоро. Но, может быть, кто-нибудь другой захочет этим заняться. И потом - это всё-таки довольно экзотичный путь.
Пока что использование того же Scan Tailor даёт вполне приемлемый результат. Ваша идея - это ИМХО слишком высокая технология - для нынешнего уровня развития сканирования книг.
То, что Вы делаете, уже сейчас можно сделать при помощи ClearScan - эффект будет схожим - а трудозатраты на порядки меньше.

morean:

--- Цитата: monday2000 ---morean
Ну и ну, какие усилия! :o
--- Конец цитаты ---
это както я решил почистить и поуменьшать несколько слоноподобных DJVU файлов, (радиожурналы в основном)...
не найдя других способов сделал так - но мне и правда это быстро надоело....

из спортивного интереса, попытался максимально уменьшать размер страницы,
выходили некоторые по 7-8 кб с картинками (ч\б схемы) и отличного качества
т.е журнал в 100 страниц можно в файл меньше мегабайта ушлёпать....
собсно говоря они раньше и были такими и вполне читаемые...

счас нередко выкладывают  журналы по 30-70 мб, - вроде это много,
DJVU версии в 12-16 мб тоже стали нормой, а качество плохое...

--- Цитата: monday2000 ---...можно сделать при помощи ClearScan - эффект будет схожим - а трудозатраты на порядки меньше.
--- Конец цитаты ---
и где слямзить эту чудо-программу? на варезпомойках чёт её не нашёл
я так понял русский интерфейс в ней не предусмотрен...

в принципе PDF  неплохие и после FINEREADER выходят, размером 40 - 60 кб
но только DJVU из них сложно сделать нормальные - изза сглаживания шрифтов,
а качественый скан и пятикратное уменьшение в размере, и есь свещщенный грааль любой DJVU программы

--- Цитата: monday2000 ---...ИМХО слишком высокая технология - для нынешнего уровня развития сканирования книг
--- Конец цитаты ---
где тут высокая технология, - всё ведь в любой программе есть - в самом кодере
и поиск схожих шейпов с настраиваемой (пусть грубо) степенью похожести,
и вывод их на экран (любым просмотровщиком), и координаты их на листе...

дело за "малым"  написать какой нить плагин, и уверен грамотно написаный он врядли будет больше мегабайта размером...

речь идёт только о бинарном текстовом слое - именно его и надо оптимизировать,
менять координаты шейпов не нужно, достаточно заменять одни другими,
да и без рисовалки вполне можно на первых порах обойтись....
думаю потенциал у этой затеи огромный, а реализация не такая и сложная...



Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии