Автор Тема: как ещё ужать бинаризованые сканы (есть идея, кто поможет?)  (Прочитано 23646 раз)

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
занимаюсь частенько редактированием и перерисовкой технических книжек...
бывает ценную выкладывают литературу, но увы! - качество и размер файлов сильно в последнее время ухудшились...
перекошеные, серые сканы начисто лишают формат его главного качества - маленький размер файлов, а агрессивно ужатые картинки с низким разрешением - иногда просто пугают возникшим количеством ошибок...
вот иногда приходится просто вручную перебивать буквы - процесс сами понимаете - медленный и нудный  :-\
и пришла такая мысль, - неплохо бы этот процесс автоматизировать...
в самих программах уже всё нужное, я так понял есть, а именно:
- опция "агрессивный режим" при сжатии
- опция "OCR"
а сталобыть дело за тем, чтоб написать плагин или самостоятельную програмулю,
которая находила и выводила бы похожие начертания на экран,
подсчитывая попутно сколько раз начертание было применено,
(эдакий агрессивно-интеллектуальный режим)....
задача юзера после этого, - выбрать наилучшие начертания и заменить им ВСЕ!
размер файла при этом конечноже существенно уменьшится

вот такой к примеру интерфейс могла бы иметь программа



...для удобства пользования в окне найденых результатов было бы неплохо сделать так:
- навести курсор - появляется увеличеная картинка и через секунду контекстное меню;
- левый клик - отметить окошечко;
- правый клик - отметить как ГЛАВНОЕ;
- колёсико:
   после "правый клик на сером" - прокрутка вверх-вниз;
   после "левый клик на сером" - укрупнить-уменьшить (изменить количество столбцов);
- команда ПОСМОТРЕТЬ в контекстном меню открывает вкладку ПРОСМОТР с подсвечеными найдеными начертаниями...

ну и конечно совсем простой, монохромный точечный графический редактор,
(чтоб улучшать начертание, если даже лучшее из найденых не устраивает)
в нём такое управление:
- левый клик - чёрная точка (рисовать)
- правый клик - белая точка (стирать)
- нажать колёсик - "сохранить и закрыть"

естественно после каждой замены похожих букв "эталоном", число окошечек уменьшается...

такая программа могла бы стать практически ФАЙНРИДЕРОМ для ДЕЖАВЮ,
(ибо вид, стиль и шрифт документа полностью сохраняется),
и при этом быть просто плагином размером в пару мегабайт...

к сожалению, сам я далёк от программирования, поэтому и прошу помочь
« Последнее редактирование: 16 ѕЪвпСам 2010, 01:34:59 от morean »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Замечательная идея. :) Она, кстати, давно уже носится в воздухе. Нечто похожее многие уже увидели в последнем Document Express Enterprise - 7-м - но что это это там именно такое - никто толком пока не знает.

Сделать такое возможно - на мой взгляд. В сущности, такую программу можно назвать "редактор маски DjVu". Маска в DjVu-файле - это слой текста, причём каждая отдельная буква кодируется в маске отдельным объектом - т.н. шейпом (shape), имеющим своё графическое начертание и координаты на листе. И, как известно, схожие на вид шейпы объединяются воедино - в виде общего шейпа - в т.н. словаре разделённых символов.

Ваша идея - это вручную объединять схожие символы в единый общий словарный символ (когда программа затрудняется это делать автоматически). Чисто технически такая программа, думаю, вполне возможна. Может быть, можно даже OCR туда каким-то боком применить (для автоматизации поиска схожих символов).

Хотя, конечно, такую программу будет явно непросто сделать. В смысле, настолько качественную, чтобы от неё был реальный прок. Так что в ближайшем будущем вряд ли её можно ожидать.

ИМХО в настоящее время более актуальной задачей является создание программ, аналогичных ScanKromsator и Scan Tailor. А описанная Вами программа - скорее всего, дело более отдалённого будущего.

А пока что можно попробовать ClearScan - это который в Adobe Acrobat http://acrobatusers.com/print/2215 . Но только осторожнее с ним - говорят, что с ним иногда целые абзацы пропадают.
« Последнее редактирование: 17 ѕЪвпСам 2010, 15:09:31 от monday2000 »

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
Цитата: monday2000
........такую программу можно назвать "редактор маски DjVu". Маска в DjVu-файле - это слой текста, причём каждая отдельная

буква кодируется в маске отдельным объектом - т.н. шейпом (shape), имеющим своё графическое начертание и координаты на листе.

И, как известно, схожие на вид шейпы объединяются воедино - в виде общего шейпа - в т.н. словаре разделённых символов.



вотЪ-вотЪ! "по научному" - просто не знал как они там называются

...честно говоря, я это делал следующим образом:
(на правку одной страницы при этом полдня уходит),
так что не смейтесь пожалуйста кто это осилит прочитает

1 -открытие DJVU странцы в IrfanView и сохранение в GIF

2 -распознавание в ФАЙНРИДЕРЕ проверка и экспорт в PDF....

3 -пробный снимок страницы (FoxitReader), и выяснение масштаба который надо выставить при следующем снимке
(странное дело - этот масштаб ещё ни разу не был КРАТНЫМ, после экспорта масштаб какой нить 625% или 365% к примеру)

для этого оригинал страницы, и снимок экрана открываю в PHOTOEDITOR
(практически всеми забытая(незаслужено!), глюковатая программа из раннего ОФИСА),
и в ней смотрю фактический размер картинок и текста там и там...

4 -подсчитываю КАЛЬКУЛЯТОРОМ пропорции, снова открываю PDF, снимок делаю уже с правильным масштабом

5 -вставлять из буфера приходится в IRFAN, ибо в PHOTOEDITOR буфер какимто образом ограничен
хотя файлы больших размеров он открыть может, обрезаю возникшие поля, и сохраняю в GIF, чтоб снова открыть в PHOTOEDITOR-е

6 -в PHOTOEDITOR-е долго играюсь регуляторами ГАММА и КОНТРАСТ, чтоб из серого сделать чёрный и при этом буквы не склеить...

7 -в Document Express Editor выставляю агрессивный режим и кодирую в DJVU, в чёрнобелом...

8 -снова пункт 1 (открытие DJVU странцы и сохранение в GIF)

9 -первые буквы вверху тщательно подрисовываю в PHOTOEDITOR

10 -снова пункт 7 (Document Express Editor кодирую в DJVU)

11 -пункты 8, 9, 10, повторяю пока всё не станет красиво
при этом размер файла с каждым проходом сильно уменьшается

12 -после этого, в IrfanView из старой страницы вырезаю картинки, перекошеные повернув и максимально улучшив что можно

средствами IrfanView, (замена цветов, заливка, подрисовка, медианный фильтр)

13 -в PHOTOEDITOR-е  вставляю картинки на место, - в новую страницу - с чёрными исправлеными буковками...
всётаки нет больше таких программ - где это так просто как в PHOTOEDITOR

14 -в Document Express Editor в многостраничный DJVU вставляю новую улучшеную страничку

незаметно полдня прошло - а ещё столько дел не сделано!
чуство глубокого удовлетворения почемуто не ощющяеца, - ВЕДЬ ВСЕГО ОДНА СТРАНИЦА!
6 программ для этого приходится держать...
ах, - забыл ещё! Paint - тоже иногда использую :o

И ВСЮ ЭТУ ГАЛИМАТЬЮ МОЖНО БЫЛО БЫ ЗАПЕРДОЛИТЬ ПРИ ПОМОЩИ
Цитата: monday2000
"редактор маски DjVu"

так что очень жаль что :
Цитата: monday2000
....скорее всего, дело более отдалённого будущего
:'(

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Ну и ну, какие усилия! :o
Цитировать
так что очень жаль что :
Я имел в виду, что у меня лично на это время найдётся нескоро. Но, может быть, кто-нибудь другой захочет этим заняться. И потом - это всё-таки довольно экзотичный путь.
Пока что использование того же Scan Tailor даёт вполне приемлемый результат. Ваша идея - это ИМХО слишком высокая технология - для нынешнего уровня развития сканирования книг.
То, что Вы делаете, уже сейчас можно сделать при помощи ClearScan - эффект будет схожим - а трудозатраты на порядки меньше.

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
Цитата: monday2000
morean
Ну и ну, какие усилия! :o
это както я решил почистить и поуменьшать несколько слоноподобных DJVU файлов, (радиожурналы в основном)...
не найдя других способов сделал так - но мне и правда это быстро надоело....

из спортивного интереса, попытался максимально уменьшать размер страницы,
выходили некоторые по 7-8 кб с картинками (ч\б схемы) и отличного качества
т.е журнал в 100 страниц можно в файл меньше мегабайта ушлёпать....
собсно говоря они раньше и были такими и вполне читаемые...

счас нередко выкладывают  журналы по 30-70 мб, - вроде это много,
DJVU версии в 12-16 мб тоже стали нормой, а качество плохое...
Цитата: monday2000
...можно сделать при помощи ClearScan - эффект будет схожим - а трудозатраты на порядки меньше.
и где слямзить эту чудо-программу? на варезпомойках чёт её не нашёл
я так понял русский интерфейс в ней не предусмотрен...

в принципе PDF  неплохие и после FINEREADER выходят, размером 40 - 60 кб
но только DJVU из них сложно сделать нормальные - изза сглаживания шрифтов,
а качественый скан и пятикратное уменьшение в размере, и есь свещщенный грааль любой DJVU программы
Цитата: monday2000
...ИМХО слишком высокая технология - для нынешнего уровня развития сканирования книг
где тут высокая технология, - всё ведь в любой программе есть - в самом кодере
и поиск схожих шейпов с настраиваемой (пусть грубо) степенью похожести,
и вывод их на экран (любым просмотровщиком), и координаты их на листе...

дело за "малым"  написать какой нить плагин, и уверен грамотно написаный он врядли будет больше мегабайта размером...

речь идёт только о бинарном текстовом слое - именно его и надо оптимизировать,
менять координаты шейпов не нужно, достаточно заменять одни другими,
да и без рисовалки вполне можно на первых порах обойтись....
думаю потенциал у этой затеи огромный, а реализация не такая и сложная...




monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Цитировать
и где слямзить эту чудо-программу? на варезпомойках чёт её не нашёл
я так понял русский интерфейс в ней не предусмотрен...
Как я понимаю, это просто одна из опций последних версий Adobe Acrobat Professional.
Цитировать
где тут высокая технология, - всё ведь в любой программе есть - в самом кодере
Высокая оттого, что поиск схожих символов нереально делать вручную. Вот как раз алгоритм автоматизированного поиска и есть главная сложность. Потом не забывайте - просто так поменять один шейп на другой вручную - не всегда хорошо. Новый шейп должен быть настолько похож на заменяемый, чтобы текст не слишком уродовался (после замены). Чтобы не получалось "ступенек" и "провалов" разного вида. И чтобы ширины строк не "разъезжались" при массовой замене символов.

В общем, задача аналогична самому DjVu-кодированию. Фактически, Вы, сами того не осознавая, говорите о задаче усовершенствования minidjvu.

Я думаю, что ручные поиск схожих шейпов и замена их на одинаковый - это нереально. Слишком высоки трудозатраты.
Цитировать
да и без рисовалки вполне можно на первых порах обойтись....
Такая программа обязана иметь визуальный интерфейс - а это большая канитель - лично для меня.

Если Вам нужен малый размер и Вы готовы потратить много усилий - так делайте просто распознавание в Файнридере - а результат сохраняйте в FB2.
Цитировать
думаю потенциал у этой затеи огромный, а реализация не такая и сложная...
Чем делать то, о чём Вы говорите - так лучше уж сделать либо усовершенствованный minidjvu, или написать с нуля аналог Scan Tailor. Толку будет гораздо больше.

И только когда minidjvu будет усовершенстован до возможного максимума, а идеальная замена Scan Tailor будет создана - вот только тогда и можно будет заняться реализацией Вашей идеи - как следующим шагом в эволюции развития. Что толку пытаться менять шейпы вручную сейчас - когда усовершенствование minidjvu и Scan Tailor автоматически на порядок снизят "разбегание" похожих шейпов вокруг "общего" (а тогда уж оставшееся "разбегание" и можно будет чисто вручную ликвидировать в предлагаемой Вами программе).
Поэтому я и говорю, что время для реализации Вашей идеи пока ещё не пришло. Это моё личное мнение - я могу и ошибаться.

Вы всё равно что предлагаете построить космический корабль в 19 веке - а я в ответ предлагаю сначала изобрести и развить радиосвязь, электротехнику, металлургию, химию и пр. - без которых космический корабль будет преждевременным.

Всему своё время.
« Последнее редактирование: 18 ѕЪвпСам 2010, 09:50:09 от monday2000 »

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
Цитата: monday2000
поиск схожих символов нереально делать вручную
они уже найдены, - разве не этим занимается кодер DjVu? :o
я ж не предлагаю разумеется запихивать на вход файл рисунка..
надо копать «словарь» шейпов уже готового DjVu файла, на который замыкается одна или несколько страниц....
Цитата: monday2000
ручные поиск схожих шейпов и замена их на одинаковый - это нереально. Слишком высоки трудозатраты.
не думаю что речь идёт о миллионах или тысячах
после сжатия агрессивным режимом словарь шейпов наверняка существенно редеет, а мы ему помогли бы ещё поредеть...
ктому-же поиск можно ограничить тремя ступенями:
-поиск в странице
-поиск в словаре неск. страниц
-поиск во всём документе

да и пугать "книжный народ" сложностями - это что ёжыка голой задницей
создание любой электронной книги - титанический труд, и всёравно масса народа этим занимается
(тут я не про себя конечно сказал, - к сож у меня не хватило бы терпения на ШЕДЕВР из сотен страниц)
Цитата: monday2000
И только когда minidjvu будет усовершенстован до возможного максимума, а идеальная замена Scan Tailor будет создана - вот только тогда и можно будет заняться реализацией Вашей идеи - как следующим шагом в эволюции развития. Что толку пытаться менять шейпы вручную сейчас - когда усовершенствование minidjvu и Scan Tailor автоматически на порядок снизят "разбегание" похожих шейпов вокруг "общего"
..если я не ошибаюсь формат придумали ещё до релиза винды98
отлично помню как мудохался с ним на 486 машине которая жевала его по строчке в минуту....
в те года я думал что к 2010 году народ на марсе клумбы будет высаживать,
а особого прогресса так и не произошло, - во многих областях, в т.ч DjVu кодировании..
напротив, - ввиду увеличения ёмкости носителей и скоростей интернета, размер перестал к сожалению быть важным фактором, и развитие DjVu-программ стало многим неинтересно....
однако фанаты видимо до сих пор есть
Цитата: monday2000
Поэтому я и говорю, что время для реализации Вашей идеи пока ещё не пришло.
увы и ах ! оно скоро не прийдя уйдёт..
количество тех же технических журналов, из года в год редеет,
а глянцевые никто прессовать в DjVu не станет, - есть PDF и он развивается...
DjVu - до сих пор видимо удел энтузиастов, и многие программы используемые ими придумывались "не совсем как бы для DjVu", а просто для обработки сканированых изображений...
толковых и простых DjVu программ с кодерами и редакторами я не очень то и припомню, может конечно я их просто не там искал..

Цитата: monday2000
Вы всё равно что предлагаете построить космический корабль в 19 веке - а я в ответ предлагаю сначала изобрести и развить радиосвязь, электротехнику, металлургию, химию и пр. - без которых космический корабль будет преждевременным.

Всему своё время.
..мне понравилось ваше лирическое отступление, про то как "космический корабль бороздит просторы......." :D
« Последнее редактирование: 18 ѕЪвпСам 2010, 14:49:53 от morean »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Цитировать
надо копать «словарь» шейпов уже готового DjVu файла, на который замыкается одна или несколько страниц....
Чисто вручную, да? А много ли найдётся желающих это делать?
Цитировать
создание любой электронной книги - титанический труд, и всёравно масса народа этим занимается
Однако же, все бы хотели максимально снизить свои трудозатраты.
Цитировать
если я не ошибаюсь формат придумали ещё до релиза винды98
В 1994 году.
Цитировать
отлично помню как мудохался с ним на 486 машине которая жевала его по строчке в минуту....
в те года я думал что к 2010 году народ на марсе клумбы будет высаживать, а особого прогресса так и не произошло, - во многих областях, в т.ч DjVu кодировании..
Качественного прогресса в DjVu почти не произошло (за последние лет 5 - не считая внедрения метаданных), зато произошёл бурный количественный рост (что тоже немаловажно). Возникло множество новых важнейших программ и технологий в области DjVu-книгосканирования. Нет, сдвиг в этом деле произошёл просто тектонический. :)
Цитировать
развитие DjVu-программ стало многим неинтересно
DjVu хорош вовсе не только малым размером - у него есть и прочие плюсы. DjVu уже не умрёт - и PDF теперь никогда его не догонит.
Цитировать
толковых и простых DjVu программ с кодерами и редакторами я не очень то и припомню, может конечно я их просто не там искал..
Ну гляньте сюда http://www.djvu-soft.narod.ru/soft/basic.htm , может, что и найдёте... :)
Цитировать
..мне понравилось ваше лирическое отступление, про то как "космический корабль бороздит просторы......."
Давайте я скажу попроще. Я лично делать такую программу не собираюсь. По крайней мере пока. Почему? Потому что, если исходить из поставленной перед собой задачи "развивать технологии DjVu-книгосканирования" и из принципа эффективного расходования своих времени/сил, то лучше делать такие программы, которые на единицу затраченного личного времени дадут наибольший эффект (наибольшее развитие DjVu-книгосканирования). Поэтому, мне будет эффективнее сейчас делать иные программы - более насущные - нежели чем Вашу программу. Понимаете?

Разве что кто-то другой (не я) возьмётся её делать - это будет неплохой вариант. Но мне кажется, такая программа не найдёт широкого массового спроса (народ поленится ковыряться в шейпах целой книги).

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
Цитата: monday2000
Я лично делать такую программу не собираюсь
я это уже давно понял - можно было не повторять
Цитата: monday2000
А много ли найдётся желающих это делать?
уверен что найдутся и немало!
ведь после распознавания тем же ФАЙНРИДЕРОМ проверять тоже приходится, думаю по сложности процесс расстановки птичек на схожих шейпах будет гораздо проще, - мосх тут практически не нужен....
думаю что это не так сложно как кажется, к томуже при помощи той же функции OCR шейпы можно группировать, что сильно облегчит задачу...

естественно, новые издания -пестрящие разнообразными шрифтами, редактировать можно лишь постранично, и это и правда долго и нудно, но как мне кажется для таких всёже PDF более предпочтителен...
в тоже время есть старые издания, от начала до конца набраные одним шрифтом, (да собсна и среди новых таких тоже немало)...
вот в них то при помощи такой программы можно получить и отличное качество и малый размер и сохранить на 90% оригинальное оформление...

это очевидный факт, -  что таких готовых djvu книг, (которые аж руки чешутся поулучшать) гуляет в интернете просто тьма !
и как нашлись желающие их сосканировать, так и найдутся желающие их почистить...
тем более, что такой инструмент получился бы интуитивно очень прост и понятен любой мартышке, а его эффективность безусловно принесла бы многим "чуйство глубокого удовлетварения" конечным продуктом, (что зачастую является практически единственной мотивацией в этом нелёгком деле)

не могли бы Вы monday2000, как корифей сего форума, безусловно знающий многих разработчиков, подсказать - кому б ещё подкинуть эту очевидную, "давно уже носящуюся в воздухе" идею?
или, (что ещё лучше), показать им данный топик - может комуто эта идея тоже понравится ? в конце концов уверен, что вам тоже было бы интересно поиграться с подобным инструментом ;)
« Последнее редактирование: 19 ѕЪвпСам 2010, 01:12:11 от morean »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Цитировать
и как нашлись желающие их сосканировать, так и найдутся желающие их почистить...
Может, и найдутся. Кто их вообще-то знает. :)
Цитировать
кому б ещё подкинуть эту очевидную, "давно уже носящуюся в воздухе" идею?
Наверное, надо писать каждому потенциальному кандидату на электронную почту. Допустим, со ссылкой на данный топик. Кто мог бы это сделать - трудно сказать. Попробуйте написать на форумы DjVuLibre и PlanetDjVu. Ещё можно лично обратиться к Jakub Wilk, автору http://pdf2djvu.googlecode.com/ - он любит такие заковыристые вещи.

Плюс здесь же на форуме этот топик остаётся же - и его будут читать посетители - авось кто и соблазнится.

Знаете, вот если бы Вашу программу можно было как-то сделать без визуального интерфейса - а в виде консольной программы - то, наверное, это здорово облегчило бы задачу по её созданию. Сложно именно визуальный интерфейс сделать.

Ладно, как будет у меня время - я гляну в исходники DjVuLibre - чисто чтобы прикинуть саму возможность создания такой программы (и насколько это может быть вообще трудно).

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Цитировать
Цитировать
если я не ошибаюсь формат придумали ещё до релиза винды98
В 1994 году.
Извиняюсь, ошибочка вышла - не в 1994, а в 1996 году.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Возможно, одним из самых важных применений Вашей программы может стать восстановление (реставрация) некачественно сделанных DjVu-книг (или дополнительная оптимизация качественных).

Идея вот какая: если суметь сделать для DjVu самодельный аналог опции ClearScan от Adobe - то можно будет генерировать сглаженный шрифт для DjVu - с целью замены имеющегося корявого.

Не знаю, правда - насколько это реалистично - но не исключено.

morean

  • Пользователь
  • **
  • Сообщений: 60
    • Просмотр профиля
Возможно, одним из самых важных применений Вашей программы.......
ну что вы, monday2000! моя только идея, а программа будет разумеется Вашей ::)  я совершенно не вынашиваю никаких честолюбивых и копирайтерных планов..
....может стать восстановление (реставрация) некачественно сделанных DjVu-книг (или дополнительная оптимизация качественных).
разумеется ! об этом речь с самого начала ;)
.....можно будет генерировать сглаженный шрифт для DjVu - с целью замены имеющегося корявого.
я уже думал на эту тему, - вероятно в контекстное меню стоит ввести пунктик:
"МЕДИАНИЗИРОВАТЬ ИЗОБРАЖЕНИЕ ВЫБРАНОЙ ГРУППЫ СИМВОЛОВ",
или просто - "МЕДИАНИЗИРОВАТЬ", (появляется в меню после того как выбрано более одного шейпа, при нажатии открывает в граф.редакторе усреднённое изображение)...

..и ещё можно находить слипшиеся символы, и их пилить в редакторе, что также существенно повлияет на качество и размер..
это наверно будет довольно непросто - ибо один шейп слипшийся надо будет заменить двумя или несколькими, но задача конечно стоящая

...и ещщё: - для упрощения и экономии экранного места - можно окошечки с галочками заменить выделением цветом (интерфейс)...
~~~~~~~~~~~~~~~
...проводя эксперементы с  "синтетическим сглаженным" шрифтом, я добивался более двукратного уменьшения размера djvu страницы размером 3000х4000...
по пикселю-по два-по три сглаживал начертание и кодировал снова пока практически не стало ВСЁ одинаково...

шрифт конечно вышел говняный - видеть это позорищще не было сил...
поэтому я плюнул (потратив почти целый день!) взял и просто выдернул распознаный текст, и напечатал его на чистом листе того же размера похожим максимально шрифтом...
из исходного файла 18к (надо сказать довольно неплохо бинаризованого), получилось 8к, что я так полагаю довольно неплохо...

..к сожалению "максимально похожий" он (шрифт) был лишь по высоте и ширине,
ну и ещё он был бинарным без серого сглаживания (тахома 47), а начертание и интервал между строками совсем не такие, да и выравнивать по правому и левому краю IRFANVIEW не умеет, поэтому промудохавшись долго и нудно, - результат был лишь чисто познавательный....

поэтому ещё один путь решения данной проблемы - это библиотека ч/б типографских шрифтов, и нормальная графическая программа умеющая выровнять шрифт по обоим краям
Не знаю, правда - насколько это реалистично - но не исключено.
будем надеятся и ждать
« Последнее редактирование: 20 ѕЪвпСам 2010, 20:15:33 от morean »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
morean
Цитировать
я совершенно не вынашиваю никаких честолюбивых и копирайтерных планов..
Да и я не гонюсь за честолюбием... Какая вообще разница, чья будет программа - главная, чтобы она была - и более-менее нормальная. Погоня за честолюбием - опаснейшее зло, приносящее страшный вред. Я просто условно говорю "Ваша программа", имея в виду, что Вы её предлагаете.
Цитировать
я уже думал на эту тему, - вероятно в контекстное меню стоит ввести пунктик:
"МЕДИАНИЗИРОВАТЬ ИЗОБРАЖЕНИЕ ВЫБРАНОЙ ГРУППЫ СИМВОЛОВ",
Всё это понятно, но я пока столь далеко даже не замахиваюсь. Я могу лишь обещать, что как-нибудь посмотрю на код в DjVuLibre, отвечающий за работу с шейпами - и прикину, что из него можно "выжать". Пока только так.
Цитировать
..и ещё можно находить слипшиеся символы, и их пилить в редакторе, что также существенно повлияет на качество и размер..
это наверно будет довольно непросто - ибо один шейп слипшийся надо будет заменить двумя или несколькими, но задача конечно стоящая
Да, это всё и мне ясно - что это было бы здорово. Но это на отдалённое будущее - когда руки дойдут.
Цитировать
...и ещщё: - для упрощения и экономии экранного места - можно окошечки с галочками заменить выделением цветом (интерфейс)...
Я если что-то и сделаю - то только консольную утилиту (т.е. работа через командную строку). Визуальный интерфейс мне сделать будет затруднительно - по крайней мере, пока мне так видится.
Цитировать
...проводя эксперементы с  "синтетическим сглаженным" шрифтом, я добивался более двукратного уменьшения размера djvu страницы размером 3000х4000...
Ого, впечатляет. :o
Цитировать
по пикселю-по два-по три сглаживал начертание и кодировал снова пока практически не стало ВСЁ одинаково...
Терпение же у Вас, однако... :)
Цитировать
шрифт конечно вышел говняный - видеть это позорищще не было сил...
Да, вот именно этого я и боюсь - знаете, как в кино показывают, когда жертве присылают письмо - а там разнобойными буквами, вырезанными из газет, написано "я тебя убью". ;D
Цитировать
поэтому я плюнул (потратив почти целый день!) взял и просто выдернул распознаный текст, и напечатал его на чистом листе того же размера похожим максимально шрифтом...
из исходного файла 18к (надо сказать довольно неплохо бинаризованого), получилось 8к, что я так полагаю довольно неплохо...
Это тоже вариант - всё равно так будет легче, чем делать обычный OCR - легче оттого, что переделывается один только шрифт - а макет страницы не строится заново (как было бы при распознавании, скажем, из Word в DjVu).
Цитировать
..к сожалению "максимально похожий" он (шрифт) был лишь по высоте и ширине,
ну и ещё он был бинарным без серого сглаживания (тахома 47), а начертание и интервал между строками совсем не такие, да и выравнивать по правому и левому краю IRFANVIEW не умеет, поэтому промудохавшись долго и нудно, - результат был лишь чисто познавательный....
Ну вот как раз фича ClearScan и умеет подобрать максимально похожий "искусственный" шрифт, близкий к сканированному шрифту. Как сделать такой самодельный ClearScan - даже не представляю. Но надо бы что-то такое придумать - хотя бы в общих чертах.
Цитировать
поэтому ещё один путь решения данной проблемы - это библиотека ч/б типографских шрифтов, и нормальная графическая программа умеющая выровнять шрифт по обоим краям
Короче, нужно, наверное, OCR, плюс набор шрифтов, плюс алгоритм аналогичный ClearScan (подбор шрифта из набора, максимально близкий по начертанию к имеющемуся на скане) - а замена шрифта - это уже будет дело техники - это же будет прямо в маске DjVu делаться - будут меняться элементы массива шейпов и их координаты.
Цитировать
будем надеятся и ждать
Скоро не обещаю, но запланирую для себя.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Есть такая китайская программа - DjVu Toy http://www.comicer.com/stronghorse/software/exe/DjVuToy_eng.zip . Она умеет извлекать из DjVu графическое изображение шейпов и их координаты. В общем, действительно как игрушка - толку от этого мало, разве что посмотреть из любопытства.