morean...а редактировал я первых две-три строки, (в которых кодер всегда находит "образец для подражания", и потом находил сильно отличающиеся, вручную их менял эталонными...
Я так думаю, что проще будет делать так:
1. OCR-ние текста в маске DjVu.
2. Поиск наиболее подходящего векторного шрифта (внешне похожего на сканированный)
3. Растеризация в шейпы векторного шрифта и замена полученными шейпами имеющихся шейпов в DjVu-файле.
Это, как мне кажется, наиболее реалистичный вариант - с точки зрения его технической реализации. И наиболее экономически целесообразный - если уж и тратить усилия на такую работу - то чтобы при этом получать максимально лучший результат.
Хотя даже п.2 - ну очень сложно сделать (это и есть суть работы ClearScan от Adobe). Делать всё это в каком-то ином варианте (с чисто ручным поиском соответствий шейпов) - пожалуй, каторга. Заодно OCR решит (наверное) проблему автоматического узнавания слипшихся шейпов.
одно только плохо что если они "в сером" то это очень затруднит их редактирование...
Обсуждаемая программа будет иметь дело исключительно с маской готового DjVu - а не с исходными серыми сканами. Если же сам DjVu содержит серый задний фон - то это не будет иметь значения - нужна-то маска, а не этот задний серый фон (он будет просто игнорироваться).
это и есть видимо некая душа чтоли книги, ибо после того же ФАЙНРИДЕРА чтото теряется, хотя в последних версиях (у меня пока 9-ка), он уже довольно грамотно пытается всё порасставлять...
но шрифт всегда другой, и он всегда с серым сглаживанием, и главное не сохраняет в нами любимом djvu
Надо просто распознавать буква-в-букву и тщательно подбирать соответствие шрифтов (заменяющего и нарисованного). Конечно, всё равно полного визуального соответствия не добьёмся (кстати, подбор заменяющего шрифта может будет, естестенно, с ручным контролем) - так что "душа книги" пострадает по-любому.
Но всё же это будет нечто в рамках приличия. К тому же, если бы мы делали просто OCR из DjVu в FB2 - тогда уж первоначальный "дух" книги был бы вообще утрачен.