Попробовал режим бинаризации. Часто даёт чёрные артефакты а местах вне текста и иллюстраций.
У этой проблемы есть два решения:
1) Либо ставить зоны "грязи" вручную.
(Я буду постепенно развивать автоматический расстановщик зон, но пока он плох)
2) Либо снизить агрессивность сегментера.
(Если "Фильтр формы"=-∞ - снизить агрессивность до, скажем, -100, или даже +10)
Можно также включить опцию "Чистить белые поля", если таковые есть.
Второй вариант явно проще, но имейте в виду, что он связан с риском.
Нынешний алгоритм сегментера старается свести риск к минимуму.
Неуверенно распознанные фигуры делаются тёмно-серыми на светло-сером фоне.
Если это грязь - она малозаметна, а если блеклый текст - то он остаётся читаемым.
Но при бинаризации, все неуверенно распознанные фигуры надо либо делать чёрно-белыми, либо удалять.
В первом случае появится режущая глаза грязь. Во втором - начнут пропадать точки над ё и блеклые буквы.
Абсолютно надёжное решение, увы, невозможно, пока машины не научатся понимать смысл документа.
Я вроде сначала апсамплинг делал. Прежде чем в jpm бинаризацию произвести. И не в чёрно-белый jpm cразу. А сначала для выделения контуров - в "standart".
Попробовал. Всё равно не получается ничего хорошего.