m7876Не знаю, стОит ли Вам изобретать велосипед.
Я теперь уже точно уверен, что стОит. Поддержка tesseract меня пока не интересует (дальше - посмотрим). А tesseract вообще кто-нибудь под Windows скомпилировал?
Те глюки, которые есть, Jakub быстро исправляет.
Ну и я буду исправлять.
И тоже быстро. Да там вообще ничего сложного - всего только из одного XML-файла получить другой. Дела великие.
Вообще, я просто поражён Jakub-ским решением. Какие-то дикие, немыслимые навороты - ради чего? Что-то он явно темнит. Это он, видимо, просто проталкивает свой продукт -
http://pypi.python.org/packages/2.6/p/python-djvulibre/python-djvulibre-0.1.14.win32-py2.6.exe - не иначе.
Да, еще имейте в виду, что cuneiform не указывает пиксельные размеры изображения в hOCR. Это может оказаться проблемой.
Спасибо за информацию. Но это уже будет не моя проблема - а проблема CuneiForm-разработчиков.
А вообще - ИМХО к CuneiForm пока невозможно всерьёз относиться. У него отвратительный анализ макета страницы (если он вообще есть - я пока не понял).
Но мне CuneiForm как-то симпатичней - поскольку это отечественный продукт. Да и говорят, что качество распознавания CuneiForm немного лучше, чем у Tesseract.
Я всё же надеюсь, что прийдут такие времена, когда неформальные разработчики станут улучшать именно алгоритмику CuneiForm. Пока это выглядит фантастично, понимаю - но хочется в это верить.
Именно поэтому я хочу сейчас сделать создание OCR-слоя в DjVu средствами CuneiForm - на будущую перспективу, так сказать, и заодно пробудить ещё больший общественный интерес к CuneiForm.
В CuneiForm нужно сделать по крайней мере 2 глобальные вещи: открыть dat-словари (чтобы сделать CuneiForm по-настоящему Open-Source и чтобы открыть дорогу к обучению CuneiForm новым языкам) и сделать в CuneiForm путёвый анализ макета страницы.
Но уже сейчас сделано немало: CuneiForm успешно портирован на Linux, с Linux - обратно на Windows
, вот сейчас я сделаю программу под Windows (под Linux она тоже будет компилироваться) для OCR-ния DjVu посредством CuneiForm (в обозримом будущем), и ещё хорошо то, что CuneiForm стал командно-строчным (а был чисто визуальным).
Да, и ещё нужно обновить мультиязычную версию CuneiForm с 0.7 до 1.0.