Автор Тема: Open Source OCR System  (Прочитано 3053 раз)

gomde

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
    • E-mail
Open Source OCR System
« : 30 ёоЫм 2010, 14:37:58 »
Добрый день l
В течение нескольких лет наша группа занимается разработкой системы OCR (Оптического компьютерного распознавания)
с открытым кодом. Теперь у нас есть первые ощутимые результаты, и будем рады поделиться этой системой и нашими
знаниями с Вами. Ключевые характеристики системы распознавания включают в себя:

1. Потоковая обработка OCR
На первом этапе этого проекта, мы распознали 300 000 страниц
Тибетского Канона для цифровой библиотеки TBRC (www.tbrc.org). Мы
использовали MAcPro сервер, который обработал все 280 томов в 1
OCR поток.

2. Программ проверки орфографии, онлайн-словарь на 250000 слов и частотный словарь на 6,5
млн. слов.

3. Многоязычная поддержка
В настоящее время ключевым направлением проекта является тибетский и санскрит
OCR. Однако основной алгоритм можно изучать один язык за 2
месяца. Русский и английский нужен и мы ищем для этого партнеров.

4. Высокая точность
Система использует словарный контроль на всех этапах обработки OCR.
Грамматический корректор может использовать статистический словарь, содержащий 20-30
млн. фраз (словарь тибетского теперь включает 8,5 млн). Для тибетского языка
текущие результаты распознавания 1 ошибка на 1000
символов. Здесь вы можете увидеть скриншот:
http://www.buddism.ru///ocrlib/OCRLib21_07_2010.png

Мы считаем, что мы можем помочь вам в ваших исследованиях и проектах. И
Вы, вероятно, может помочь нам продолжить развитие системы OCR
и программы перевода. Будем рады ответить на Ваши вопросы!

С уважением,
Александр Строганов,
Московский Центр Риме
Интернет страницы OCR Project:
http://sourceforge.net/projects/ocrlib/
www.buddism.ru/ocrlib

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Open Source OCR System
« Ответ #1 : 30 ёоЫм 2010, 14:56:30 »
gomde
Добро пожаловать!

Действительно, у DjVu и OCR есть кое-что общее - в плане алгоритмов.

Не могли бы Вы объяснить как-то попроще, какого рода помощь Вам конкретно требуется. Просто на тот случай, что, быть может, кто-то из посетителей форума заинтересуется Вашими задачами.

На мой взгляд, Вам сложно будет искать единомышленников в такой экзотической тематике, как тибетский язык. В плане русского и английских языков было бы проще, возможно.