Автор Тема: FAQ: Оцифровка и OCR-обработка дореформенных текстов, расстановка Ё и ударений  (Прочитано 14859 раз)

charoplet

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
    • E-mail
Как и обещал, нечто интересное. Решил все же написать, пусть и сбивчиво, иначе еще на пару дней затянулось бы ожидание ответа от меня. Читать желательно весь пост).

История создания словаря дореформенной орфографии dict_1006649 для FineReader, подготовил Черников Павел, на основе справок к словарям Лебедева и Виницкого.

Изначально Нил Далтон (Neal Dalton) в 1992 г составил словарь на основе найденных им в интернете текстов. Словарь Далтона содержал 52 тысячи словоформ и много ошибок (свыше 8% слов). Затем словарь Далтона взял за основу Александр Лебедев, начав вносить в него поправки в конце 1997 года.
Основным подходом, положенным в основу словаря, было использование нормализованной формы слова и правил словоизменения, отвечающих грамматике русского языка. При вычитке словаря Далтона конкретные слова были приведены к нормализованной форме и из словаря было исключено большинство неверных слов. 
На этом этапе работы использовался орфографический словарь русского языка, выпущенный Институтом русского языка АН СССР в 1991 г.  В словарь были добавлены слова из технических и литературных текстов. Затем, все имеющиеся в словаре слова были перепроверены с помощью электронного орфографического словаря "Корректор" (120 тысяч слов), а обнаруженные расхождения выверены по орфографическому словарю русского языка, справочнику Зализняка ("Грамматический словарь русского языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной русской лексики" (170 тысяч слов). Все слова, добавляемые после этого, проходили проверку с помощью указанных словарей (в специальных областях - энциклопедий) и "Русского орфографического словаря" под редакцией Лопатина (160 тысяч слов).
Слова, отсутствующие в этих изданиях, добавлялись, лишь при широком использовании и при условии, что в их написании нет сомнений. Объём словаря составлял более 122.2 тысячбазовых слов, а полное число образуемых из них словоформ составляет 1.168 миллиона (против 52 тысяч в словаре Нила Далтона и 952 тысяч слов в словаре Константина Книжника (6% ошибочных слов).
Отличительной чертой данного словаря является полноценная поддержка буквы ё. Сейчас словарь Лебедева используется в OpenOffice.
На основе словаря Лебедева, Сергей Виницкий создал словарь для проверки правописания в текстах, набранных в дореформенной русской орфографии, что было первой попыткой такого рода. При работе над словарём он следовал принципу всемерно допустимого расширения допустимого набора
слов и форм, включая редкие формы, для облегчения проверки правописания. В противоположность этому, А. Лебедев придерживается точки зрения, что для облегчения проверки правописания необходимо сокращать набор слов и форм наиболее распространённых.
   Некто chaource, в UNIX скомпилировал словарик в utf8 и выложил в интернет. Черников Павел (Чароплёт), нашёл ему применение, подключив к FineReader 11 (предварительно сохранив в Юникоде).
И ещё, на заметку. Для поддержки "устаревших" букв, Виницкий предложил свою кодировку KOI8-C, которая распространения не получила. Технически возможно из этой кодировки перевести словарь к виду словарей программы MySpell, подходящих к OpenOffice. Тогда мы получим возможность проверять тексты в старой орфографии при помощи современной программы (пользователей системы UNIX об этом надо просить). Также можно попробовать скомпилировать русский словарь (современный) из словаря Лебедева и подключить его к FineReader, что, вероятно, даст лучшее качество распознавания текстов.
---
Что касается редактирования текста, пришли на ум такие мысли.
1.После подготовки сканов к непосредственной сборке (и собрав из них файл), сканы не удаляем. С помощью программы (надо найти маленькую, бесплатную и портабельную) мы проставляем в каждой из них внизу водяной знак прямо под текстом, например "{разрыв}". Делаем мы это для того, чтобы позднее не проставлять вручную (как я, 600 страниц) разрывы между страницами. В итоге, после OCR, мы получаем текст с пометками, где заканчивались оригинальные страницы. Это нам пригодится для удобного редактирования.
2. Очень важными в текстах являются цифры. Первый раз, конвертировав со словарем в современную орфографию, при конвертации можем не помечать текстом замены, а можем пометить. Затем создаем словарь с цифрами
1=1
2=2
3=3
... и т.д. И прогоняем текст с выделением цветом замен. Получим выделенные в тексте даты, + увидим, где у нас закрались буквы З вместо 3 и О вместо 0. И удобнее будет потом сверять с оригиналом.
3. Далее работаем в ворде с ОРФО, чтобы у нас цветовые пометки остались. нашу заметку из пункта 1 "{разрыв}" меняем на разрыв страницы в ворде. Т.о. получаем документ, где страницы совпадают с оригиналом.
4. При наличии колонтитулов книги, если мы ее обрабатываем, колонтитулы могут влезть между последним словом страницы А и первым словом страницы Б (где А и Б некие номера). Получится что-то вроде "Оприч-ИВАН ГРОЗНЫЙнина" Удаляем название колонтитулов из основного текста, оставляя слово полностью на 1 странице, вручную убирая перенос. А потом вручную же вставляем разрыв страницы.
5. С ссылками решил проблему так: ставим в ворде вручную концевые сноски (сноски-формат 1,2,3 ...), заключая их в [] квадратные скобки и в самом тексте, и в конце документа (куда мы будем копировать попавшую о основной текст сноску, которая тоже сбивает с толку типа "Оприч-ИВАН ГРОЗНЫЙнина"". Получим аккуратные сносочки вроде [1][2][3], которые сохранятся даже в txt. Сами сноски будут в конце документа.
6. Я вставляю еще картинки (в моем случае, портреты с подписью), в текст, тупо копируя их из djvu. При сохранении в txt они пропадут, а при сохранении в PDF лишними не будут. Парой кликов выбираем, каким будет обтекание текста.
7. В итоге мы получаем книгу, во многом похожую на оригинал, разве что ссылки будут в конце. При сохранении в PDF, подбираем величину шрифта, чтобы текст равномерно заполнял страницу, а при сохранении в .txt не забываем сделать замену разрыва страницы ворда на пробел, скажем, а потом двух пробелов - на один. И сохраняем, разрешив подставить знаки.

-----
По поводу словарей, я думал о составлении  правки словаря к Иероглифу, а не про корректировку словаря к ФР.
Вычитывая текст, отлавливаем непонятные слова и сохраняем их куда-нибудь, как есть. Потом смотрим 1) как они писались в оригинале в книге и вручную с помощью раскладки Ильи Бирмана, набираем их. Прогоняем через основной словарь в Иероглифе. Если после преобразований получается ошибка, тогда вносим эти слова в словарь правки для иероглифа (тут надо быть осторожным и вносить предельно аккуратно, иначе можно испортить весь текст).

Вот пример тех слов, часть из которых, возможно, будет внесена в словарь правки:




макиавелизмом
погречески
казацкия
сожигали
галлерея
Украйне
добраго
темнорусыми
карандашем
разсуждать
безпомощным
разсылал
ктому
разстроенным
какъто
поленица
бичем
подъячих
рожденна
аллилуя
долго-ли (вообще ли и частицы)
сожигать
посвойски
Возстание
Долгия
подъячие
понемецки
всякия
разсказывать
рассчета
Украйны
Украйна
чтб=(с ударением)
еслибы
старшйна
Поспольство
внешния
доканали
Украйну
розрухой
Малороссий
Украйной
белаго
тунгузов
металические
юговосток (и вообще направления)
панцырники
ктому ж
Разсудительный
кое-какия
белорусс

Вот о слиянии словарей правки к иероглифу я и спрашивал, как лучше.
УФ! Вроде ничего не забыл.
« Последнее редактирование: 17 ПЭТРам 2012, 11:47:48 от charoplet »

pobat

  • Новичок
  • *
  • Сообщений: 28
    • Просмотр профиля
    • E-mail
большое спасибо за дельные советы. года 3 назад передо мной встал вопрос оцифровки одной дореволюционной книги, но не найди готового решения так и оставил книгу без ocr-слоя. ннооо теперь))

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Прочитал твою статью. Осмыслил ::) Что-то довольно много возни. На мой взгляд конечно.
Пробовал создавать в PDF формате, переведённый файл. Сделать конечно можно но-о, до-о-олго, весьма долго. Вообщем я остановился на fb2. Он и картинки сохраняет и прочесть его можно на разных железках.
Завтра раздачу забабашу. Если хочешь можешь посмотреть на мои художества. А да, забыл ... тогда на файлообменник тебе кину.

charoplet

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
    • E-mail
pobat
Пожалуйста, рад, что хоть кому-то интересно.
yuree
Возни много, но вспомни, сколько ее было без словаря и иероглифа. Тут по большей части теоретический аспект, для перфекционистов, у которых есть время и желание сделать 1 раз и навсегда.
« Последнее редактирование: 29 ПЭТРам 2012, 15:12:40 от charoplet »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
<...>
yuree
Возни много, но вспомни, сколько ее было без словаря и иероглифа. Тут по большей части теоретический аспект, для перфекционистов, у которых есть время и желание сделать 1 раз и навсегда.

Понятно :)

boris11235

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
    • E-mail
Скажите, а как Вам удалось импортировать dict_1006649 в FineReader? У меня во время импорта выдается ошибка "Переполнение словаря "воскрешенiямъ"" (стоит лицензионный FineReader 8.0 Professional Edition).
Если возможно, то могли бы Вы выложить уже скомпилированный словарь для FineReader?

Протестировал. dict_1006649 делает необходимость правки минимальной (http://narod.ru/disk/37053923001/dict_old.rar.html). Так что можно получить вполне приемлемое качество и без ручной корректировки. Жду замечаний и предложений.

Общий алгоритм действий:
...
2. Один раз в FineReader 11 создаем и настраиваем новый язык (дальше уже пользуемся созданным): язык документа->Выбор языков... Откроется редактор языков, внизу слева нажимаем кнопку "Новый...", отмечаем "создать новый язык на основе существующего", выбираем в выпадающем меню "Русский (старая орфография), жмем ОК. Откроется окно свойств языка, вводим название, например "Русский (дореформенный, со словарем)". В разделе словарь выбираем "пользовательский словарь" и жмем кнопку "свойства..." В открывшимся окне жмем "импорт..." и выбираем словарь dict_1006649. Ждем, когда миллион шесть тысяч шестьсот сорок девять слов займут положенное им место. Давим кнопку "закрыть" в окне "словарь для языка", куда успешно импортирован наш словарь. в свойствах языка также жмем "ок". Затем и в редакторе языков отмечаем галочкой наш новый язык "Русский (дореформенный, со словарем)" (или как сами называли), он будет в самом низу, в пользовательских языках. Я ставил галочку также напротив языка "Русский и английский; (со словарной поддержкой). Жмем ок. Настройка языка распознавания окончена.
...

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Скажите, а как Вам удалось импортировать dict_1006649 в FineReader? У меня во время импорта выдается ошибка "Переполнение словаря "воскрешенiямъ"" (стоит лицензионный FineReader 8.0 Professional Edition).
Если возможно, то могли бы Вы выложить уже скомпилированный словарь для FineReader?

То что не загружается весь словарь (а там более миллиона записей), это понятно. Восьмая версия ФР не поддерживает такой объём словаря. Сколько точно записей в словарь можно подключить, не знаю, надо пробовать. Сколько записей поддерживают версии 9 и 10, тоже не скажу. Но что мне доподлинно известно так это то, что в 11-ой этот громадный словарь загружается полностью, только подождать надо. Итак, у Вас есть два варианта.
1. Разбить словарь на несколько частей и загружать их по отдельности в восьмёрку. Как она себя поведёт и сколько это будет частей, не знаю, не пробовал.
2. Ставьте себе 9-ю, 10-ю а лучше всего 11-ю версию ФР. На верняка.
Делить словарь можно и в текстовом редакторе и в Экселе, как удобно.
Если Вы остановитесь на вариантах исключающих установку 11-го ФР, отпишитесь пожалуйста в этой теме. Расскажите что получилось.

desta

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
    • E-mail
С интересом прочел тему. У меня вопрос: можно ли где-то скачать файл готового пользовательского эталона для ABBYY FineReader 11 Professional ? Полезно ли это будет?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
desta
К 12-ой прикрутили дореформку с проверкой орфографии.
Ну а если вам чем то последняя версия не угодила то словарь у меня остался, как память)), создавать эталон(-ы) смысла не вижу.

yankaPt

  • Новичок
  • *
  • Сообщений: 1
    • ICQ клиент - 352117672
    • MSN клиент - yashka345345@yandex.com
    • Просмотр профиля
    • kanzashi
    • E-mail
kanzashi
« Ответ #24 : 15 јРав 2015, 11:56:16 »
Что такое канзаши? Появлению этого чуда мы обязаны гейшам. Именно они подарили нам отличный способ самовыражения и украшения. Техника цумами канзаши появилась еще тогда, когда бижутерии и украшений особо и не было. В теплое время года женщины декорировали волосы живыми цветами. Впрочем долгой жизнью такие украшения похвастать не могли. Поэтому они нашли возможность украшать свои волосы искусственными цветами.

lemonia

  • Новичок
  • *
  • Сообщений: 14
    • Просмотр профиля
    • E-mail
Нашел один Oldrus где то здесь http://rutracker.org/forum/viewtopic.php?t=4383540
Вот такая ссылка на закачку высветилась в Google оттуда:
https://yadi.sk/d/gTu43Q-Q3fCIU


Rusviv

  • Новичок
  • *
  • Сообщений: 11
    • Просмотр профиля
    • Руская вивліоѳика
    • E-mail
Странное обсуждение — все ссылки битые, причем практически с самого начала. Может кто-нибудь подскажет где все-таки можно найти вышеупомянутые словари?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Нашел один Oldrus где то здесь http://rutracker.org/forum/viewtopic.php?t=4383540
Вот такая ссылка на закачку высветилась в Google оттуда:
https://yadi.sk/d/gTu43Q-Q3fCIU

Может эта ссылка поможет?))))

Rusviv

  • Новичок
  • *
  • Сообщений: 11
    • Просмотр профиля
    • Руская вивліоѳика
    • E-mail
Помогла, скачал, большое спасибо!!!