Как и обещал, нечто интересное. Решил все же написать, пусть и сбивчиво, иначе еще на пару дней затянулось бы ожидание ответа от меня. Читать желательно весь пост).
История создания словаря дореформенной орфографии dict_1006649 для FineReader, подготовил Черников Павел, на основе справок к словарям Лебедева и Виницкого.
Изначально Нил Далтон (Neal Dalton) в 1992 г составил словарь на основе найденных им в интернете текстов. Словарь Далтона содержал 52 тысячи словоформ и много ошибок (свыше 8% слов). Затем словарь Далтона взял за основу Александр Лебедев, начав вносить в него поправки в конце 1997 года.
Основным подходом, положенным в основу словаря, было использование нормализованной формы слова и правил словоизменения, отвечающих грамматике русского языка. При вычитке словаря Далтона конкретные слова были приведены к нормализованной форме и из словаря было исключено большинство неверных слов.
На этом этапе работы использовался орфографический словарь русского языка, выпущенный Институтом русского языка АН СССР в 1991 г. В словарь были добавлены слова из технических и литературных текстов. Затем, все имеющиеся в словаре слова были перепроверены с помощью электронного орфографического словаря "Корректор" (120 тысяч слов), а обнаруженные расхождения выверены по орфографическому словарю русского языка, справочнику Зализняка ("Грамматический словарь русского языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной русской лексики" (170 тысяч слов). Все слова, добавляемые после этого, проходили проверку с помощью указанных словарей (в специальных областях - энциклопедий) и "Русского орфографического словаря" под редакцией Лопатина (160 тысяч слов).
Слова, отсутствующие в этих изданиях, добавлялись, лишь при широком использовании и при условии, что в их написании нет сомнений. Объём словаря составлял более 122.2 тысячбазовых слов, а полное число образуемых из них словоформ составляет 1.168 миллиона (против 52 тысяч в словаре Нила Далтона и 952 тысяч слов в словаре Константина Книжника (6% ошибочных слов).
Отличительной чертой данного словаря является полноценная поддержка буквы ё. Сейчас словарь Лебедева используется в OpenOffice.
На основе словаря Лебедева, Сергей Виницкий создал словарь для проверки правописания в текстах, набранных в дореформенной русской орфографии, что было первой попыткой такого рода. При работе над словарём он следовал принципу всемерно допустимого расширения допустимого набора
слов и форм, включая редкие формы, для облегчения проверки правописания. В противоположность этому, А. Лебедев придерживается точки зрения, что для облегчения проверки правописания необходимо сокращать набор слов и форм наиболее распространённых.
Некто chaource, в UNIX скомпилировал словарик в utf8 и выложил в интернет. Черников Павел (Чароплёт), нашёл ему применение, подключив к FineReader 11 (предварительно сохранив в Юникоде).
И ещё, на заметку. Для поддержки "устаревших" букв, Виницкий предложил свою кодировку KOI8-C, которая распространения не получила. Технически возможно из этой кодировки перевести словарь к виду словарей программы MySpell, подходящих к OpenOffice. Тогда мы получим возможность проверять тексты в старой орфографии при помощи современной программы (пользователей системы UNIX об этом надо просить). Также можно попробовать скомпилировать русский словарь (современный) из словаря Лебедева и подключить его к FineReader, что, вероятно, даст лучшее качество распознавания текстов.
---
Что касается редактирования текста, пришли на ум такие мысли.
1.После подготовки сканов к непосредственной сборке (и собрав из них файл), сканы не удаляем. С помощью программы (надо найти маленькую, бесплатную и портабельную) мы проставляем в каждой из них внизу водяной знак прямо под текстом, например "{разрыв}". Делаем мы это для того, чтобы позднее не проставлять вручную (как я, 600 страниц) разрывы между страницами. В итоге, после OCR, мы получаем текст с пометками, где заканчивались оригинальные страницы. Это нам пригодится для удобного редактирования.
2. Очень важными в текстах являются цифры. Первый раз, конвертировав со словарем в современную орфографию, при конвертации можем не помечать текстом замены, а можем пометить. Затем создаем словарь с цифрами
1=1
2=2
3=3
... и т.д. И прогоняем текст с выделением цветом замен. Получим выделенные в тексте даты, + увидим, где у нас закрались буквы З вместо 3 и О вместо 0. И удобнее будет потом сверять с оригиналом.
3. Далее работаем в ворде с ОРФО, чтобы у нас цветовые пометки остались. нашу заметку из пункта 1 "{разрыв}" меняем на разрыв страницы в ворде. Т.о. получаем документ, где страницы совпадают с оригиналом.
4. При наличии колонтитулов книги, если мы ее обрабатываем, колонтитулы могут влезть между последним словом страницы А и первым словом страницы Б (где А и Б некие номера). Получится что-то вроде "Оприч-ИВАН ГРОЗНЫЙнина" Удаляем название колонтитулов из основного текста, оставляя слово полностью на 1 странице, вручную убирая перенос. А потом вручную же вставляем разрыв страницы.
5. С ссылками решил проблему так: ставим в ворде вручную концевые сноски (сноски-формат 1,2,3 ...), заключая их в [] квадратные скобки и в самом тексте, и в конце документа (куда мы будем копировать попавшую о основной текст сноску, которая тоже сбивает с толку типа "Оприч-ИВАН ГРОЗНЫЙнина"". Получим аккуратные сносочки вроде [1][2][3], которые сохранятся даже в txt. Сами сноски будут в конце документа.
6. Я вставляю еще картинки (в моем случае, портреты с подписью), в текст, тупо копируя их из djvu. При сохранении в txt они пропадут, а при сохранении в PDF лишними не будут. Парой кликов выбираем, каким будет обтекание текста.
7. В итоге мы получаем книгу, во многом похожую на оригинал, разве что ссылки будут в конце. При сохранении в PDF, подбираем величину шрифта, чтобы текст равномерно заполнял страницу, а при сохранении в .txt не забываем сделать замену разрыва страницы ворда на пробел, скажем, а потом двух пробелов - на один. И сохраняем, разрешив подставить знаки.
-----
По поводу словарей, я думал о составлении правки словаря к Иероглифу, а не про корректировку словаря к ФР.
Вычитывая текст, отлавливаем непонятные слова и сохраняем их куда-нибудь, как есть. Потом смотрим 1) как они писались в оригинале в книге и вручную с помощью раскладки Ильи Бирмана, набираем их. Прогоняем через основной словарь в Иероглифе. Если после преобразований получается ошибка, тогда вносим эти слова в словарь правки для иероглифа (тут надо быть осторожным и вносить предельно аккуратно, иначе можно испортить весь текст).
Вот пример тех слов, часть из которых, возможно, будет внесена в словарь правки:
макиавелизмом
погречески
казацкия
сожигали
галлерея
Украйне
добраго
темнорусыми
карандашем
разсуждать
безпомощным
разсылал
ктому
разстроенным
какъто
поленица
бичем
подъячих
рожденна
аллилуя
долго-ли (вообще ли и частицы)
сожигать
посвойски
Возстание
Долгия
подъячие
понемецки
всякия
разсказывать
рассчета
Украйны
Украйна
чтб=(с ударением)
еслибы
старшйна
Поспольство
внешния
доканали
Украйну
розрухой
Малороссий
Украйной
белаго
тунгузов
металические
юговосток (и вообще направления)
панцырники
ктому ж
Разсудительный
кое-какия
белорусс
Вот о слиянии словарей правки к иероглифу я и спрашивал, как лучше.
УФ! Вроде ничего не забыл.