Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Темы - S.R.

Страницы: [1]
1
Мы во многом преуспели в деле оцифровки печатных информационных источников и создали огромные информационные массивы оцифрованной литературы. Настало время задуматься и о новом качественном подходе к работе с информационными ресурсами.

В настоящий момент поиск осуществляется не интеллектуально, а по поисковой лексеме (лексемам). Функции т.н. "расширенного поиска" помогают количественно, но не качественно. Совершенно отсутствует функциональность на манер "найти похожее".

Мои соображения на этот счет.

1. Все файлы должны иметь текстовый слой.

2. Тестовый слой подвергается обработке:

2.1. Предобработка:
- приведение в нижний регистр
- удаление всех символов кроме "а-я"
- подчистка за FineReader программными средствами (удаление комбинаций символов)
- подчистка за FineReadep (при помощи AfterScan)
- исправление орфографии при помощи ORFO 2014
- удаление всех слов, длиной меньше 3 символов

2.2. Нормализация  слов при помощи программы Mystem

3. Создание частотного словаря

4. Десять слов с наибольшей частотой упоминания – это облако тегов данного файла, который можно использовать в качестве его сжатой смысловой характеристики для реализации функции "найти похожее".

Все вышеописанное сложно реализовать в автоматическом режиме. Но все очень легко получается при помощи псевдоавтоматического способа при помощи скрипта на AutoIt

Хотелось бы обсудить с сообществом.

Страницы: [1]