Найти
Результаты поиска
-
МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ
Д. В. Вахлаков, В.А. Пересыпкин, С. Ю. Мельников2021-02-25Аннотация ▼Одним из основных факторов, существенно затрудняющих понимание, перевод и
анализ текстов, полученных при автоматическом распознавании речи или оптическом
распознавании изображений текстов, являются содержащиеся в них искажения в виде
ошибочных символов, слов и словосочетаний. Наиболее характерными ошибками систем
распознавания являются: – замена слова на похожее по звучанию или графическому напи-
санию; – замена нескольких слов на одно; – замена одного слова несколькими; – пропуск
слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате рас-
познавания получается текст, имеющий искажения и состоящий, в основном, из словарных
слов, в том числе и в местах искажений. При большом количестве искажений тексты
становятся практически нечитаемыми. Автоматическая обработка таких текстов весь-
ма затруднительна, хотя эта задача является актуальной как для русского, так и для дру-
гих распространенных языков. Программные средства коррекции, хорошо работающие при
малых искажениях в тексте, в случае текстов с высоким уровнем искажений, вне зависи-
мости от их происхождения, показывают неудовлетворительные результаты. Это дела-
ет необходимым разработку самостоятельных подходов к коррекции искаженных тек-
стов. Предложен новый многоэтапный метод коррекции искаженных текстов, основан-
ный на последовательном определении ошибок и исправлении искаженных текстов. Иска-
женными считаются несловарные словоформы и словоформы, вероятность появления
которых в тексте в соответствии с выбранной вероятностной моделью меньше заданно-
го порога. После установки признака искаженности для отдельных слов происходит рас-
пространение этого признака на их сочетания, т.е. выделяются искаженные фрагменты
текста. Для них строится список возможных вариантов слов, в который попадают толь-
ко те словоформы из словаря, которые находятся от исследуемого слова на определенном
расстоянии Левенштейна. Скорректированный текст из вариантов слов получается в
результате поиска наиболее вероятной цепочки словоформ. Метод коррекции состоит из
нескольких этапов, на каждом этапе корректируются лишь те фрагменты текста, кото-
рые остались искаженными после предыдущего этапа коррекции. Метод позволяет за-
метно повысить качество (точность) коррекции. В проведенных экспериментах качество
коррекции в терминах F1-меры для средне искаженных текстов повысилось на 9 %, а для
сильно искаженных текстов – на 7.7 %.








