Найти

Поиск статей

Расширенные фильтры

Опубликовано послеГодМесяцДень

Опубликовано доГодМесяцДень

По автору

Заголовок

Аннотация

Ключевые слова

Результаты поиска

Найден один результат.

МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

Д. В. Вахлаков, В.А. Пересыпкин, С. Ю. Мельников

2021-02-25

Аннотация ▼

Одним из основных факторов, существенно затрудняющих понимание, перевод и
анализ текстов, полученных при автоматическом распознавании речи или оптическом
распознавании изображений текстов, являются содержащиеся в них искажения в виде
ошибочных символов, слов и словосочетаний. Наиболее характерными ошибками систем
распознавания являются: – замена слова на похожее по звучанию или графическому напи-
санию; – замена нескольких слов на одно; – замена одного слова несколькими; – пропуск
слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате рас-
познавания получается текст, имеющий искажения и состоящий, в основном, из словарных
слов, в том числе и в местах искажений. При большом количестве искажений тексты
становятся практически нечитаемыми. Автоматическая обработка таких текстов весь-
ма затруднительна, хотя эта задача является актуальной как для русского, так и для дру-
гих распространенных языков. Программные средства коррекции, хорошо работающие при
малых искажениях в тексте, в случае текстов с высоким уровнем искажений, вне зависи-
мости от их происхождения, показывают неудовлетворительные результаты. Это дела-
ет необходимым разработку самостоятельных подходов к коррекции искаженных тек-
стов. Предложен новый многоэтапный метод коррекции искаженных текстов, основан-
ный на последовательном определении ошибок и исправлении искаженных текстов. Иска-
женными считаются несловарные словоформы и словоформы, вероятность появления
которых в тексте в соответствии с выбранной вероятностной моделью меньше заданно-
го порога. После установки признака искаженности для отдельных слов происходит рас-
пространение этого признака на их сочетания, т.е. выделяются искаженные фрагменты
текста. Для них строится список возможных вариантов слов, в который попадают толь-
ко те словоформы из словаря, которые находятся от исследуемого слова на определенном
расстоянии Левенштейна. Скорректированный текст из вариантов слов получается в
результате поиска наиболее вероятной цепочки словоформ. Метод коррекции состоит из
нескольких этапов, на каждом этапе корректируются лишь те фрагменты текста, кото-
рые остались искаженными после предыдущего этапа коррекции. Метод позволяет за-
метно повысить качество (точность) коррекции. В проведенных экспериментах качество
коррекции в терминах F1-меры для средне искаженных текстов повысилось на 9 %, а для
сильно искаженных текстов – на 7.7 %.

1 - 1 из 1 результатов

Найти

Результаты поиска

МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

links

journal

index