Найти

Поиск статей

Расширенные фильтры

Опубликовано послеГодМесяцДень

Опубликовано доГодМесяцДень

По автору

Заголовок

Аннотация

Ключевые слова

Результаты поиска

Найдено результатов: 3.

О ТОЧНОСТИ И ТРУДОЕМКОСТИ МНОГОЭТАПНОГО МЕТОДА КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ ИСКАЖЕНИЯ

Д.В. Вахлаков , В. А. Пересыпкин , А.В. Германович , С.Ю. Мельников , Н.Н. Цопкало

130-142

2021-10-05

Аннотация ▼

Одним из основных факторов, существенно затрудняющих понимание, перевод и
анализ текстов, полученных при автоматическом распознавании речи или изображений
текстов, являются содержащиеся в них искажения в виде ошибочных символов, слов и
словосочетаний. До недавнего времени не существовало эффективных программных
средств коррекции текстов со значительными искажениями, хотя эта задача является
актуальной как для русского, так и для других распространенных языков в условиях актив-
ного использования систем распознавания в перспективных системах дополненной реаль-
ности. Авторами был предложен новый многоэтапный метод коррекции искаженных тек-
стов, значимо повышающий точность коррекции (количество правильно скорректирован-
ных слов в тексте) и основанный на последовательном определении ошибок и их исправле-
нии. В настоящей работе оцениваются точность и трудоемкость предложенного метода
коррекции искаженных текстов при различных уровнях искажений, определяется его ме-
сто среди других современных подходов к коррекции. Наиболее характерными ошибками
систем распознавания являются: – замена слова на похожее по звучанию или графическому
написанию; – замена нескольких слов на одно; – замена одного слова несколькими; – про-
пуск слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате
распознавания получается текст, имеющий искажения и состоящий, в основном, из сло-
варных слов, в том числе и в местах искажений. При большом количестве искажений тек-
сты становятся практически нечитаемыми. В связи с тем, что подобрать в необходимом
количестве тексты с широким диапазоном уровней искажений по результатам реального
машинного распознавания речи и изображений текстов представляется проблематичным,
использовалось программное моделирование искажений. Предложена и программно реали-
зована методика искажений текста, моделирующая результаты работы систем распо-
знавания в широком диапазоне искажений, в необходимом количестве подготовлены иска-
женные тексты. При работе предложенного многоэтапного метода коррекции искажен-
ными считаются несловарные словоформы и словоформы, вероятность появления кото-
рых в тексте в соответствии с выбранной вероятностной моделью текста меньше за-
данного порога. Для них строится список возможных вариантов слов, в который попада-
ют только те словоформы из словаря, которые находятся от исследуемого слова на опре-
деленном расстоянии Левенштейна. Скорректированный текст из вариантов слов получа-
ется в результате поиска наиболее вероятной цепочки словоформ. Метод коррекции со-
стоит из нескольких этапов, на каждом этапе корректируются лишь те фрагменты тек-
ста, которые остались искаженными после предыдущего этапа коррекции. По результа-
там проведенных экспериментов по коррекции искаженных текстов сделан вывод, что
предложенный метод коррекции показал хорошие результаты со средним значением
1 F -меры >50 % в диапазоне искажений от 0 до 75 %. Эксперты-лингвисты подтвердили
плодотворность предложенного подхода к коррекции и его предпочтительность по срав-
нению с другими современными подходами, зафиксировав, что при количестве искажений <50 % скорректированный текст читается с гораздо меньшими усилиями, чем искаженный, а при количестве искажений до 70% слов скорректированный текст еще позволяет выделить полезную информацию о содержании текста
МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

Д. В. Вахлаков, В.А. Пересыпкин, С. Ю. Мельников

2021-02-25

Аннотация ▼

Одним из основных факторов, существенно затрудняющих понимание, перевод и
анализ текстов, полученных при автоматическом распознавании речи или оптическом
распознавании изображений текстов, являются содержащиеся в них искажения в виде
ошибочных символов, слов и словосочетаний. Наиболее характерными ошибками систем
распознавания являются: – замена слова на похожее по звучанию или графическому напи-
санию; – замена нескольких слов на одно; – замена одного слова несколькими; – пропуск
слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате рас-
познавания получается текст, имеющий искажения и состоящий, в основном, из словарных
слов, в том числе и в местах искажений. При большом количестве искажений тексты
становятся практически нечитаемыми. Автоматическая обработка таких текстов весь-
ма затруднительна, хотя эта задача является актуальной как для русского, так и для дру-
гих распространенных языков. Программные средства коррекции, хорошо работающие при
малых искажениях в тексте, в случае текстов с высоким уровнем искажений, вне зависи-
мости от их происхождения, показывают неудовлетворительные результаты. Это дела-
ет необходимым разработку самостоятельных подходов к коррекции искаженных тек-
стов. Предложен новый многоэтапный метод коррекции искаженных текстов, основан-
ный на последовательном определении ошибок и исправлении искаженных текстов. Иска-
женными считаются несловарные словоформы и словоформы, вероятность появления
которых в тексте в соответствии с выбранной вероятностной моделью меньше заданно-
го порога. После установки признака искаженности для отдельных слов происходит рас-
пространение этого признака на их сочетания, т.е. выделяются искаженные фрагменты
текста. Для них строится список возможных вариантов слов, в который попадают толь-
ко те словоформы из словаря, которые находятся от исследуемого слова на определенном
расстоянии Левенштейна. Скорректированный текст из вариантов слов получается в
результате поиска наиболее вероятной цепочки словоформ. Метод коррекции состоит из
нескольких этапов, на каждом этапе корректируются лишь те фрагменты текста, кото-
рые остались искаженными после предыдущего этапа коррекции. Метод позволяет за-
метно повысить качество (точность) коррекции. В проведенных экспериментах качество
коррекции в терминах F1-меры для средне искаженных текстов повысилось на 9 %, а для
сильно искаженных текстов – на 7.7 %.
О ВЛИЯНИИ ЗАШУМЛЕНИЯ НА РАСПОЗНАВАНИЕ СИММЕТРИИ 3-ГО ПОРЯДКА В ГЕКСАГОНАЛЬНЫХ ИЗОБРАЖЕНИЯХ

А.Н. Каркищенко , В. Б. Мнухин

2021-01-19

Аннотация ▼

Излагается алгебраический подход к представлению и обработке цифровых изобра-
жений, заданных на гексагональных решетках. Описанный подход основан на представле-
нии изображений как функций на конечных полях «целых Эйзенштейна». Как оказывается,
элементы таких полей естественно соответствуют пикселям гексагональных изображе-
ний определенных размеров. Описаны экспоненциальное и логарифмическое преобразования
в полях Эйзенштейна. Приведен метод обнаружения центров вращательной симметрии
3-го порядка на полутоновых изображениях и введена соответствующая нормированная
мера симметрии. Основной целью работы является исследование влияния зашумления на
изображении на качество оценки симметрии с помощью введенной меры. Фактор зашум-
ленности необходимо принимать во внимание, поскольку уменьшение меры может быть
вызвано не только неполной симметрией реального объекта, но и искажениями из-за шу-
мов, что практически всегда имеет место. Очевидно, что это отличие будет пропорцио-
нально уровню шумовой составляющей. В работе получены аналитические оценки влияния
шума на критерий обнаружения симметрии. Если изображения подвержены случайному
зашумлению, то мера симметрии отдельных областей изображения будет случайной вели-
чиной, закон распределения которой определяется законами распределения шумовых со-
ставляющих. При этом в работе делается стандартное для обработки изображений
предположение о модели нормальной и независимой зашумленности функции яркости.
Особенность введенной меры симметрии третьего порядка не позволяет напрямую приме-
нить стандартные методы для получения вероятностных оценок. С этой целью была про-
ведена оценка кумулятивной функции распределения вероятностей, на основании которой
получено выражение для вероятностей уклонения меры симметрии от истинного значения
на заданную величину. В силу сделанных априорных предположений полученную оценку сле-
дует рассматривать как достаточно «осторожную» и можно ожидать, что в реально-
сти разброс меры, вызванный шумами на изображении, будет существенно меньше, чем
теоретически установленные границы.

1 - 3 из 3 результатов

Найти

Результаты поиска

О ТОЧНОСТИ И ТРУДОЕМКОСТИ МНОГОЭТАПНОГО МЕТОДА КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ ИСКАЖЕНИЯ

МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

О ВЛИЯНИИ ЗАШУМЛЕНИЯ НА РАСПОЗНАВАНИЕ СИММЕТРИИ 3-ГО ПОРЯДКА В ГЕКСАГОНАЛЬНЫХ ИЗОБРАЖЕНИЯХ

links

journal

index