Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 2.
  • МНОГОЭТАПНЫЙ МЕТОД АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ

    Д. В. Вахлаков, В.А. Пересыпкин, С. Ю. Мельников
    2021-02-25
    Аннотация ▼

    Одним из основных факторов, существенно затрудняющих понимание, перевод и
    анализ текстов, полученных при автоматическом распознавании речи или оптическом
    распознавании изображений текстов, являются содержащиеся в них искажения в виде
    ошибочных символов, слов и словосочетаний. Наиболее характерными ошибками систем
    распознавания являются: – замена слова на похожее по звучанию или графическому напи-
    санию; – замена нескольких слов на одно; – замена одного слова несколькими; – пропуск
    слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате рас-
    познавания получается текст, имеющий искажения и состоящий, в основном, из словарных
    слов, в том числе и в местах искажений. При большом количестве искажений тексты
    становятся практически нечитаемыми. Автоматическая обработка таких текстов весь-
    ма затруднительна, хотя эта задача является актуальной как для русского, так и для дру-
    гих распространенных языков. Программные средства коррекции, хорошо работающие при
    малых искажениях в тексте, в случае текстов с высоким уровнем искажений, вне зависи-
    мости от их происхождения, показывают неудовлетворительные результаты. Это дела-
    ет необходимым разработку самостоятельных подходов к коррекции искаженных тек-
    стов. Предложен новый многоэтапный метод коррекции искаженных текстов, основан-
    ный на последовательном определении ошибок и исправлении искаженных текстов. Иска-
    женными считаются несловарные словоформы и словоформы, вероятность появления
    которых в тексте в соответствии с выбранной вероятностной моделью меньше заданно-
    го порога. После установки признака искаженности для отдельных слов происходит рас-
    пространение этого признака на их сочетания, т.е. выделяются искаженные фрагменты
    текста. Для них строится список возможных вариантов слов, в который попадают толь-
    ко те словоформы из словаря, которые находятся от исследуемого слова на определенном
    расстоянии Левенштейна. Скорректированный текст из вариантов слов получается в
    результате поиска наиболее вероятной цепочки словоформ. Метод коррекции состоит из
    нескольких этапов, на каждом этапе корректируются лишь те фрагменты текста, кото-
    рые остались искаженными после предыдущего этапа коррекции. Метод позволяет за-
    метно повысить качество (точность) коррекции. В проведенных экспериментах качество
    коррекции в терминах F1-меры для средне искаженных текстов повысилось на 9 %, а для
    сильно искаженных текстов – на 7.7 %.

  • О ТОЧНОСТИ И ТРУДОЕМКОСТИ МНОГОЭТАПНОГО МЕТОДА КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ ИСКАЖЕНИЯ

    Д.В. Вахлаков , В. А. Пересыпкин , А.В. Германович , С.Ю. Мельников , Н.Н. Цопкало
    130-142
    2021-10-05
    Аннотация ▼

    Одним из основных факторов, существенно затрудняющих понимание, перевод и
    анализ текстов, полученных при автоматическом распознавании речи или изображений
    текстов, являются содержащиеся в них искажения в виде ошибочных символов, слов и
    словосочетаний. До недавнего времени не существовало эффективных программных
    средств коррекции текстов со значительными искажениями, хотя эта задача является
    актуальной как для русского, так и для других распространенных языков в условиях актив-
    ного использования систем распознавания в перспективных системах дополненной реаль-
    ности. Авторами был предложен новый многоэтапный метод коррекции искаженных тек-
    стов, значимо повышающий точность коррекции (количество правильно скорректирован-
    ных слов в тексте) и основанный на последовательном определении ошибок и их исправле-
    нии. В настоящей работе оцениваются точность и трудоемкость предложенного метода
    коррекции искаженных текстов при различных уровнях искажений, определяется его ме-
    сто среди других современных подходов к коррекции. Наиболее характерными ошибками
    систем распознавания являются: – замена слова на похожее по звучанию или графическому
    написанию; – замена нескольких слов на одно; – замена одного слова несколькими; – про-
    пуск слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате
    распознавания получается текст, имеющий искажения и состоящий, в основном, из сло-
    варных слов, в том числе и в местах искажений. При большом количестве искажений тек-
    сты становятся практически нечитаемыми. В связи с тем, что подобрать в необходимом
    количестве тексты с широким диапазоном уровней искажений по результатам реального
    машинного распознавания речи и изображений текстов представляется проблематичным,
    использовалось программное моделирование искажений. Предложена и программно реали-
    зована методика искажений текста, моделирующая результаты работы систем распо-
    знавания в широком диапазоне искажений, в необходимом количестве подготовлены иска-
    женные тексты. При работе предложенного многоэтапного метода коррекции искажен-
    ными считаются несловарные словоформы и словоформы, вероятность появления кото-
    рых в тексте в соответствии с выбранной вероятностной моделью текста меньше за-
    данного порога. Для них строится список возможных вариантов слов, в который попада-
    ют только те словоформы из словаря, которые находятся от исследуемого слова на опре-
    деленном расстоянии Левенштейна. Скорректированный текст из вариантов слов получа-
    ется в результате поиска наиболее вероятной цепочки словоформ. Метод коррекции со-
    стоит из нескольких этапов, на каждом этапе корректируются лишь те фрагменты тек-
    ста, которые остались искаженными после предыдущего этапа коррекции. По результа-
    там проведенных экспериментов по коррекции искаженных текстов сделан вывод, что
    предложенный метод коррекции показал хорошие результаты со средним значением
    1 F -меры >50 % в диапазоне искажений от 0 до 75 %. Эксперты-лингвисты подтвердили
    плодотворность предложенного подхода к коррекции и его предпочтительность по срав-
    нению с другими современными подходами, зафиксировав, что при количестве искажений <50 % скорректированный текст читается с гораздо меньшими усилиями, чем искаженный, а при количестве искажений до 70% слов скорректированный текст еще позволяет выделить полезную информацию о содержании текста

1 - 2 из 2 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР