О ТОЧНОСТИ И ТРУДОЕМКОСТИ МНОГОЭТАПНОГО МЕТОДА КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ СТЕПЕНИ ИСКАЖЕНИЯ

  • Д. В. Вахлаков ФГУП «НТЦ «Орион»
  • В. А. Пересыпкин ФГУП «НТЦ «Орион»
  • А.В. Германович Московский государственный университет им. М.В. Ломоносова, Институт стран Азии и Африки
  • С.Ю. Мельников ООО «Линфо»
  • Н.Н. Цопкало Южный федеральный университет
Ключевые слова: Многоэтапный метод коррекции искаженных текстов, модель языка, расстояние Левенштейна, полнота и точность коррекции, F1-мера, WER, CER, эксперты-лингвисты

Аннотация

Одним из основных факторов, существенно затрудняющих понимание, перевод и
анализ текстов, полученных при автоматическом распознавании речи или изображений
текстов, являются содержащиеся в них искажения в виде ошибочных символов, слов и
словосочетаний. До недавнего времени не существовало эффективных программных
средств коррекции текстов со значительными искажениями, хотя эта задача является
актуальной как для русского, так и для других распространенных языков в условиях актив-
ного использования систем распознавания в перспективных системах дополненной реаль-
ности. Авторами был предложен новый многоэтапный метод коррекции искаженных тек-
стов, значимо повышающий точность коррекции (количество правильно скорректирован-
ных слов в тексте) и основанный на последовательном определении ошибок и их исправле-
нии. В настоящей работе оцениваются точность и трудоемкость предложенного метода
коррекции искаженных текстов при различных уровнях искажений, определяется его ме-
сто среди других современных подходов к коррекции. Наиболее характерными ошибками
систем распознавания являются: – замена слова на похожее по звучанию или графическому
написанию; – замена нескольких слов на одно; – замена одного слова несколькими; – про-
пуск слов; – вставка или удаление коротких слов (в т.ч. предлогов и союзов). В результате
распознавания получается текст, имеющий искажения и состоящий, в основном, из сло-
варных слов, в том числе и в местах искажений. При большом количестве искажений тек-
сты становятся практически нечитаемыми. В связи с тем, что подобрать в необходимом
количестве тексты с широким диапазоном уровней искажений по результатам реального
машинного распознавания речи и изображений текстов представляется проблематичным,
использовалось программное моделирование искажений. Предложена и программно реали-
зована методика искажений текста, моделирующая результаты работы систем распо-
знавания в широком диапазоне искажений, в необходимом количестве подготовлены иска-
женные тексты. При работе предложенного многоэтапного метода коррекции искажен-
ными считаются несловарные словоформы и словоформы, вероятность появления кото-
рых в тексте в соответствии с выбранной вероятностной моделью текста меньше за-
данного порога. Для них строится список возможных вариантов слов, в который попада-
ют только те словоформы из словаря, которые находятся от исследуемого слова на опре-
деленном расстоянии Левенштейна. Скорректированный текст из вариантов слов получа-
ется в результате поиска наиболее вероятной цепочки словоформ. Метод коррекции со-
стоит из нескольких этапов, на каждом этапе корректируются лишь те фрагменты тек-
ста, которые остались искаженными после предыдущего этапа коррекции. По результа-
там проведенных экспериментов по коррекции искаженных текстов сделан вывод, что
предложенный метод коррекции показал хорошие результаты со средним значением
1 F -меры >50 % в диапазоне искажений от 0 до 75 %. Эксперты-лингвисты подтвердили
плодотворность предложенного подхода к коррекции и его предпочтительность по срав-
нению с другими современными подходами, зафиксировав, что при количестве искажений

<50 % скорректированный текст читается с гораздо меньшими усилиями, чем искажен-
ный, а при количестве искажений до 70% слов скорректированный текст еще позволяет
выделить полезную информацию о содержании текста.

Литература

1. Meshcheryakov R.V. Struktura sistem sinteza i raspoznavaniya rechi [The structure of speech
synthesis and recognition systems], Izvestiya Tomskogo politekhn. un-ta [Izvestiya Tomsk
Polytechnic University], 2009, Vol. 315, No. 5, pp. 127-132.
2. Smirnov S.V. Korrektirovka oshibok opticheskogo raspoznavaniya na osnove reytingorangovoy
modeli teksta [Correction of optical recognition errors based on the rating-rank model
of the text], Tr. SPIIRAN [Proceedings of SPIIRAN], 2014, Issue 4, No. 35, pp. 64-82.
3. Germanovich A.V.,Mel'nikov S.Yu., Peresypkin V.A., Sidorov E.S., Tsopkalo N.N. Informatsionnye
izmereniya yazyka. Programmnaya sistema otsenki chitaemosti iskazhennykh tekstov
[Information dimensions of language. Software system for assessing the readability of distorted
texts], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences],
2019, No. 8, pp. 6-18.
4. www.topwar.ru > 18316 – pehotnaja-sistema-dopolnennoj-realnosti-IVAS (SShA) [www.topwar.ru
> 18316 – pehotnaja-sistema-dopolnennoj-realnost-IVAS (USA)]. 29.03.2021.
5. www.tadviser.ru > index php / Stat'ya Komp'yuternoe_zrenie_tekhnologii_rynok_perspektivy
[www.tadviser.ru > index php / Article Computer_view_technology_market prospects].
26.06.2019.
6. Vakhlakov D.V., Mel'nikov S.Yu., Peresypkin V.A. Mnogoetapnyy metod avtomaticheskoy
korrektsii iskazhennykh tekstov [Multi-stage method of automatic correction of distorted
texts], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2020,
No. 7, pp. 35-45.
7. Subramaniam L.V. et al. A survey of types of text noise and techniques to handle noisy text //
Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data, July 23-
24, 2009, Barcelona, Spain.
8. Available at: https://www.ldc.upenn.edu/collaborations/current-projects/madcat.
9. Strassel S., Friedman L., Ismael S., Brandschain L. New Resources for Document
Classification, Analysis and Translation Technologies, Proceedings of the 6th International
Conference on Language Resources and Evaluation, LREC 2008.
10. Stein B., Hoppe D., Gollub T. The impact of spelling errors on patent search, In Proceedings of
the 13th Conference of the European Chapter of the Association for Computational Linguistics
(EACL 2012), pp. 570-579.
11. Nguyen T., Jatowt A., Coustaty M., Doucet A. Survey of Post-OCR Processing Approaches,
ACM Comput. Surv. 54, 6, Article 124 (July 2021), 37 p.
12. Ghosh S., Kristensson P. Neural Networks for Text Correction and Completion in Keyboard
Decoding, arXiv:1709.06429, 2017.
13. Rybanov A.A., Filippova E.M., Sviridova O.V., Fedotova L.A. Sistema kolichestvennykh
pokazateley monitoringa za protsessom razvitiya navyka vvoda informatsii [A system of quantitative
indicators for monitoring the process of developing the information input skill],
Pedagogicheskaya informatika [Pedagogical informatics], 2020, No. 1, pp. 136-142.
14. Zhang D., Yang Z. Word Embedding Perturbation for Sentence Classification, CoRR preprint
arXiv:1804.08166, 2018.
15. Birin D.A., Mel'nikov S.Yu., Peresypkin V.A., Pisarev I.A., TSopkalo N.N. Ob effektivnosti
sredstv korrektsii iskazhennykh tekstov v zavisimosti ot kharaktera iskazheniy [On the effectiveness
of the means of correction of distorted texts depending on the nature of the distortion],
Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2018, No. 8,
pp. 104-114.
16. Malykh V. Robust-to-Noise Models in Natural Language Processing Tasks, Proceedings of the
57th Annual Meeting of the Association for Computational Linguistics: Student Research
Workshop. Florence, Italy, July 28 - August 2, 2019, pp. 10-16.
17. Soper E., Fujimoto S., Yu Y. BART for Post-Correction of OCR Newspaper Text, Proceedings
of the 2021 EMNLP Workshop W-NUT: The 7th Workshop on Noisy User-generated Text.
November 11, 2021, pp. 284-290.
18. Belinkov Y., Bisk Y. Synthetic and natural noise both break neural machine translation,
arXiv:1711.02173, 2017.
19. Khayrallah H., Koehn P. On the Impact of Various Types of Noise on Neural Machine Translation,
In Proceedings of the 2nd Workshop on Neural Machine Translation and Generation,
2018, pp. 74-83.
20. Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional
transformers for language understanding, arXiv:1810.04805, 2018.
21. Kumar A., Makhija P., Gupta A. Noisy Text Data: Achilles’ Heel of BERT, Proceedings of the
2020 EMNLP Workshop W-NUT: The Sixth Workshop on Noisy User-generated Text, pp. 16-21.
22. Vaibhav, Singh S., Stewart C., Neubig G. Improving Robustness of Machine Translation with
Synthetic Noise, arXiv:1902.09508, 2019.
23. Niu X., Mathur P., Dinu G., Al-Onaizan Y. Evaluating Robustness to Input Perturbations for
Neural Machine Translation, arXiv:2005.00580, 2020.
24. Karpukhin V., Levy O., Eisenstein J., Ghazvininejad M. Training on Synthetic Noise Improves
Robustness to Natural Noise in Machine Translation, arXiv:1902.01509, 2019.
25. Li Z., Rei M., Specia L. Visual Cues and Error Correction for Translation Robustness,
arXiv:2103.07352, 2021.
26. Riabi A., Sagot B., Seddah D. Can Character-based Language Models Improve Downstream
Task Performance in Low-Resource and Noisy Language Scenarios?, Proceedings of the 2021
EMNLP Workshop W-NUT: The 7th Workshop on Noisy User-generated Text. November 11,
2021, pp. 423-436.
27. Mel'nikov S.Yu., Peresypkin V.A. O primenenii veroyatnostnykh modeley yazyka dlya
obnaruzheniya oshibok v iskazhennykh tekstakh [On the application of probabilistic language
models to detect errors in distorted texts], Vestnik komp'yuternykh i informatsionnykh
tekhnologiy [Bulletin of Computer and Information Technologies], 2016, No. 5, pp. 29-34.
28. Belozerov A.A., Vakhlakov D.V., Mel'nikov S.Yu., Peresypkin V.A., Sidorov E.S. Tekhnologicheskie
aspekty postroeniya sistemy sbora i predobrabotki korpusov novostnykh tekstov dlya sozdaniya
modeley yazyka [Technological aspects of building a system for collecting and preprocessing news
text corpora to create language models], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU.
Engineering Sciences], 2016, No. 12, pp. 29-42.
Опубликован
2022-03-02
Выпуск
Раздел
РАЗДЕЛ III. ОБРАБОТКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ, РЕКОНФИГУРИРУЕМЫХ И НЕЙРОСЕТЕ