ОБ ЭФФЕКТИВНОСТИ СРЕДСТВ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ ХАРАКТЕРА ИСКАЖЕНИЙ

  • Д.А. Бирин ФГУП НИИ «Квант»
  • В.А. Пересыпкин ФГУП «НТЦ «Орион»
  • С.Ю. Мельников ООО «Линфо»
  • И.А. Писарев Южный Федеральный Университет
  • Н.Н. Цопкало Южный Федеральный Университет
Ключевые слова: Искаженные тексты, случайные искажения, автоматическая коррекция, пост-обработка

Аннотация

Анализируются возможности четырех программных средств автоматической кор-рекции текстов (Яндекс.Спеллер, Afterscan, Bing Spell Check, Texterra) для коррекции иска-женных текстов. Описаны искажения текстов, возникающие при вводе текста с клавиату-ры и работе систем распознавания. Для перечисленных программных средств приводятся данные экспериментов по точности коррекции искаженных текстов, полученных как при клавиатурном вводе текста, так и на выходе систем оптического распознавания текста при обработке изображений плохого качества и распознавания речи в условиях шумов. Для моде-лирования искажений, вносимых системами распознавания, предложена двухэтапная модель случайных искажений текстов. На первом этапе (словарные искажения с заданной вероят-ностью) искажаемое слово в тексте заменяется на случайное словарное слово, удаленное от искажаемого на расстояние Левенштейна 1 или 2. Выбор заменяющего слова производится по равновероятной схеме. На втором этапе (символьные искажения с заданной вероятно-стью) искажаемый знак текста с вероятностью 1/3 либо удаляется, либо перед ним осуще-ствляется вставка случайного символа, либо искажаемый знак заменяется на случайный символ алфавита. Выбор случайного символа производится по равновероятной схеме. Полу-ченные таким образом искаженные тексты исправляются с помощью выбранных программ-ных средств и подсчитывается процент истинных слов в скорректированном тексте. Полу-ченные данные усредняются по набору текстов. Приводятся результаты экспериментов с оценкой точности коррекции в следующей области параметров: вероятности словарного искажения изменяются от 0.01 до 0.9 и вероятности символьного искажения изменяются от 0.01 до 0.5. Полученные результаты показывают, что Яндекс.Спеллер, Bing Spell Check и Texterra обеспечивают хорошее качество коррекции искажений, возникающих при кла-виатурном вводе. Для коррекции искажений, вносимых системами распознавания, перечис-ленные программные средства неэффективны.Анализируются возможности четырех программных средств автоматической кор-рекции текстов (Яндекс.Спеллер, Afterscan, Bing Spell Check, Texterra) для коррекции иска-женных текстов. Описаны искажения текстов, возникающие при вводе текста с клавиату-ры и работе систем распознавания. Для перечисленных программных средств приводятся данные экспериментов по точности коррекции искаженных текстов, полученных как при клавиатурном вводе текста, так и на выходе систем оптического распознавания текста при обработке изображений плохого качества и распознавания речи в условиях шумов. Для моде-лирования искажений, вносимых системами распознавания, предложена двухэтапная модель случайных искажений текстов. На первом этапе (словарные искажения с заданной вероят-ностью) искажаемое слово в тексте заменяется на случайное словарное слово, удаленное от искажаемого на расстояние Левенштейна 1 или 2. Выбор заменяющего слова производится по равновероятной схеме. На втором этапе (символьные искажения с заданной вероятно-стью) искажаемый знак текста с вероятностью 1/3 либо удаляется, либо перед ним осуще-ствляется вставка случайного символа, либо искажаемый знак заменяется на случайный символ алфавита. Выбор случайного символа производится по равновероятной схеме. Полу-ченные таким образом искаженные тексты исправляются с помощью выбранных программ-ных средств и подсчитывается процент истинных слов в скорректированном тексте. Полу-ченные данные усредняются по набору текстов. Приводятся результаты экспериментов с оценкой точности коррекции в следующей области параметров: вероятности словарного искажения изменяются от 0.01 до 0.9 и вероятности символьного искажения изменяются от 0.01 до 0.5. Полученные результаты показывают, что Яндекс.Спеллер, Bing Spell Check и Texterra обеспечивают хорошее качество коррекции искажений, возникающих при кла-виатурном вводе. Для коррекции искажений, вносимых системами распознавания, перечис-ленные программные средства неэффективны.

Литература

1. Birin, D.A., Mel'nikov S.YU., Peresypkin V.A. Ob effektivnosti sredstv korrektsii iskazhennykh tekstov dlya rezul'tatov raboty sistem raspoznavaniya [About efficiency of means of correction of the distorted texts for results of work of systems of recognition], Superkomp'yuternye tekhnologii (SKT-2018): Materialy 5-y Vserossiyskoy nauchno-tekhnicheskoy konferentsii [Supercomputer technologies (SKT-2018): Materials of the 5th all-Russian scientific and tech-nical conference]: in 2 vol. Vol. 1. Rostov-on-Don; Taganrog: Izd-vo YuFU, 2018, pp. 71-75.
2. Subramaniam L.V. et al. A survey of types of text noise and techniques to handle noisy text, Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data, July 23-24, 2009, Barcelona, Spain. DOI: 10.1145/1568296.1568315.
3. Bassil Y., Alwani M. Post Editing Error Correction Algorithm for Speech Recognition using Bing Spelling Suggestion, International Journal of Advanced Computer Science and Applica-tions, 2012, Vol. 3, No. 2, pp. 95-101.
4. Feld M., Momtazi S., Freigang F., Klakow D., Müller C. Mobile texting: can post-ASR correc-tion solve the issues? An experimental study on gain vs. costs, Proceedings of the 2012 ACM international conference on Intelligent User Interfaces, February 14-17, 2012, pp. 37-40. Lis-bon, Portugal. DOI: 10.1145/2166966.2166974.
5. Evershed J., Fitch K. Correcting Noisy OCR: Context beats Confusion DATeCH 2014, May 19–20, 2014, Madrid, Spain DOI:10.1145/2595188.2595200.
6. Lopresti D.P. Optical character recognition errors and their effects on natural language pro-cessing, International Journal on Document Analysis and Recognition (IJDAR), September 2009, Vol. 12, Issue 3, pp. 141–151. DOI: 10.1007/s10032-009-0094-8.
7. Packer T.L., Lutes J.F., Stewart A.P., Embley D.W., Ringger E.K., Seppi K.D., et al. Extracting person names from diverse and noisy OCR text, Proceedings of the fourth workshop on Ana-lytics for noisy unstructured text data AND '10, 2010, pp. 19-26. DOI 10.1145/1871840.1871845
8. Kumar A., Lehal G.S. Automatic Text Correction for Devanagari OCR, Indian Journal of Sci-ence and Technology, December 2016, Vol. 9 (45). DOI: 10.17485/ijst/2016/v9i45/106372.
9. Gadde P., Goutam R., Shah R., Bayyarapu H.S., Subramaniam L.V. Experiments with artifi-cially generated noise for cleansing noisy text, Proceedings of the 2011 Joint Workshop on Multilingual OCR and Analytics for Noisy Unstructured Text Data, MOCR AND ’11, pp. 4:1-4:8. ACM, 2011.
10. Dey L., Haque S.K.M. Studying the effects of noisy text on text mining applications, Proceed-ings of The Third Workshop on Analytics for Noisy Unstructured Text Data AND’09. Barcelo-na, Spain, 2009, pp. 107-114.
11. Clark E., Araki K. Text Normalization in Social Media: Progress, Problems and Applications for a Pre-Processing System of Casual English, Procedia - Social and Behavioral Sciences 27, December 2011, pp. 2-11. DOI: 10.1016/j.sbspro.2011.10.577.
12. Saloot M.A., Idris N., Mahmud R. An architecture for Malay Tweet normalization, Inf. Pro-cess. Manag., 2014, Vol. 50, No. 5, pp. 621-633, DOI: 10.1016/j.ipm.2014.04.009.
13. Wang A., Kan M.-Y., Andrade D., Onishi T., Ishikawa K. Chinese Informal Word Normaliza-tion: an Experimental Study, International Joint Conference on Natural Language Processing, 2013, pp. 127-135. DOI: 10.1007/978-3-319-68612-7_25.
14. Tursun O., Cakici R. Noisy Uyghur Text Normalization, Proceedings of the 3rd Workshop on Noisy User-generated Text, Copenhagen, Denmark, September 7, 2017. – P. 85–93. DOI: 10.18653/v1/w17-4412.
15. Ikeda T., Shindo H., Matsumoto Y. Japanese Text Normalization with Encoder-Decoder Mod-el, Proceedings of the 2nd Workshop on Noisy User-generated Text. – Osaka, Japan, Decem-ber 11, 2016, pp. 118-126.
16. Bassil, Y., Alwani, M. OCR post-processing error correction algorithm using Google’s online spelling suggestion, Journal of Emerging Trends in Computing and Information Sciences, Jan-uary 2012, Vol. 3, No. 1.
17. Спеллер – Технологии Яндекса. Available at: https://tech.yandex.ru/speller/ (accessed 08 November 2018).
18. AfterScan – post-OCR text proofing, advanced spell-checking, automatic correction. Available at: http://www.afterscan.com/ru/ (accessed 08 November 2018).
19. Turdakov D. i dr. Texterra: infrastruktura dlya analiza tekstov [Texterra: Infrastructure for text analysis], Trudy Instituta sistemnogo programmirovaniya RAN [Proceedings of Institute for system programming of Russian Academy of Sciences], 2014, Vol. 26, Issue 1, pp. 421-438. DOI: 10.15514/ISPRAS-2014-26(1)-18.
20. Microsoft Cognitive Services – API Bing проверки орфографии. Available at: https://azure.microsoft.com/ru-ru/services/cognitive-services/spell-check/ (accessed 08 No-vember 2018).
21. Meshcheryakov R.V. Struktura sistem sinteza i raspoznavaniya rechi [Structure of speech syn-thesis and recognition systems], Izvestiya Tomskogo politekhn. un-ta [News of Tomsk Poly-technic University], 2009, Vol. 315, No. 5, pp. 127-132.
22. Smirnov S.V. Korrektirovka oshibok opticheskogo raspoznavaniya na osnove reytingo-rangovoy modeli teksta [Correction of optical recognition errors based on the rating-rank mod-el of the text], Trudy SPIIRAN [SPIIRAS Proceedings], 2014, Issue 4, No. 35, pp. 64-82. DOI: 10.15622/sp.35.5.
23. Rudakov I.V., Romanov A.S. Raspoznavanie tekstovogo izobrazheniya s uchetom morfologii slova [Recognition of a text image taking into account the morphology of the word], Nauka i obrazovanie: nauchnoe izdanie MGTU im. N.E. Baumana [Science and education: scientific publication of MSTU. N.E. Bauman], 2012, Issue 4, pp. 1-6.
24. Farra N., Tomeh N., Rozovskaya A., Habash N. Generalized Character-Level Spelling Error Correction, ACL (2), 2014, pp. 161-167.
25. Belozerov A.A., Vakhlakov D.V., Mel'nikov S.YU., Peresypkin V.A., Sidorov E.S. Tekhnologicheskie aspekty postroeniya sistemy sbora i predobrabotki korpusov novostnykh tekstov dlya sozdaniya modeley yazyka [Technological aspects of creation of system of gath-ering and preprocessing of the corpora of news texts to create language models], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2016, No. 12 (185), pp. 29-42. DOI: 10.18522/2311-3103-2016-12-2942.
Опубликован
2019-04-04
Выпуск
Раздел
РАЗДЕЛ III. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ