АЛГОРИТМ ПОДГОТОВКИ ДАННЫХ ОБУЧЕНИЯ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ БУКВ И СИМВОЛОВ

Аннотация

Точность распознавания текстовых изображений на практике остается ограниченной. Это связано с тем, что в алфавит символов могут входить строчные и прописные буквы со схожим начертанием, а также составные символы, образованные из нескольких более простых символов. Для решения этой проблемы систему распознавания символов дополняют системами семантического или структурного анализа, что существенно усложняет информационную систему для распознавания текста. В настоящее время для распознавания одиночных символов широко применяют сверточные нейронные сети, для обучения которых используют базу данных с изображениями распознаваемых символов. В работе предложен алгоритм, отличающийся тем, что в изображение одиночного символа для обучающей выборки включают фрагменты символов, которые могут быть расположены в строке в непосредственной близости от распознаваемого символа. Формирование изображений для обучающей выборки имитирует процесс сегментации символа по яркости, который обычно используют при выделении символа для дальнейшего распознавания. При этом оценивают размеры символа, дополняют его изображениями соседних символов, а затем оценивают размеры области, изображения, которое будет помещено в обучающую выборку. Полученное изображение масштабируют и обрезают таким образом, чтобы на вход нейронной сети поступали изображения заданного размера. В работе для распознавания алфавита символов, включающего прописные и строчные символы русского и английского алфавитов, цифры, символы и знаки препинания предложено использовать множество сверточных нейронных сетей, каждая из которых обучена распознавать один символ. Выбор символа осуществляется путем сравнения откликов всех нейронных сетей и выбора максимального отклика. Проведено сравнение предложенного алгоритма подготовки данных для обучения с известным алгоритмом, основанным на использовании изображений одиночных символов. Установлено, что предложенный алгоритм подготовки данных для обучения обеспечивает повышение точности распознавания алфавита из 138 символов более, чем в два раза.

Авторы

Список литературы

1. Gorelik A.L., Skripkin V.A. Metody raspoznavaniya [Recognition methods]. Moscow: Vysshaya shkola, 1984, 208 p.

2. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016. Available at: httpp: // www.deeplearningbook.org.

3. Chupinin Yu.G. Patent RF 2661750: MPK G06K 9/20. Raspoznavanie simvolov s ispol'zovaniem is-kusstvennogo intellekta [Patent Ru No. 2661750, G06K 9/20. Character recognition using artificial intel-ligence]; Prior. 30.05.2017, Publ. 07/19/2018, Bul. No. 20.

4. Nikolenko S., Kadurin A., Arkhangel'skaya E. Glubokoe obuchenie. Pogruzhenie v mir neyronnykh setey [Deep learning. Dive into the world of neural networks]. Saint Petersburg: Piter, 2021, 476 p.

5. Forsyth D.A., Ponce J. Computer Vision: A Modern Approach. 2nd ed. New Jersey: Prentice Hall, 2011, 792 p.

6. Bolotova Yu.A., Spitsyn V.G., Rudometkina M.N. Raspoznavanie avtomobil'nykh nomerov na osnove metoda svyaznykh komponent i ierarkhicheskoy vremennoy seti [Recognition of license plates based on the method of connected components and a hierarchical time network], Komp'yuternaya optika [Com-puter Optics], 2015, Vol. 39, No. 2, pp. 275-280.

7. Kazanskiy N.L., Popov S.B. Raspredelennaya sistema tekhnicheskogo zreniya registratsii zheleznodorozhnykh sostavov [Distributed vision system for registration of railway trains], Komp'yuternaya optika [Computer Optics], 2012, Vol. 36, No. 3, pp. 419-428.

8. Izotov P.Yu., Sukhanov S.V., Golovashkin D.L. Tekhnologiya realizatsii neyrosetevogo algoritma v srede CUDA na primere raspoznavaniya rukopisnykh tsifr [The technology of implementing a neural network algorithm in the cuda environment using the example of handwriten digit recognition], Komp'yuternaya optika [Computer Optics], 2010, Vol. 34, No. 2, pp. 243-251.

9. Spitsyn V.G., Bolotova Yu.A., Fan N.Kh., Buy T.T.Ch. Primenenie veyvlet-preobrazovaniya Khaara, metoda glavnykh komponent i neyronnykh setey dlya opticheskogo raspoznavaniya simvolov na izobra-zheniyakh v prisutstvii impul'snogo shuma [Application of the Haar wavelet transform, the principal component method and neural networks for optical character recognition in images in the presence of pulsed noise], Komp'yuternaya optika [Computer Optics], 2016, Vol. 40, No. 2, pp. 249-257. DOI: 10.18287/2412-6179-2016-40-2-249-257.

10. Zaginaylo M.V., Fatkhi V.A. Raspoznavanie simvolov s pomoshch'yu apparata iskusstvennykh ney-ronnykh setey [Character recognition using artificial neural networks], Innovatsii i investitsii [Innova-tions and Investments], 2005, No. 5, pp. 145-147.

11. Rashid T. Sozdaem neyronnuyu set' [Make your own neural network]. Saint Petersburg: OOO «Al'fa-kniga», 2017, 272 p.

12. Fan N.Kh., Buy T.T.Ch., Spitsyn V.G. Raspoznavanie pechatnykh tekstov na osnove primeneniya vey-vlet-preobrazovaniya i metoda glavnykh komponent [Recognition of printed texts based on the applica-tion of the wavelet transform and the principal component method], Izvestiya Tomskogo politekhnich-eskogo universiteta [Proceedings of Tomsk Polytechnic University], 2012, Vol. 36, No. 5, pp. 154-157.

13. Miller E.G., Viola P.A. Ambiguity and constraint in mathematical expression recognition, in AAAI-98/IAAI-98 Proceedings, July 26-30, 1998, Madison, Wisconsin: AAAI, 1998, pp. 784-791.

14. Ong Kai Bin, Yew Kwang Hooi, Said Jadid Abdul Kadir, Haruhiro Fujita and Luqman Hakim Rosli. Enhanced Symbol Recognition based on Advanced Data Augmentation for Engineering Diagrams, In-ternational Journal of Advanced Computer Science and Applications (IJACSA), 2022, 13 (5). Available at: http://dx.doi.org/10.14569/IJACSA.2022.0130563.

15. Bhanbhro H., Yew K.H., Kusakunniran W., Amur Z. A Symbol Recognition System for Single-Line Diagrams Developed Using a Deep-Learning Approach, Applied Sciences, 2023, 13, pp. 8816. Availa-ble at: https: // doi.org/10.3390/app13158816.

16. Moreno-García, C.F.; Elyan, E.; Jayne, C. Heuristics-Based Detection to Improve Text/Graphics Seg-mentation in Complex Engineering Drawings, In Proceedings of the Engineering Applications of Neural Networks: 18th International Conference (EANN 2017), Athens, Greece, 25–27 August 2017, pp. 87-98.

17. Pratt W.K. Digital image processing. New York: Wiley, 1991, 698 p.

18. Muthukrishnan R, Radha M. Contour selection algorithms for image segmentation, International Jour-nal of Computer Science & Information Technology (IJCSIT), 2014,Vol. 3, No. 6, pp. 259-267.

19. Poynter Ya. Programmiruem s PyTorch: Sozdanie prilozheniy glubokogo obucheniya [Programming PyTorch for Deep Learning]. Saint Petersburg: Piter, 2020, 256 p.

20. Liu Yuxi (Hayden). PyTorch 1.x Reinforcement Learning Cookbook. Over 60 recipes to design, develop, and deploy self-learning AI models using Python. Birmingham–Mumbai: Packt, 2019, 527 p.

Скачивания

Опубликовано:

2025-07-24

Номер:

Раздел:

РАЗДЕЛ IV. МАШИННОЕ ОБУЧЕНИЕ И ОБРАБОТКА ДАННЫХ

Ключевые слова:

Алгоритм, алфавит, символ, распознавание, сверточная нейронная сеть, обучающая выборка

DOI

Для цитирования:

Д.А. Безуглов , М.С. Мищенко , С.Е. Мищенко АЛГОРИТМ ПОДГОТОВКИ ДАННЫХ ОБУЧЕНИЯ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ БУКВ И СИМВОЛОВ. Известия ЮФУ. Технические науки. – 2025. - № 3. – С. 134-144.