КОМПЛЕКСИРОВАНИЕ МОДЕЛЕЙ СЕГМЕНТАЦИИ, СОПРОВОЖДЕНИЯ И КЛАССИФИКАЦИИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ВИДЕОАНАЛИТИКИ

А.Е. Архипов; И.С. Фомин; В.Д. Матвеев

А.Е. Архипов Государственный научный центр РФ – Федеральное госу- дарственное автономное научное учреждение «Центральный научно-исследовательский и опытно-конструкторский институт робототехники и технической кибернетики»
И.С. Фомин Государственный научный центр РФ – Федеральное госу- дарственное автономное научное учреждение «Центральный научно-исследовательский и опытно-конструкторский институт робототехники и технической кибернетики»
В.Д. Матвеев Государственный научный центр РФ – Федеральное госу- дарственное автономное научное учреждение «Центральный научно-исследовательский и опытно-конструкторский институт робототехники и технической кибернетики»

Ключевые слова: Нейронные сети, сегментация, сопровождения, классификация, видеоаналитика, системы технического зрения

Аннотация

Комплексирование нескольких моделей в одну систему технического зрения позволит ре-
шать более сложные и комплексные задачи. В частности, для мобильной робототехники и
беспилотных летательных аппаратов (БЛА) является актуальной проблемой отсутствие на-
боров данных для различных условий. В работе в качестве решения данной проблемы предлага-
ется комплексирование нескольких моделей: сегментации, сопровождения и классификации.
Это позволит значительно повысить качество решения сложных задач без дополнительного
обучения. Модель сегментации позволяет выделять произвольные объекты из кадров, поэтому
ее можно использовать в недетерминированных и динамических средах. Модель классификации
позволяет определить необходимые для навигации объекты, которые затем сопровождаются
с помощью третей модели. В работе подробно описан алгоритм комплексирования моделей.
Ключевым элементом в алгоритме является коррекция предсказаний моделей, позволяющая
достаточно надежно сегментировать и сопровождать различные объекты. Процедура кор-
рекции предсказаний моделей решает следующие задачи: добавление новых объектов для сопро-
вождения, валидация сегментированных масок объектов и уточнение сопровождаемых масок.
Универсальность данного решения подтверждается работой в сложных условиях, на которых
не обучали модели, например, подводная съемка или изображения с БЛА. Проведено экспери-
ментальное исследование каждой из моделей в условиях открытой местности и в помещении.
Наборы данных включали сцены актуальные для мобильной робототехники. В частности, в
сценах присутствовали движущиеся объекты (человек, автомобиль) и возможные преграды на
пути робота. Для большинства классов метрики качества сегментации превышали 80 %. Ос-
новные ошибки связаны с размерами объектов. Проведенные эксперименты наглядно демонст-
рируют универсальность данного решения без дополнительного обучения моделей. Дополни-
тельно проведено исследование быстродействия на персональном компьютере с различными
входными параметрами и разрешением. Увеличение количества моделей значительно повыша-
ет вычислительную нагрузку и не достигает реального времени. Поэтому одним из направления
дальнейших исследований является повышение быстродействия системы

Литература

1. Yang J., et al. Track anything: Segment anything meets videos, CoRR, 2023, Vol. abs/2304.11968.
Available at: http://arxiv.org/abs/2304.11968.
2. Cheng H.K., et al. Tracking anything with decoupled video segmentation, IEEE/CVF International
Conference on Computer Vision, 2023, pp. 1316-1326.
3. Zhu J., et al. Tracking anything in high quality, CoRR, 2023, Vol. abs/2307.13974. Available
at: http://arxiv.org/abs/2307.13974.
4. Liu Y., et al. MobileSAM-Track: Lightweight One-Shot Tracking and Segmentation of Small
Objects on Edge Devices, Remote Sensing, 2023, Vol. 15, No. 24, pp. 5665.
5. Cheng Y., et al. Segment and track anything, CoRR, 2023, Vol. abs/2305.06558. Available at:
http://arxiv.org/abs/2305.06558.
6. Kirillov A., et al. Segment anything, CoRR, 2023, Vol. abs/2304.02643. Available at:
http://arxiv.org/abs/2304.02643
7. Cheng B., Schwing A., Kirillov A. Per-pixel classification is not all you need for semantic segmentation,
Advances in Neural Information Processing Systems, 2021, Vol. 34, pp. 17864-17875.
8. Yang Z., Yang Y. Decoupling features in hierarchical propagation for video object segmentation,
Advances in Neural Information Processing Systems, 2022, Vol. 35, pp. 36324-36336.
9. Yang Z., Wei Y., Yang Y. Associating objects with transformers for video object segmentation,
Advances in Neural Information Processing Systems, 2021, Vol. 34, pp. 2491-2502.
10. Cherti M., et al. Reproducible scaling laws for contrastive language-image learning,
IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2818-2829.
11. Awadalla A., et al. Openflamingo: An open-source framework for training large autoregressive
vision-language models, CoRR, 2023, Vol. abs/2308.01390. Available at: http://arxiv.org/abs/
2308.01390.
12. Li J., Li D., Xiong C., Hoi S. Blip: Bootstrapping language-image pre-training for unified vision-
language understanding and generation, International Conference on Machine Learning,
2022, pp. 12888-12900.
13. Radford A., et al. Learning transferable visual models from natural language supervision, International
conference on machine learning, 2021, pp. 8748-8763.
14. Mueller M., Smith N., Ghanem B. A benchmark and simulator for uav tracking //Computer
Vision–ECCV 2016: 14th European Conference. 2016. – P. 445-461.
15. Github: fbrs_interactive_segmentation. Available at: https://github.com/SamsungLabs/fbrs_
interactive_segmentation.
16. Sofiiuk K., Petrov I., Barinova O., Konushin A. F-BRS: Rethinking Backpropagating Refinement
for Interactive Segmentation, IEEE/CVF Conference on Computer Vision and Pattern
Recognition, 2020, pp. 8623-8632.
17. Fomin I., Arhipov A. Selection of Neural Network Algorithms for the Semantic Analysis of
Local Industrial Area, International Russian Automation Conference, 2021, pp. 380-385.
18. Miao J., et al. VSPW: A Large-scale Dataset for Video Scene Parsing in the Wild, IEEE/CVF
Conference on Computer Vision and Pattern Recognition, 2021, pp. 4133-4143.
19. Zhang C., et al. Faster Segment Anything: Towards Lightweight SAM for Mobile Applications,
CoRR, 2023, Vol. abs/2306.14289. Available at: http://arxiv.org/abs/2306.14289.
20. Wang A., et al. RepViT-SAM: Towards Real-Time Segmenting Anything, CoRR, 2023,
Vol. abs/2312.05760 Available at: http://arxiv.org/abs/2312.05760.