Найти
Результаты поиска
-
ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АДАПТИВНОГО АЛГОРИТМА УПРАВЛЕНИЯ НА БАЗЕ МЕТОДА ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ
А. Н. Карапеев , Е.Ю. Косенко , М. Ю. Медведев , В. Х. Пшихопов2025-04-27Аннотация ▼Предложен и исследован алгоритм адаптивного управления двигателем постоянного тока,
базирующийся на применении технологии машинного обучения с подкреплением. Дан обзор и крат-
кий анализ состояния дел в области интеллектуальных систем управления приводами. Представ-
лено математическое описание двигателя, приведена структурная схема обучения интеллекту-
ального агента. Предложена интеллектуальная система адаптивного управления скоростью
вращения двигателя, при построении которой двигатель представляется в виде черного ящика с
заданными ограничениями на вход и выход. Система управления строится на базе алгоритма
Q-обучения нулевого порядка. Предполагается, что выходом интеллектуального агента является
управление, подаваемое на вход двигателя. Экспериментальным путем подобрано множество
таких управлений, позволяющих реализовать заданную точность поддержания частоты враще-
ния. В интеллектуальной системе используются приближенные табличные оценки ценности каж-
дого из управлений в зависимости от желаемой и текущей частоты вращения двигателя. В на-
стоящей статье проведено исследование влияния дискретности представления значений состоя-
ния, используемого множества управляющих воздействий, применяемых вознаграждений, а так-
же параметров алгоритма обучения на ошибку управления. Исследована чувствительность ин-
теллектуальной системы управления к изменению параметров моделируемого двигателя и не из-
меряемому моменту сопротивления на валу двигателя. По результатам проведенного исследова-
ния сделан вывод о необходимости использования модифицированного алгоритма, в котором
предполагается измерение или оценка тока статорной обмотки двигателя и использование непре-
рывного упарвления. В данной постановке задачи алгоритм управления обеспечивает робастность
к переменным параметрам и внешнему возмущению. Также обсуждаются вопросы аппроксимации
функции ценности управления с помощью полиномов и с применением нейронной сети. Показана
возможность высокой точности аппроксимации с помощью нейронной сети простой структуры -
МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ УКЛОНЕНИЯ РОЯ ОТ ВОЗДЕЙСТВИЯ АНТОГОНИСТИЧЕСКОЙ СРЕДЫ
В.К. Абросимов , Г.А. Долгов , Е. С. Михайлова6-192025-04-27Аннотация ▼Одним из приоритетных направлений теории группового управления на близлежащую перспективу является роевое управление группами малых беспилотных летательных аппаратов – микро-, мини- и нано- классов, выполняющих коллективную задачу в условиях воздействия противника. Здесь сталкиваются две антагонистические стратегии-минимизации потерь с точки зрения атакующего
роя и максимизации таких потерь с точки зрения системы обороны. Цель исследования: разработка
подхода к решению практической задачи – проникновения роя беспилотных летательных аппаратов на
охраняемый системой обороны объект. Задачи исследования заключались в анализе характеристик
факторов, влияющих на процессы обнаружения, сопровождения, распознавания намерений роя систе-
мой обороны и разработка модели машинного обучения создания пространственно-временных форма-
ций, минимизирующих число пораженных системой обороны элементов роя. В качестве основных па-
раметров системы обороны выделены дальность обнаружения и продолжительность распознавания
роя, время на принятие решения по действиям роя, размер зоны поражения средств обороны. В каче-
стве метода исследования выбран метод машинного обучения на сверточных нейронных сетях с под-
креплением. Эффект противодействия системе обороны создается за счет динамичности роя; он
может активно маневрировать, создавая в процессе осуществления миссии пространственно-
временные маневры. Для моделирования ситуации «Рой vs Система обороны» вводится агент роя (ней-
ронная сеть с архитектурой трансформер, которая инициирует формации роя) и агент системы обо-
роны, которая распознает рой и атакует его, создавая зону поражения в условном центре масс роя.
Рой руководствуется стохастическим правилом, предлагая системе обороны (среде) отреагировать
на его маневр. Среда отвечает атакой роя, образуя поражающий фактор в той точке, в которой
предположительно окажется рой или основная часть роя. Наградой стратегии роя выступает число
неуничтоженных объектов в условиях выполнения ограничений; для системы обороны эта «награда»
выступает как «наказание». В процессе машинного обучения установлено интересное явление: каждый
элемент роя, оставаясь в рамках заданного пространства и реализуя биологические принципы роевого
управления без Лидера самостоятельно уклоняется от области поражения, что в совокупности созда-
ет случайную для средств обороны пространственно-временную формацию с минимальными потерями
элементов роя. Таким образом, методом машинного обучения с подкреплением создана модель, позво-
ляющая варьировать поведением роя и синтезировать пространственно-временных формации, за-
трудняющие обнаружение, сопровождение, распознавание намерений и принятие решений по воздей-
ствию системы обороны на рой атакующих малых беспилотных летательных аппаратов, а также
существенно снизить их потери








