Оптимизация алгоритма предотвращения столкновений в воздухе на основе обучения с подкреплением с ресурсными ограничениями
Авторы
1*, 21. филиал ПАО "Корпорация "Иркут" "Центр комплексирования", Авиационный переулок, 5, Москва, 125167, Россия
2. Северо-Западный политехнический университет, Западная дорога дружбы, 127, Сиань, провинция Шэньси, 710072 Китайская Народная Республика
*e-mail: evgeny.neretin@ic.yakovlev.ru
Аннотация
С увеличением плотности воздушного трафика возрастает необходимость в эффективных системах предотвращения столкновений в воздухе. Традиционные системы, такие как TCAS, хотя и эффективно поддерживают безопасность, сталкиваются с трудностями в адаптации и оптимизации в современных сложных условиях. Чтобы преодолеть эти ограничения, мы применяем обучение с подкреплением (RL) в рамках марковского процесса принятия решений с ограничениями по ресурсам (RC-MDP), вводя управление виртуальными ресурсами для сокращения числа ложных тревог. Мы предлагаем бонус за время и ресурсы (TRB) для модификации алгоритмов DQN и SAC в DQNTRB и SACTRB, которые поощряют эффективное использование ресурсов при сохранении эффективности предотвращения столкновений. Результаты экспериментов показывают, что эти модифицированные алгоритмы значительно сокращают количество ложных тревог, достигая почти аналогичной эффективности по сравнению с алгоритмами без ограничений.
Ключевые слова:
реакция пилота, глубокое обучение с подкреплением, воздушное столкновение, марковский процесс принятия решений, динамическое программированиеСписок источников
- Holland J.E., Kochenderfer M.J., Olson W.A. Optimizing the next generation collision avoidance system for safe, suitable, and acceptable operational performance // Air Traffic Control Quarterly. 2013. Vol. 21, no. 3. P. 275–297.
- De D., Sahu P.K. A survey on current and next generation aircraft collision avoidance system // International Journal of Systems, Control and Communications. 2018. Vol. 9, iss. 4. P. 306–337.
- Kochenderfer M.J., Holland J.E., Chryssanthacopoulos J.P. Next generation airborne collision avoidance system // Lincoln Laboratory Journal. 2012. Vol. 19, iss. 1. P. 17–33.
- Kochenderfer M.J., Chryssanthacopoulos J.P. Robust airborne collision avoidance through dynamic programming : technical report / Massachusetts Institute of Technology, Lincoln Laboratory. 2011, 130 p. Project report ATC-371.
- Optimized airborne collision avoidance / M.J. Kochenderfer, C. Amato, G. Chowdhary et al. // Decision making under uncertainty: theory and application. MIT Press, 2015. P. 249–276.
- Julian K.D., Kochenderfer M.J., Owen M.P. Deep neural network compression for aircraft collision avoidance systems // Journal of Guidance, Control, and Dynamics. 2019. Vol. 42, iss. 3. P. 598–608.
- Julian K.D., Kochenderfer M. Guaranteeing safety for neural network-based aircraft collision avoidance systems // 2019 IEEE/AIAA 38th Digital Avionics Systems Conference (DASC). DOI 10.1109/DASC43569.2019.9081748.
- Li S, Egorov M., Kochenderfer M. Optimizing collision avoidance in dense airspace using deep reinforcement learning // Thirteenth USA/Europe Air Traffic Management Research and Development Seminar (ATM2019). 2019. DOI 10.48550/arxiv.1912.10146.
- Online multiple-aircraft collision avoidance method / P. Zhao, W. Wang, L.Ying et al. // Journal of Guidance, Control, and Dynamics. 2020. Vol. 43, iss. 2. P. 1–17. DOI 10.2514/1.G005161.
- A partially observable multi-ship collision avoidance decision-making model based on deep reinforcement learning // K. Zheng, X. Zhang, C. Wang et al. // Ocean & Coastal Management. 2023. Vol. 242. Art. 106689.
- Kormushev P., Calinon S., Caldwell D.G. Reinforcement learning in robotics: Applications and real-world challenges // Robotics. 2013. Vol. 2, iss. 3. P. 122–148.
- An aircraft collision avoidance method based on deep reinforcement learning / Z. Liu, E. Neretin, X. Gao, et al. // 9th International Conference on Control and Robotics Engineering (ICCRE), IEEE. 2024. P. 241–246.
- Bhatia A., Varakantham P., Kumar A. Resource constrained deep reinforcement learning // Proceedings of the international conference on automated planning and scheduling. 2019. Vol. 29. P. 610–620.
- Efficient exploration in resource-restricted reinforcement learning / Z. Wang, T. Pan, Q. Zhou et al. // Proceedings of the AAAI Conference on Artificial Intelligence. 2023 Vol. 37, no. 8. P. 10279–10287.
- Sutton R.S., Barto A.G. Reinforcement learning: An introduction. Cambridge : MIT press, 2018.
- Playing atari with deep reinforcement learning / V. Mnih, K. Kavukcuoglu, D. Silver, et al. // ArXiv.org : website / arXiv preprint arXiv:1312.5602: 2013. 9 p.
- Human-level control through deep reinforcement learning / V. Mnih, K. Kavukcuoglu, D. Silver et al. // Nature. 2015. Vol. 518(7540). P. 529–533.
- Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor / T. Haarnoja, A. Zhou, P. Abbeel et al. // International conference on machine learning. PMLR, 2018. P. 1861–1870.
- Mohamed S., Jimenez Rezende D. Variational information maximisation for intrinsically motivated reinforcement learning // Advances in neural information processing systems. 2015. 28 p.
Скачать статью

