Применение глубоких нейронных сетей в задаче визуальной одометрии
Авторы
Московский государственный университет имени М.В. Ломоносова, Ленинские горы, 1, Москва, 119991, Россия
e-mail: korytkinpg@my.msu.ru
Аннотация
Задача повышения точности ориентации робототехнических комплексов и беспилотных летательных аппаратов сохраняет свою актуальность. Существующие решения, реализующие визуальную одометрию на основе алгоритмов, требуют ручной настройки параметров, а также чувствительны к освещённости и цвету. Научной новизной работы является применение нейронных сетей на этапе обработки изображений визуальной одометрии для выделения признаков. В работе рассматривается изучение применения нейронной сети, построенной на основе комбинации модифицированных архитектур MobileNet V2 и U-Net для выделения особых признаков на изображении. Выполнена модификация архитектуры U-Net – заменена транспонированная свёртка на комбинацию из слоёв, выполняющих: растяжение изображения, нормализацию, свёртку с функцией активации, свёртку, нормализацию, функцию активации для повышения качества обучения по метрике F1-Score. Для обучения нейронной сети подготовлено два датасета на основе 4 видеозаписей, из которых 2 синтетические и 2 записанные на камеру видеорегистратора. Первый датасет состоял из отмасштабированных цветных кадров исходного изображения до разрешения 224х224x3, второй из квадратов фиксированного разрешения 128х128x3 полученных из исходного изображения. Для получения карты признаков для датасетов использовался алгоритм SIFT применяемый к изображениям видеозаписей для формирования чёрно-белой карты, где чёрный – отсутствие признака, белый – наличие признака. На этих датасетах обучалось 4 нейронных сети из которых 2 нейронные сети обучались на датасете состоящем из сегментов разрешения 64х64x3 и 128х128x3 для которых входные изображения – цветные. Одна на сегментах, отмасштабированных до разрешения 64х64x3 и преобразованных в чёрно-белый формат. Одна с цветными изображениями разрешения 224х224x3. Лучший результат по метрике F1-Score у нейросетевого детектора, работавшего с чёрно-белыми изображениями разрешения 64х64x3. Для апробирования выбрана простая система визуальной одометрии, в которую был встроен детектор особых признаков на основе разработанной нейронной сети. Выполнено апробирование полученной системы визуальной одометрии на датасете KITTI и сравнение с исходной системой визуальной одометрии, использующей детектор SIFT. Полученное программное решение показало свою работоспособность. В результате тестирования выявлено, что нейросетевой детектор находит большее число признаков, чем детектор SIFT. В одном из трёх маршрутов KITTI нейросетевой детектор показал превосходство. В двух других маршрутах выявлен дрейф и накопление ошибок, связанное с встречным трафиком при отсутствии движения транспортного средства, на котором установлена камера.
Ключевые слова:
визуальная одометрия, нейронные сети, особенности изображений, SIFT, MobileNet V2, U-NetСписок источников
- Ермаков П. Г., Гоголев А. А. Сравнительный анализ схем комплексирования информации бесплатформенных инерциальных навигационных систем беспилотных летательных аппаратов // Труды МАИ, 2021, №117, http://mai.ru//upload/iblock/c31/xon4nnv6t4aum3wqzj4b7kfbsol369la/Ermakov_Gogolev_rus.pdf. DOI: 10.34759/trd-2021-117-11
- Maimone М. Autonomous Navigation Results from the Mars Exploration Rover (MER) Mission / M. Maimone, A. Johnson, Y Cheng, R. Willson, L. Matthies // Experimental Robotics IX, 2006. P. 3-12. DOI:10.1007/11552246_1
- Антонов Д. А., Жарков М. В., Кузнецов И. М., Чернодубов А. Ю. Методы повышения точности и помехозащищенности навигационного обеспечения транспортного средства // Труды МАИ, 2016, №90, http://mai.ru//upload/iblock/277/antonov_zharkov_kuznetsov_chernodubov_rus.pdf
- D. Scaramuzza, F. Fraundorfer, Tutorial Visual Odometry // IEEE ROBOTICS & AUTOMATION MAGAZINE, 2011, Vol. 18, Iss. 4.
- D. Nister, O. Naroditsky and J. Bergen, "Visual odometry," Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004., Washington, DC, USA, 2004, pp. I-I, doi: 10.1109/CVPR.2004.1315094.
- Teed, Zachary and Deng, Jia, “DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras”, Advances in neural information processing systems, 2021.
- You Might Need to Say Goodbye to Affordable PCs; A Price Hike Storm Is Set to Hit in H2 2026 as Memory Shortages & Windows 10 EOL Collide: // https://wccftech.com/you-might-need-to-say-goodbye-to-affordable-pcs/ (дата обращения: 20.12.2025).
- Olivier Brochu Dufour and Abolfazl Mohebbi and Sofiane Achiche, An Attention-Based Deep Learning Architecture for Real-Time Monocular Visual Odometry: Applications to GPS-free Drone Navigation, 2024 https://arxiv.org/abs/2404.17745
- L. Yu, E. Yang, B. Yang, Z. Fei and C. Niu, "A Robust Learned Feature-Based Visual Odometry System for UAV Pose Estimation in Challenging Indoor Environments," in IEEE Transactions on Instrumentation and Measurement, vol. 72, pp. 1-11, 2023, Art no. 5015411, doi: 10.1109/TIM.2023.3279458.
- MonoVO-python // Github URL: https://github.com/uoip/monoVO-python (дата обращения: 08.02.2025).
- Bradski, G. The OpenCV Library. Dr. Dobb's Journal of Software Tools. 15.01.2008
- Дорошев А.С., Шеломанов Д.А. Методика подбора гиперпараметров нейросетевой модели в задачах оптической навигации // Труды МАИ. 2025. № 142. URL: https://trudymai.ru/published.php?ID=185106
- Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications // arXiv.org, 2017, DOI: https://doi.org/10.48550/arXiv.1704.04861
- Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille, DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs // arXiv.org, 2017 https://doi.org/10.48550/arXiv.1606.00915
- Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam, Rethinking Atrous Convolution for Semantic Image Segmentation // arXiv.org, 2017 https://arxiv.org/abs/1706.05587
- M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L. Chen, MobileNetV2: Inverted Residuals and Linear Bottlenecks // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 4510-4520, DOI: https://doi.org/10.48550/arXiv.1801.04381
- Andrew Howard, Mark Sandler and Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, Quoc V. Le, Hartwig Adam, Searching for MobileNetV3 // arXiv.org, 2019 https://arxiv.org/abs/1905.02244
- Ronneberger, O., Fischer, P., Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science(), vol 9351. Springer, Cham. https://doi.org/10.1007/978-3-319-24574-4_28
- API Documentation // Tensorflow URL: https://www.tensorflow.org/api_docs/ (дата обращения: 08.02.2025).
- T. Ganegedara, Tensorflow In Action // MANNING SHELTER ISLAND., 2022
- Lowe, D.G. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision 60, 91–110 (2004). https://doi.org/10.1023/B:VISI.0000029664.99615.94
- Taha AA, Hanbury A. Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool. BMC Med Imaging. 2015 Aug 12;15:29. doi: 10.1186/s12880-015-0068-x. PMID: 26263899; PMCID: PMC4533825.
- Geiger, P. Lenz and R. Urtasun, "Are we ready for autonomous driving? The KITTI vision benchmark suite," 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, USA, 2012, pp. 3354-3361, DOI: 10.1109/CVPR.2012.6248074.
Скачать статью

