UAV Human Detector

Страницы:  1

Ответить
 

Professor Seleznov


В статье рассматривается процесс подготовки и анализа данных, обучение модели компьютерного зрения для обнаружения людей на изображениях с БЛА, тестирование полученной модели на специализированном наборе данных для поисково-спасательных задач, а также оценка качества обнаружения и анализ полученных результатов.
pic
Распознавание людей
Общее описание задачи
Проект является частью диссертационной работы: “Система управления БЛА для поисково-спасательных работ в труднодоступных регионах”. Статью я решил написать, чтобы поделиться результатом и возможно найти советы по улучшению. Для этого я выбрал именно раздел детекции и обнаружения людей с камеры беспилотника, так как это наиболее наглядный результат.
Суть общей задачи я разделил на 3 части, это: В общем виде работа системы выглядит следующим образом. Оператор задаёт область поиска, параметры полёта и при необходимости запрещённые для пролёта зоны. На основе этих данных формируется поисковая траектория, обеспечивающая покрытие заданной территории. Далее траектория преобразуется в последовательность высокоуровневых команд и передаётся на компьютер-компаньон, расположенный на борту БПЛА. Компьютер-компаньон взаимодействует с полётным контроллером и преобразует полученные команды в низкоуровневые управляющие воздействия, необходимые для выполнения полёта. Одновременно с выполнением миссии осуществляется обработка видеопотока с бортовой камеры при помощи моделей компьютерного зрения, предназначенных для обнаружения людей на местности. При обнаружении человека формируется сообщение с результатами детекции, которое передаётся оператору для дальнейшего анализа и принятия решения.
Систему управления БЛА я уже описывал ранее. Основной принцип - применение высокоуровневых команд для управления, мы передаём на борт команды по типу “иди в точку”, “двигайся по круговой орбите”, при этом передаём только параметры команды. В обратном направлении получаем данные телеметрии и состояния БЛА.
Что касается планирования траектории, то тут тоже кратко: задаём область поиска по карте (несколько регионов), далее поочерёдно в зависимости от приоритета применяем алгоритм построения траектории, далее объединяем в единую траекторию (Рисунок 1, 2).
pic
Рисунок 1 - Выбор зон поиска
pic
Рисунок 2 - Сформированная траектория
Модель обнаружения людей с камеры БЛА
Задача данного этапа заключается в обнаружении человека на изображениях, полученных с камеры беспилотного летательного аппарата. На вход модели подаётся кадр с бортовой камеры, после чего модель определяет наличие человека, координаты ограничивающей области и значение уверенности распознавания.
Я понимаю, что задача очень популярная и не раз уже была решена научным сообществом, однако я решил реализовать её самостоятельно (ещё один проект в портфолио).
Для обучения использовался датасет SARD — Search and Rescue Dataset, предназначенный для задач поиска и обнаружения людей с БЛА. Данные уже были подготовлены в формате YOLO и содержали разбиение на обучающую, валидационную и тестовую выборки. В датасете использовался один класс — human.
В качестве базовой модели была выбрана YOLOv8n. Данная модель является компактной версией YOLOv8 и подходит для первичной проверки подхода, так как имеет небольшие требования к вычислительным ресурсам и обеспечивает достаточно высокую скорость обработки изображений.
С исходным кодом можно ознакомиться в репозитории (jupyter notebook):
UAV Human Detector
Для обучения использовались следующие параметры:
Параметр Значение
Количество эпох обучения 25
Размер входного изображения 640
Размер батча 16
Предобученные веса Да
Оптимизатор Auto
Ранняя остановка 10
Количество потоков загрузки данных 4

Обучал на ноутбуке с видеокартой NVIDIA GeForce RTX 3050 6GB примерно 30 минут. Считаю это приемлемый результат.
Метрики:
pic
Рисунок 3 - Метрики обучения
В целом, по моему мнению, можно было бы и дальше проводить обучение.
После обучения модель была протестирована на тестовой выборке. Получены следующие результаты: Precision = 0.9499, Recall = 0.8484, mAP50 = 0.9245, mAP50-95 = 0.5910 .
Precision — доля корректных срабатываний среди всех объектов, которые модель определила как человека.
Recall — доля найденных людей среди всех людей, которые действительно присутствуют на изображениях.
mAP50 — средняя точность детекции при базовом пороге совпадения предсказанной и истинной рамки.
mAP50-95 — средняя точность детекции при нескольких порогах совпадения рамок, от мягкого до более строгого. Это более требовательная метрика качества локализации объекта.
Далее я взял несколько изображения из тестовой выборки для визуального анализа. Также я добавил ограничение - буферную зону по краям изображения, чтобы объекты на краю не детектировались, исключение, если тригер объекта на 80 процентов находит в общей зоне кадра.
pic
Рисунок 4 - Пример 1
pic
Рисунок 5 - Пример 2
pic
Рисунок 6 - Пример 3
pic
Рисунок 7 - Пример 4
pic
Рисунок 8 - Пример 5
pic
Рисунок 9 - Пример 6
pic
Рисунок 10 - Пример 7
pic
Рисунок 11 - Пример 8
Полученные результаты показывают, что модель достаточно уверенно определяет людей на изображениях. Также можно заметить что на примере (Рисунок 8, человек на велосипеде), человек не был детектирован, я считают, это произошло в следствие недостатка освещения, и скорее всего при дальнейшем его движении вероятность детекции велика.
Я считаю, что полученная модель вполне рабочая и её можно тестировать в реальных условиях, однако для улучшения результата, лучше подготовить дополнительный датасет с реальными кадрами местности на которой будут проводиться испытания. Также в данной работе не рассматривалась проблема ограниченной видимости из-за кроны деревьев, это известная проблема, но на данный момент я её не рассматриваю.
Контактные данные
Буду рад ответить на ваши вопросы или замечания. -Источник
 
Loading...
Error