|
Professor Seleznov
|
В статье рассматривается процесс подготовки и анализа данных, обучение модели компьютерного зрения для обнаружения людей на изображениях с БЛА, тестирование полученной модели на специализированном наборе данных для поисково-спасательных задач, а также оценка качества обнаружения и анализ полученных результатов.

Распознавание людей Общее описание задачи Проект является частью диссертационной работы: “Система управления БЛА для поисково-спасательных работ в труднодоступных регионах”. Статью я решил написать, чтобы поделиться результатом и возможно найти советы по улучшению. Для этого я выбрал именно раздел детекции и обнаружения людей с камеры беспилотника, так как это наиболее наглядный результат. Суть общей задачи я разделил на 3 части, это:
В общем виде работа системы выглядит следующим образом. Оператор задаёт область поиска, параметры полёта и при необходимости запрещённые для пролёта зоны. На основе этих данных формируется поисковая траектория, обеспечивающая покрытие заданной территории. Далее траектория преобразуется в последовательность высокоуровневых команд и передаётся на компьютер-компаньон, расположенный на борту БПЛА. Компьютер-компаньон взаимодействует с полётным контроллером и преобразует полученные команды в низкоуровневые управляющие воздействия, необходимые для выполнения полёта. Одновременно с выполнением миссии осуществляется обработка видеопотока с бортовой камеры при помощи моделей компьютерного зрения, предназначенных для обнаружения людей на местности. При обнаружении человека формируется сообщение с результатами детекции, которое передаётся оператору для дальнейшего анализа и принятия решения. Систему управления БЛА я уже описывал ранее. Основной принцип - применение высокоуровневых команд для управления, мы передаём на борт команды по типу “иди в точку”, “двигайся по круговой орбите”, при этом передаём только параметры команды. В обратном направлении получаем данные телеметрии и состояния БЛА. Что касается планирования траектории, то тут тоже кратко: задаём область поиска по карте (несколько регионов), далее поочерёдно в зависимости от приоритета применяем алгоритм построения траектории, далее объединяем в единую траекторию (Рисунок 1, 2).

Рисунок 1 - Выбор зон поиска

Рисунок 2 - Сформированная траектория Модель обнаружения людей с камеры БЛА Задача данного этапа заключается в обнаружении человека на изображениях, полученных с камеры беспилотного летательного аппарата. На вход модели подаётся кадр с бортовой камеры, после чего модель определяет наличие человека, координаты ограничивающей области и значение уверенности распознавания. Я понимаю, что задача очень популярная и не раз уже была решена научным сообществом, однако я решил реализовать её самостоятельно (ещё один проект в портфолио). Для обучения использовался датасет SARD — Search and Rescue Dataset, предназначенный для задач поиска и обнаружения людей с БЛА. Данные уже были подготовлены в формате YOLO и содержали разбиение на обучающую, валидационную и тестовую выборки. В датасете использовался один класс — human. В качестве базовой модели была выбрана YOLOv8n. Данная модель является компактной версией YOLOv8 и подходит для первичной проверки подхода, так как имеет небольшие требования к вычислительным ресурсам и обеспечивает достаточно высокую скорость обработки изображений. С исходным кодом можно ознакомиться в репозитории (jupyter notebook): UAV Human Detector Для обучения использовались следующие параметры:
| Параметр |
Значение |
| Количество эпох обучения |
25 |
| Размер входного изображения |
640 |
| Размер батча |
16 |
| Предобученные веса |
Да |
| Оптимизатор |
Auto |
| Ранняя остановка |
10 |
| Количество потоков загрузки данных |
4 |
Обучал на ноутбуке с видеокартой NVIDIA GeForce RTX 3050 6GB примерно 30 минут. Считаю это приемлемый результат. Метрики:

Рисунок 3 - Метрики обучения В целом, по моему мнению, можно было бы и дальше проводить обучение. После обучения модель была протестирована на тестовой выборке. Получены следующие результаты: Precision = 0.9499, Recall = 0.8484, mAP50 = 0.9245, mAP50-95 = 0.5910 . Precision — доля корректных срабатываний среди всех объектов, которые модель определила как человека. Recall — доля найденных людей среди всех людей, которые действительно присутствуют на изображениях. mAP50 — средняя точность детекции при базовом пороге совпадения предсказанной и истинной рамки. mAP50-95 — средняя точность детекции при нескольких порогах совпадения рамок, от мягкого до более строгого. Это более требовательная метрика качества локализации объекта. Далее я взял несколько изображения из тестовой выборки для визуального анализа. Также я добавил ограничение - буферную зону по краям изображения, чтобы объекты на краю не детектировались, исключение, если тригер объекта на 80 процентов находит в общей зоне кадра.

Рисунок 4 - Пример 1

Рисунок 5 - Пример 2

Рисунок 6 - Пример 3

Рисунок 7 - Пример 4

Рисунок 8 - Пример 5

Рисунок 9 - Пример 6

Рисунок 10 - Пример 7

Рисунок 11 - Пример 8 Полученные результаты показывают, что модель достаточно уверенно определяет людей на изображениях. Также можно заметить что на примере (Рисунок 8, человек на велосипеде), человек не был детектирован, я считают, это произошло в следствие недостатка освещения, и скорее всего при дальнейшем его движении вероятность детекции велика. Я считаю, что полученная модель вполне рабочая и её можно тестировать в реальных условиях, однако для улучшения результата, лучше подготовить дополнительный датасет с реальными кадрами местности на которой будут проводиться испытания. Также в данной работе не рассматривалась проблема ограниченной видимости из-за кроны деревьев, это известная проблема, но на данный момент я её не рассматриваю. Контактные данные Буду рад ответить на ваши вопросы или замечания.
-Источник
|