GPU 기술과 인공지능 기술의 발전에 따라, 무인이동체에 장착된 카메라로 촬영한 영상을 인공지능 기반 객체 인식기술로 분석하여 수색, 감시, 정찰 등을 수행하고자 하는 시도가 이루어지고 있다[1]. 그런데, 드론을 활용한 영상 취득 및 인공지능 기반 객체 인식은 배터리 용량 한계와 임무장비의 무게 제한 등으로 인하여 고정형 카메라나 육상 무인이동체에 비해 상대적으로 연산능력이 떨어지는 임무컴퓨터를 활용할 수 밖에 없어 드론 적용을 위해서는 드론에 최적화된 시스템의 디자인이 요구된다[2]

한편, 아마존, 마이크로소프트, 구글 등은 카메라 등 단말에서 취득된 이미지나 영상을 네트워크를 통해 클라우드로 전송 받아 고성능으로 영상인식을 수행하는 인공지능 서비스를 제공하고 있는데, 이러한 클라우드 기반 영상인식 서비스 활용을 위해서는 LTE 나 5G 등 이동통신 등을 이용하여 항상 드론이 네트워크에 연결되어 영상을 클라우드로 전송할 수 있어야 한다[3].

본 연구에서는 클라우드 컴퓨팅 기반 영상 인식 서비스인 Amazon의 Rekognition 서비스와 Microsoft Azure Cognitive 서비스에서의 객체 인식 성능과 로컬 컴퓨터에서 파이썬 라이브러리로 제공되는 ImageAI[4] 영상 인식 객체 인식 성능을 비교하였다. 성능 비교를 위해 각 서비스가 제공하는 API를 이용한 파이썬 프로그램을 이용하였으며, 실제 드론에서 촬영된 영상을 통해 성능을 비교하였다.

1. 이미지내 객체 인식 비교

Amazon Rekognition, Microsoft Azure CognitiveImageAI 의 영상 인식 서비스에서는 이미지 및 동영상 내의 객체 인식, 안면 인식 및 분석, 영상 내의 문자 인식 등을 공통적으로 제공하고 있는데, 본 연구에서는 이미지에 포함된 객체를 인식하여 객체가 이미지에서 차지하는 위치에 대해 사각형 좌표를 반환하는 루틴을 활용하여 이미지를 분석하고 객체 검출 성능을 비교하였다.

Fig. 1. Object detection in image (Left : Rekognition, Mid : Cognitive, Right : ImageAI YOLOv3)

Fig. 1은 1360×765 해상도 이미지에 대해 객체 검출 확률 50%를 기준으로 수행한 영상인식 결과를 Rekognition, Cognitive 및 ImageAI YOLOv3 에 대해 보여주고 있는데, 세 경우 모두 일정 크기 이하의 객체에 대해서는 인식이 되지 않는 경우를 볼 수 있다. Fig. 2는 물위에 떠 있는 객체에 대한 인식 성능을 비교한 결과로 검출 확률 50%인 경우 Rekognition에서는 두 객체를 모두 인식하였으나, Cognitive에서는 객체가 인식되지 않았으며, ImageAI 에서는 하나의 객체만 인식함을 볼 수 있다.

Fig. 2. Object detection in image (Left : Rekognition, Mid : Cognitive, Right : ImageAI YOLOv3)

2. 동영상 객체 인식 비교

다음으로, 동영상을 각 프레임 별로 JPG 이미지로 변환한 후에 클라우드 서비스에서는 네트워크로 전송하여 분석하고, 로컬에서는 ImageAI YOLOv3 로 분석한 후 검출된 객체의 좌표 값에 따라 사각형을 그린 후 다시 동영상으로 합치는 성능을 비교하였다. 클라우드 서비스에서는 LTE 통신망과 Giga Wifi 통신망을 이용하였고, 로컬 시스템에서는 NVIDIA GeForce GTX 1050 Ti GPU와 Tensorflow-gpu 1.13을 기반으로 ImageAI YOLOv3 를 수행하였다.

분석 대상 동영상에 대해 3회 수행한 후 전체 수행 시간과 각 프레임당 분석 시간을 Table 1에 비교하였다. 풀 HD에 해당하는 1920×1080 30 FPS 동영상의 경우 LTE 통신망을 이용한 클라우드에서의 영상인식은 프레임 당 Rekognition 0.568 초, Cognitive 0.613 초가 소요되었으며, Wifi 통신망의 경우 Rekognition 0.290 초 및 Cognitive 0.321 초가 소요되었다. 로컬에서는 YOLOv3 알고리즘을 사용하였을 경우 0.193 초가 소요되었다. SD 급인 640 x 356 30 FPS 영상과 540 x 368 30 FPS 영상은 LTE와 로컬 모두 프레임당 0.2 초 이내로 분석이 수행되었다.

본 연구에서는 GPU가 장착된 고성능 로컬 컴퓨터와 통신망을 통한 클라우드 서비스의 인공지능 기반 영상 인식 성능 비교를 수행하였으며, 이를 통해 향후 5G 등 이동통신 서비스가 활성화 되면, 클라우드 컴퓨팅과 저전력 임무컴퓨터의 결합을 통해 다양한 실시간 기반 드론 영상 서비스가 가능함을 보였다.

참고문헌

1)  Unmanned Vehicle Advanced Research Center, Unmanned Vehicle Technology Roadmap, Ministry of Science and ICT, Seoul, Korea, 2018, p. 120

2) Kim, D., Kang, W., Koo, Y., Bang, J., Son, K., Hostallero, D., Yoon, S., Yeo. H, Ha, J., Seo, N., Han, D., and Yi, Y, “AI-Based Drone Object Tracking System: Design and Implementation,” The Journal of Korean Institute of Communications and Information Sciences , Vol.42, No.12, 2017, pp. 2391~2401

3) Lee, B. and Kang, W., “Conceptual design and primitive implementation of telemetry and video transmission over cellular network,” The 7th Asian/Australian Rotorcraft Forum, 2018

4) ImageAI Computer Vision Python Library, http://imageai.org/