네이버랩스, ICCV 2019서 논문 채택

네이버랩스의 'Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adaptation' 논문이 컴퓨터 비전 및 패턴 인식 분야 최고 권위의 국제 학회인 ICCV (International Conference on Computer Vision) 2019에서 채택됐다. 

논문 저자는 네이버랩스 자율주행그룹 소속의 김남일 연구원과 2명의 인턴(김동완, 이승민)이다. 해당 논문은 딥러닝을 위한 가상 환경의 데이터를 실제 데이터처럼 활용하기 위한 도메인 적용(domain adaptation) 연구로, 기존 방식에 비해 간단하지만 성능은 높으며 기존 영상 기반 모델에 광범위하게 적용될 수 있는 방법론을 제시했다. 

제안한 domain adaptation(DTA)을 적용하게 되면 source domain과 target domain이 서로 많이 다른 데이터임에도 불구하고, ground truth 와 비슷한 결과를 얻을 수 있다는 것을 알 수 있다.>

기존 데이터(예: 가상 데이터, 카메라 A)로 학습된 딥러닝 모델을 특성이 다른 새로운 데이터(예: 실제 데이터, 카메라 B)에 성공적으로 적용하기 위한 도메인 적응(domain adaptation)은 다양한 분야에서 관심받는 연구 주제이다. 특히 플랫폼의 센서가 변경되는 경우부터 실제 데이터를 취득하기 어려운 환경에서 가상 시뮬레이터를 적용하는 경우까지 다양한 자율주행 및 로보틱스 응용에서도 그 필요성이 대두 되고 있다. 본 논문은 기존 데이터(source domain)로 형성된 특징 공간에서 새로운 데이터(target domain)의 태깅 정보 없이, 머신 러닝 이론과 수학적 모델링을 통해 새로운 데이터도 잘 분류 될 수 있도록 특징 공간을 변경시키는 방법론을 제안하였다. 제안한 방법론은 다양한 딥러닝 모델에 적용이 가능하며, 데이터 셋의 크기에 무관하게 우수한 성능을 보였다.

논문 다운로드 >

또한 네이버랩스 유럽도 포스터 세션과 워크샵을 통해 연구 결과를 공개했다. 향후 컴퓨터 비전 관련 다양한 분야 및 서비스에 적용이 가능할 것으로 예상된다.

  • Learning with Average Precision: Training Image Retrieval with a Listwise Loss (Jérome REVAUD, Jon Almazan, Rafael SAMPAIO DE REZENDE, Cesar De Souza)
    : Image Retrieval (이미지 검색)의 새로운 훈련 기법을 제안하는 연구로, 이 기술은 영상검색, 사물인식, 위치 측위 등에서 활용될 수 있다. 자세히보기 >
  • Fine-Grained Action Retrieval through Multiple Parts-of-Speech Embeddings (Michael Wray, Diane Larlus, Gabriela Csurka Khedari, Dima Damen)
    : 비디오를 입력하고 영상 내의 동작을 텍스트로 출력하거나 (Video-to Text), 텍스트를 입력하고 해당 동작이 포함된 비디오를 검색하는 (Text-to-Video retrieval) 기술의 성능을 개선한 연구로, 비디오 검색 등에 활용될 수 있다. 자세히보기 >
  • Moulding Humans: Non-parametric 3D Human Shape Estimation from Single Images (Valentin Gabeur, Jean-Sébastien Franco, Xavier Martin, Cordelia Schmid, Grégory Rogez)
    : 하나의 이미지로 사람의 3D Shape을 예상하는 효과적인 방법론을 제안한 연구로, Human Pose Tracking이나 게임/AR/VR/영화의 컨텐츠 및 가상 fitting 등에 활용될 수 있다. 자세히보기 >
  • SLAMANTIC-Leveraging Semantics to Improve VSLAM in Dynamic Environments (Martin Humenberger)
    : 카메라 기반으로 미지의 공간에서 측위 및 지도를 생성하는 VSLAM 기술이 사람이나 자동차 등 이동하는 물체가 많은 환경에서도 측위 및 지도 제작을 잘 할 수 있는 방법을 제안한 연구로 로봇, 자율주행 등에 필수적인 기술로 활용될 수 있다. 자세히보기 >

Related Articles

VIDEOS