[CVPR 2017] 'Dual Attention Networks for Multimodal Reasoning and Matching' 요약

사람에게 핸드폰 사진을 보여주면서 '이 핸드폰 색깔이 뭐냐'고 물으면 누구나 쉽게 답한다. 그러나 AI에게 이런 질문은 쉽지 않다. 사진은 시각적 정보이고 핸드폰 색깔이 뭐냐는 질문은 문자적 정보이기 때문이다.

이 논문에서는 이런 multimodal 문제를 푸는 방법으로 Dual Attention Network(이하 DAN) 알고리듬을 제안한다. 비주얼 어텐션(visual attention)과 텍스츄얼 어텐션(textual attention)의 상호 작용을 이용해 AI를 학습시키는 프레임워크를 만들고, 구체적인 활용 모델 2개를 제시했다는 것이 논문의 핵심적인 의미이다.

첫 번째 모델은 정답 추론 모델(multimodal reasoning)이다. 주어진 텍스트와 이미지의 어텐션 결과를 종합해서 공동 표현식(joint representation)을 만들고 문제의 답을 찾아낸다. 아래 그림에는 이 과정이 상세히 표현되어 있다.

하단 사진에서 하이라이트 처리 된 부분은 AI가 정답을 구하기 위해 주목한 부분이다. 'What do the red and purple kites resemble?' 이라는 질문을 받은 직후 이미지 어텐션은 빨간색, 보라색에 맺혀 있다. 그러나 잠시 후에는 빨간색, 보라색 연의 형태 전체를 인식한다. 텍스트 질문에서는 초기에는 'kite'라는 단어와 'resemble'이라는 단어를 동시에 주목했지만 곧 'resemble'의 주목도가 높아진다. 사진 속 하이라이트 부분과 닮은(resemble) 것은? AI가 내린 답은 octopus다.

두 번째 모델은 유사성 확인 모델(multimodal matching)이다. 주어진 텍스트와 이미지에서 각각의 표현식(representation)을 만들고 공동 임베딩 공간(joint embedding space)에 mapping 하여 비교하면서 유사성이 높은 결과를 찾는다. '텍스트와 가장 비슷한 이미지', '이미지와 가장 비슷한 텍스트'를 검색하는데 활용할수 있다. 입력값을 바꾸면 '이미지-음악', '텍스트-음악'등으로도 확장이 가능하다. 논문은 아래의 링크에서 볼 수 있다.

Paper URL: https://arxiv.org/abs/1611.00471

Related Articles