MLLM1 [논문 리뷰] Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis Emotion LLaMA 이후로 2025년에 나온 MLLM 감정 탐지 논문입니다. 기존 비디오 기반 MLLM의 한계인 오디오 통합과 Micro expressions recog 를 해결했고 새로운 감정 데이터셋을 구축한 논문입니다.1. Introduce- 멀티모달 감정 분석기존 멀티모달 감정 분석 연구들은 주로 feature 융합 또는 모달리티 보완에만 집중해 왔습니다. 이 방법들은 감정을 논리적으로 reasoning하는 능력이 부족합니다. 또한 기존 Emotion LLaMA, AffectGPT, EmoLLM 등의 모델들은 범용적인 Vision 인코더와 Audio 인코더를 LLM에 결합하는 방법을 사용했고, Facial Expression 분석 모델이 포함되지 않아 미세한 감정 표현을 인식하기 어렵습니다... 2025. 2. 20. 이전 1 다음