감정인식2 [논문 리뷰] Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis Emotion LLaMA 이후로 2025년에 나온 MLLM 감정 탐지 논문입니다. 기존 비디오 기반 MLLM의 한계인 오디오 통합과 Micro expressions recog 를 해결했고 새로운 감정 데이터셋을 구축한 논문입니다.1. Introduce- 멀티모달 감정 분석기존 멀티모달 감정 분석 연구들은 주로 feature 융합 또는 모달리티 보완에만 집중해 왔습니다. 이 방법들은 감정을 논리적으로 reasoning하는 능력이 부족합니다. 또한 기존 Emotion LLaMA, AffectGPT, EmoLLM 등의 모델들은 범용적인 Vision 인코더와 Audio 인코더를 LLM에 결합하는 방법을 사용했고, Facial Expression 분석 모델이 포함되지 않아 미세한 감정 표현을 인식하기 어렵습니다... 2025. 2. 20. [논문 리뷰] Emotion-LLaMA: Multimodal Emotion Recognitionand Reasoning with Instruction Tuning VLM 관련 논문을 보다가, LLaMA를 통해 감정을 캡셔닝하는 논문이 있어 리뷰합니다. 2024년 NeurIPS에 올라온 논문입니다. Emotion LLaMA는 MLLM을 대체할 MERR 데이터셋을 구축하고 instruction tuning을 통해 감정 추론을 강화한 논문입니다.1. Introduce- 멀티 모달리티단일 모달리티에서 (얼굴 표정, 텍스트 기반, 오디오 감정 등)은 효과적이지만, 현실 세계의 복잡한 감정을 포착하기엔 한계가 있습니다. (실제 감정은 텍스트, 오디오, 이미지 등등 여러 멀티 모달리티가 결합되기 때문에) - MERR 데이터셋MLLM(멀티 모달 대형 언어 모델)은 오디오 처리가 어렵고, 미세한 표정 인식이 어려워 감정 인식에 어려움이 있습니다. 이를 해결하기 위해서 본 논문에선.. 2025. 2. 5. 이전 1 다음