minigpt1 [논문 리뷰] MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning 이전 논문리뷰에서 다뤘던 Emotion-LLaMA에서 사용된 MiniGPT v2라는 프레임워크 논문입니다. 텍스트 기반의 LLM을 VL로 확장할 때 사용할 수 있는 프레임워크로 알아두면 좋을 것 같아 리뷰합니다. 1. Introduce기존 멀티모달 LLM은 "사람의 위치를 알려줘" 라고 입력하면 이 지시가 어떤 태스크를 의미하는지에 따라 모델의 응답하는 방식이 달라질 수 있습니다. 예를 들면시각적 지시 이해 (REC) : 이미지 내 특정 사람의 위치를 바운딩 박스로 알려준다VQA : 사람의 위치를 자연어 문장으로 설명한다객체 탐지 : 이미지에 있는 모든 사람의 위치를 식별한다.이처럼 입력은 동일하지만 해석이 달라질 수 있는 지시의 모호성(instructional ambiguity) 가 존재했습니다.따라서.. 2025. 5. 16. 이전 1 다음