본문 바로가기

paper10

[논문 리뷰] MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning 이전 논문리뷰에서 다뤘던 Emotion-LLaMA에서 사용된 MiniGPT v2라는 프레임워크 논문입니다. 텍스트 기반의 LLM을 VL로 확장할 때 사용할 수 있는 프레임워크로 알아두면 좋을 것 같아 리뷰합니다. 1. Introduce기존 멀티모달 LLM은 "사람의 위치를 알려줘" 라고 입력하면 이 지시가 어떤 태스크를 의미하는지에 따라 모델의 응답하는 방식이 달라질 수 있습니다. 예를 들면시각적 지시 이해 (REC) : 이미지 내 특정 사람의 위치를 바운딩 박스로 알려준다VQA : 사람의 위치를 자연어 문장으로 설명한다객체 탐지 : 이미지에 있는 모든 사람의 위치를 식별한다.이처럼 입력은 동일하지만 해석이 달라질 수 있는 지시의 모호성(instructional ambiguity) 가 존재했습니다.따라서.. 2025. 5. 16.

[논문 리뷰] ViSpeak: Visual Instruction Feedback in Streaming Videos 이전 논문리뷰에서 다뤘던 Omni-Emotion 후속연구로 진행한 논문입니다. 스트리밍 환경에서 실시간 상호작용개념을 소개하면서 기존 오프라인 비디오에 집중했던 연구보다 더욱 실제 환경에 적합해 보입니다. 1. Introduce기존 LMM은 오프라인 비디오 기반이기 때문에, 전체 비디오를 한 번에 보고 처리하는 데에 초점이 맞춰져 있기 때문에 공간적, 시간적, 비디오 전반의 종합적인 이해도가 높은 편입니다. 하지만 스트리밍 비디오는 전체 비디오의 맥락을 미리 알 수 없고, 이후 데이터도 계속 들어오기 때문에 지속적인 업데이트가 필요합니다. 스트리밍과 오프라인 비디오 이해의 3가지 차이점은 다음과 같습니다. - 시간 민감성 (Time-sensitivity)지금 무슨 일이 벌어지는 지는 시간에 따라 다른 답.. 2025. 4. 10.

[논문 리뷰] LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant 이전 논문리뷰에서 다뤘던 VideoLLM-Online의 연구팀이 후속연구로 진행한 논문입니다. Fast & Slow 라는 개념을 소개하면서 이전 VideoLLM-Online을 다듬은 내용 같습니다. 1. IntroduceAR글래스나 HMD가 발전하면서 실시간 비디오 기반 AI 어시스턴트 활용이 증가했습니다. 본 연구에서는 1인칭 시점에서 주변 환경을 분석해 사전 대응하는 시스템을 연구했습니다. 기존 Online Video 어시스턴트의 한계는 다음과 같습니다. - 낮은 응답 결정 정확도기존 시스템은 2FPS의 낮은 프레임 속도로 비디오를 처리하기 때문에 시간적 관계를 학습하는 데 한계가 있어 응답이 필요한 순간을 제대로 인식하지 못했습니다.- 부정확한 응답 생성모든 프레임을 같은 방식으로 처리해 중요한 .. 2025. 3. 12.

[논문 리뷰] VideoLLM-online: Online Video Large Language Model for Streaming Video 실시간 비디오 스트리밍에서 자연스러운 이해와 사용자와의 대화를 유지할 수 있는 온라인 Video LLM 논문입니다. 1. Introduce기존 Video LLM들은 사전 정의된 짧은 비디오 클립을 입력으로 학습되기 때문에 AR 글래스나 스마트 카메라에서는 즉각적인 반응이 필요하지만 기존 방식들은 이를 제대로 지원하지 못했습니다. 기존 Video LLMs의 한계는 다음과 같습니다. - 이벤트 감지 부족기존 Video LLMs는 정해진 비디오 클립을 분석하고 요약하는 방식언제 이벤트가 발생하는지 같은 감지 기능이 없어 실시간 대응이 어려움- 장기 컨텍스트 유지 어려움실시간 비디오 스트리밍에서는 이전 대화 및 장면을 어느정도 기억해야함하지만 LLM의 컨텍스트 윈도우 제한으로 장기적인 정보를 유지하는 것이 어려.. 2025. 3. 11.

[논문 리뷰] LLaNA: Large Language and NeRF Assistant LLM과 3D 조합된 논문을 보다가, 제가 일전에 리뷰하던 NeRF 관련 3D 생성 분야와 LLM이 합쳐진 논문이 있어 리뷰합니다. 2024년 NeurIPS에 올라온 논문입니다.1. Introduce본 논문은 NeRF의 장점을 활용해 직접 처리할 수 있는 MLLM을 수행할 수 있는 새로운 기술을 소개했습니다. NeRF의 MLP 가중치를 직접 처리해 NeRF 캡션 생성, Q&A, 분류 등과 같은 작업을 수행할 수 있으며, 기존의 렌더링 없이 MLP 가중치에서 직접 정보를 추출하기 때문에 빠른 속도로 처리가 가능하다고 합니다. 캡션은 ShapeNet 데이터셋에서 훈련된 NeRF를 대상으로 자동화된 캡션 생성 프레임워크를 설계했고 추가로 텍스트 설명 데이터셋도 추가하여 더욱 정밀하게 평가가 가능합니다. ML.. 2025. 1. 6.

[논문 리뷰] Video-3D LLM: Learning Position-Aware Video Representation for 3D SceneUnderstanding 최대한 빠른 시간에 많은 논문을 읽어야할 일이 생겨서, 딥하게 리뷰하지 않고, 수박 겉 핥기 수준으로 리뷰하는게 좋을 것 같아, 이제부터는 간단하게 리뷰하고 넘어가려고 합니다. LLM과 3D 조합 시리즈를 이어갑니다. 아마 가장 최근 논문인 것 같네요. 2024년 12월에 아카이브에 올라온 논문입니다.1. Introduce기존 연구는 3D 데이터를 학습하기 위해 별도의 3D 장면 finetuning이 필요했고, 3D Point Cloud나 Voxel 등의 추가적인 복원 과정이 필요했습니다. 이를 통해 데이터 및 계산이 복잡했습니다. 따라서 본 논문은 RGB-D Video만을 이용해 3D 장면을 이해하고 LLM과 통합하여 MLLM으로 캡셔닝이 가능한 방법을 소개합니다. 2. Method 3.1. Fr.. 2025. 1. 2.

이전 1 2 다음

티스토리툴바