본문 바로가기

Realtime3

[논문 리뷰] ViSpeak: Visual Instruction Feedback in Streaming Videos 이전 논문리뷰에서 다뤘던 Omni-Emotion 후속연구로 진행한 논문입니다. 스트리밍 환경에서 실시간 상호작용개념을 소개하면서 기존 오프라인 비디오에 집중했던 연구보다 더욱 실제 환경에 적합해 보입니다. 1. Introduce기존 LMM은 오프라인 비디오 기반이기 때문에, 전체 비디오를 한 번에 보고 처리하는 데에 초점이 맞춰져 있기 때문에 공간적, 시간적, 비디오 전반의 종합적인 이해도가 높은 편입니다. 하지만 스트리밍 비디오는 전체 비디오의 맥락을 미리 알 수 없고, 이후 데이터도 계속 들어오기 때문에 지속적인 업데이트가 필요합니다. 스트리밍과 오프라인 비디오 이해의 3가지 차이점은 다음과 같습니다. - 시간 민감성 (Time-sensitivity)지금 무슨 일이 벌어지는 지는 시간에 따라 다른 답.. 2025. 4. 10.
[논문 리뷰] LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant 이전 논문리뷰에서 다뤘던 VideoLLM-Online의 연구팀이 후속연구로 진행한 논문입니다. Fast & Slow 라는 개념을 소개하면서 이전 VideoLLM-Online을 다듬은 내용 같습니다. 1. IntroduceAR글래스나 HMD가 발전하면서 실시간 비디오 기반 AI 어시스턴트 활용이 증가했습니다. 본 연구에서는 1인칭 시점에서 주변 환경을 분석해 사전 대응하는 시스템을 연구했습니다. 기존 Online Video 어시스턴트의 한계는 다음과 같습니다.  - 낮은 응답 결정 정확도기존 시스템은 2FPS의 낮은 프레임 속도로 비디오를 처리하기 때문에 시간적 관계를 학습하는 데 한계가 있어 응답이 필요한 순간을 제대로 인식하지 못했습니다.- 부정확한 응답 생성모든 프레임을 같은 방식으로 처리해 중요한 .. 2025. 3. 12.
[논문 리뷰] VideoLLM-online: Online Video Large Language Model for Streaming Video 실시간 비디오 스트리밍에서 자연스러운 이해와 사용자와의 대화를 유지할 수 있는 온라인 Video LLM 논문입니다. 1. Introduce기존 Video LLM들은 사전 정의된 짧은 비디오 클립을 입력으로 학습되기 때문에 AR 글래스나 스마트 카메라에서는 즉각적인 반응이 필요하지만 기존 방식들은 이를 제대로 지원하지 못했습니다. 기존 Video LLMs의 한계는 다음과 같습니다. - 이벤트 감지 부족기존 Video LLMs는 정해진 비디오 클립을 분석하고 요약하는 방식언제 이벤트가 발생하는지 같은 감지 기능이 없어 실시간 대응이 어려움- 장기 컨텍스트 유지 어려움실시간 비디오 스트리밍에서는 이전 대화 및 장면을 어느정도 기억해야함하지만 LLM의 컨텍스트 윈도우 제한으로 장기적인 정보를 유지하는 것이 어려.. 2025. 3. 11.