스트리밍1 [논문 리뷰] ViSpeak: Visual Instruction Feedback in Streaming Videos 이전 논문리뷰에서 다뤘던 Omni-Emotion 후속연구로 진행한 논문입니다. 스트리밍 환경에서 실시간 상호작용개념을 소개하면서 기존 오프라인 비디오에 집중했던 연구보다 더욱 실제 환경에 적합해 보입니다. 1. Introduce기존 LMM은 오프라인 비디오 기반이기 때문에, 전체 비디오를 한 번에 보고 처리하는 데에 초점이 맞춰져 있기 때문에 공간적, 시간적, 비디오 전반의 종합적인 이해도가 높은 편입니다. 하지만 스트리밍 비디오는 전체 비디오의 맥락을 미리 알 수 없고, 이후 데이터도 계속 들어오기 때문에 지속적인 업데이트가 필요합니다. 스트리밍과 오프라인 비디오 이해의 3가지 차이점은 다음과 같습니다. - 시간 민감성 (Time-sensitivity)지금 무슨 일이 벌어지는 지는 시간에 따라 다른 답.. 2025. 4. 10. 이전 1 다음