Review

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일

[논문리뷰] Streaming Video Instruction Tuning

이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Large Language Models (LLMs)#Instruction Tuning #Multi-task Learning #Real-time AI Assistant #Temporal Reasoning #Focal Loss #Video Question Answering

2025년 12월 24일

[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Coding Agents #Software Evolution #Benchmarking #Long-Horizon Tasks #Large Language Models (LLMs)#Software Engineering #Code Generation

2025년 12월 24일

[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic Reasoning #Long Context LLM #FP8 Quantization #Supervised Fine-Tuning #Reinforcement Learning

2025년 12월 24일

[논문리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

Nemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.

#Review #Hybrid Mamba-Transformer #Mixture-of-Experts #LatentMoE #NVFP4 Training #Multi-Token Prediction #Long Context #Reinforcement Learning #Open Models

2025년 12월 24일

[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment

본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning #Reinforcement Learning (RL)#Knowledge Alignment #Iterative RAG #Entropy Analysis #Plan Failure

2025년 12월 24일

[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models #4D Understanding #Automated Data Generation #Geometry Selection Module #Video Analysis #Multimodal AI

2025년 12월 24일

[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.

#Review #Autoregressive Model #Video Modeling #Generative Pretraining #Representation Learning #Flow-Matching Decoder #Context Isolation #Masked Next-Frame Prediction

2025년 12월 24일

[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.

#Review #LLM Evaluation #Competitive Ranking #Swiss-System #Monte Carlo Simulation #Failure Sensitivity Analysis #Robustness #Multi-Benchmark

2025년 12월 24일

[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.

#Review #High-Resolution Video Generation #Diffusion Models #Autoregressive #Efficiency #Caching #Attention Mechanisms #Video Streaming #Temporal Consistency

2025년 12월 24일

[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.

#Review #Video Generation #One-Shot Video #Diffusion Transformer (DiT)#Frame-Guided Generation #Auto-Regressive Generation #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)

2025년 12월 24일

[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Popularity Bias #Ordinal Regression #Building Age Estimation #Multi-modal Learning #Benchmark Dataset #Explainable AI

2025년 12월 24일

[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub

본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.

#Review #Conversational AI #Toxicity Detection #LLM #Prompt Engineering #Open Source Software #GitHub #Derailment Forecasting

2025년 12월 23일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs

멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Cognitive Hierarchy #Benchmark #Reinforcement Learning #Supervised Fine-tuning #Spatial Reasoning

2025년 12월 23일

[논문리뷰] Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

스트리밍 음성-텍스트 번역(StreamST) 시스템의 평가 및 시연을 위한 통일된 오픈 소스 프레임워크가 부재하며, 기존 SimulEval 도구의 한계(유지보수 중단, 재번역 미지원, 짧은 오디오 처리 중심)를 극복하고자 합니다.

#Review #Streaming Speech-to-Text Translation #StreamST #Evaluation Toolkit #Open-Source Framework #Re-translation #Incremental Decoding #Latency Metrics #Quality Metrics #Real-time Demonstration

2025년 12월 23일

[논문리뷰] SemanticGen: Video Generation in Semantic Space

기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.

#Review #Video Generation #Semantic Space #Diffusion Models #VAE Latents #Long Video Generation #Semantic Encoders #Generative AI

2025년 12월 23일

[논문리뷰] SAM Audio: Segment Anything in Audio

본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Audio Source Separation #Foundation Models #Multimodal Prompting #Diffusion Transformers #Flow Matching #Self-Supervised Learning #Reference-Free Evaluation #Audio-Visual Learning

2025년 12월 23일

[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.

#Review #Reinforcement Learning (RL)#LLM Agents #Skill Library #Self-Improvement #Sequential Rollout #AppWorld dataset #GRPO

2025년 12월 23일