[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Text-to-Audio-Video Generation#Multimodal Evaluation#Benchmark#MLLM-as-a-Judge#Cross-modal Alignment#Instruction Following#Perceptual Realism#Audio Realism2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Streaming Video Instruction Tuning이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Large Language Models (LLMs)#Instruction Tuning#Multi-task Learning#Real-time AI Assistant#Temporal Reasoning#Focal Loss#Video Question Answering2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligenceNemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning#Reinforcement Learning (RL)#Knowledge Alignment#Iterative RAG#Entropy Analysis#Plan Failure2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models#4D Understanding#Automated Data Generation#Geometry Selection Module#Video Analysis#Multimodal AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.#Review#Autoregressive Model#Video Modeling#Generative Pretraining#Representation Learning#Flow-Matching Decoder#Context Isolation#Masked Next-Frame Prediction2025년 12월 24일댓글 수 로딩 중
[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.#Review#LLM Evaluation#Competitive Ranking#Swiss-System#Monte Carlo Simulation#Failure Sensitivity Analysis#Robustness#Multi-Benchmark2025년 12월 24일댓글 수 로딩 중
[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.#Review#High-Resolution Video Generation#Diffusion Models#Autoregressive#Efficiency#Caching#Attention Mechanisms#Video Streaming#Temporal Consistency2025년 12월 24일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.#Review#Vision-Language Models (VLMs)#Popularity Bias#Ordinal Regression#Building Age Estimation#Multi-modal Learning#Benchmark Dataset#Explainable AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.#Review#Conversational AI#Toxicity Detection#LLM#Prompt Engineering#Open Source Software#GitHub#Derailment Forecasting2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems스트리밍 음성-텍스트 번역(StreamST) 시스템의 평가 및 시연을 위한 통일된 오픈 소스 프레임워크가 부재하며, 기존 SimulEval 도구의 한계(유지보수 중단, 재번역 미지원, 짧은 오디오 처리 중심)를 극복하고자 합니다.#Review#Streaming Speech-to-Text Translation#StreamST#Evaluation Toolkit#Open-Source Framework#Re-translation#Incremental Decoding#Latency Metrics#Quality Metrics#Real-time Demonstration2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SemanticGen: Video Generation in Semantic Space기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.#Review#Video Generation#Semantic Space#Diffusion Models#VAE Latents#Long Video Generation#Semantic Encoders#Generative AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in Audio본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.#Review#Reinforcement Learning (RL)#LLM Agents#Skill Library#Self-Improvement#Sequential Rollout#AppWorld dataset#GRPO2025년 12월 23일댓글 수 로딩 중