Review

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.

#Review #LLM Agents #Runtime Memory #Budget-Tier Routing #Reinforcement Learning #Performance-Cost Trade-off #Modular Memory Pipeline #Query-Aware Memory #Resource Management

2026년 2월 9일

[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.

#Review #Chemical Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space #Molecular Optimization #Inference Efficiency #Reinforcement Learning #Chemical AI

2026년 2월 9일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing

본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.

#Review #Text Diffusion #Token Editing #Inference Acceleration #Mask-to-Token #Token-to-Token #Reinforcement Learning #Speedy Mode #Quality Mode

2026년 2월 9일

[논문리뷰] InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

본 논문은 기존 AI 과학자 시스템의 한계(도메인 특화 설계, 불완전한 추론 능력, 비효율적인 최적화 파이프라인, 장기 자율 운영 미흡)를 극복하고, 계산 및 경험적 영역 전반에 걸쳐 엔드투엔드 과학적 발견을 위한 통합 에이전트 프레임워크 인 InternAgent-1.5를 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Scientific Discovery #Long-Horizon Reasoning #Structured Memory #Knowledge Graph #Experimental Optimization #Multi-disciplinary

2026년 2월 9일

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.

#Review #Search Agents #Information Seeking #Benchmark #LLM-driven Agents #Human Trajectories #Deep and Wide Search #Deterministic Evaluation #Dynamic Evaluation

2026년 2월 9일

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

본 논문은 대규모 언어 모델(LLM)이 연역, 귀납, 귀추 와 같은 근본적인 추론 패러다임을 습득할 때, 세계 지식으로부터 분리된 상징적 추론 궤적 을 통해 도메인 외부(Out-of-Domain) 일반화 능력 이 어떻게 형성되는지 체계적으로 탐구하는 것을 목표로 합니다.

#Review #LLM Reasoning #Deduction #Induction #Abduction #Out-of-Domain Generalization #Symbolic Reasoning #Fine-tuning #Upcycling

2026년 2월 9일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

본 논문은 기존 언어 모델 기반 심층 연구 보고서 생성 시스템들이 겪는 한계를 극복하는 것을 목표로 합니다. 특히, 정적 계획에 의존하여 통찰력에 제한이 있고, 배포 및 데이터 보안 문제로 인해 대규모의 독점 모델에 의존하는 경향을 해소하고자 합니다.

#Review #Deep Research #Agentic Systems #Writing As Reasoning Policy (WARP)#Outline Generation #Iterative Refinement #Reinforcement Learning (RL)#Small Language Models

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] Self-Improving World Modelling with Latent Actions

본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Reasoning #Reinforcement Learning #Machine Translation #Question Understanding #Self-Improvement #Language Models #Cross-Lingual Alignment

2026년 2월 8일

[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.

#Review #Multi-Turn Jailbreaks #LLM Safety #Red Teaming #Reinforcement Learning #Intent Drift #Response-Agnostic Generation #Self-Tuning

2026년 2월 8일

[논문리뷰] RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

논문은 LLM의 극단적인 2비트 양자화에서 발생하는 성능과 효율성 간의 치명적인 트레이드오프 를 해결하고자 합니다.

#Review #LLM Quantization #2-bit Quantization #Residual Binarization #Quantization-Aware Training (QAT)#Inter-Path Adaptation #Hardware Efficiency #Model Compression #Low-Bit LLMs

2026년 2월 8일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일