Review

[논문리뷰] Beyond Imitation: Reinforcement Learning for Active Latent Planning

이 논문은 기존의 모방 기반 잠재 추론 방식이 여러 동등한 추론 경로 중 하나만을 학습하여 성능 저하 및 훈련-테스트 간 격차를 초래하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Reasoning #Reinforcement Learning (RL)#Variational Autoencoder (VAE)#Active Planning #Numerical Reasoning #Coherence Reward

2026년 1월 29일

[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.

#Review #Long-Context LLMs #Autonomous Agents #Benchmark #Environment Rollouts #State Tracking #Tool Use #Memory Evaluation #Lateral Thinking Puzzles

2026년 1월 29일

[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

본 연구는 사전 훈련된 비전 백본으로부터 밀도 높은 특징(dense features)을 효율적으로 생성하는 과정에서 발생하는 계산 비용 문제 를 해결하고자 합니다.

#Review #Feature Upsampling #Local Attender #Pixel-Dense Features #Iterative Upsampling #Vision Transformer #Efficiency #Generative AI #Semantic Segmentation

2026년 1월 28일

[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.

#Review #Agentic AI #Reinforcement Learning #Long-Horizon Tasks #Dynamic Branching #Strategic Exploration #LLM Agents #Sample Efficiency #Policy Optimization

2026년 1월 28일

[논문리뷰] SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

본 논문은 기존 애니메이션 도구가 스케치를 고정된 명령으로 제한하여 자유로운 표현과 인간의 의도 반영에 한계가 있다는 문제를 해결합니다. 자유형 스케치를 통해 동적 의도(dynamic intent)를 효과적으로 포착하고, 이를 활용하여 애니메이션 콘텐츠를 자동으로 생성하는 인터랙션 패러다임을 탐구하는 것을 목표로 합니다.

#Review #Animation Generation #Free-Form Sketching #Human-AI Interaction #Vision-Language Models (VLMs)#Dynamic Intent Expression #Motion Graphics #Iterative Refinement #Storyboard

2026년 1월 28일

[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs

본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Flow-based VLA #Transformer Compression #Real-time Robotics #Edge AI #Vision-Language-Action Models #Inference Efficiency

2026년 1월 28일

[논문리뷰] SERA: Soft-Verified Efficient Repository Agents

본 논문은 폐쇄형 시스템 대비 오픈 소스 코딩 에이전트의 강점인 사설 코드베이스 특화 능력 을 저비용으로 실현하는 것을 목표로 합니다. 기존 훈련 방식의 높은 비용과 복잡성으로 인해 이론에 머물렀던 이점을 극복하고, 효율적인 데이터 생성 및 학습 방법론 을 제시하여 실질적인 적용 가능성을 입증하고자 합니다.

#Review #Coding Agents #Synthetic Data Generation #Repository Specialization #Supervised Finetuning #Soft Verification #Cost-Efficiency #SWE-bench

2026년 1월 28일

[논문리뷰] SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

본 논문은 Diarization-Conditioned Whisper (DiCoW)의 핵심 한계점인 STNO (Silence-Target-Non-target-Overlap) 마스크의 모호성 을 해결하고자 합니다.

#Review #Target-Speaker ASR #DiCoW #Whisper Model #Multi-speaker ASR #Self-enrollment #Cross-attention #Speech Diarization

2026년 1월 28일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

본 논문은 잔향 스피치 처리 분야에서 투명한 음향 메타데이터와 용이한 재현성을 갖춘 표준화된 평가 자원의 부족 문제를 해결하고자 합니다.

#Review #Reverberant Speech #Speech Corpus #Acoustic Metadata #Reproducible Research #ASR Evaluation #Room Impulse Response #Speech Recognition

2026년 1월 28일

[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.

#Review #GUI Agent #Multimodal AI #MoE #Data Synthesis #Reinforcement Learning #Cross-Platform #Benchmarking

2026년 1월 28일

[논문리뷰] Linear representations in language models can change dramatically over a conversation

본 연구는 대규모 언어 모델(LLM) 내에서 선형 표현(Linear representations) , 특히 사실성(factuality)이나 윤리(ethics)와 같은 고수준 개념을 나타내는 표현이 대화 과정에서 어떻게 동적으로 변화 하는지 조사하는 것을 목표로 합니다.

#Review #Language Models #Representation Analysis #Interpretability #In-Context Learning #Representation Dynamics #Factuality #Conversational AI #Activation Steering

2026년 1월 28일

[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.

#Review #Multimodal LLM #Scientific AI #Data Efficiency #Reinforcement Learning #Vision-Language Model #Scientific Reasoning #Reproducible AI

2026년 1월 28일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

본 논문은 이미지-텍스트 쌍에서 풍자(sarcasm)를 효과적으로 탐지하기 위해 기존 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Sarcasm Detection #Large Language Models #Multimodal LLMs #Discrepancy Modeling #Image Captioning #Gated Fusion #Semantic Incongruity

2026년 1월 28일

[논문리뷰] DeepSeek-OCR 2: Visual Causal Flow

본 논문은 기존 Vision-Language Model (VLM) 이 시각 토큰을 고정된 래스터 스캔 순서로 처리하여 인간의 유연한 시각 인지 방식과 상충하는 문제를 해결하고자 합니다.

#Review #OCR #Vision-Language Model #Causal Reasoning #Transformer Architecture #Attention Mechanism #Document Understanding #DeepEncoder

2026년 1월 28일

[논문리뷰] Advancing Open-source World Models

본 논문은 기존 비디오 생성 모델의 한계(데이터 희소성, 장기 일관성 부족, 실시간 상호작용의 어려움, 독점적 솔루션)를 극복하고, 가상 세계의 역학을 학습하며 실시간으로 렌더링할 수 있는 오픈 소스 세계 모델(world model) 인 LingBot-World를 개발하는 것을 목표로 합니다.

#Review #World Models #Open-source AI #Video Generation #Real-time Simulation #Long-term Memory #Action-Conditioned Learning #Generative Models #Embodied AI

2026년 1월 28일

[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via Text

본 논문은 프로그래밍 기술이 없는 비전문가도 텍스트 설명을 통해 실행 및 시각화 가능한 AI Town 환경 을 쉽게 만들 수 있도록 하는 것을 목표로 합니다.

#Review #Generative Agents #AI Town #LLM #Environment Creation #Multi-agent System #Spatial Reasoning #Text-to-World #Reverse Synthesis

2026년 1월 27일

[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

본 논문은 기존 AI 시스템이 언어적/추상적 영역에서 강세를 보이지만, 풍부한 표현과 사전 지식, 특히 명시적인 시각적 세계 모델링의 부족으로 인해 물리적/공간적 지능 분야에서는 인간에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Multimodal AI #World Models #Visual Generation #Chain-of-Thought (CoT)#Multimodal Reasoning #Unified Multimodal Models #Spatial-Physical Reasoning

2026년 1월 27일

[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety Alignment #Reinforcement Learning #Self-Play #Red Teaming #Adversarial Training #Multi-Role Framework #Reward Hacking Mitigation

2026년 1월 27일