Review

[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite

본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Generative Fluid Intelligence #UMM Evaluation #Visual Generation #Ad-hoc Reasoning #Contextual Adaptation #Benchmark #Attention Intervention

2026년 2월 11일

[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization #Evolutionary Algorithm #Destroy Repair Operators #Co-evolution

2026년 2월 11일

[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models

추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.

#Review #Large Language Models #Reasoning Models #Context Management #Memory Pruning #LoRA Adapter #Long-Horizon Reasoning #Self-Forgetting

2026년 2월 11일

[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Coding #Benchmarking #LLMs #Feature Development #Software Engineering #Test-Driven Development #Scalability

2026년 2월 11일

[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #3D Facial Animation #Speech-to-Face Generation #Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units #ARKit-52 Blendshapes #InstructEx Dataset #Multimodal Generation

2026년 2월 11일

[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Evaluation #Long-Horizon Planning #Interactive Economies #Benchmark #Agentic AI #Economic Simulation #Plan-and-Execute

2026년 2월 11일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.

#Review #Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition #Data Scaling #LLM Training #Generalization #Overfitting #Reasoning Models

2026년 2월 11일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents

본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.

#Review #Tool-Calling Agents #LLM Adaptation #Representation Engineering #Activation Steering #Training-Free #Inference-Time Control #Domain Adaptation

2026년 2월 11일

[논문리뷰] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

본 연구는 복잡하고 장기적인 태스크를 위해 레이블이 없는 실세계 비디오 데이터 로부터 전이 가능한 지식을 학습하는 것을 목표로 합니다.

#Review #Transferable Knowledge #Real-world Video Learning #Latent Dynamics Model #Video Diffusion #Robotics Manipulation #Long-horizon Tasks #Unlabeled Data

2026년 2월 10일

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] UI-Venus-1.5 Technical Report

본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.

#Review #GUI Agent #MLLM #Reinforcement Learning #Model Merging #GUI Grounding #Task Navigation #Online-RL #Offline-RL

2026년 2월 10일

[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

본 연구는 GUI 자동화의 핵심 과제인 GUI 플래닝의 확장성 문제를 해결하는 것을 목표로 합니다. 기존 방식의 스텝 중복과 낮은 궤적 다양성, 그리고 인간 주석 의존성으로 인한 데이터 부족 문제를 극복하고, 고품질의 대규모 GUI 궤적 데이터를 효율적으로 합성하는 방법론을 제시합니다.

#Review #GUI Automation #Computer-Use Agents #Trajectory Synthesis #Tree-Structured Exploration #Multi-Agent Framework #Reinforcement Learning #DPO #Data Efficiency

2026년 2월 10일

[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

LLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.

#Review #LLM Agents #Reinforcement Learning #Skill Discovery #Recursive Evolution #Experience Distillation #Hierarchical Skills #Context Efficiency #Task Planning

2026년 2월 10일

[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.

#Review #Environment Synthesis #Tool-Use Agents #Reinforcement Learning #Generalization #Procedural Generation #LLM Agents #Interactive Environments #Data Scaling

2026년 2월 10일

[논문리뷰] SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 고정된 추론 파이프라인이 지각적 모호성이나 행동의 다중 양상과 같은 불확실한 상황에서 오류를 누적하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Self-Uncertainty Estimation #Adaptive Inference #Active Perception #Action Decoding #Visual Attention #Robotic Manipulation

2026년 2월 10일

[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Generation #Agentic Framework #Simulation-Ready Environments #Robot Policy Learning #Large Language Models (LLM)#Physics Simulation #Data Augmentation

2026년 2월 10일

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.

#Review #Diffusion Transformers #Text Conditioning #CLIP Embedding #Modulation Guidance #Text-to-Image Generation #Image Editing #Training-free

2026년 2월 10일