Review

[논문리뷰] Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

본 논문은 기존 AI 코딩 에이전트들이 특정 배포 형태(CLI, IDE 플러그인, 웹 앱)와 결합되어 있어, 기업 환경에서 이기종 인프라 간의 재사용이 어렵다는 문제를 해결하고자 합니다.

#Review #AI Coding Agents #Embeddable Infrastructure #Decoupled Architecture #Multi-tenant Isolation #Context Compression #Agent Runtime

2026년 4월 15일

[논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity

본 연구는 기존 비디오 생성 모델이 가졌던 짧은 클립 생성 위주의 한계와 제한적인 제어 능력을 극복하고, 복잡한 실세계 시나리오에 대응하는 강력하고 조작 가능한(controllable) 비디오 합성 기술을 구현하는 데 목적이 있습니다.

#Review #Video Generation #Multimodal Foundation Model #Audio-Video Joint Generation #Controllability #Generative AI #Real-world Complexity

2026년 4월 15일

[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.

#Review #RationalRewards #Preference-Anchored Rationalization #Visual Generation #Reasoning-based Reward Model #Reinforcement Learning #Prompt Tuning

2026년 4월 15일

[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.

#Review #AI Agents #Language World Models #Professional Tasks #Environmental Robustness #Fault Injection #Benchmark

2026년 4월 15일

[논문리뷰] Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

본 논문은 기존의 메모리 기반 self-evolving agent들이 단일 도메인(Single-domain) 내의 메모리 활용에 국한되어, 다양한 도메인을 아우르는 공유 인프라와 프로그래밍 원칙을 충분히 활용하지 못하는 문제를 해결하고자 한다.

#Review #Coding Agents #Self-evolving Agents #Memory Transfer Learning #Cross-domain #Meta-knowledge #Abstraction #Transferability

2026년 4월 15일

[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.

#Review #Multimodal Large Language Model #Game Agent #Benchmark #Standardized Evaluation #Computer-Use Agent #Semantic Action Parsing #Outcome-based Evaluation

2026년 4월 15일

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

본 논문은 사전 학습된 피드포워드 3D 재구성 모델이 테스트 시점에 특정 장면의 기하학적 오류를 스스로 보정하지 못하는 경직된 문제를 해결합니다.

#Review #Test-Time Adaptation #Multi-View 3D Reconstruction #Self-Supervision #LoRA #Feature Consistency #Feed-Forward Models

2026년 4월 15일

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일

[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.

#Review #Robot Reinforcement Learning #Video-Generative Model #Value Function #Embodied AI #Future Prediction #Spatiotemporal Priors

2026년 4월 9일

[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.

#Review #Large Language Models #User Simulation #Human Behavior Modeling #Long-horizon #Cross-scenario #Benchmark

2026년 4월 9일

[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization

본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.

#Review #Web Agent #Knowledge Distillation #Synthetic Data #Trajectory Synthesis #Agent-as-Annotators #Supervised Fine-Tuning #Generalization

2026년 4월 9일

[논문리뷰] Structural Graph Probing of Vision-Language Models

본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.

#Review #Vision-Language Models #Neural Topology #Mechanistic Interpretability #Neuron Correlation #Graph Neural Networks #Causal Intervention

2026년 4월 9일

[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding

저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.

#Review #Multimodal Large Language Models #Long Video Understanding #Visual Token Compression #Adaptive Token Allocation #Cross-modal Distillation

2026년 4월 9일

[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.

#Review #LLM Agents #Skill Evolution #Multi-user Ecosystem #Collective Learning #Agentic Evolver #Procedural Memory

2026년 4월 9일

[논문리뷰] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

본 논문은 실세계의 geometry와 물리적 동역학을 시뮬레이션 내에 정렬하는 SIM1 프레임워크를 제안합니다 . 우선, 3D 스캔을 통해 실제 환경을 metric-accurate한 디지털 twin으로 재구성하고, deformation-stable solver인 AVBD를 도입하여 rigid-soft interaction의 물리적 일관성을 확보합니다 .

#Review #Deformable Manipulation #Physics-Aligned Simulation #Real-to-Sim-to-Real #Data Scaling #Diffusion-based Trajectory Generation #Embodied Learning

2026년 4월 9일

[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.

#Review #Diffusion Models #Flow Matching #Langevin Dynamics #Image Editing #Zero-shot Generation #Multi-reward Guidance #Adaptive Policy

2026년 4월 9일

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.

#Review #Supervised Fine-Tuning #Chain-of-Thought #Generalization #Model Capability #Optimization Dynamics #Safety Degradation

2026년 4월 9일

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.

#Review #Video Generation #Physics-Infused #Flow Matching #Latent Dynamics #V-JEPA2 #Dual-Branch Architecture

2026년 4월 9일