Review

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Extend3D: Town-Scale 3D Generation

최근 3D generative model은 고품질의 3D 객체를 생성하는 데 성공했으나, 여전히 복잡한 구성의 대규모 3D 장면(Town-Scale) 생성에는 어려움을 겪고 있습니다.

#Review #3D Scene Generation #Training-free #Latent Flow Model #Overlapping Patch-wise Flow #Under-noising #SDEdit #3D-aware Optimization

2026년 3월 31일

[논문리뷰] Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

텍스트 데이터의 Privacy 보호는 현대 NLP에서 필수적이지만, 이를 정량화할 명확한 기준이 부재합니다.

#Review #privacy evaluation #knowledge distillation #de-identification #LLM-as-a-Judge #textual privacy

2026년 3월 31일

[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다.

#Review #Multimodal ASR #Large Language Models #Conversational Context #Abstract Compression #Contextual Biasing #Latent Bottleneck

2026년 3월 31일

[논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

영상 편집은 시각적 스토리텔링과 오디오의 리듬감을 결합하는 복잡한 작업이나, 수 시간 분량의 원본 영상을 수동으로 편집하는 것은 매우 노동 집약적이며 전문적인 미적 판단을 요구합니다.

#Review #Multimodal Language Models #Video Editing #Audio-Visual Alignment #Multi-Agent System #Hierarchical Planning

2026년 3월 31일

[논문리뷰] CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

최근 저고도 경제, Embodied Intelligence , 그리고 공중-지상 협력 시스템의 발전으로 인해 지상과 항공 에이전트를 결합하여 시뮬레이션할 수 있는 인프라의 필요성이 급증하고 있습니다.

#Review #Embodied Intelligence #Simulation Infrastructure #CARLA #AirSim #Air-Ground Cooperation #Unreal Engine

2026년 3월 31일

[논문리뷰] AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

최근의 생성형 비디오 모델들은 자율주행을 위한 악천후 시나리오 합성에 탁월한 성능을 보이지만, 희귀한 기상 상황을 학습하기 위해 방대한 데이터셋을 필요로 한다는 한계가 있습니다.

#Review #Autonomous Driving #Weather Synthesis #G-buffer #3D-aware Editing #Neural Rendering #Video Diffusion #Relighting

2026년 3월 31일

[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.

#Review #4D Reconstruction #Hand-Object Interaction #Foundation Models #Articulated Objects #Monocular Video #Optimization

2026년 3월 31일

[논문리뷰] Unified Number-Free Text-to-Motion Generation Via Flow Matching

기존의 Text-to-motion 모델들은 주로 단일 에이전트 생성에 국한되어 있으며, 다중 에이전트 생성의 경우 고정된 수의 에이전트만 처리할 수 있다는 한계가 있습니다.

#Review #Text-to-Motion #Flow Matching #Number-Free Synthesis #Hierarchical Modeling #Multi-Person Interaction

2026년 3월 30일

[논문리뷰] Towards a Medical AI Scientist

기존의 AI Scientist 프레임워크들은 수학이나 화학 등 일반적인 데이터와 프로토콜이 표준화된 영역에서 성과를 보였으나, 임상 의학 분야에 적용하는 데에는 한계가 있었습니다.

#Review #Medical AI Scientist #Autonomous Scientific Discovery #Agentic Framework #Clinician-Engineer Co-reasoning #Med-AI Bench #Clinical Evidence Grounding

2026년 3월 30일

[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .

#Review #Cellular Signaling #Video Generation #GPS Trajectory Reconstruction #Reinforcement Learning #Mobility Analytics #Sig2GPS

2026년 3월 30일

[논문리뷰] Superintelligence and Law

본 논문은 Superintelligence 의 등장이 기존 법적 질서에 미칠 파괴적인 변화를 분석합니다. 인간의 감독 없이 자율적으로 작동하는 AI 에이전트가 현실 세계에서 법적 권리와 의무를 갖는 주체로 부상함에 따라, 기존의 법 이론과 도구만으로는 이를 통제하기 어렵다는 점이 핵심 문제로 지적됩니다.

#Review #Superintelligence #AI Agents #Legal Alignment #Rule of Law #Legal Order #Legal Personhood #Coevolution

2026년 3월 30일

[논문리뷰] Story2Proposal: A Scaffold for Structured Scientific Paper Writing

현재의 대규모 언어 모델 기반 논문 생성 파이프라인은 주로 Unconstrained text synthesis 방식에 의존하고 있어, 생성 과정에서 구조적 표류(Structural drift)나 시각적 요소의 누락, 섹션 간 불일치와 같은 심각한 문제가 발생합니다.

#Review #Scientific Writing #Multi-Agent Systems #Contract-Governed Generation #Structural Integrity #Visual Alignment #Provenance Tracking

2026년 3월 30일

[논문리뷰] SEAR: Schema-Based Evaluation and Routing for LLM Gateways

생성형 AI의 생산 환경 도입이 확산됨에 따라 다양한 모델과 제공자를 효율적으로 관리하고 라우팅하는 LLM gateway의 중요성이 커지고 있습니다. 그러나 기존의 평가 방식은 비정형 텍스트 기반이거나 단순한 점수 매기기에 그쳐, 복잡한 요청 상황에 대한 상세한 진단이나 운영 지표와의 결합이 어렵다는 한계가 있습니다.

#Review #LLM Gateways #LLM-as-judge #Structured LLM Outputs #Schema-conforming Generation #LLM Routing

2026년 3월 30일

[논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

최근의 MLLMs 는 입력 정보의 정밀도(fidelity)를 높여 성능을 향상시키지만, 이는 과도한 visual token의 증가로 이어져 고해상도와 긴 시간적 맥락(long temporal context)을 동시에 유지하는 것을 불가능하게 만듭니다.

#Review #Multimodal Large Language Models (MLLMs)#Input-side Adaptation #Contextual Bandit #Cost-Aware Policy Optimization (CAPO)#Visual Budgeting #Efficient Inference #Temporal Reasoning

2026년 3월 30일

[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research

최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.

#Review #Scientific Reproduction #Agentified Assessment #Physics Benchmark #LLM #Sandboxed Execution

2026년 3월 30일

[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

최신 Text-to-Image(T2I) 모델들은 정교한 문맥 정렬 성능을 보이지만, Typicality Bias 로 인해 생성 결과가 좁은 범위의 시각적 해법에 고착되는 문제가 있습니다.

#Review #Diffusion Transformers #Generative Diversity #Contextual Space #Repulsion Mechanism #Multi-modal Attention #Typicality Bias #Token Intervention

2026년 3월 30일

[논문리뷰] On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

LVLM은 다양한 도메인에서 우수한 성능을 보이지만, 새로운 지식을 연속적으로 습득할 때 기존 지식을 잃어버리는 'Catastrophic Forgetting' 문제가 존재합니다.

#Review #Multimodal Continual Learning #Large Vision Language Models #Mixture of Experts #Routing-drift #Catastrophic Forgetting

2026년 3월 30일

[논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

기존의 multimodal agent는 전체 interaction history를 기억하거나 trajectory 단위로 과거 경험을 검색하는 방식을 주로 사용해왔습니다.

#Review #Multimodal Agent #Stateful Experience #Hindsight Reasoning #Compositional State Representation #Deep-and-Wide Search #Visual Reasoning

2026년 3월 30일

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일