#Review

4995개의 포스트

[논문리뷰] xHC: Expanded Hyper-Connections

본 논문은 Transformer의 residual stream을 확장하는 기존 HC 계열 기법들이 왜 $N=4$ 수준에서 한계에 직면하는지에 대한 근본적인 원인을 진단합니다.

#Review #Hyper-Connections #Transformer #Residual-Stream #Sparse-Architecture #Scaling-Laws #MoE #LLM

2026년 7월 19일

[논문리뷰] Xiaomi-Robotics-1: Scaling Vision-Language-Action Models with over 100K Hours of Real-World Trajectories

본 논문은 대규모 데이터 학습을 통해 범용 로봇 정책을 구축하고자 하는 Scaling Laws의 가능성을 실현하는 데 초점을 맞춥니다.

#Review #Vision-Language-Action Models #Scaling Laws #Real-World Trajectories #Robot Foundation Models #Flow Matching #Auto-labeling #Cross-embodiment Learning

2026년 7월 19일

[논문리뷰] When Does Muon Help Agentic Reinforcement Learning?

본 논문은 Muon 최적화 기법이 대규모 사전 학습(Pre-training)에서는 성공적이나, Reinforcement Learning(RL) 기반의 사후 학습(Post-training) 단계에서는 성능 향상이 불확실하고 때로는 불안정하다는 문제를 해결하고자 합니다.

#Review #Muon #Agentic Reinforcement Learning #GiGPO #Advantage Estimator #Credit Assignment #Qwen2.5 #ALFWorld

2026년 7월 19일

[논문리뷰] VideoRAE: Taming Video Foundation Models for Generative Modeling via Representation Autoencoders

본 논문은 기존의 3D-VAE 기반 비디오 토크나이저가 픽셀 단위의 복원(MSE)에 과도하게 최적화되어 고차원적인 의미론적 구조를 포착하지 못한다는 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Representation Autoencoders #Generative Modeling #Representation Alignment #Latent Spaces #Diffusion Transformers #Autoregressive Models

2026년 7월 19일

[논문리뷰] Understanding Reasoning from Pretraining to Post-Training

본 논문은 LLM 훈련 과정에서 Pretraining 단계의 선택(모델 크기, 데이터 등)이 이후 RL 효율성에 미치는 정량적 관계를 규명하고자 한다.

#Review #Reinforcement Learning #Pretraining #Scaling Law #LLM #Reasoning #Compute Allocation #Policy Evolution

2026년 7월 19일

[논문리뷰] See like a Robot: Robot-Centric Pointmaps for Vision-Language-Action Models

본 논문은 대규모 데이터셋을 활용하는 VLA 모델 학습 시, 카메라 뷰포인트 변화에 따른 성능 저하 문제를 해결하고자 합니다. 기존 모델들은 카메라 프레임의 RGB 데이터를 입력으로 사용하므로, 실제 로봇 동작이 정의되는 Robot-frame과의 Frame mismatch가 발생합니다 .

#Review #VLA #Manipulation #3D Geometry #Pointmap #Robot-Centric #Viewpoint Variation #End-to-End Learning

2026년 7월 19일

[논문리뷰] S1-Omni: A Unified Multimodal Reasoning Model for Scientific Understanding, Prediction, and Generation

본 논문은 기존의 AI for Science(AI4S) 연구들이 Domain-specific models, Tool-augmented LLMs, 그리고 Scientific language models로 파편화되어 있다는 문제점을 해결하고자 합니다 .

#Review #AI4S #Multimodal Reasoning #Scientific Modeling #Foundation Model #S1-Omni #Knowledge Alignment

2026년 7월 19일

[논문리뷰] Recursive Harness Self-Improvement

본 논문은 foundation model과 harness의 공동 진화(co-evolution) 과정에서, 수작업으로 생성된 harness의 최적화가 어렵고 비용이 많이 든다는 문제를 해결하고자 합니다.

#Review #Recursive Harness Self-Improvement #RHI #Agentic Workflow #Test-time Scaling #Prompt-level Optimization #Co-evolution

2026년 7월 19일

[논문리뷰] RecGPT-V3 Technical Report

본 논문은 대규모 산업용 추천 시스템에서 LLM을 활용할 때 발생하는 세 가지 핵심적인 병목 현상을 해결하고자 합니다. 기존 RecGPT 시리즈와 같은 LLM 기반 추천 모델들은 사용자 전체 행동 이력을 매번 재처리하는 Stateless behavior modeling으로 인해 불필요한 연산이 발생합니다 .

#Review #Large Language Models #Recommender Systems #Memory Hub #Semantic IDs #Latent Intent Reasoning #Hybrid-modal Foundation Model #Instruction Tuning

2026년 7월 19일

[논문리뷰] RESOURCE2SKILL: Distilling Executable Agent Skills from Human-Created Multimodal Resources

본 논문은 최신 Large Language Model(LLM) 기반 에이전트가 소프트웨어 조작 및 복잡한 아티팩트 생성 작업을 수행할 때 발생하는 Procedural Knowledge 부족 문제를 해결하고자 한다.

#Review #Software Agents #Multimodal Skill Wiki #Procedural Knowledge #Distillation #Agentic Harness #Human-Created Resources #Offline-Online Pipeline

2026년 7월 19일

[논문리뷰] RAGU: A Multi-Step GraphRAG Engine with a Compact Domain-Adapted LLM

본 논문은 기존 GraphRAG 시스템들이 직면한 Single-pass extraction의 한계와 고성능 LLM에 대한 과도한 의존성 문제를 해결하고자 합니다. 기존 방식은 단일 단계에서 지식 그래프를 추출함에 따라 노이즈가 많고 중복된 엔티티를 생성하여 검색의 안정성을 저해합니다.

#Review #GraphRAG #LLM #Knowledge Graph #Information Extraction #Multi-step Consolidation #Meno-Lite-0.1

2026년 7월 19일

[논문리뷰] Qwen-Music Technical Report

본 논문은 음악 생성 시스템에서 발생하는 의미론적 구성(semantic composition)과 음향적 렌더링(acoustic rendering) 사이의 불일치 문제를 해결하고자 합니다. 기존의 대규모 오디오 생성 모델들은 가사, 멜로디, 리듬 등 복잡한 음악적 요소를 장시간 일관성 있게 제어하는 데 한계를 보입니다.

#Review #Music Generation #Music Semantic Tokens #Melody-CoT #Diffusion Transformer #Spec-VAE #Post-training Alignment

2026년 7월 19일

[논문리뷰] On-Policy Delta Distillation

본 논문은 기존의 On-Policy Distillation (OPD) 방식이 교사 모델의 전체 출력 분포를 모방하는 데 그쳐, 추론 능력 향상에 필수적인 핵심 학습 궤적을 충분히 전달하지 못한다는 문제를 제기합니다 .

#Review #Knowledge Distillation #On-Policy Distillation #Reasoning Capability #Delta Signal #LLM Post-training #Reinforcement Learning

2026년 7월 19일

[논문리뷰] Loop the Loopies!

본 논문은 Looped Transformer가 고정된 컴퓨팅 자원 내에서 Vanilla Transformer보다 우수한 성능을 낼 수 있도록 하는 compute-matched scaling recipe를 정의합니다.

#Review #Looped Transformers #Mixture-of-Experts #Layer-Loop #Compute-Matched Scaling #Post-Training #Reasoning Models

2026년 7월 19일

[논문리뷰] From Human-Centric to Agentic Code Review: The Impact of Different Generations of Generative AI Technology on Review Quality

본 논문은 Generative AI 기술이 소프트웨어 개발 생태계에 깊숙이 침투함에 따라, 기존의 Human-Centric 코드 리뷰가 LLM 및 AI Agent가 결합된 형태로 변화하면서 발생하는 리뷰 품질 및 효율성 변화를 규명하고자 합니다 .

#Review #Generative AI #Code Review #LLM #AI Agents #Review Quality #Human-AI Collaboration #Software Engineering

2026년 7월 19일

[논문리뷰] DSWorld: A Data Science World Model for Efficient Autonomous Agents

본 논문은 자율형 데이터 과학 에이전트가 반복적인 시행착오 과정에서 겪는 비효율적인 연산 비용 문제를 해결하고자 합니다.

#Review #Data Science World Model #Autonomous Agents #Transition Prediction #Reflective Reinforcement Learning #Data Science Workflow #Simulation

2026년 7월 19일

[논문리뷰] Cura 1T: Specialized Model for Agentic Healthcare

본 논문은 환자 상담, 임상 추론, EHR 워크플로우 수행이라는 복합적인 의료 과업을 동시에 해결할 수 있는 특화된 LLM이 부재하다는 문제점을 해결하고자 합니다. 기존 연구들은 각기 다른 의료 하위 도구에 집중해왔으나, 한 영역의 업데이트가 다른 영역의 성능을 저하시키는 '성능 침식' 현상이 발생하기 쉽습니다.

#Review #Healthcare LLM #Self-evolution Loop #Data-centered #Agentic Workflow #EHR Tool Use #SDFT

2026년 7월 19일

[논문리뷰] Beyond Entropy: Correctness-Aware Advantage Shaping via Contrastive Policy Optimization

본 논문은 기존 RLVR 방식의 핵심 한계인 Entropy의 '정확성 인식 능력 부재' 문제를 해결합니다. 기존의 Entropy 기반 방식들은 모델의 불확실성을 측정하지만, 이것이 생산적인 탐색인지 아니면 단순한 오류인지 구분하지 못해 최적화의 모호함을 야기합니다 .

#Review #Reinforcement Learning #Advantage Shaping #Contrastive Policy Optimization #RLVR #LLM Reasoning #Token-level Supervision

2026년 7월 19일

[논문리뷰] Audio-Visual Flamingo: Open Audio-Visual Intelligence for Long and Complex Videos

본 논문은 오디오-비주얼 정보가 풍부한 장시간의 실세계 비디오를 인간처럼 이해하고 추론하는 범용 AI 모델의 부재를 해결합니다. 기존의 AV-LLM들은 주로 짧은 클립 이해에 국한되어 있으며, 특히 오디오와 비주얼 데이터를 결합하여 추론하는 능력이 부족합니다 .

#Review #AV-LLM #Audio-Visual Reasoning #Long-form Video #Chain-of-Thought #Multimodal Learning #Temporal Alignment

2026년 7월 19일

[논문리뷰] Agon: Competitive Cross-Model RL with Implicit Rival Grading of Reasoning

본 논문은 기존 GRPO 기반의 LLM 학습이 '추론 과정(trace)'을 평가하지 못하고 최종 정답에만 의존하여 발생하는 'Length Pathology(불필요한 답변 길이 증가)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #GRPO #Competitive Training #Multi-Agent System #Self-Improvement

2026년 7월 19일

[논문리뷰] WanSong v1.0 Technical Report

본 논문은 기존의 Autoregressive(AR) 기반 오디오 생성 모델이 가진 낮은 효율성과 장기 오디오 생성 시의 일관성 유지 문제를 해결하기 위해 고안되었습니다. 기존 연구들은 다단계(Cascaded) 파이프라인이나 AR 모델을 주로 채택하여 복잡성이 높고 효율성이 떨어지는 한계가 있습니다.

#Review #Diffusion-based Model #Music Generation #Dual-stem Modeling #Hybrid-MMDit #Reinforcement Learning #Foundation Model

2026년 7월 16일

[논문리뷰] VideoChat3: Fully Open Video MLLM for Efficient and Generalist Video Understanding

본 논문은 기존 Video MLLM이 겪는 일반화 부족, 높은 연산 비용, 그리고 폐쇄적인 연구 생태계라는 세 가지 한계를 해결하는 것을 목표로 한다. 기존 모델들은 짧은 영상에는 강점을 보이지만, 장시간 영상이나 실시간 스트리밍 환경으로의 확장이 어렵고 연산량이 기하급수적으로 증가하는 문제를 안고 있다.

#Review #Video MLLM #I3D-ViT #Adaptive Frame Resolution #Video Understanding #Open Source #Streaming Perception

2026년 7월 16일

[논문리뷰] Video = World + Event Stream

본 논문은 기존의 인터랙션 모델이 단일 응용 분야에 국한된 학습 목적을 가졌던 한계를 극복하기 위해, 비디오 데이터를 World와 Event Stream으로 분해하는 새로운 프레임워크를 제안합니다.

#Review #World-Event Decomposition #Native-Streaming Interaction #Multimodal Pretraining #End-to-End Latency #Role-play Interface #Open-vocabulary Behavior

2026년 7월 16일

[논문리뷰] VIABench: A Comprehensive Video Benchmark Collected from Blind Individuals for Visual Impairment Assistance

본 논문은 기존 비디오 이해 모델들이 일반적인 사용자 중심의 환경에만 치우쳐 있어, 실제 시각 장애인의 고유한 환경적 특성과 니즈를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #VIABench #Visual Impairment Assistance #Video Understanding #Egocentric Vision #Assistive Technology #Multimodal Evaluation

2026년 7월 16일

[논문리뷰] UniVR: Thinking in Visual Space for Unified Visual Reasoning

본 논문은 현재 AI 모델들이 추론 및 계획 능력을 주로 텍스트 공간 내에서 수행함으로써 발생하는 한계를 지적합니다. 텍스트는 추상적인 표현에 불과하여 물리적 법칙, 복잡한 동적 변화, 공간적 관계를 완벽히 담아내지 못하며, 이로 인해 모델이 실제 시각적 환경에서 일관성 있는 행동을 수행하는 데 어려움을 겪습니다 .

#Review #Visual Reasoning #Reinforcement Learning #Unified Generative Model #Long-horizon Planning #Physical Consistency #World Modeling

2026년 7월 16일

[논문리뷰] Spectral Rewiring for Exploration, Purification, and Model Merging

본 논문은 LLM의 RL post-training 과정에서 발생하는 dense full-parameter 업데이트의 비효율성과 부작용을 해결하고자 합니다 . 기존의 방식은 reasoning 성능을 오히려 억제하거나, 테스트 타임 스케일링에서의 조기 포화(Early saturation) 문제를 야기합니다.

#Review #Reinforcement Learning #Spectral Analysis #Model Merging #Subspace-Aligned Rewiring #Large Language Models #Reasoning Elicitation #Parameter Efficiency

2026년 7월 16일

[논문리뷰] Smarter and Cheaper at Once: Byte-Exact KV-Cache Grafting Turns a Frozen Small Model into a Verified-Knowledge Flywheel

본 논문은 대규모 언어 모델의 성능 향상을 위해 수행되는 재학습(retraining)과 매번 전체 문맥을 재연산해야 하는 추론 과정의 막대한 비용 문제를 해결하고자 합니다. 기존 방식은 모델 가중치를 변경하거나 매번 동일한 문맥을 반복해서 Prefill하는 비효율적인 자원 소모를 동반합니다.

#Review #KV-State Grafting #Byte-Exactness #Inference-time Learning #Flywheel #Galahad #KV Cache #Model Efficiency

2026년 7월 16일

[논문리뷰] SearchOS-V1: Towards Robust Open-Domain Information-Seeking Agent Collaboration

본 논문은 기존의 정보 검색 에이전트들이 장기적인 검색(Long-horizon) 과정에서 수행 상태를 추적하지 못해 발생하는 불확실성과 비효율성 문제를 해결하고자 합니다.

#Review #Information-Seeking Agents #Multi-Agent Collaboration #Relational Schema Completion #Search-Oriented Context Management #Pipeline-Parallel Scheduling #Middleware Harness

2026년 7월 16일

[논문리뷰] SUFLECA: Scaling Up Feature Learning for CAD-to-image Alignment

본 논문은 기존 zero-shot CAD-to-image alignment 방식이 가진 외관 중심적(appearance-driven) 피처 학습의 한계를 극복하고자 합니다.

#Review #CAD-to-image Alignment #Zero-shot #Feature Learning #NOCs #Geometric Consistency #Robotics

2026년 7월 16일

[논문리뷰] SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

본 논문은 장기적(Long-horizon) agentic 작업에서 발생하는 sparse trajectory-level reward와 token-level policy learning 사이의 불일치 문제를 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Hindsight Learning #Large Language Models #Supervised Fine-Tuning #Self-Evolving

2026년 7월 16일

[논문리뷰] RoboTTT: Context Scaling for Robot Policies

본 논문은 최신 로봇 파운데이션 모델들이 단일 스텝 또는 짧은 히스토리에만 의존하여 장기적인 작업 수행 및 맥락 이해에 한계를 보인다는 문제를 해결합니다.

#Review #Robot Foundation Models #Test-Time Training #Long-Context Policies #Visuomotor Control #In-Context Imitation #Sequence Modeling

2026년 7월 16일

[논문리뷰] Partition, Prompt, Aggregate: Statistical Self-Consistency in Language Models

본 연구는 LLM의 ICL이 과연 이론적으로 가정한 Conditional Inference로서 엄밀하게 작동하는지 검증하는 것을 목적으로 한다.

#Review #In-context Learning #Conditional Inference #Statistical Self-Consistency #Persona Prompting #Macro Fallacy #Binary Conditioning Tree

2026년 7월 16일

[논문리뷰] MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

본 연구는 기존 비디오 생성 벤치마크들이 단일 참조(single-reference) 기반의 과업에 치중되어 있어, 실제 콘텐츠 제작 현장에서 요구되는 복합적인 다중 참조(multi-reference) 기반의 생성 능력을 충분히 평가하지 못한다는 문제에서 출발한다 .

#Review #MultiRef-Compass #MR2AV #Multimodal Generation #Reference Consistency #Instruction Following #Benchmark #MLLM-as-a-Judge

2026년 7월 16일

[논문리뷰] MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

기존의 Diffusion 및 Flow 모델은 고품질 생성을 위해 많은 반복 연산이 필요하여 Latency 측면에서 비효율적이다.

#Review #MeanFlow #Reinforcement Learning #Forward-Process RL #Flow Matching #Few-step Generation #Average Velocity

2026년 7월 16일

[논문리뷰] LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

본 연구는 고정된 GPU 자원 내에서 million-token context를 지원하는 RL post-training의 한계를 극복하고자 수행되었습니다.

#Review #Long-Context #GRPO #RL Post-training #Fixed GPU Budget #Tensor Lifetime #Architecture-Aware Execution

2026년 7월 16일

[논문리뷰] GRASP: GRanularity-Aware Search Policy for Agentic RAG

본 논문은 Agentic RAG 시스템에서 발생하는 불필요한 노이즈와 잘못된 검색 결정을 방지하고, 다중 단계 추론의 정확도를 높이는 문제를 해결한다. 기존의 Static RAG는 단일 검색으로 인한 정보 부족과 coarse-grained 문맥으로 인한 hallucination 문제에 취약하다.

#Review #Agentic RAG #Reinforcement Learning #Retrieval Policy #Context Granularity #Multi-hop Reasoning #Information Foraging

2026년 7월 16일

[논문리뷰] From Pixels to States: Rethinking Interactive World Models as Game Engines

본 논문은 최근 비디오 생성 모델이 interactive world를 구현하는 데이터 기반 방법론으로 부상하고 있으나, 실제 게임 엔진이 갖는 엄격한 논리적 구조를 완전히 재현하지 못한다는 문제를 제기한다.

#Review #Interactive World Models #Game Engines #Video Generation #Game State Dynamics #Action Control #Long-horizon Consistency

2026년 7월 16일

[논문리뷰] Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

본 논문은 최신 LLM post-training의 표준이 된 OPD의 학습 동역학이 여전히 불투명하다는 점을 지적한다. OPD는 때때로 성능 향상을 이끌지만, 많은 경우 불안정성을 보이거나 탐색 붕괴를 초래하며 심지어 outcome-based RL보다 성능이 저하되기도 한다 .

#Review #On-Policy Distillation #LLM Post-training #Reinforcement Learning #Exploration Catalyst #Pathology #Signal Regulation

2026년 7월 16일

[논문리뷰] DeepLoop: Depth Scaling for Looped Transformers

본 논문은 Looped Transformer 환경에서 기존의 DeepNorm 스케일링 규칙이 최적화 안정성을 보장하지 못하는 문제를 해결합니다.

#Review #Looped Transformer #Depth Scaling #DeepNorm #Residual Scaling #Parameter Tying #Recurrent Depth

2026년 7월 16일

[논문리뷰] Concurrent Image Understanding and Generation: Self-Correcting Coupled Markov Jump Processes

기존의 다중 모달 생성 시스템은 텍스트와 이미지 생성이 상호 독립적이거나 비동기적으로 이루어져, 모달리티 간의 심각한 불일치(contradiction)가 발생하고 이를 사후 수정할 수 없다는 한계가 있습니다.

#Review #Masked Diffusion Models #Multimodal Generation #Coupled Markov Jump Processes #Self-Correction #Remasking #Visual Reasoning

2026년 7월 16일

[논문리뷰] BadWAM: When World-Action Models Dream Right but Act Wrong

본 논문은 WAM이 미래 상태를 예측하는 능력을 갖추고 있음에도 불구하고, 이러한 결합 구조가 오히려 새로운 형태의 보안 취약점이 될 수 있음을 지적합니다.

#Review #World-Action Models #Embodied AI #Adversarial Attack #World-Action Drift #Closed-Loop Execution #Robotics

2026년 7월 16일

[논문리뷰] AsySplat: Efficient Asymmetric 3D Gaussian Splatting for Long-Sequence Scene Modeling

본 논문은 일반화된 3DGS 모델이 긴 시퀀스(long-sequence)의 장면을 다룰 때 발생하는 과도한 연산 중복 문제를 해결하는 것을 목표로 합니다. 기존 연구들은 기하학적 정보와 외관 정보 모델링을 구분하지 않고 동일한 방식으로 고해상도 패치 토큰들을 처리하여 불필요한 계산 비용을 발생시켰습니다 .

#Review #3D Gaussian Splatting #Long-sequence Scene Modeling #Generalizable NVS #Asymmetric Architecture #Sparse Attention #Computational Efficiency

2026년 7월 16일

[논문리뷰] Vinci2: Providing Proactive Assistance in Continuous Egocentric Videos

본 논문은 기존 Egocentric assistant가 수동적인 Reactive 방식이나 특정 이벤트 발생 시에만 응답하는 Semi-proactive 방식에 머물러 있다는 한계를 지적합니다.

#Review #Egocentric Video #Proactive Assistance #Retrieval-Augmented Reasoning #Streaming Memory #Video-LLM #Benchmarking

2026년 7월 15일

[논문리뷰] Tracing Agentic Failure from the Flow of Success

본 논문은 LLM 기반 에이전트 시스템의 실패를 자동으로 진단할 때 발생하는 비용과 비효율성 문제를 해결하기 위해 Oat를 제안한다.

#Review #LLM Agents #Failure Attribution #Unsupervised Learning #Neural CDE #One-Class Learning #Anomaly Detection #Agentic Systems

2026년 7월 15일

[논문리뷰] ShortOPD: Recovering Pruned LLMs with Short-to-Long On-Policy Distillation

본 논문은 구조적 프루닝(Structured Pruning)이 적용된 LLM이 객관식 벤치마크에서는 성능을 유지하지만, 실제 배포 시 요구되는 자유 형식 생성(Free-form generation)에서는 심각하게 붕괴하는 현상을 해결하고자 합니다.

#Review #Structured Pruning #On-Policy Distillation #LLM Compression #Model Recovery #Repetition Control #Token-level Supervision

2026년 7월 15일

[논문리뷰] Self-Improvements in Modern Agentic Systems: A Survey

본 논문은 현대의 Agentic Systems가 어떻게 인간의 개입을 최소화하면서 경험을 통해 스스로 역량을 확장할 수 있는지에 대한 체계적인 분석을 제공합니다. 기존 연구들은 개별적인 개선 기법에 집중해왔으나, 이러한 기술들을 포괄하는 통합된 프레임워크가 부족했습니다.

#Review #Agentic Systems #Self-Improvement #Foundation Model #Scaffolding #Meta-Learning #Autonomous Agents

2026년 7월 15일

[논문리뷰] Ring-Zero: Scaling Zero RL to a Trillion Parameters for Emergent Reasoning

본 논문은 대규모 언어 모델이 단순히 정보를 암기하는 단계를 넘어 고도의 논리적 추론 능력을 갖추기 위한 핵심 동력으로 Zero RL의 확장성을 주목합니다.

#Review #Zero RL #Trillion Parameters #Emergent Reasoning #Reinforcement Learning #Scalability #LLM

2026년 7월 15일

[논문리뷰] Registers Matter for Pixel-Space Diffusion Transformers

본 논문은 Register Tokens가 기존 ViTs에서의 고질적인 문제인 '고 norm 아웃라이어(high-norm patch-token outliers)'를 해결하는 것과 달리, DiTs에서의 구체적인 역할과 효과는 미비하게 탐구되었다는 점에 주목합니다.

#Review #Diffusion Transformers #Register Tokens #Pixel-Space #Feature Norms #Attention Sinks #Dual-Stream Architecture

2026년 7월 15일

[논문리뷰] PolicyShiftGuard: Benchmarking and Improving Policy-Adaptive Image Guardrails

본 논문은 기존의 이미지 가드레일이 고정된 안전 정책하에서만 작동하며, 실제 산업 현장에서 요구되는 정책적 유연성을 결여하고 있다는 문제를 해결하고자 합니다.

#Review #Image Guardrail #Policy-Adaptive #PolicyShiftBench #PolicyShiftGuard #Boundary-Pair Policy Adaptation #Multimodal Safety

2026년 7월 15일

[논문리뷰] PalmClaw: A Native On-Device Agent Framework for Mobile Phones

본 논문은 기존 모바일 에이전트가 주로 의존하는 GUI 기반 조작의 한계를 극복하고, 모바일 기기 환경에서 더 효율적이고 제어 가능한 에이전트 프레임워크를 구축하는 것을 목표로 한다.

#Review #Mobile Agent #On-Device #LLM Agent #Device Tools #Execution Boundary #Agent Framework

2026년 7월 15일

[논문리뷰] OvisOCR2 Technical Report

본 논문은 기존의 문서 파싱 방식인 파이프라인(Pipeline) 모델의 복잡한 배포 구조와 단계별 오류 누적 문제를 해결하고자 OvisOCR2를 제안한다. 기존의 파이프라인 방식은 레이아웃 분석, 콘텐츠 인식, 페이지 병합 등 여러 단계가 분리되어 있어 효율성이 낮고, 한 단계의 오류가 후속 단계로 전파되는 한계가 있다.

#Review #End-to-End Document Parsing #Markdown Serialization #Multimodal Large Language Model #Reinforcement Learning #On-policy Distillation #OvisOCR2

2026년 7월 15일

[논문리뷰] MetaView: Monocular Novel View Synthesis with Scale-Aware Implicit Geometry Priors

본 논문은 기존 NVS 방법론들이 겪고 있는 구조적 불일치와 스케일 표류 문제를 해결하고자 합니다. 기존의 명시적 재구성 기반 방식은 국소적인 일관성은 보장하지만, 복잡한 재구성 파이프라인으로 인해 대규모 시점 변화 시 일반화 성능이 제한됩니다 .

#Review #Monocular Novel View Synthesis #Diffusion Models #Implicit Geometry Priors #Scale-Awareness #Camera Control #MM-DiT

2026년 7월 15일

[논문리뷰] KnowAct-GUIClaw: Know Deeply, Act Perfectly, Personal GUI Assistant with Self-Evolving Memory and Skill

본 논문은 기존의 OpenClaw 계열 에이전트가 GUI 환경에서의 복잡한 작업 자동화 시 겪는 구조적 한계를 해결하고자 합니다. 기존 방식은 플랫폼 간의 호환성이 부족하고, 지속적인 학습을 통한 성능 향상 메커니즘이 부재하여 다양한 기기 환경에 적응하기 어렵다는 문제점이 있습니다.

#Review #GUI Agents #Personal Assistant #Self-Evolving Memory #Skill Library #Cross-Platform Interaction #POMDP #Task Decomposition

2026년 7월 15일

[논문리뷰] Harness Handbook: Making Evolving Agent Harnesses Readable,Navigable, and Editable

본 논문은 대규모 Agent Harness의 구조적 복잡성으로 인해 발생하는 Behavior Localization의 어려움을 해결하는 것을 목표로 합니다.

#Review #Agent Harness #Behavior Localization #Static Program Analysis #LLM-assisted Behavioral Structuring #Behavior-Guided Progressive Disclosure #Software Engineering

2026년 7월 15일

[논문리뷰] Hallo4D: Multi-Modal Hallucination Mitigation for Consistent Spatio-Temporal Generation

본 논문은 3D 및 4D 콘텐츠 생성 시 발생하는 공간적·시간적 불일치(hallucination) 문제를 해결하는 것을 목적으로 합니다.

#Review #3D Generation #4D Generation #Spatio-temporal Consistency #Multi-Modal Reasoning #Diffusion Models #Hallucination Mitigation

2026년 7월 15일

[논문리뷰] GigaWorld-Policy-0.5: A Faster and Stronger WAM Empowered by AutoResearch

본 논문은 기존 WAM 방식이 추론 시 명시적인 미래 비디오 생성을 요구하여 발생하는 높은 연산 오버헤드와 실시간 제어의 한계를 해결하는 것을 목표로 합니다.

#Review #World Action Models #Robot Control #Mixture-of-Transformers #AutoResearch #Inference Latency #Flow Matching #Visual Dynamics

2026년 7월 15일

[논문리뷰] From Noisy Traces to Root Causes: Structural Trajectory Analysis and Causal Extraction for Agent Optimization

본 논문은 장기적(Long-horizon) 에이전트 최적화 시 발생하는 컨텍스트 노이즈 문제를 해결하고자 합니다.

#Review #Agent Optimization #Causal Localization #Execution Dependency Graph #Failure Pattern Mining #Structural Trajectory Analysis #Context-Noise Trade-off

2026년 7월 15일

[논문리뷰] From Controlled to the Wild: Evaluation of Pentesting Agents for the Real-World

본 논문은 기존의 사이버 보안 벤치마크가 지나치게 제한된 환경(예: Capture-the-Flag)에 국한되어 있어, 실제 환경에서의 복잡한 공격 표면과 전략적 탐색 능력을 평가하지 못하는 한계를 해결하고자 한다 .

#Review #AI Pentesting Agents #Vulnerability Discovery #Evaluation Protocol #Ground-Truth Matching #Stochasticity #Agentic Workflow

2026년 7월 15일

[논문리뷰] Boogu-Image-0.1: Boosting Open-Source Unified Multimodal Understanding and Generation

본 연구는 기존 오픈소스 생성 모델이 상업적 frontier 모델 대비 복잡한 의도를 해석하는 Understanding 능력이 부족하다는 점을 해결하고자 합니다.

#Review #Unified Multimodal #Text-to-Image #Agentic Inference #Data Curation #Diffusion Transformer #Instruction-Driven Generation

2026년 7월 15일

[논문리뷰] AgentCompass: A Unified Evaluation Infrastructure for Agent Capabilities

본 논문은 LLM 기반 Agent의 성능을 평가하기 위한 인프라가 극도로 파편화되고 복잡하게 얽혀 있는 문제를 해결하고자 한다. 기존의 평가 방식은 특정 도메인에 고착화되어 있거나, 실행 환경과 평가 프로토콜이 강하게 결합되어 있어 재현성(Reproducibility)을 저해하고 반복적인 엔지니어링 비용을 발생시킨다 .

#Review #LLM-based Agents #Evaluation Infrastructure #Benchmarking #Trajectory Analysis #Agentic Capabilities #Reproducibility

2026년 7월 15일

[논문리뷰] AffectFlow-DINO: Uncertainty-Aware Multi-Task Affect Estimation via Conditional Rectified Flow

본 논문은 in-the-wild 환경의 감정 분석에서 발생하는 데이터의 내재적 모호성과 표현의 불확실성을 해결하기 위해 AffectFlow-DINO를 제안합니다.

#Review #Affective Computing #Conditional Rectified Flow #Multi-Task Learning #Uncertainty-Aware #DINOv3 #Facial Affect Estimation #ABAW Challenge

2026년 7월 15일

[논문리뷰] Towards Autonomous and Auditable Medical Imaging Model Development

본 논문은 의료 영상 모델 개발의 자동화 과정에서 발생하는 복잡성과 불투명성 문제를 해결하고자 합니다.

#Review #Medical Imaging #Autonomous Agents #Machine Learning Engineering #Model Development #Verification-Guided Optimization #Auditability

2026년 7월 14일

[논문리뷰] Read It Back: Pretrained MLLMs Are Zero-Shot Reward Models for Text-to-Image Generation

본 논문은 텍스트-이미지 생성(T2I) 모델의 강화학습(RL) 과정에서 효율적이고 신뢰성 높은 보상 모델을 설계하는 것이 어렵다는 점을 해결하고자 합니다 .

#Review #SpectraReward #Self-SpectraReward #Text-to-Image Generation #Reinforcement Learning #MLLM #Prompt-Likelihood Reward #Unified Multimodal Models

2026년 7월 14일

[논문리뷰] Principled Analysis of Deep Reinforcement Learning Evaluation and Design Paradigms

본 논문은 딥 강화학습 분야에서 고착화된 평가 패러다임과 그에 내재된 잘못된 가정들을 비판적으로 분석합니다.

#Review #Deep Reinforcement Learning #Scaling Laws #Sample Complexity #Evaluation Paradigm #Monotonicity Assumption #Arcade Learning Environment

2026년 7월 14일

[논문리뷰] MuScriptor: An Open Model for Multi-Instrument Music Transcription

기존의 AMT 연구들은 주로 단일 악기(피아노, 기타 등)에 국한되어 있으며, 다중 악기(Multi-instrument) 환경에서의 실질적인 성능은 매우 저조합니다.

#Review #Automatic Music Transcription #Multi-Instrument #Transformer #Synthetic Pre-training #Reinforcement Learning #Open-Weight Model

2026년 7월 14일

[논문리뷰] Know Before Fix: QA-Driven Repository Knowledge Acquisition for Software Issue Resolution

본 논문은 LLM 기반 coding agent가 repository에 대한 깊이 있는 이해 부족으로 인해 factual errors를 범하고, 결과적으로 복잡한 이슈 해결에 실패하는 문제를 해결하고자 합니다 .

#Review #Software Engineering Agents #Knowledge Acquisition #Repository Understanding #Question-Answering (QA)#Automated Issue Resolution #LLM-based Agents

2026년 7월 14일

[논문리뷰] Blind-Spots-Bench: Evaluating Blind Spots in Multimodal Models

본 논문은 기존 벤치마크에서 우수한 성능을 보이는 최신 멀티모달 모델들이 인간에게는 사소한 작업에서 여전히 실패하는 문제를 해결하고자 한다 . 대규모 언어 모델과 멀티모달 모델은 이미 많은 표준 벤치마크를 거의 포화 상태로 만들었으나, 이러한 점수가 모델의 실질적인 견고성을 항상 대변하지는 않는다.

#Review #Multimodal Models #Benchmarking #Blind Spots #Reasoning Evaluation #Task Taxonomy #AI Evaluation

2026년 7월 14일

[논문리뷰] Weak-to-Strong Generalization via Direct On-Policy Distillation

본 논문은 대규모 언어 모델의 post-training 단계에서 발생하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 높은 컴퓨팅 비용 문제를 해결하고자 합니다.

#Review #Weak-to-Strong Generalization #Reinforcement Learning #On-Policy Distillation #Policy Shift #Implicit Reward #Post-Training #Large Language Models

2026년 7월 13일

[논문리뷰] Proxy Exploration and Reusable Guidance: A Modular LLM Post-Training Paradigm via Proxy-Guided Update Signals

본 논문은 기존 LLM 사후 학습 방식이 탐색(exploration)과 분포 정렬(distribution alignment)을 강하게 결합하여 컴퓨팅 효율성과 확장성을 저해하는 문제를 해결합니다.

#Review #Post-training #Proxy Exploration #Update Signal Transfer #LLM Alignment #Modular Training #Weak-to-Strong Generalization

2026년 7월 13일

[논문리뷰] NeuroCogMap Reveals Cognitive Organization of Large Language Models

본 논문은 LLM이 복잡한 인지적 능력을 발휘함에도 불구하고, 이러한 능력이 내부적으로 어떻게 조직화되어 있는지에 대한 시스템 수준의 설명이 부족하다는 문제의식을 다룹니다.

#Review #Large Language Models #NeuroCogMap #Functional Parcellation #Cognitive Hierarchy #Mechanistic Interpretability #Pathology Detection #Cortical Alignment

2026년 7월 13일

[논문리뷰] Motion4Motion: Motion Transfer Across Subjects at Inference

본 논문은 기존 모션 전이 방식이 스켈레톤 구조에 지나치게 의존함으로써 겪는 범용성 부족 문제를 해결하고자 합니다. 대다수의 기존 연구는 인간 중심의 스켈레톤 사전 지식을 강제하여, 동물과 같이 다양한 형태의 캐릭터 간 모션 전이에 적용하기 어렵습니다 .

#Review #Motion Transfer #Training-free #Diffusion Transformer #Attention Control #Video Generation #Cross-species #Motion Flow

2026년 7월 13일

[논문리뷰] Metacognition in LLMs: Foundations, Progress, and Opportunities

본 논문은 LLM이 인간의 고유한 지적 능력으로 여겨지는 Metacognition을 어느 수준까지 발휘할 수 있는지, 그리고 이를 어떻게 시스템 수준에서 구현하여 성능과 신뢰성을 높일 수 있는지에 대한 체계적인 분석을 목표로 합니다.

#Review #Metacognition #Large Language Models #Confidence Calibration #Self-Correction #Uncertainty Estimation #Artificial Intelligence #Cognitive Psychology

2026년 7월 13일

[논문리뷰] LightMem-Ego: Your AI Memory for Everyday Life

본 논문은 일상생활의 경험을 지속적으로 기록하고 활용해야 하는 개인용 AI 어시스턴트의 메모리 한계 문제를 해결하기 위해 LightMem-Ego를 제안합니다.

#Review #Egocentric Perception #Multimodal Memory #Streaming Architecture #Hierarchical Memory #Life Assistant #Experience Retrieval

2026년 7월 13일

[논문리뷰] Latent-Identity Tuning in Text-to-Image Personalization Models

본 논문은 기존의 Text-to-Image personalization 모델이 특정 개인의 정체성을 재현하는 데에는 뛰어나지만, 생성된 정체성을 세밀하게 수정하거나 제어하는 기능이 결여되어 있다는 점을 해결하고자 합니다 .

#Review #Text-to-Image #Personalization #Identity Tuning #Latent Space #Q-Former #Fine-grained Editing

2026년 7월 13일

[논문리뷰] LATO.2: Factorized 3D Mesh Generation with Vertex and Topology Flow

기존의 3D 메시 생성 모델들은 정점의 공간적 위치와 위상적 연결성을 하나의 공유된 latent space에서 동시에 학습하려는 경향이 있어, 통계적으로 이질적인 두 신호를 효율적으로 처리하는 데 한계가 있다.

#Review #3D Mesh Generation #Flow Matching #Factorized Representation #Vertex Flow #Topology Flow #Latent Representation

2026년 7월 13일

[논문리뷰] EgoSteer: A Full-Stack System Towards Steerable Dexterous Manipulation from Egocentric Videos

본 논문은 일반적인 로봇 조작 모델이 실시간 Steerability를 확보하지 못하고, 특정 로봇 환경에 국한되는 한계를 해결하고자 한다.

#Review #Steerable Dexterous Manipulation #VLA Models #Egocentric Videos #World Model #Robot Learning #DAgger

2026년 7월 13일

[논문리뷰] CtrlVTON: Controllable Virtual Try-On via Visual-Instance-Prompt Segmentation

본 논문은 기존 가상 착장(VTO) 시스템이 의류의 스타일, 크기, 공간적 배치와 같은 사용자 수준의 미세한 제어를 지원하지 못한다는 한계를 해결하고자 한다.

#Review #Virtual Try-On #Image Editing #Visual-Instance-Prompt Segmentation #Segmentation Masks #Diffusion Transformer #Controllability

2026년 7월 13일

[논문리뷰] AdvancedMathBench: A Benchmark Suite for Advanced Mathematical Proof Generation and Verification

본 논문은 기존의 수학 벤치마크가 고등 수학 및 연구 수준의 증명 능력을 평가하기에는 범위와 입도가 부족하다는 문제를 해결하고자 합니다.

#Review #Advanced Mathematics #Proof Generation #Process Verification #LLM-as-Judge #Mathematical Reasoning #Benchmark #Automatic Verification Pipeline

2026년 7월 13일

[논문리뷰] ABot-N1: Toward a General Visual Language Navigation Foundation Model

본 논문은 기존의 단일 통합 정책(Monolithic Policy)이 가진 navigation의 한계점과 확장성 문제를 해결하기 위해 ABot-N1을 제안합니다 .

#Review #Visual Language Navigation #Foundation Model #Slow-Fast Architecture #Chain-of-Thought #Pixel Goal #Embodied AI #Cross-Task Generalization

2026년 7월 13일

[논문리뷰] ABot-AgentOS: A General Robotic Agent OS with Lifelong Multi-modal Memory

본 연구는 고수준의 semantic reasoning을 물리적인 다단계 실행(multi-step physical execution)으로 연결하는 과정에서 발생하는 'reasoning-execution gap'을 해결하고자 합니다 .

#Review #Embodied Intelligence #Agent Operating System #Multi-modal Memory #Lifelong Self-Evolution #Robot Learning #Hierarchical Reasoning #EmbodiedWorldBench

2026년 7월 13일

[논문리뷰] 4D Human-Scene Reconstruction from Low-Overlap Captures

본 논문은 소수의 low-overlap 카메라만으로도 고품질의 4D 인간-장면 복원(Human-Scene Reconstruction)을 구현하는 문제를 해결합니다.

#Review #4D Reconstruction #Gaussian Splatting #Sparse-view #Video Diffusion #Human-Scene Decomposition #Multi-view Pose Estimation

2026년 7월 13일

[논문리뷰] Video Generation Models are General-Purpose Vision Learners

본 논문은 컴퓨터 비전 분야가 여전히 개별 과제에 특화된 모델(Specialized Model) 단계에 머물러 있는 문제를 해결하고자 합니다 .

#Review #Video Generation #Foundation Models #Generalist Vision Intelligence #Diffusion Models #Spatiotemporal Priors #Perception Task-Agnostic #Synthetic Data

2026년 7월 12일

[논문리뷰] VaseMuseum: Digital Intelligent Museum for Ancient Greek Pottery

본 연구는 고대 그리스 도자기와 같은 문화유산 분야에서 VLM 기반의 디지털 박물관 가이드 시스템이 직면한 신뢰성 부족 문제를 해결하고자 합니다. 기존 모델들은 파편화되거나 불완전한 정보를 바탕으로 과도하게 확신에 찬 답변(Hallucination)을 생성하거나, 검증되지 않은 외부 참조를 인용하는 한계가 있습니다.

#Review #Vision-Language Models #Digital Museum #Cultural Heritage #Multimodal Agent #Retrieval-Augmented Generation #Inference-time Reliability Control #GRPO

2026년 7월 12일

[논문리뷰] Trust Region Policy Distillation

본 논문은 기존 On-Policy Distillation (OPD) 방식이 가진 구조적 불안정성과 낮은 샘플 효율성 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Trust Region #Policy Gradient #Proximal Teacher #Gradient Variance #Mathematical Reasoning #Post-training

2026년 7월 12일

[논문리뷰] Towards Mechanistically Understanding Why Memorized Knowledge Fails to Generalize in Large Language Model Finetuning

본 논문은 LLM이 새로운 지식을 성공적으로 기억함에도 불구하고, 이를 활용한 downstream 추론 작업에서는 낮은 성능을 보이는 문제를 다룬다 . 기존 연구들은 주로 모델의 파라미터 업데이트나 지식 편집에 집중했으나, 지식 저장과 추론 간의 인과적 단절을 메커니즘적으로 설명하는 데에는 한계가 있었다.

#Review #LLM Finetuning #Knowledge Generalization #Mechanistic Interpretability #Self-Patching #Knowing-Using Gap #Knowledge-Circuit Misalignment

2026년 7월 12일

[논문리뷰] Self-Guided Test-Time Training for Long-Context LLMs

본 논문은 긴 문맥을 처리하는 LLM의 성능이 문맥의 길이에 따라 저하되는 현상이 단순히 문맥을 모두 담지 못해서가 아니라, 질문에 필요한 핵심 증거를 식별하고 활용하는 능력이 부족하기 때문임을 지적합니다.

#Review #Long-Context LLMs #Test-Time Training (TTT)#Evidence Selection #Parameter Adaptation #Context Reasoning #Signal-to-Noise Ratio

2026년 7월 12일

[논문리뷰] Scalable Visual Pretraining for Language Intelligence

본 연구는 대규모 언어 모델이 문서의 시각적 요소를 평문으로 변환할 때 발생하는 정보 손실을 해결하기 위해 시각적 문서 자체를 직접 학습하는 VP를 제안한다.

#Review #Visual Pretraining #Foundation Models #Multimodal Learning #Scientific Reasoning #Representation Alignment #Autoregressive Training

2026년 7월 12일

[논문리뷰] Phone Segmentation and Recognition through Phonological Activation Mapping

본 논문은 현대의 음성학적 분석 모델이 분절(segmentation)과 인식(recognition)을 별도의 복잡한 모델로 다루며, 다량의 라벨링 데이터와 계산 자원을 요구하는 문제를 해결하고자 한다.

#Review #Self-supervised Speech Models #Phonological Activation Mapping #Phone Segmentation #Phone Recognition #Gradient-descent-free #Sample-efficiency #Generalization

2026년 7월 12일

[논문리뷰] PanoWorld: Real-World Panoramic Generation

본 논문은 기존 파노라마 월드 모델들이 복잡한 야외 환경에서 공간적·시간적 일관성 및 물리적 정확성을 유지하는 데 한계가 있다는 문제 의식에서 출발한다.

#Review #Panoramic Generation #World Model #Diffusion Model #Rotation Equivariance #Dense Panoramic Ray-Conditioning #Geometry-aware Memory #World360

2026년 7월 12일

[논문리뷰] MedPMC: A Systematic Framework for Scaling High-Fidelity Medical Multimodal Data for Foundation Models

본 논문은 의료 AI 모델의 성능을 제한하는 핵심 원인인 대규모 고품질 의료 멀티모달 데이터의 부족 문제를 해결하고자 합니다.

#Review #Multimodal Foundation Models #Medical Data Curation #PubMed Central #Image-Text Pairs #Vision-Language Models #Clinical Transfer Validation #High-Fidelity Pipeline

2026년 7월 12일

[논문리뷰] Long-Horizon-Terminal-Bench: Testing the Limits of Agents on Long-Horizon Terminal Tasks with Dense Reward-Based Grading

본 논문은 기존의 에이전트 벤치마크가 지나치게 단기적인 작업에 치중되어 있으며, 평가 방식이 최종 결과에만 의존한다는 한계를 해결하고자 한다.

#Review #Autonomous Agents #Long-Horizon Tasks #Terminal Benchmarks #Dense Reward-Based Grading #Subtask-based Evaluation #Failure Analysis #Agentic Workflow

2026년 7월 12일

[논문리뷰] KronQ: LLM Quantization via Kronecker-Factored Hessian

본 연구는 기존의 PTQ 방법들이 입력 activation 통계량(HX)만을 활용하여 출력 채널 간의 비대칭적인 민감도를 간과한다는 점을 핵심 문제로 지적합니다.

#Review #Post-Training Quantization #Kronecker-Factored Hessian #Gradient Covariance #Mixed-Precision Allocation #Bidirectional Incoherence Processing #LLM

2026년 7월 12일

[논문리뷰] From RGB Generation to Dense Field Readout: Pixel-Space Dense Prediction with Text-to-Image Models

본 논문은 대규모 T2I 모델의 우수한 사전 학습 지식을 활용하면서도, 불필요한 generative output interface를 제거하는 최적의 dense prediction 구조를 정의하고자 한다 .

#Review #Dense Prediction #Text-to-Image Models #Field Readout #LoRA #Vision Transformers #RGB-native

2026년 7월 12일

[논문리뷰] Flow-ERD: Agent-type Aware Flow Matching with Entropy-Regularized Distillation for Diverse Traffic Simulation

본 논문은 자율주행 시뮬레이션에서 realism과 diversity라는 두 핵심 요소가 서로 상충되는 현상을 해결하고자 합니다 .

#Review #Multi-Agent Simulation #Flow Matching #Entropy-Regularized Distillation #Autonomous Driving #Traffic Simulation #Realism-Diversity Pareto

2026년 7월 12일

[논문리뷰] A Sovereign, Open-Source Foundation Model for German and English

본 연구는 기존 오픈 소스 모델들이 가진 세 가지 핵심적인 한계를 해결하고자 합니다. 첫째, 상당수의 '오픈' 모델들이 실제로는 가중치만 공개하고 데이터와 학습 레시피를 불투명하게 처리하여 재현성을 저해하고 있습니다.

#Review #Foundation Model #Mixture-of-Experts #Mamba-Transformer #Long-context #Sovereign AI #German-English #Open-Source

2026년 7월 12일

[논문리뷰] Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition

본 논문은 ZS-CAR 모델이 진정한 의미의 compositional generalization을 수행하지 못하고, Verb 예측 시 Object 정보에 의존하는 object-driven shortcuts에 빠지는 문제를 해결하고자 합니다 .

#Review #Zero-Shot Compositional Action Recognition #Object-driven Shortcuts #Co-occurrence Prior Regularization #Temporal Order Regularization #Compositional Generalization #Video Understanding

2026년 7월 9일

[논문리뷰] Vidu S1: A Real-Time Interactive Video Generation Model

본 논문은 기존의 오프라인 생성 패러다임이 가진 상호작용성 부재와 실시간 응답성 결여 문제를 해결하기 위해 Vidu S1을 제안합니다. 대부분의 기존 비디오 생성 모델은 전체 프레임을 한 번에 생성하는 one-shot 방식에 의존하여, 사용자가 생성 과정에 실시간으로 개입할 수 없는 한계가 있습니다.

#Review #Real-time Video Generation #Speech-Guided Control #Infinite-Length Inference #TurboDiffusion #TurboServe #Autoregressive Generation

2026년 7월 9일

[논문리뷰] Video-Oasis: Rethinking Evaluation of Video Understanding

본 논문은 현대 Video-LLM 벤치마크들이 모델의 진정한 시공간적 추론 능력을 측정하지 못하고 있다는 근본적인 문제를 지적한다.

#Review #Video-LLM #Diagnostic Suite #Spatio-Temporal Reasoning #Benchmark Audit #Video-Native Challenges

2026년 7월 9일

[논문리뷰] UniClawBench: A Universal Benchmark for Proactive Agents on Real-World Tasks

본 논문은 현대의 Proactive Agents를 평가하기 위한 기존 벤치마크들의 구조적 한계를 해결하기 위해 UniClawBench를 제안한다. 기존 연구들은 샌드박스화된 고립 환경과 단일 턴(Single-turn) 평가 방식에 의존하여, 실제 환경의 복잡성과 반복적인 사용자 피드백 루프를 반영하지 못한다 .

#Review #Proactive Agents #Capability-Oriented Benchmark #Closed-loop Evaluation #Real-World Tasks #Multimodal Understanding #Tool Usage #Docker-based Environment

2026년 7월 9일

[논문리뷰] UP: Unbounded Positive Asymmetric Optimization for Breaking the Exploration-Stability Dilemma

본 연구는 기존 RL 프레임워크가 사용하는 Importance Sampling (IS) 기반의 클리핑 메커니즘이 LLM의 복잡한 추론 경로 탐색을 구조적으로 제한한다는 문제를 해결합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Stability Dilemma #Importance Sampling #Asymmetric Optimization #Probability Capacity

2026년 7월 9일

[논문리뷰] PhyMRI-SR: Toward Physics-Aware MRI Image Super-Resolution

본 논문은 기존 MRI Super-Resolution(SR) 연구가 저해상도 입력을 고정된 목표로 간주하고 결정론적 매핑만을 수행한다는 한계를 지적합니다. 하지만 실제 MRI 획득 과정에서 해상도와 SNR은 물리적으로 긴밀하게 결합되어 있어, 고정된 입력이 항상 최적의 정보를 담고 있는 것은 아닙니다 .

#Review #MRI Super-Resolution #Physics-Aware Reconstruction #2D Gaussian Splatting #Resolution-SNR Trade-off #Meta-Learning #Biophysical Constraints

2026년 7월 9일

[논문리뷰] OpenCoF: Learning to Reason Through Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 사실성(Visual Realism)은 뛰어나지만, 정교한 논리적 추론(Reasoning) 능력이 부족하다는 문제점을 해결하고자 합니다.

#Review #Chain-of-Frame #Video Generation #Reasoning #OpenCoF-17K #Wan-CoF #Visual Reasoning Tokens #Textual Reasoning Tokens

2026년 7월 9일

[논문리뷰] LongE2V: Long-Horizon Event-based Video Reconstruction, Prediction, and Frame Interpolation with Video Diffusion Models

본 논문은 기존 event-based vision 모델들이 겪는 성능 한계와 작업별 파편화 문제를 해결하기 위해 LongE2V를 제안한다.

#Review #Event-based Vision #Video Diffusion Models #Video Reconstruction #Long-horizon Prediction #Frame Interpolation #Autoregressive Unrolling

2026년 7월 9일

[논문리뷰] Linear Attention Architectures: Mechanisms, Trade-offs, and Cross-Layer Routing

본 논문은 Transformer의 self-attention이 긴 컨텍스트에서 가지는 $O(T^2)$ 연산 비용 문제를 해결하기 위해, Recurrent-memory 기반 Linear Attention 아키텍처들의 구조적 특성을 체계적으로 분석합니다.

#Review #Linear Attention #Recurrent Associative Memory #DeltaNet #Cross-Layer Routing #Architecture Trade-offs #CLVR #CLER

2026년 7월 9일

[논문리뷰] Jet-Long: Efficient Long-Context Extension with Dynamic Bifocal RoPE

기존의 Zero-shot context extension 방법들은 고정된 하나의 리스케일링 팩터를 사용하므로, 짧은 컨텍스트에서의 충실도와 긴 컨텍스트에서의 외삽(extrapolation) 성능 사이에서 불가피한 트레이드오프를 겪습니다.

#Review #Long-Context Extension #Zero-shot #RoPE #Bifocal RoPE #Inclusion–Exclusion Attention #CuTe Kernel

2026년 7월 9일

[논문리뷰] Ideas Have Genomes: Benchmarking Scientific Lineage Reasoning and Lineage-Grounded Idea Generation

본 연구는 현행 AI 시스템이 논문 생성 및 연구 지원 시 혈통적 계승 구조를 이해하지 못하고 표면적인 topical proximity에 의존하는 문제를 해결하고자 한다.

#Review #Scientific Lineage #Idea Genome #GenomeDiff #IG-Bench #Automated Research #Lineage Competence

2026년 7월 9일

[논문리뷰] Flash-BoN: Instant Drafts for Inference-Time Scaling in Diffusion Models

기존의 Inference-Time Scaling 연구들은 주로 중간 디노이징 단계에서 빈번한 검증을 통해 후보를 탐색하거나 안내하는 방식에 집중해 왔으나, 정작 생성 자체에 드는 비용을 과도하게 무시하고 있다 .

#Review #Inference-Time Scaling #Diffusion Models #Draft Generation #Wall-clock Efficiency #Multi-stage Verification #Discrete Optimization

2026년 7월 9일

[논문리뷰] Enhancing In-context Panoramic Generation via Geometric-aware Pretraining

본 논문은 기존 파노라마 이미지 생성 모델이 겪는 3D 기하학적 일관성 부족 문제를 해결하기 위해 제안되었다.

#Review #Panoramic Generation #In-context Learning #Geometry-aware Pretraining #Flow Matching #Velocity Circular Padding #Canvas360Dataset

2026년 7월 9일

[논문리뷰] DrugGen 2: A disease-aware language model for enhancing drug discovery

본 논문은 기존의 약물 생성 모델들이 질병의 맥락을 고려하지 않고 표적 단백질이나 일반적인 분자 특성에만 의존하여 생성된 약물의 치료적 타당성이 부족하다는 문제를 해결하고자 합니다 .

#Review #Drug Design #Drug Repositioning #Large Language Model #Reinforcement Learning #Disease-Aware #GRPO #SMILES

2026년 7월 9일

[논문리뷰] CineMobile: On-Device Image-to-Video Diffusion for Cinematic Camera Motion Generation

본 논문은 최신 Diffusion Transformers(DiTs) 모델이 뛰어난 비디오 생성 성능에도 불구하고, 거대한 파라미터 크기와 다단계 추론 과정으로 인해 모바일 기기에서의 실시간 및 효율적 생성이 어렵다는 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Image-to-Video #On-Device AI #Model Compression #Step Distillation #Hybrid Quantization #Cinematic Motion

2026년 7월 9일

[논문리뷰] CausalDS: Benchmarking Causal Reasoning in Data-Science Agents

본 논문은 현대의 LLM 기반 데이터 과학 에이전트들이 복잡한 인과적 추론을 수행하는 능력이 부족하거나 불투명하다는 문제를 해결하고자 합니다.

#Review #Causal Reasoning #Data-Science Agents #Structural Causal Models #Benchmarking #Identifiability #Uncertainty Quantification #Tool Use

2026년 7월 9일

[논문리뷰] Can Dialects Be Steered Like Languages? Sparse Neurons and Distributed Directions in Arabic LLMs

본 논문은 현대의 Arabic LLM들이 MSA(Modern Standard Arabic) 데이터에 과도하게 편향되어 방언 생성 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Arabic LLMs #Dialect Steering #Mechanistic Interpretability #Activation Steering #Sparse Neurons #Inference-time Intervention

2026년 7월 9일

[논문리뷰] ARDY: Autoregressive Diffusion with Hybrid Representation for Interactive Human Motion Generation

본 논문은 실시간 인터랙티브 환경에서 정교한 텍스트 제어와 긴 지평의 kinematic constraints를 동시에 만족하는 고품질 인간 움직임 생성 모델을 제안합니다 .

#Review #Interactive Motion Generation #Autoregressive Diffusion #Hybrid Representation #Kinematic Constraints #Motion Tokenizer #Two-Stage Denoiser #Streaming Generation

2026년 7월 9일

[논문리뷰] A Sparse and Truncated State Vector Simulator for Peaked Circuits

본 논문은 Peaked Circuits의 효율적인 시뮬레이션을 위해 메모리 및 연산 자원을 절감할 수 있는 Sparse and Truncated State Vector 시뮬레이터를 제안한다. 기존의 Dense 시뮬레이터는 O(2^n)의 메모리를 요구하여 큐비트 수가 증가함에 따라 확장성에 한계가 있다.

#Review #Quantum Circuit Simulation #Sparse State Vector #Truncated Simulation #Peaked Circuits #GPU Acceleration #Vectorized Operations

2026년 7월 9일

[논문리뷰] A Quantized Native Runtime for On-Device Semantic Audio Generation

본 연구는 Stable Audio 3와 같은 최첨단 생성형 음악 모델을 클라우드 데이터센터가 아닌 로컬 및 임베디드 기기에서 구동하고자 할 때 발생하는 문제들을 해결하는 것을 목표로 한다.

#Review #On-Device Audio Generation #Quantization #Stable Audio 3 #Activation Steering #Sonic Seasoning #C/CUDA Runtime

2026년 7월 9일

[논문리뷰] WildCity: A Real-World City-Scale Testbed for Rendering, Simulation, and Spatial Intelligence

본 논문은 AI가 도시 규모의 복잡한 환경에서 공간 지능(Spatial Intelligence)을 갖추도록 학습하기 위한 real-world city-scale testbed의 부재 문제를 해결합니다.

#Review #City-scale Reconstruction #3D Gaussian Splatting #Autonomous Driving #Neural Rendering #Spatial Intelligence #Digital Twin #Closed-loop Simulation

2026년 7월 8일

[논문리뷰] Wake up for Touch! Mask-isolated Tactile Alignment Learning in MLLMs

본 논문은 sMLLM(Small MLLM, $\le$ 3B 파라미터 규모)에 촉각 센싱 능력을 통합할 때 발생하는 성능 저하 문제를 해결합니다.

#Review #Multimodal Large Language Models #Tactile Alignment #Catastrophic Forgetting #Model Sparsity #Parameter Isolation #Edge Robotics

2026년 7월 8일

[논문리뷰] Teaching LLMs a Low-Resource Language: Enhancing Code Completion in Pharo

본 연구는 Pharo와 같은 저자원 프로그래밍 언어의 생태계에서 LLM 기반의 코드 완성 도구가 부재하다는 점을 해결하고자 합니다.

#Review #Pharo #Low-resource language #Code completion #LLM #Fine-tuning #In-IDE support

2026년 7월 8일

[논문리뷰] Sparse Delta Memory: Scaling the State of Linear RNNs through Sparsity

본 논문은 Linear RNN 계열 모델들이 긴 문맥을 처리할 때 겪는 메모리 병목 현상을 해결하고자 합니다.

#Review #Linear RNNs #Sparse Delta Memory #Product Key Memory #Long-context Retrieval #IsoFLOP #State Scaling

2026년 7월 8일

[논문리뷰] Single-Rollout Asynchronous Optimization for Agentic Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)의 에이전트 학습 과정에서 기존의 동기식 RL 방식이 가진 효율성 한계와 비동기식 RL이 직면한 학습 불안정성 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Asynchronous RL #Single-Rollout #Agentic RL #Token-level Clipping #Value-model Training

2026년 7월 8일

[논문리뷰] Scaling Mixture-of-Experts Video Pretraining for Embodied Intelligence

기존의 비디오 생성 모델들은 주로 시각적 품질과 창의성에 집중하고 있어, embodied intelligence가 요구하는 물리적 현실성(physical realism)과 제어 가능성(controllability)이 부족한 도메인 불일치 문제를 겪고 있습니다.

#Review #Mixture-of-Experts #Video Pretraining #Embodied Intelligence #Diffusion Transformer #Reinforcement Learning #Scalability

2026년 7월 8일

[논문리뷰] RoboDojo: A Unified Sim-and-Real Benchmark for Comprehensive Evaluation of Generalist Robot Manipulation Policies

본 논문은 기존 로봇 매니퓰레이션 벤치마크가 지닌 평가의 단편성과 시뮬레이션-실세계 간의 괴리 문제를 해결하기 위해 RoboDojo를 제안한다.

#Review #Robot Manipulation #Generalist Robot Policy #Benchmark #Sim-to-Real #Embodied Intelligence #Evaluation Protocol

2026년 7월 8일

[논문리뷰] Infinite Worlds with Versatile Interactions

본 논문은 interactive world model이 실시간성과 장기적 안정성을 동시에 확보하지 못하는 한계를 해결하고자 합니다.

#Review #World Models #Causal Video Generation #Interactive Simulation #Agentic Harness #Diffusion Transformer #Long-horizon Stability

2026년 7월 8일

[논문리뷰] Imagined Rollouts are Kinematic, Not Dynamic: A Diagnosis of Long-Horizon World-Model Failure

본 논문은 현대의 World Models가 장기 예측에서 겪는 성능 저하가 단순히 '오차 누적(compounding error)'의 결과가 아니라, 모델이 물리적 역학(dynamics)을 배우지 못하고 구조적으로 운동학(kinematics) 수준에서만 작동하기 때문임을 증명합니다.

#Review #World Models #Kinematic Fallback #iKCE #Long-Horizon Failure #Embodied AI #Dynamic Imagination

2026년 7월 8일

[논문리뷰] Dual Latent Memory in Vision-Language-Action Models for Robotic Manipulation

본 논문은 기존 VLA 모델들이 지닌 Markovian assumption으로 인한 temporal short-horizon bias를 해결하고자 합니다 .

#Review #Vision-Language-Action Models #Latent Memory #Robotic Manipulation #Long-horizon Tasks #Dual-scale Vault #Memory-augmented Reasoning

2026년 7월 8일

[논문리뷰] Automating the Design of Embodied Agent Architectures

본 연구는 기존의 수동적인 Embodied 에이전트 아키텍처 설계 방식에서 벗어나, 이를 자동화(AAS)할 수 있는지 검증하고자 합니다 .

#Review #Embodied Agents #Agent Architecture Search #LLM Agents #AgentCanvas #KDLoop

2026년 7월 8일

[논문리뷰] Accurate, Interdisciplinary and Transparent Structure-property Understanding with Deep Native Structural Reasoning

본 연구는 단백질, 화학 물질, 무기 결정 등 과학적 구조(Structure)와 물성(Property) 간의 복잡한 관계를 해석하는 과정에서 기존 AI 시스템이 겪는 표현력과 추론의 한계를 해결하고자 합니다.

#Review #Foundation Model #Structure-property Relationship #Multimodal Reasoning #Scientific AI #Chain-of-thought #Native Structural Reasoning

2026년 7월 8일

[논문리뷰] Where to cut, how deep: BPE and Unigram-LM on chemistry SMILES

본 논문은 화학 언어 모델에서 당연하게 여겨지는 BPE 토큰화 방식이 최선의 선택인지 의문을 제기하며, 화학적 특수 환경에서 BPE와 Unigram-LM이 서로 다른 어휘 사전을 구축하는지 검증합니다.

#Review #Chemistry SMILES #Tokenizer #BPE #Unigram-LM #Subword Algorithm #Vocabulary #Granularity

2026년 7월 7일

[논문리뷰] When Classic Cache Policies Fail: Learning-Augmented Replacement for Semantic Retrieval Buffers

본 논문은 기존의 FIFO, LRU, LFU 등 고전적인 캐시 정책이 LLM 에이전트의 semantic 워크로드에서 체계적으로 실패한다는 문제를 정의한다.

#Review #Semantic Caching #LLM Agents #Cache Replacement #Online Learning #Thompson Sampling #Regret Bounds

2026년 7월 7일

[논문리뷰] Vision as Unified Multimodal Generation

본 논문은 기존 컴퓨터 비전 분야가 각 작업(task)별로 최적화된 아키텍처와 독립적인 손실 함수(loss function)를 사용하는 파편화된 시스템에 의존하고 있다는 문제점을 지적합니다. 이로 인해 다양한 시각적 감독 신호를 통합, 재사용 및 결합하는 데 구조적인 한계가 발생합니다.

#Review #Unified Multimodal Generation #Computer Vision #Foundation Models #Instruction Tuning #Dense Prediction #SenseNova-Vision #Multimodal Learning

2026년 7월 7일

[논문리뷰] TurnOPD: Making On-Policy Distillation Turn-Aware for Efficient Long-Horizon Agent Training

본 논문은 장기 계획 및 에이전트 환경에서 OPD가 겪는 자원 비효율성과 최적화 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Long-Horizon Agents #Turn-Aware #Rollout-Depth Budgeting #Efficiency #Reinforcement Learning

2026년 7월 7일

[논문리뷰] TREK: Distill to Explore, Reinforce to Refine

본 논문은 GRPO 학습 중 발생하는 핵심적 한계인 '탐색 공간의 부족(Inadequate exploration)' 문제를 해결하고자 합니다.

#Review #GRPO #Reinforcement Learning #Distillation #Exploration #Reasoning #Language Models #Policy Optimization

2026년 7월 7일

[논문리뷰] SkillOpt-Lite: Better and Faster Agent Self-evolution via One Line of Vibe

본 논문은 기존의 Agent Skill 최적화 프레임워크들이 과도하게 복잡해지고 있다는 점을 지적하며, 이론적·실증적으로 정당화 가능한 Minimal Viable Pipeline의 필요성을 제기합니다.

#Review #Agent Self-evolution #Skill Optimization #Zeroth-Order Optimization #PAC-Learning #Harness Optimization #Minimal Viable Pipeline

2026년 7월 7일

[논문리뷰] SiamJEPA: On the Role of Siamese Student Encoders in JEPA

본 논문은 JEPA 프레임워크 내에서 Siamese Student Encoders의 역할과 이들이 표현 학습에 미치는 유의미한 영향력을 체계적으로 규명하는 것을 목표로 합니다.

#Review #Self-supervised Learning #JEPA #Siamese Student Encoders #Representation Learning #Latent Prediction #Inductive Bias

2026년 7월 7일

[논문리뷰] SIEVE: Structure-Aware Data Selection for Imitation Learning with VLA Models

본 논문은 대규모 로봇 데모 데이터셋에 존재하는 중복성, 노이즈, 불균일한 작업 커버리지 문제를 해결하기 위해 구조적 데이터 선택 프레임워크인 SIEVE를 제안한다 .

#Review #Vision-Language-Action Models #Imitation Learning #Data Selection #Primitive Discovery #Structural Exposure #Behavior Cloning

2026년 7월 7일

[논문리뷰] RynnWorld-Teleop: An Action-Conditioned World Model for Digital Teleoperation

본 논문은 로봇 학습을 위한 대규모 데이터 수집이 물리적 teleoperation의 물리적 제약과 자원 한계로 인해 병목 현상을 겪고 있다는 문제를 해결하고자 합니다.

#Review #Digital Teleoperation #World Model #Robotic Learning #Video Diffusion Transformer #Action-Conditioned Generation #Sim2Real Transfer #Imitation Learning

2026년 7월 7일

[논문리뷰] RynnWorld-4D: 4D Embodied World Models for Robotic Manipulation

기존의 로봇 조작을 위한 월드 모델들은 주로 2D 픽셀 기반의 비디오 생성에 의존하고 있어, 실제 로봇 시스템이 요구하는 정밀한 3D 공간 관계나 물리적 일관성을 확보하는 데 한계가 있습니다.

#Review #4D Embodied World Models #Robotic Manipulation #Generative Video Models #RGB-DF Representation #Flow Matching #Joint Cross-Modal Attention #Embodied AI

2026년 7월 7일

[논문리뷰] Rank-Then-Act: Reward-Free Control from Frame-Order Progress

일반적인 강화학습 에이전트 학습에 필요한 외적 보상(Extrinsic Reward) 설계는 매우 복잡하거나, 환경의 특성에 따라 보상 기획이 불가능한 경우가 많습니다.

#Review #Reward-Free Control #Vision-Language Models #Ordinal Progress #Spearman Correlation #GRPO #Reinforcement Learning

2026년 7월 7일

[논문리뷰] Quantifying and Expanding the Theoretical Capacity of Late-Interaction Retrieval Models

본 논문은 Late-Interaction 모델의 핵심 연산인 MaxSim이 왜 기존의 단일 벡터 기반 dense 또는 sparse retrieval 모델보다 성능이 우수한지 그 이론적 근거를 규명하고자 합니다.

#Review #Late-Interaction #MaxSim #Information Retrieval #Neural Retrieval #Representation Learning #Inner Product

2026년 7월 7일

[논문리뷰] PointDiT: Pixel-Space Diffusion for Monocular Geometry Estimation

본 요청에 대해 제공해주신 논문 URL(https://arxiv.org/html/2607.02515)에 직접적인 접근이 현재 기술적 제약으로 인해 불가능하여, 해당 논문의 내용을 정확히 분석할 수 없습니다.

2026년 7월 7일

[논문리뷰] PluraMath: Extending Mathematical Reasoning Evaluation Beyond High-Resource Languages

본 연구는 대규모 언어 모델(LLM) 평가 및 학습 데이터가 영어와 중국어 등 고자원 언어에 과도하게 편향되어 있는 문제를 해결하는 것을 목적으로 합니다.

#Review #Multilingual Benchmark #Mathematical Reasoning #Large Language Models #Low-resource Languages #Human-in-the-loop

2026년 7월 7일

[논문리뷰] Parallelized Autoregressive Decoding for Omni-Modal Dense Video Captioning

본 논문은 기존 Autoregressive Video-LLM 기반의 Dense Video Captioning 모델들이 겪는 높은 추론 지연(Latency)과 확장성 문제를 해결하고자 합니다.

#Review #Dense video captioning #Parallel decoding #Latent planning #Omni-modal #Video-LLM #Dependency restructuring

2026년 7월 7일

[논문리뷰] Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding

본 논문은 기존의 엄격한 순차적 Autoregressive (AR) 디코딩 방식이 가진 낮은 추론 병렬성과 자원 활용도 문제를 해결하기 위해 고안되었습니다.

#Review #Language Model #Autoregressive #Diffusion #Self-Speculation #Parallel Decoding #Inference Efficiency #Tri-Mode Decoding

2026년 7월 7일

[논문리뷰] MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

본 논문은 최신 MLLMs가 일반적인 인식 및 추론 태스크에서는 높은 성능을 보이나, 예술적 창작 의도를 해석하는 전문 영역에서는 여전히 유의미한 한계를 보인다는 문제의식에서 출발합니다.

#Review #Multimodal Large Language Models #Audiovisual Arts #Benchmark #Intent-Level Understanding #Video Essay #Interpretation Plurality

2026년 7월 7일

[논문리뷰] MentalThink: Shaping Thoughts in Mental SVG World

본 논문은 기존의 언어 중심 Multimodal CoT가 가진 시각적 접지(Visual Grounding)의 취약성과 할루시네이션(Hallucination) 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Scalable Vector Graphics #Chain-of-Thought #Reinforcement Learning #Mental Imagery

2026년 7월 7일

[논문리뷰] Light-Omni: Reflex over Reasoning in Agentic Video Understanding with Long-Term Memory

본 논문은 기존 비디오 에이전트 모델들이 롱폼 비디오를 처리할 때 의존하는 '탐정 스타일'의 반복적 추론(Iterative Reasoning)이 초래하는 과도한 비용과 레이턴시 문제를 해결하고자 합니다 .

#Review #Multimodal Long-Term Memory #Agentic Video Understanding #Dual-State Design #Reflexive Response #Retrieval-Augmented Generation #Video-LLM

2026년 7월 7일

[논문리뷰] Layer-wise Cross-Lingual Depression Detection from Speech: Analysis with Contrastive Alignment

본 논문은 Speech 기반 우울증 탐지 모델이 언어적 경계를 넘어 일반화되지 못하는 한계를 해결하고자 합니다.

#Review #Cross-lingual Depression Detection #Supervised Contrastive Alignment #WavLM #Speaker-identity Leakage #Layer-wise Analysis #CLeaD

2026년 7월 7일

[논문리뷰] Image2Sim: Scaling Embodied Navigation via Generative Neural Simulator

본 논문은 Embodied Navigation 학습을 위한 대규모의 고품질 물리 기반 대화형 시뮬레이션 환경이 부족하다는 문제점을 해결하고자 합니다. 기존 연구들은 실제 스캔 데이터와 합성 데이터 사이의 trade-off, 즉 시각적 충실도와 확장성 사이의 한계에 직면해 있습니다 .

#Review #Embodied Navigation #Neural Simulator #3D Gaussian Splatting #Pixel Flow #Vision-Language Navigation #Sim-to-Real

2026년 7월 7일

[논문리뷰] HunyuanOCR-1.5: Making Lightweight OCR VLMs Faster and Better

본 논문은 OCR 특화 VLM이 단순한 문서 파싱 도구를 넘어 더 넓은 영역을 커버하고 실제 배포 환경에서 더 빠른 성능을 내야 한다는 필요성에 착안했습니다.

#Review #OCR #Vision-Language Model #DFlash #Agentic Data Flow #Speculative Decoding #Document Parsing #Inference Acceleration

2026년 7월 7일

[논문리뷰] Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

본 논문은 LLM의 long-context 확장을 저해하는 quadratic computation cost와 length extrapolation 성능 저하 문제를 해결하기 위해, 기존 chunk-wise sparse attention 방식이 갖는 불완전한 chunk 선택 메커니즘을 개선하고자 합니다.

#Review #Large Language Models #Long Context Modeling #Sparse Attention #Hierarchical Attention #Chunk-wise Attention #End-to-end Learning

2026년 7월 7일

[논문리뷰] Gemma 4 Technical Report

본 논문은 최신 LLM 생태계에서 요구되는 강력한 multimodal 이해도, 복잡한 추론 능력, 그리고 컴퓨팅 효율성을 동시에 달성하기 위해 Gemma 4 모델 제품군을 제안합니다.

#Review #Multimodal #Mixture-of-Experts #Reasoning Trace #Speculative Decoding #Quantization-Aware Training #Long-context #Encoder-free

2026년 7월 7일

[논문리뷰] From Foundation to Application: Improving VLA Models in Practice

본 논문은 기존의 VLA foundation model들이 실험실 환경의 벤치마크에서는 뛰어난 성능을 보이지만, 실제 로봇 환경의 다양한 하드웨어 구성과 복잡한 작업 조건에서는 여전히 한계가 있다는 문제 의식에서 출발합니다.

#Review #Vision-Language-Action (VLA)#Mixture-of-Experts (MoE)#Embodiment Generalization #Dual-Query Distillation #Robotic Manipulation #Spatiotemporal Reasoning

2026년 7월 7일

[논문리뷰] Flex-Forcing: Towards a Unified Autoregressive and Bidirectional Video Diffusion Model

기존의 비디오 생성 모델은 Bidirectional diffusion과 Autoregressive 모델이라는 두 개의 분리된 패러다임으로 나뉘어 있어, 각각의 장단점이 뚜렷하다는 한계가 있습니다.

#Review #Video Diffusion Models #Autoregressive Generation #Bidirectional Generation #Flexible Chunking #Denoising Timesteps #KV Caching #Any-order Editing

2026년 7월 7일

[논문리뷰] DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation

본 논문은 기존 Speculative Decoding 방식이 가진 병렬 생성의 품질 저하와 비효율적인 검증 문제를 해결하기 위해 DSpark를 제안한다. 기존의 Parallel drafter는 토큰 간 의존성을 모델링하지 못해 뒤로 갈수록 수용률이 떨어지는 Suffix Decay 문제를 겪는다.

#Review #Speculative Decoding #Semi-Autoregressive Generation #Confidence-Scheduled Verification #Hardware-Aware Scheduler #LLM Inference Acceleration #Throughput Optimization

2026년 7월 7일

[논문리뷰] CanvasAgent: Enabling Complex Image Creation and Editing via Visual Tool Orchestration

본 논문은 복잡한 이미지 생성 및 편집 워크플로우를 수행하는 멀티모달 에이전트의 한계를 해결하기 위해 CanvasAgent를 제안한다.

#Review #Multimodal Agents #Image Creation #Tool Orchestration #Reinforcement Learning #Hybrid Reward #Trajectory Optimization

2026년 7월 7일

[논문리뷰] CGGS: Consistency-Augmented Geometric Gaussian Splatting for Ego-centric 3D Scene Generation

본 연구는 기존 ego-centric 3D 생성 모델들이 시점 변화에 따른 심각한 Consistency 저하 및 기하학적 왜곡 문제를 겪고 있다는 점을 해결하고자 한다.

#Review #3D Scene Generation #Gaussian Splatting #Ego-centric #Consistency #Geometry #Generative Modeling

2026년 7월 7일

[논문리뷰] Bibby AI: An Editor-Native Agentic Platform for Academic Research, Writing, and Publishing

본 논문은 현대 학술 연구 과정이 여러 도구로 파편화되어 있어 발생하는 과도한 컨텍스트 전환과 비효율 문제를 해결하고자 한다.

#Review #Academic Writing #Agentic Platform #LaTeX #Toolchain Compression #Retrieval-Augmented Generation #Scholarly Infrastructure

2026년 7월 7일

[논문리뷰] AlayaWorld: Long-Horizon and Playable Video World Generation

본 논문은 노동 집약적인 기존 게임 개발 파이프라인의 한계를 극복하고, 확장성과 적응성이 뛰어난 상호작용 가능한 가상 세계를 생성하는 Generative World Models의 기반을 마련하고자 합니다.

#Review #Generative World Models #Interactive Video Generation #Long-Horizon Generation #Spatial Memory #Camera Control #Open-ended Action #Prompt-switching

2026년 7월 7일

[논문리뷰] 3D HAMSTER: Bridging Planning and Control in Hierarchical Vision Language Action Models through 3D Trajectory Guidance

본 논문은 기존의 Hierarchical VLA 모델들이 직면한 2D 계획과 3D 실행 사이의 표현적 불일치(Representational Misalignment) 문제를 해결합니다.

#Review #Vision-Language-Action Models #3D Trajectory Guidance #Hierarchical Robotics #Metric Depth #Point Cloud Policy

2026년 7월 7일

[논문리뷰] dOPSD: On-Policy Self-Distillation for Diffusion Language Models

본 논문은 dLLM의 추론 성능을 향상시키기 위한 효과적인 post-training 방법론의 부재 문제를 다룬다. 기존의 Supervised Fine-Tuning은 off-policy 문제로 인한 exposure bias에 취약하며, RLVR은 보상이 희소하고 sequence-level에 국한된다는 한계가 있다.

#Review #Diffusion Language Models #On-Policy Self-Distillation #Privileged Information #Denoising Trajectory #Reasoning

2026년 7월 6일

[논문리뷰] Wan-Streamer v0.2: Higher Resolution, Same Latency

본 논문은 Wan-Streamer v0.1의 핵심인 네이티브 스트리밍 프레임워크를 유지하면서, 기존 192p의 낮은 출력 해상도를 개선하여 실시간 상호작용의 시각적 품질을 높이는 것을 목표로 합니다.

#Review #Native-streaming #Audio-visual Interaction #Context-parallel #Latency-preserving #Ulysses-style #Flow-matching #Real-time

2026년 7월 6일

[논문리뷰] Vision Pretraining for Dense Spatial Perception

본 논문은 현대의 비전 파운데이션 모델들이 Semantic Invariance를 우선시하여 고밀도 공간 이해(Dense Spatial Perception) 능력이 부족하다는 문제를 해결하고자 한다 .

#Review #Vision Pretraining #Masked Boundary Modeling #Self-Supervised Learning #Dense Spatial Perception #Vision Transformer #Boundary-Forcing Masking #Categorical Reparameterization

2026년 7월 6일

[논문리뷰] Unified Audio Intelligence Without Regressing on Text Intelligence

본 논문은 오디오와 비전 등 다중 모달 능력을 강화한 기존 LLM들이 텍스트 추론 및 지식 처리 능력에서 심각한 성능 퇴보를 보이는 문제를 해결하고자 합니다. 특히 최근의 멀티모달 모델들은 강력한 생성 능력을 갖추었음에도 불구하고, Reasoning 벤치마크에서 원본 모델 대비 눈에 띄는 저하를 보입니다.

#Review #Audio-Text LLM #Mixture-of-Experts (MoE)#Multimodal Generation #Cascade RL #Audio Intelligence

2026년 7월 6일

[논문리뷰] UI-MOPD: Multi-Platform On-Policy Distillation for Continual GUI Agent Learning

GUI agent는 단일 플랫폼을 넘어 다양한 환경(데스크탑, 모바일)으로 확장되고 있으나, 플랫폼 간 이질적인 상호작용 방식과 높은 품질의 교차 플랫폼 궤적 부족으로 인해 학습에 어려움을 겪고 있다 .

#Review #GUI Agent #Multi-Teacher On-Policy Distillation #Continual Learning #Cross-Platform #Desktop/Mobile #Reinforcement Learning

2026년 7월 6일

[논문리뷰] Transition-Aware best-of-N sampling for Longitudinal Chest X-ray Reports

본 연구는 대부분의 기존 Chest X-ray 보고서 생성 모델 및 Best-of-N 파이프라인이 환자의 이전 검사 이력을 무시하고 단일 이미지에만 의존한다는 한계를 해결합니다.

#Review #Chest X-ray #Report Generation #Best-of-N Sampling #Longitudinal Context #Vision-Language Models #Set-to-Set Distance #Clinical Transition

2026년 7월 6일

[논문리뷰] Taste-aware music retrieval from audio embeddings

본 연구는 소리와 맛 사이의 상관관계가 인간의 심리적 연구에서는 잘 확립되어 있음에도 불구하고, 콘텐츠 기반 멀티미디어 검색 분야에서는 거의 다뤄지지 않고 있다는 문제의식에서 출발합니다.

#Review #Audio Embeddings #Music Information Retrieval #Crossmodal Correspondence #Multimodal Learning #Taste Prediction

2026년 7월 6일

[논문리뷰] SynCity 3000: Bootstrapping Scene-Scale 3D Diffusion

본 논문은 기존의 3D 장면 생성 모델이 지닌 규모 확장성과 일관성 문제를 해결하기 위해 SynCity 3000을 제안한다. 기존 연구들은 주로 단일 오브젝트 생성에 특화되어 있거나, 장면을 독립적인 타일(tile)들의 집합으로 간주하여 생성함으로써 결과물에서 눈에 띄는 격자(grid-like) 구조적 결함을 야기한다 .

#Review #3D Scene Generation #Diffusion Models #Convolutional Inference #Scene-Scale #Synthetic Data Engine #3D Gaussian Splats

2026년 7월 6일

[논문리뷰] Speaker-Disentangled Chunk-Wise Regression for Syllabic Tokenization

본 논문은 기존의 syllabic tokenization 방식인 SD-HuBERT가 음절의 linguisitic content를 정교하게 추출하지 못하고 speaker identity를 과도하게 반영하는 문제를 해결하고자 합니다 .

#Review #Syllabic Tokenization #Speaker-Disentangled #Chunk-Wise Regression #Self-Supervised Learning #Speech Language Modeling #Syllable Discovery

2026년 7월 6일

[논문리뷰] Speaker-Aware Temporal Aggregation Strategies on Segment Representations for Depression Detection in Dyadic Interaction: A Benchmark Study

본 논문은 기존의 우울증 감지 연구들이 단일 SSL Backbone과 임의로 선택된 단일 레이어에 의존함으로써 발생하는 편향성 문제를 해결하고자 한다.

#Review #Depression Detection #Temporal Aggregation #Self-Supervised Learning #Benchmark #Dyadic Interaction #SSL Backbones

2026년 7월 6일

[논문리뷰] Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

본 논문은 기존의 LLM 에이전트 안전성 평가 방식이 고정된 규칙과 전문가의 수동 설계에 의존하여, 에이전트의 급격한 진화와 도구 생태계의 복잡성을 따라가지 못하는 한계를 해결하고자 합니다 .

#Review #LLM Agents #Safety Testing #Evidence-Grounded Verification #Automated Red-Teaming #Software Engineering #Sandboxed Execution

2026년 7월 6일

[논문리뷰] ResearchStudio-Reel: Automate the Last Mile of Research from Paper to Poster, Video, and Blog

본 논문은 학술 논문을 포스터, 영상, 블로그 글로 변환하는 이른바 'Last Mile' 연구 확산 과정의 비효율성을 해결하기 위해 ResearchStudio-Reel을 제안한다 . 기존 연구(Baseline) 시스템들은 다음과 같은 3가지 주요 한계점을 가진다.

#Review #Generative AI #Research Dissemination #Automated Poster Generation #Agent Framework #Multi-modal Workflow #Scientific Communication

2026년 7월 6일

[논문리뷰] ResearchStudio-Idea: An Evidence-Grounded Research-Ideation Skill Suite from ML Conference Outcomes

본 논문은 LLM 기반 연구 에이전트의 발전에도 불구하고, 연구 아이디어의 타당성을 문헌에 근거하여 확보하고 잠재적 실패 가능성을 사전에 검토하는 'first-mile' 단계의 체계적인 지원이 부족하다는 문제를 해결합니다.

#Review #Research Ideation #LLM Agent #Evidence-Grounded #Ideation Pattern #Conference Outcomes #Novelty Assessment

2026년 7월 6일

[논문리뷰] PraMem: Practice-derived Experiential Memory for Long-horizon Behavior Prediction

본 논문은 Long-horizon behavior prediction에서 발생하는 잠재적 행동 패턴 유도(Induction)의 어려움과 LLM의 내재적 인지 편향 문제를 해결하기 위해 제안되었습니다.

#Review #Long-horizon Behavior Prediction #Large Language Models #Experiential Memory #Dialectical Philosophy #Behavioral Pattern Induction #Cognitive Bias Mitigation

2026년 7월 6일

[논문리뷰] PixWorld: Unifying 3D Scene Generation and Reconstruction in Pixel Space

본 논문은 3D 장면 생성과 복원이라는 두 가지 이질적인 과제를 단일 픽셀 공간 프레임워크 내에서 통합적으로 해결하는 것을 목표로 합니다.

#Review #3D Scene Generation #3D Scene Reconstruction #Pixel-Space Diffusion #3D Gaussian Splatting #Geometry Perception Loss

2026년 7월 6일

[논문리뷰] PixCon: Clean-Positive Contrastive Learning for Foundation-Model Semi-Supervised Segmentation

기존의 SSSS 연구들은 주로 Pseudo-label의 신뢰성을 판단하기 위한 confidence filtering 전략에 의존해 왔습니다. 그러나 DINOv2와 같은 강력한 foundation-model backbone이 등장하면서, 단순히 threshold를 높이는 것만으로는 성능 향상에 한계가 있음이 드러났습니다.

#Review #Semi-supervised Semantic Segmentation #Foundation Models #Contrastive Learning #Pseudo-labeling #DINOv2 #Embedding Space #Consistency Regularization

2026년 7월 6일

[논문리뷰] Perceptual Flow Matching for Few-Step Generative Modeling

본 논문은 기존 Flow Matching 모델이 고품질 출력을 생성하기 위해 수십 번의 샘플링 단계(35~50 steps)를 요구하여 발생하는 높은 추론 Latency 문제를 해결하고자 합니다.

#Review #Flow Matching #Few-Step Generation #Perceptual Supervision #Perceptual Feature Space #Generative Modeling #Classifier-free Guidance

2026년 7월 6일

[논문리뷰] OmniOpt: Taxonomy, Geometry, and Benchmarking of Modern Optimizers

본 논문은 현대의 방대한 LLM 최적화 방법론들이 파편화되어 있어 체계적인 비교와 선택이 어렵다는 문제를 해결하고자 합니다. 기존 연구들은 각기 다른 가정과 notation을 사용하여 성능 비교가 프로토콜에 따라 크게 달라지며, 특정 메커니즘이 업데이트 파이프라인의 어느 지점에 개입하는지 명확하지 않습니다.

#Review #LLM Pretraining #Optimizer #Taxonomy #Meta-Pipeline #Benchmarking #Linear Minimization Oracle #LMO

2026년 7월 6일

[논문리뷰] Multiplayer Interactive World Models with Representation Autoencoders

본 연구는 다수의 에이전트가 상호작용하는 복잡하고 역동적인 환경에서, 실시간으로 작동하며 장기적으로 일관성을 유지하는 Multiplayer Interactive World Model을 구축하는 것을 목표로 합니다.

#Review #Multiplayer World Model #Latent Diffusion #Representation Autoencoder #Rocket League #Real-time Simulation #Action-conditioned Dynamics

2026년 7월 6일

[논문리뷰] Multi-Turn Agentic Scientific Literature Search via Workflow Induction

본 논문은 과학 문헌 검색 과정에서 발생하는 사용자의 불명확한 의도와 진화하는 요구사항을 기존의 정적인 검색 시스템이 효과적으로 해결하지 못한다는 문제에서 출발합니다.

#Review #Agentic Search #Workflow Induction #Multi-turn Interaction #DAG #Scientific Literature Search #Preference Optimization #Tool Use

2026년 7월 6일

[논문리뷰] Mastermind: Strategy-grounded Learning for Repository-Scale Vulnerability Reproduction

본 논문은 대규모 저장소 수준의 취약점 재현 과정에서 LLM 에이전트가 겪는 핵심 병목 현상이 저수준의 명령어 실행이 아닌 고수준의 전략 선택에 있음을 지적한다 .

#Review #Vulnerability Reproduction #LLM Agents #Strategy-grounded Learning #Dual-loop Framework #GRPO #Repository-Scale SE

2026년 7월 6일

[논문리뷰] MV-Forcing: Long Multi-View Video Generation via 4D-Grounded Spatio-Temporal Self-Forcing

본 논문은 temporal autoregression과 multi-view synthesis의 장점을 결합하여, 시간과 뷰 개수의 제약 없이 일관된 장편 비디오를 생성하는 것을 목표로 합니다.

#Review #Multi-View Video Generation #Autoregressive Model #Diffusion Models #Spatio-Temporal Self-Forcing #3D Reconstruction #Distribution Matching Distillation #4D-Grounded Geometric Prior

2026년 7월 6일

[논문리뷰] MANCE: Manifold Aware Concept Erasure

본 논문은 뉴럴 네트워크의 표현 공간에서 특정 개념을 제거할 때 발생하는 정보 손실 및 부작용 문제를 해결하기 위해 MANCE를 제안합니다.

#Review #Concept Erasure #Manifold Constraint Hypothesis #Representation Surgery #Nonlinear Erasure #Neural Representation #Tangent Space Alignment

2026년 7월 6일

[논문리뷰] LLM-as-a-Verifier: A General-Purpose Verification Framework

본 논문은 대규모 언어 모델의 성능 향상을 위한 핵심 축으로서 'Verification'이 충분히 탐구되지 않았다는 문제의식에서 출발합니다. 기존의 표준적인 LM Judge 모델은 점수 분포를 단일의 Discrete한 토큰으로 압축함으로써 평가의 변별력이 낮아지고 Tie(동점) 비율이 높아지는 한계가 있습니다 .

#Review #Verification Scaling #Probabilistic Formulation #Logit Expectation #Score Granularity #Repeated Evaluation #Criteria Decomposition #Agentic Tasks

2026년 7월 6일

[논문리뷰] KVpop -- Key-Value Cache Compression with Predictive Online Pruning

LLM의 실시간 추론에서 KV cache는 문맥 길이에 선형적으로 증가하여 long-context inference의 병목 현상을 유발합니다.

#Review #KV Cache Compression #Large Language Models #Sparse Attention #Predictive Pruning #Inference Efficiency #Memory Optimization

2026년 7월 6일

[논문리뷰] InternVLA-A1.5: Unifying Understanding, Latent Foresight, and Action for Compositional Generalization

본 논문은 기존 VLA 모델들이 직면한 Semantics Erosion(사전 학습된 백본의 의미론적 지식 저하), Heterogeneous Objective Interference(서로 다른 학습 목적 간의 간섭), 그리고 픽셀 단위의 미래 예측에 따른 높은 비용 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Latent Foresight #Compositional Generalization #Multimodal Co-training #Flow Matching

2026년 7월 6일

[논문리뷰] GigaWorld-1: A Roadmap to Build World Models for Robot Policy Evaluation

로봇 파운데이션 모델의 발전에도 불구하고, 정책 성능을 평가하기 위한 물리적 로봇 실행은 여전히 높은 비용과 긴 시간이 소요되는 핵심 병목 구간입니다.

#Review #World Model #Robot Policy Evaluation #WMBench #Embodied AI #Video Generation #Policy Rollout

2026년 7월 6일

[논문리뷰] GORGO: Online Tuning for Cross-Region Network-Aware LLM Serving

본 논문은 전역적으로 분산된 LLM 추론 환경에서 네트워크 지연, KV-cache 로컬리티, 서버 부하를 동시에 고려하는 최적의 로드 밸런싱 정책 부재 문제를 해결합니다.

#Review #LLM Serving #Cross-Region #Load Balancing #KV-Cache #Online Tuning #Network Latency #Evolutionary Strategy

2026년 7월 6일

[논문리뷰] EdgeBench: Unveiling Scaling Laws of Learning from Real-World Environments

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 배포 후 실제 환경에서 어떻게 학습하고 진화하는지에 대한 과학적 이해가 부족하다는 점을 해결하고자 한다. 기존의 벤치마크는 짧은 시간 내의 일회성 결과 측정에 집중하여, 에이전트가 상호작용을 통해 점진적으로 개선되는 학습 동역학을 분석하기에 부적합하다 .

#Review #EdgeBench #Scaling Laws #Log-Sigmoid #Agent Learning #Real-World Environments #Frontier Expansion

2026년 7월 6일

[논문리뷰] EVA-Client: A Unified Data Collection, Inference, and Deployment Framework for Embodied Policies on Real Robots

본 논문은 최신 Vision-Language-Action(VLA) 및 World-Action 모델(WAM)의 학습 생태계는 성숙해진 반면, 학습된 모델을 실제 로봇에 배포하고 평가하는 과정은 여전히 파편화된 스크립트에 의존하고 있다는 점을 해결하고자 합니다 .

#Review #Embodied AI #Robot Manipulation #Deployment Framework #Inference Strategies #Data Collection #Real-Robot Evaluation #VLA Models

2026년 7월 6일

[논문리뷰] Do All Visual Tokens Matter Equally? Object-Evidence Preserving Token Merging for Vision-Language Retrieval

본 연구는 다중 벡터 기반의 Vision-Language Retrieval에서 발생하는 과도한 스토리지 비용과 추론 지연 문제를 해결하고자 합니다.

#Review #Vision-Language Retrieval #Token Merging #Late Interaction #Object-Aware #Token Compression #Multi-vector Retrieval

2026년 7월 6일

[논문리뷰] Deform360: A Massive Multi-view Visuotactile Dataset for Deformable World Models

변형 가능한 물체(deformable objects)는 무한대에 가까운 자유도와 복잡한 물리적 특성으로 인해 로봇 제어 및 동역학 예측에 큰 난제로 작용합니다.

#Review #Deformable Object #World Model #Visuotactile #3D Tracking #Robot Planning #Dataset #Gaussian Splatting

2026년 7월 6일

[논문리뷰] CONFLUX: A Latent Diusion Model for 3D Chest-CT Synthesis with RL Post-Training

본 논문은 3D 의료 영상 합성 모델에서 발생하는 임상적 제어 능력의 부족과 조건부 일치도(Conditioning Faithfulness) 문제를 해결하기 위해 제안되었다.

#Review #Latent Diffusion Model #Chest-CT Synthesis #Rectified-Flow Transformer #Reinforcement Learning #Group-Relative Policy Optimization #Conditioning Faithfulness

2026년 7월 6일

[논문리뷰] AI Wizards at EXIST 2026: Hierarchical Soft-Label Learning for Multimodal Sexism Identification in Memes

본 논문은 온라인 밈(Meme)에 포함된 성차별적 콘텐츠를 자동 탐지하기 위해 기존의 이분법적 분류 방식이 갖는 한계를 극복하고자 합니다.

#Review #Multimodal Sexism Identification #Learning with Disagreement #Hierarchical Classification #Soft-Label Learning #Gated MLP #Gemini Embedding 2

2026년 7월 6일

[논문리뷰] VLA-Corrector: Lightweight Detect-and-Correct Inference for Adaptive Action Horizon

본 논문은 현대 VLA 정책이 고질적으로 겪는 'predict-then-blindly-execute' 패러다임의 한계를 해결하고자 합니다.

#Review #VLA #Action Chunking #Latent-space Vision Monitor #Online Gradient Guidance #Embodied Intelligence #Adaptive Action Horizon #Corrective Inference

2026년 7월 5일

[논문리뷰] The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning

본 논문은 LLM RL 파이프라인에서 발생하는 Training-Inference Mismatch가 단순히 알고리즘적 오류를 넘어 Objective Misalignment를 유발한다는 점을 지적한다.

#Review #Large Language Model #Reinforcement Learning #Training-Inference Mismatch #Monotonic Policy Improvement #Policy Optimization #Alignment

2026년 7월 5일

[논문리뷰] Securing the AI Agent: A Unified Framework for Multi-Layer Agent Red Teaming

본 논문은 현대 AI 인프라가 급격히 성장함에 따라 기존 보안 도구가 해결하지 못하는 새로운 공격 표면이 형성되었음을 지적합니다. .

#Review #AI Security #Agent Red Teaming #Model Context Protocol (MCP)#Infrastructure Scanning #LLM-driven Auditing #Supply Chain Security

2026년 7월 5일

[논문리뷰] OrbitQuant: Data-Agnostic Quantization for Image and Video Diffusion Transformers

본 논문은 Diffusion Transformers의 추론 효율성을 높이기 위해 데이터 보정(calibration)이 필요 없는 새로운 Post-Training Quantization (PTQ) 프레임워크인 OrbitQuant를 제안합니다.

#Review #Diffusion Transformers #Post-Training Quantization #Data-Agnostic #RPBH Rotation #Distributional Codebook #Inference Efficiency

2026년 7월 5일

[논문리뷰] MultAttnAttrib: Training-Free Multimodal Attribution in Long Document Question Answering

본 논문은 긴 멀티모달 문서에서 생성된 답변의 근거를 정확히 찾아내는 Multimodal Attribution 문제를 해결하고자 합니다. 기존의 연구들은 주로 텍스트 기반의 단일 모달(unimodal) 설정에 집중되어 있어, 텍스트와 이미지가 혼재된 실제 문서에서의 복합적인 근거를 로컬라이징하는 데 한계가 있습니다.

#Review #Multimodal Attribution #Long Document #Training-Free #Mechanistic Interpretability #Attention Heads #Causal Mediation Analysis #MultAttrEval

2026년 7월 5일

[논문리뷰] Interpretation-Oriented Cloud Removal via Observation-Anchored Residual Flow with Geo-Contextual Alignment

본 논문은 기존의 클라우드 제거(CR) 방법론들이 시각적 현실성(visual realism)에만 치중하여 정작 중요한 하위 분석 작업(downstream interpretation)의 신뢰성을 떨어뜨리는 문제를 해결하고자 합니다.

#Review #Cloud Removal #Observation-Anchored Residual Flow #Geo-Contextual Prior Alignment #Vision Foundation Model #Semantic Integrity #Remote Sensing

2026년 7월 5일

[논문리뷰] Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

본 논문은 현대의 Embodied AI 모델들이 요구하는 복잡한 실행 조건을 기존의 범용 LLM/VLM 추론 런타임이 충족하지 못하는 문제를 해결하고자 합니다.

#Review #Embodied AI #Inference Runtime #VLA #WAM #C++#Heterogeneous Computing #Closed-loop Control

2026년 7월 5일

[논문리뷰] DataComp-VLM: Improved Open Datasets for Vision-Language Models

본 논문은 현대의 Autoregressive VLM 학습에서 데이터 큐레이션 전략이 모델 성능을 결정짓는 핵심 요소임에도 불구하고, 이에 대한 표준화된 벤치마크가 부족하다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Data Curation #Benchmark #Instruction-Tuning #Data Mixing #Scaling Laws #Pretraining

2026년 7월 5일

[논문리뷰] AnyBokeh: Physics-Guided Any-to-Any Bokeh Editing with Optical Fingerprint Transfer

본 논문은 기존 bokeh editing 기법들이 주로 AIF 이미지를 입력으로 전제하거나, 입력 이미지를 AIF로 강제 변환하여 처리함으로써 발생하는 한계점을 해결하고자 한다.

#Review #Any-to-Any Bokeh Editing #Optical Fingerprint Transfer #Circle-of-Confusion (CoC)#Relative Blur Synthesis #Dual-CoC Conditioning #Physics-Guided Rendering

2026년 7월 5일

[논문리뷰] AGE: Adaptive-masking for Graph Embedding in Graph Retrieval-Augmented Generation

현재 GraphRAG 연구는 그래프의 복잡한 관계를 LLM이 효과적으로 이해하도록 하는 데 어려움을 겪고 있다. 특히 기존의 비모수적(non-parametric) 검색 방식은 그래프 내 필수적인 구조 정보를 누락하거나 중복되는 노드를 포함하는 경우가 많아, 전체적인 검색 정확도와 추론 성능을 저하시키는 원인이 된다.

#Review #GraphRAG #Adaptive-masking #Graph Embedding #Self-Supervised Learning #JEPA #Reinforcement Learning

2026년 7월 5일

[논문리뷰] WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

본 논문은 기존 비디오 월드 모델이 시야를 벗어난 객체의 움직임과 정체성을 유지하지 못하는 문제를 해결하기 위해 WorldDirector를 제안합니다.

#Review #World Model #Video Generation #Dynamic Memory #Object Permanence #Controllable Simulation #Flow Matching #Spatial-Aware Control

2026년 7월 2일

[논문리뷰] When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

본 논문은 기존의 검색 에이전트 벤치마크가 사용자의 질의가 완전하고 명시적이라는 비현실적인 가정을 바탕으로 수행된다는 한계를 지적한다 .

#Review #Deep Search #Large Language Models #Ambiguity Detection #Interactive Clarification #Multi-hop Reasoning #Benchmark #Information Retrieval

2026년 7월 2일

[논문리뷰] Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR

본 논문은 Multi-domain RLVR에서 도메인별 학습 효율과 일반화 성능이 불균일하다는 문제에 주목합니다 [Figure 1(a)].

#Review #Multi-domain RL #RLVR #Curriculum Learning #Gradient-based Transferability #LLM Reasoning #Bandit Algorithm

2026년 7월 2일

[논문리뷰] SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

본 논문은 기존의 LLM Agent 평가 방식이 최종적인 Verifier 성공 여부에만 의존하여, 실제 과정상의 비효율이나 부적절한 Skill 사용 방식을 간과하는 문제를 해결하고자 한다.

#Review #Agentic Skill-Use #Self-Evolving Rubrics #Process Supervision #Skill Libraries #Trajectory Evaluation #LLM Agents #SFT

2026년 7월 2일

[논문리뷰] Representation Distribution Matching for One-Step Visual Generation

본 연구는 고품질의 one-step 이미지 생성을 위해 distribution matching 패러다임의 설계 공간(design space)을 체계적으로 규명하고자 합니다. 기존 연구들은 비교 대상(discrepancy)이나 표현 방식(representation)에 대한 선택이 고정되어 있어 품질의 한계가 명확했습니다.

#Review #One-step Generation #Distribution Matching #MMD #Nyström #Representation Learning #Constrained Optimization #SWr14

2026년 7월 2일

[논문리뷰] Program-as-Weights: A Programming Paradigm for Fuzzy Functions

본 논문은 현대의 복잡한 소프트웨어 작업들이 정교한 규칙으로 정의되기 어렵다는 점에 주목하여, 이를 LLM API에 의존할 때 발생하는 높은 비용, 낮은 로컬리티(locality), 재생산성 문제 등을 해결하고자 한다 .

#Review #Fuzzy Functions #Program-as-Weights #Neural Compiler #Parameter-Efficient Fine-Tuning #LoRA #Small Language Models #FuzzyBench

2026년 7월 2일

[논문리뷰] PACE: A Proxy for Agentic Capability Evaluation

본 논문은 Agentic Benchmark 평가의 극심한 비용 및 복잡성 문제를 해결하기 위해 Non-Agentic 데이터를 프록시(Proxy)로 활용하는 방안을 제안한다. 기존 에이전트 벤치마크는 복잡한 인프라와 긴 수행 시간으로 인해 평가 빈도가 제한적이며 접근성이 떨어진다.

#Review #LLM Agents #Agentic Evaluation #Benchmark Compression #Instance Selection #Proxy Framework #Model Capabilities

2026년 7월 2일

[논문리뷰] Optimizing Visual Generative Models via Distribution-wise Rewards

본 논문은 시각적 생성 모델의 강화학습 과정에서 발생하는 Reward Hacking과 이로 인한 생성 다양성 저하 및 시각적 결함 문제를 해결하고자 합니다.

#Review #Distribution-wise Reward #Reinforcement Learning #Visual Generative Models #Subset-replace Strategy #Model Merging #Flow Matching #FID

2026년 7월 2일

[논문리뷰] Multi-Resolution Flow Matching: Training-Free Diffusion Acceleration via Staged Sampling

본 논문은 최신 diffusion 및 flow matching 모델의 연산 비용이 지나치게 높다는 점을 해결하고자 한다. 기존의 timestep distillation이나 feature caching 방식은 모델 학습이 필요하거나 가속 효율이 제한적이라는 한계가 존재한다.

#Review #Diffusion Models #Flow Matching #Training-Free Acceleration #Multi-Resolution Generation #Staged Sampling #Super-Resolution

2026년 7월 2일

[논문리뷰] Morphing into Hybrid Attention Models

본 논문은 하이브리드 Attention 모델 구축 시 핵심적인 레이어 선택(Layer Selection) 과정에서의 비효율성과 비적정성을 해결하는 것을 목표로 합니다. 기존 연구들은 하이브리드 레이어 구성을 고정된 패턴이나 개별 레이어의 중요도를 독립적으로 평가하는 휴리스틱 방식에 의존했습니다 .

#Review #Hybrid Attention #Transformer-to-hybrid Conversion #Layer Selection #Joint Optimization #Large Language Models #Long-context Efficiency

2026년 7월 2일

[논문리뷰] Logit-Contribution Scoring Identifies Non-Literal Retrieval Heads

본 논문은 기존의 retrieval head 탐지 방식이 non-literal retrieval의 핵심 메커니즘을 포착하지 못하는 한계를 해결하기 위해 제안되었습니다.

#Review #Logit-Contribution Scoring #LOCOS #Non-literal Retrieval #Attention Heads #Mechanistic Interpretability #Transformer Circuits #OV Circuit

2026년 7월 2일

[논문리뷰] Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

본 논문은 현재 VLA 학습이 겪고 있는 데이터 부족 문제를 해결하기 위해, 대규모 Expert Demonstration 의존성을 탈피하는 새로운 사전 학습 프레임워크를 제안합니다. 기존의 VLA 모델은 고가의 인간 조작 데이터에 과도하게 의존하며, 이는 데이터 수집의 확장성을 저해하는 근본적인 병목 현상으로 작용합니다.

#Review #Vision-Language-Action Models #Task-Agnostic Pretraining #Embodied AI #Inverse Dynamics #Physical Grounding #Robotic Manipulation

2026년 7월 2일

[논문리뷰] InstanceControl: Controllable Complex Image Generation without Instance Labeling

본 논문은 기존의 Controllable Image Generation 방법론들이 복잡한 다중 인스턴스 환경에서 겪는 Attribute Confusion 문제를 해결하기 위해 InstanceControl을 제안합니다 .

#Review #Controllable Image Generation #Multi-instance #Vision-Language Models #Instance-level Correspondence #Mask Refinement #Diffusion Transformers

2026년 7월 2일

[논문리뷰] From SRA to Self-Flow: Data Augmentation or Self-Supervision?

본 연구는 SRA 기법이 단순한 데이터 증강(Data Augmentation) 메커니즘인지, 혹은 더 근본적인 자기 지도 학습(Self-Supervision)의 형태인지를 규명하는 것을 핵심 문제로 삼습니다.

#Review #SRA #Self-Flow #Data Augmentation #Self-Supervision #Representation Learning #Knowledge Distillation

2026년 7월 2일

[논문리뷰] EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

본 논문은 현대의 자율 에이전트가 단순히 정적인 출력을 생성하는 것을 넘어, 환경 피드백을 통해 실행 가능한 정책을 반복적으로 개선해야 하는 도전 과제를 다룹니다. 기존 벤치마크는 최종 점수만을 평가하거나 복잡한 엔지니어링 작업과 섞여 있어, 에이전트의 '정책 진화' 능력을 독립적으로 측정하기 어렵다는 한계가 있습니다.

#Review #Autonomous Policy Evolution #Interactive Environments #Benchmark #Agentic Systems #Policy Optimization #Trajectory Analysis

2026년 7월 2일

[논문리뷰] Discrete Diffusion Language Models for Interactive Radiology Report Drafting

본 논문은 의료 분야의 Radiology Report Generation(RRG)이 여전히 Autoregressive(AR) 기반 모델에 의존하고 있으며, 이로 인해 발생하는 상호작용적 drafting의 한계를 극복하고자 합니다.

#Review #Discrete Diffusion Language Models #Radiology Report Generation #Any-Order Infill #Medical Foundation Models #LoRA #Vision-Language Models #Inference Speed

2026년 7월 2일

[논문리뷰] Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

본 연구는 Continual Post-Training 과정에서 온-폴리시(On-policy) 학습이 망각을 완화한다는 기존의 낙관적 견해를 비판적으로 재검토하고, 특히 SDPO와 같은 토큰 수준의 밀집 증류 기법이 오히려 모델의 성능 저하와 붕괴를 초래할 수 있음을 입증합니다.

#Review #Continual Post-Training #Self-Distillation #On-Policy Reinforcement Learning #Catastrophic Forgetting #Policy Optimization #Token-Level Supervision

2026년 7월 2일

[논문리뷰] Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

본 논문은 의료 분야의 MLLM(Multimodal Large Language Model)이 추론 과정에서 겪는 Sparse Credit Assignment 문제와 그로 인한 Failure Cascades 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Medical Reasoning #Reinforcement Learning #Process Supervision #Failure Cascades #Advantage Shaping #VQA

2026년 7월 2일

[논문리뷰] AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

본 논문은 기존의 STVG 평가 방식이 일반적인 일상 데이터에만 국한되어 있어, 실제 산업 현장이나 전문 분야에서 요구되는 고차원적 인식 능력을 측정하지 못한다는 문제를 제기합니다 .

#Review #Spatio-Temporal Video Grounding #Vision-Language Models #Domain Adaptation #In-Context Learning #Benchmark #Video Understanding

2026년 7월 2일

[논문리뷰] AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

본 연구는 Long-Horizon LLM 에이전트가 겪는 'Context Growth' 문제를 해결하고, 에이전트의 메모리 인터페이스를 체계적으로 평가할 수 있는 통제된 환경을 제공하기 위해 수행되었습니다.

#Review #Long-Horizon LLM Agents #Bounded-Memory Contract #Typed Retrieval #AgenticSTS #Slay the Spire 2 #Loop Engineering

2026년 7월 2일

[논문리뷰] AgenticDataBench: A Comprehensive Benchmark for Data Agents

본 연구는 기존 데이터 에이전트 벤치마크가 복잡한 실제 비즈니스 시나리오를 충분히 반영하지 못하고, 세부적인 작업 수준의 성능 분석을 제공하지 못한다는 한계점을 해결하고자 합니다.

#Review #Data Agent #Benchmark #Skill Extraction #Data Science #LLM #Task Generation #Evaluation Pipeline

2026년 7월 2일

[논문리뷰] AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

본 논문은 정맥 인식 분야에서 자연 이미지용으로 개발된 기존 데이터 증강 기법들이 정맥 구조의 미세한 지형(Topology)과 질감을 훼손할 수 있다는 문제점을 해결하고자 합니다. 기존의 연구들은 특정 모델이나 데이터셋에 한정된 평가를 수행하여, 다양한 신경망 아키텍처와 증강 전략 간의 체계적인 비교가 부족했습니다 .

#Review #Vein Recognition #Data Augmentation #Biometrics #Reliability #Deep Learning #Benchmark #Robustness

2026년 7월 2일

[논문리뷰] When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors

본 논문은 LLM이 표 기반 작업에서 구조를 이해하더라도 데이터를 인용하는 과정에서 '부주의'하게 오류를 범하는 Data Referencing Errors (DREs) 문제를 해결하고자 합니다 .

#Review #Large Language Models #Table Reasoning #Data Referencing Errors #Rejection Sampling #Critic Model #Reinforcement Learning

2026년 7월 1일

[논문리뷰] Valdi: Value Diffusion World Models

제공해주신 URL (https://arxiv.org/html/2607.00917)은 현재 외부 접근이 차단되어 있거나 기술적인 제약으로 인해 해당 논문의 전체 텍스트 및 Figure 데이터에 직접 접근할 수 없습니다. 따라서 논문의 핵심 내용을 상세히 분석하고 요구하신 형식에 맞추어 요약하는 것이 불가능합니다.

2026년 7월 1일

[논문리뷰] TurboServe: Serving Streaming Video Generation Efficiently and Economically

본 논문은 스트리밍 비디오 생성 워크로드에서 발생하는 세션의 상태 유지와 동적 자원 수요라는 이중 과제를 해결하기 위해 TurboServe를 제안한다.

#Review #Streaming Video Generation #Online Scheduling #Autoscaling #GPU Resource Management #Load Balancing #Latency-Optimized Serving

2026년 7월 1일

[논문리뷰] The State-Prediction Separation Hypothesis

본 논문은 표준 Transformer가 단일 연산 스트림 내에서 다음 토큰 예측과 상태 저장을 동시에 수행함으로써 발생하는 'Present-Future Tension' 문제를 해결하고자 합니다.

#Review #Large Language Models #State-Prediction Separation #Transformer Architecture #Compute Efficiency #Data Efficiency #Gradient Analysis

2026년 7월 1일

[논문리뷰] Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

본 연구는 기존 LLM 에이전트 시스템이 competition-level의 문제 해결 능력은 갖추었으나, 실세계의 복잡하고 긴 호흡의 과업을 end-to-end로 완수하지 못하는 비대칭성 문제를 해결하고자 합니다.

#Review #LLM #Agentic Paradigm #Multi-step Instruction Execution #Vision-Language Models #Scientific Discovery #Cost Efficiency

2026년 7월 1일

[논문리뷰] PixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking

본 논문은 기존 MLLM 기반 시각 추론 에이전트들이 인지와 추론을 단일 모델 내에서 결합함으로써 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Active Visual Search #Perception-Reasoning Decoupling #Referring Segmentation #Inattentional Blindness

2026년 7월 1일

[논문리뷰] Personalization as Inverse Planning: Learning Latent Design Intents for Agentic Slide Generation via Structural Denoising

본 논문은 기존의 AI 에이전트 기반 슬라이드 생성 시스템이 가진 Page-level 디자인의 한계를 해결하고자 합니다. 기존 방식들은 사전에 정의된 템플릿에 의존하거나, 사용자의 장황한 직접 지시(verbose instructions)에만 의존하여 개인화된 디자인 의도를 파악하는 데 실패합니다.

#Review #Page-level Slide Personalization #Inverse Planning #Structural Denoising #Reinforcement Learning #Latent Design Intent #Multi-agent Framework #Agentic Workflow

2026년 7월 1일

[논문리뷰] PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

본 논문은 기존의 MLLM 벤치마크가 포화 상태에 이르렀음에도 불구하고, 실제 환경에서의 모델 성능은 여전히 취약하다는 '평가 역설(Evaluation Paradox)'을 해결하고자 합니다 .

#Review #Multimodal Large Language Models #Perception Evaluation #Rubric-Based Auditing #Gated Scoring #Visual Grounding #Human Alignment

2026년 7월 1일

[논문리뷰] Perceive-to-Reason: Decoupling Perception and Reasoning for Fine-Grained Visual Reasoning

본 논문은 VLM이 고해상도 이미지 내의 미세한 시각적 단서를 인식하고 추론하는 능력이 부족하다는 문제에 주목합니다 .

#Review #Fine-Grained Visual Reasoning #VLM #Perceiver #Reasoner #Reinforcement Learning #PRA-GRPO #Decoupling

2026년 7월 1일

[논문리뷰] NoPA: Non-Parametric Online 3D Scene Graph Generation

본 논문은 실시간 3D SSG 생성 시 발생하는 계산 효율성과 기하학적 정보 손실 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #3D Scene Graph Generation #Online #Non-Parametric #Maximum Mean Discrepancy #Particle Set #Real-time #RGB-D

2026년 7월 1일

[논문리뷰] Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

본 논문은 MLLM의 추론 능력이 discrete language-space bottleneck에 의해 제한되는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Latent Reasoning #Variational Inference #Asymmetric Mutual Learning #Train-Inference Mismatch #Answer Leakage

2026년 7월 1일

[논문리뷰] MemSyco-Bench: Benchmarking Sycophancy in Agent Memory

본 논문은 에이전트 시스템에서 장기 기억이 오히려 에이전트의 판단력을 흐리는 Memory-induced Sycophancy 문제를 해결하고자 합니다. 기존의 기억 관련 벤치마크들은 주로 기억의 Retrieval 성공 여부만을 측정할 뿐, 검색된 기억이 이후의 추론 및 의사결정 과정에 미치는 부작용을 간과하고 있습니다.

#Review #LLM-based Agents #Long-term Memory #Sycophancy #Benchmark #Memory-induced Sycophancy #Post-retrieval Reasoning

2026년 7월 1일

[논문리뷰] Graph-Native Reinforcement Learning Enables Traceable Scientific Hypothesis Generation through Conceptual Recombination

본 연구는 기존 LLM이 과학적 가설 생성 시 fluent한 텍스트를 생성하더라도 intermediate reasoning의 추적 가능성(traceability)이 낮고 인과적 관계가 불분명하다는 한계를 해결하고자 한다 .

#Review #Graph-native reasoning #Scientific hypothesis generation #Reinforcement learning #Materials design #Large language models #GRPO

2026년 7월 1일

[논문리뷰] ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

본 논문은 PD-disaggregated MoE 서빙 환경에서 기존 라우팅 방식이 단순히 부하 분산(Load balancing)에만 집중하여 발생하는 비효율을 해결하고자 합니다.

#Review #Mixture-of-Experts #PD-Disaggregated Serving #Expert Locality #Decode Routing #Prefix Caching #TPOT

2026년 7월 1일

[논문리뷰] Domain Arithmetic: One-Shot VLA Adaptation under Environmental Shifts

본 논문은 VLA 모델이 학습되지 않은 새로운 환경(예: 카메라 시점 변화, 로봇 기구학적 차이)에서 성능이 저하되는 문제를 해결하고자 합니다. 기존 방식은 새로운 환경에 적응하기 위해 대량의 시연 데이터로 모든 태스크를 Fine-tuning해야 하므로, 데이터 수집 비용이 매우 크고 실용적이지 않습니다.

#Review #Vision-Language-Action Models #One-Shot Adaptation #Domain Arithmetic #Weight Arithmetic #Subspace Alignment #Environmental Shifts

2026년 7월 1일

[논문리뷰] Cross-Domain Generalization Failure in Lightweight Intrusion Detection Models for IIoT Networks

본 논문은 경량 IIoT IDS 모델들이 학습 데이터셋 내에서는 우수한 성능을 보이지만, 실제 배포 시 네트워크가 변경되면 성능이 급격히 저하되는 Cross-Domain Generalization 문제에 주목한다.

#Review #Intrusion Detection #IIoT #Cross-Domain Generalization #Lightweight Models #Feature Reliance #Adversarial Robustness #Few-Shot Adaptation

2026년 7월 1일

[논문리뷰] CausalMix: Data Mixture as Causal Inference for Language Model Training

본 논문은 LLM pretraining 시 데이터 배합(Data Mixture)의 불확실성이 모델의 일반화 성능을 저해하는 비효율적인 탐색 문제를 해결하고자 한다.

#Review #Data Mixture #Causal Inference #Language Model Training #Data Selection #Causal Structural Model

2026년 7월 1일

[논문리뷰] BioInsight: Multi-Agent Orchestration for Interactive Biomedical Knowledge Discovery

본 논문은 생의학 분야에서 AI가 생성하는 분석 리포트가 여전히 정적인 텍스트나 표에 머물러 있어, 연구자가 근거를 검증하거나 불확실성을 확인하고 가설을 수정하는 데 한계가 있다는 문제를 제기합니다 .

#Review #Multi-Agent System #Biomedical Knowledge Discovery #Evidence-Centered Interface #Provenance-Preserving #Protein-Function Reasoning #Agentic Workflow

2026년 7월 1일

[논문리뷰] Autonomous Scientific Discovery via Iterative Meta-Reflection

본 논문은 기존의 자율 과학적 발견 시스템들이 가진 고립된 가설 생성 방식과 수동적인 목표 설정 의존성 문제를 해결하고자 한다. 기존 연구들은 대개 단일 데이터에 대해 개별적인 가설을 생성할 뿐, 과거의 발견을 통합적으로 종합하여 구조적인 미지 현상을 추론하는 능력이 부족하다 .

#Review #Autonomous Scientific Discovery #Iterative Meta-Reflection #Large Language Models #Multimodal Data Analysis #Statistical Validation #Open-ended Research

2026년 7월 1일

[논문리뷰] AutoTrainess: Teaching Language Models to Improve Language Models Autonomously

본 논문은 최신 LLM이 복잡한 소프트웨어 엔지니어링 작업에 능숙함에도 불구하고, 정작 모델 자체의 성능을 개선하는 과정은 여전히 인간의 높은 노동력과 전문 지식에 의존하고 있다는 점을 해결하고자 합니다.

#Review #Autonomous Post-Training #LM Agent #Agent-Computer Interface (ACI)#PostTrainBench #LLM Self-Improvement #Software Engineering

2026년 7월 1일

[논문리뷰] AtomiMed: Hierarchical Atomic Fact-Checking for Universal Clinical-Aware Medical Report Evaluation

본 논문은 기존의 Medical Report Generation(MRG) 평가 지표들이 임상적 사실성(Clinical factual accuracy)을 제대로 측정하지 못하고, 특히 치명적인 진단 오류를 간과한다는 근본적인 한계를 해결하고자 한다.

#Review #Medical Report Generation #Fact-Checking #Clinical-Awareness #Atomic Clinical Facts #Multi-modal Benchmark #Agentic Cross-Verification

2026년 7월 1일

[논문리뷰] ASPIRE: Agentic /Skills Discovery for Robotics

본 논문은 기존 로봇 제어 방식이 환경 변화나 실패 상황에서 경험을 누적하지 못하고 매번 초기화되는 문제를 해결하고자 합니다. 기존 연구(Baseline)는 태스크 단위의 coarse한 피드백에만 의존하여 실패 원인을 정확히 진단하기 어렵고, 발견된 해결책을 재사용할 수 없는 폐쇄적인 구조를 가집니다.

#Review #Robotics #Code-as-Policy #Continual Learning #Skill Library #Evolutionary Search #Embodied AI

2026년 7월 1일

[논문리뷰] AI translation of literary texts is 'fine', but readers still prefer human translations

본 논문은 현대의 LLM 기반 번역이 문학적 텍스트를 처리할 수 있게 되었음에도 불구하고, 실제 독자의 몰입감과 문학적 경험 측면에서 인간 번역가와 어떤 차이를 보이는지에 대한 불확실성을 해결하고자 한다.

#Review #Literary Translation #Machine Translation #Human-AI Interaction #Large Language Models #Reader-centered Evaluation #Immersive Reading #Close Reading #LAIT Dataset

2026년 7월 1일

[논문리뷰] ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

본 논문은 모바일 매니퓰레이션(mobile manipulation) 환경에서 기존의 Embodied Learning 방식들이 겪는 구조적 한계를 해결하고자 합니다.

#Review #Mobile Manipulation #World Action Model #Conditional Flow Matching #Latent Actions #Mixture-of-Transformers #Dream Forcing

2026년 7월 1일

[논문리뷰] Xiaomi-GUI-0 Technical Report

본 연구는 기존 GUI 에이전트 연구들이 의존하는 정적인 벤치마크나 시뮬레이션 환경이 실제 모바일 기기의 복잡한 상태 분포를 반영하지 못하는 한계를 해결하기 위해 수행되었다.

#Review #GUI Agent #VLM #Real-Device #Reinforcement Learning #Data Flywheel #End-to-End #Mobile Automation

2026년 6월 30일

[논문리뷰] Unlocking the Visual Record of Materials Science: A Large-Scale Multimodal Dataset from Scientific Literature

본 논문은 재료과학 분야의 방대한 실험적 지식이 담긴 시각적 기록이 복합 그림 구조의 복잡성으로 인해 AI 모델이 접근할 수 없는 형태로 남아 있다는 문제를 해결하고자 한다. 기존 연구들은 주로 텍스트 기반 데이터베이스에 의존하며, 논문 내 포함된 풍부한 실험적 시각 자료를 활용하지 못하고 있다.

#Review #Multimodal dataset #Materials informatics #Compound figure detection #Information extraction #LLM #Vision-language #YOLO12-m

2026년 6월 30일

[논문리뷰] TerraDiT-Ω: Unified Spatial Control for Satellite Image Synthesis with Any Geospatial Primitive

본 논문은 기존의 위성 이미지 생성 모델들이 데이터 변환 과정에서 발생하는 기하학적 정보 손실과 컴퓨팅 병목 현상이라는 한계점에 직면해 있음을 지적한다. 기존 연구들은 위성 데이터를 Raster 기반으로 변환하여 사용하는데, 이는 정교한 지형적 특징을 왜곡하며 모델의 범용성을 저해한다 .

#Review #Satellite Imagery #Generative Models #Spatial Control #Geospatial Primitive #Diffusion Transformer #GALA #Synthetic Data Augmentation

2026년 6월 30일

[논문리뷰] SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History

본 논문은 에이전트의 스킬이 정적인 아티팩트로 취급되어 지속적인 환경 변화와 작업 배포 환경에서 유지보수가 어렵다는 문제를 해결하고자 합니다.

#Review #Agent Skill #Continual Learning #Persistent Decision History #Skill Evolution #LLM Agent #Deep Research #Role-bounded Subagent

2026년 6월 30일

[논문리뷰] Scenes as Objects, Not Primitives: Instance-Structured 3D Tokenization from Unposed Views

본 논문은 기존의 Feed-forward 3D 재구성 방법론들이 씬을 객체 단위가 아닌 밀집된 원시 기하학적 요소(Points, Gaussians)의 집합으로 표현하여 객체 수준의 추론과 조작이 어렵다는 문제를 해결합니다 .

#Review #3D Reconstruction #Instance Segmentation #Gaussian Splatting #Feed-forward #Tokenization #Object-centric

2026년 6월 30일

[논문리뷰] Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

본 연구는 LLM이 높은 자신감으로 환각(hallucination)을 생성하거나 지식의 경계를 식별하지 못하는 등 시스템적인 Metacognition 결핍 문제를 해결하고자 합니다 . 기존 모델들은 내부의 불확실성을 제대로 인지하지 못하거나 이를 언어적으로 정직하게 표현하지 못하는 한계가 있습니다.

#Review #LLM #Metacognition #Reinforcement Learning #Faithful Calibration #Uncertainty #Preference Optimization #Metacognitive Feedback

2026년 6월 30일

[논문리뷰] RedVox: Safety and Fairness Gaps in Speech Models Across Languages

본 논문은 최신 음성 인식 모델들의 안전성 및 공정성 평가가 지나치게 영어 중심적이며, 자연스러운 실사용 환경이 아닌 합성 데이터에 치중되어 있다는 한계점을 지적합니다.

#Review #Speech Models #Safety #Fairness #Multilingual #Benchmark #Red Teaming #Multimodal

2026년 6월 30일

[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .

#Review #LLM Agents #Dense Supervision #Reinforcement Learning #Q-alignment #Evaluation Benchmark #Long-Horizon #Training-Free

2026년 6월 30일

[논문리뷰] PolyFlow: Continuous Topology Embedding Flow Matching for Artist-style Mesh Generation

본 논문은 기존 Autoregressive(AR) 메쉬 생성 모델이 직면한 심각한 추론 지연 및 오류 누적 문제를 해결하기 위해 PolyFlow를 제안한다. 기존 AR 방식은 메쉬를 고정된 시퀀스로 직렬화하여 순차적으로 토큰을 예측해야 하므로, 생성 속도가 매우 느리고 복잡한 형상에서 오류가 누적되기 쉽다.

#Review #Mesh Generation #Flow Matching #Topology Embedding #Retopology #Transformer #Parallel Generation #3D-Native

2026년 6월 30일

[논문리뷰] PhotoQuilt: Training-Free Arbitrary-Resolution Photomosaics via Bootstrapped Tiled Denoising

본 논문은 기존 생성 모델이 고해상도 Photomosaic 생성 시 발생하는 전역 구조 유지와 타일 수준의 상세 묘사 사이의 상충(Trade-off) 문제를 해결하고자 합니다.

#Review #Photomosaics #Diffusion Models #Bootstrapped Tiled Denoising #Training-Free #Arbitrary-Resolution #Global Coherence #Tile Autonomy

2026년 6월 30일

[논문리뷰] Orca: The World is in Your Mind

본 논문은 일반적인 지능을 구현하기 위해 단순한 예측 모델을 넘어 세상을 이해하고 행동하는 General World Foundation Model인 Orca를 제안합니다.

#Review #World Foundation Model #Next-State-Prediction #Latent World Space #Unconscious Learning #Conscious Learning #Multimodal Readout

2026년 6월 30일

[논문리뷰] Multi-Block Diffusion Language Models

본 논문은 기존 BD-LM이 단일 블록 단위의 순차적 디코딩으로 인해 발생하는 비효율성(storing bubbles) 문제를 해결하고자 합니다 .

#Review #Diffusion Language Models #Multi-Block Diffusion #Multi-block Teacher Forcing #Block Buffer #KV Caching #Parallel Decoding #Train-Inference Alignment

2026년 6월 30일

[논문리뷰] MuSViT: A Foundation Vision Model for Sheet Music Representation

본 연구는 시각적 악보(Sheet Music) 데이터를 구조화된 디지털 포맷으로 변환하는 강력한 도메인 전용 Backbone 모델의 부재를 해결하고자 합니다.

#Review #Foundation Model #Vision Transformer #Sheet Music Recognition #Masked Autoencoders #Self-supervised Learning #Optical Music Recognition

2026년 6월 30일

[논문리뷰] MemLearner: Learning to Query Context memory for Video World Models

본 논문은 Video World Models가 긴 시간의 생성 과정에서 장면의 일관성을 유지하지 못하는 메모리 부족 문제를 해결하고자 한다.

#Review #Video World Models #Context Memory #Adaptive Query Tokens #Diffusion Transformer #Learnable Memory

2026년 6월 30일

[논문리뷰] Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

본 연구는 LLM 기반 에이전트가 현실 업무에서 반복적인 절차를 수행할 때 발생하는 Procedural Memory의 재사용성 문제를 해결하고자 한다. 기존 연구들은 로컬 환경에서의 단기 성능 향상에 집중하여, 서로 다른 태스크, 역할(Role), 모델 Backbone 간의 실질적인 전이 성능을 충분히 평가하지 못했다.

#Review #LLM Agents #Procedural Memory #Skill Transfer #Benchmark #Agent Evolution #Task Generalization

2026년 6월 30일

[논문리뷰] Little Brains, Big Feats: Exploring Compact Language Models

본 논문은 RAG 시스템의 Generation 단계에서 LLM의 높은 리소스 요구사항 문제를 해결하기 위해, 상대적으로 컴퓨팅 비용이 낮은 SLM의 활용 가능성을 탐구한다 .

#Review #Small Language Models (SLMs)#Retrieval-Augmented Generation (RAG)#On-device AI #LLM-as-a-Judge #Russian-language Benchmark

2026년 6월 30일

[논문리뷰] LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents

본 논문은 기존 운영체제가 인간 사용자에게 최적화되어 있어 AI 에이전트의 효율적인 제어를 방해한다는 문제점을 해결하고자 합니다.

#Review #AI Agents #Operating Systems #Accessibility #Semantic Blueprint #UI Automation #Computer Use #LLM

2026년 6월 30일

[논문리뷰] GEAR: Guided End-to-End AutoRegression for Image Synthesis

본 논문은 현대의 시각적 생성 모델들이 tokenizer와 generator를 2단계로 분리하여 학습함으로써 발생하는 비효율성을 해결하고자 합니다 .

#Review #GEAR #Autoregressive #Tokenizer #End-to-End #Representation Alignment #Vector Quantization #Image Synthesis

2026년 6월 30일

[논문리뷰] FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model

본 논문은 기존 Spoken Language Model(SLM)들이 고정된 frame rate(fixed frame rate)를 사용하여 불필요한 연산 자원을 낭비하고, 추론 시 속도와 품질 간의 유연한 조절이 불가능하다는 문제를 해결하고자 한다.

#Review #Spoken Language Model #Dynamic Frame Rate #Controllable Generation #Speech Tokenization #Frame Merging #Inference Efficiency

2026년 6월 30일

[논문리뷰] Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

본 논문은 최적화 작업에서 LLM의 탐색 및 개선 능력이 외부 Scaffold에 의존적이며, 모델 자체에 내재화되지 않는다는 문제를 해결합니다. 기존 연구들은 각 작업을 개별적으로 접근하여 매번 처음부터 탐색을 수행하고, 탐색 경험을 재사용하지 않는다는 한계가 있습니다.

#Review #Evolution Fine-Tuning #Large Language Models #Optimization Tasks #Cross-task Generalization #Search Scaffolds #Evolutionary Search #ℱinch

2026년 6월 30일

[논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents

본 논문은 기존의 실행 기반(Execution-based) 프로그램 검증기가 가진 과도한 엔지니어링 오버헤드와 비확장성 문제를 해결하기 위해 Dockerless를 제안합니다.

#Review #Coding Agents #Environment-Free #Program Verifier #SWE-bench #Reinforcement Learning #Supervised Fine-tuning

2026년 6월 30일

[논문리뷰] DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation

기존의 Text-rich image 데이터 구축 방식은 고정된 텍스트 크롤링 및 필터링(Crawl-filter-freeze paradigm)에 의존하고 있어, 데이터 구축 과정에서 발생하는 다양한 실패 사례를 유의미한 정보로 활용하지 못하는 한계가 있습니다.

#Review #Data Construction #Multi-Agent System #Text-Rich Image Generation #Feedback Loop #Policy Evolution

2026년 6월 30일

[논문리뷰] DOPD: Dual On-policy Distillation

본 논문은 OPD 환경에서 특권 정보를 주입할 때 발생하는 Privilege Illusion 문제를 해결하고자 합니다.

#Review #On-policy Distillation #Privileged Information #Privilege Illusion #Advantage-aware #Dual Distillation #Large Language Model #Vision-Language Model

2026년 6월 30일

[논문리뷰] BrainJanus: A Unified Model for Understanding and Generation across Brain, Vision, and Language

본 논문은 기존의 뇌-기계 인터페이스(BCI) 연구들이 Brain encoding과 decoding을 독립적인 작업으로 간주하고, 모달리티 간 통합이 결여된 단편적인 접근 방식을 취하는 한계를 해결하고자 합니다.

#Review #BrainJanus #Unified Model #Brain Encoding #Brain Decoding #Autoregressive #Omni Space #Tokenization

2026년 6월 30일

[논문리뷰] BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding

본 논문은 기존의 Diffusion-based Speculative Decoding 방식이 모든 입력 데이터에 대해 동일한 Block Size를 사용하는 정적(static) 전략에 의존하고 있어 비효율적이라는 점을 지적합니다.

#Review #Speculative Decoding #Diffusion Language Models #Block-level Diffusion #Instance-Adaptive #Policy Learning #Inference Optimization

2026년 6월 30일

[논문리뷰] AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

본 논문은 기존 오디오-비디오(AV) 생성 모델들이 겪고 있는 고비용의 Dual-branch 아키텍처 문제와 모달리티 간 Representation Gap을 해결하고자 합니다 .

#Review #Audio-Video Generation #Unified Tokenization #1D Latent Representation #Dual-stream Transformer #Hierarchical Training #Multimodal Learning

2026년 6월 30일

[논문리뷰] ZooClaw-FashionSigLIP2: Distilled Fine-tuning for Robust Fashion Retrieval

본 논문은 패션 도메인 특화 미세 조정(fine-tuning) 과정에서 발생하는 Domain-specific Specialization과 OOD Generalization 간의 근본적인 Tradeoff 문제를 해결하는 데 집중합니다.

#Review #Vision-Language Encoder #Fashion Retrieval #Knowledge Distillation #WiSE-FT #Contrastive Learning #OOD Generalization #Model Soups

2026년 6월 29일

[논문리뷰] Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

본 논문은 기존의 카메라 제어 기반 상호작용 세계 모델(Interactive World Model)들이 겪는 장기적인 일관성 유지 문제를 해결하고자 합니다.

#Review #Interactive World Exploration #Camera-Controlled Generation #Neural Implicit Scene #Neural Scene Representation #Diffusion Transformer

2026년 6월 29일

[논문리뷰] Video-MME-Logical: A Controlled Diagnostic Benchmark for Video Temporal-Logical Reasoning

본 논문은 현재의 MLLMs가 비디오 내의 동적인 시각적 증거를 바탕으로 논리적 추론을 수행하는 데 있어 심각한 한계를 가지고 있음을 지적한다.

#Review #Video-MME-Logical #Temporal-Logical Reasoning #MLLMs #Diagnostic Benchmark #Programmatic Generation #Intermediate-State Evaluation

2026년 6월 29일

[논문리뷰] Trimming the Long-Tail of Visual World Modeling Evaluation

본 논문은 현대의 World Models가 물리적 원리를 진정으로 내재화했는지, 아니면 학습 데이터의 통계적 규칙성에 의존하는지에 대한 근본적인 의문을 제기합니다.

#Review #Visual World Modeling #Long-Tail Scenarios #Physical Reasoning #Affordance Generalization #Multimodal Generative Models #Benchmark

2026년 6월 29일

[논문리뷰] TheoremGraph: Bridging Formal and Informal Mathematics

현대 수학 연구는 거대하고 파편화되어 있어 수학적 결과들의 의존성 구조를 명확히 파악하기 어렵습니다. 논문 저자들은 informal한 문헌(arXiv 등)이 주로 문서 수준의 인용에 의존하는 반면, formal 라이브러리(Lean 등)는 매우 제한된 범위 내에서만 세밀한 의존성을 관리한다는 한계를 지적합니다.

#Review #Formal-Informal Mathematics #Dependency Graph #LeanGraph #Neural Theorem Proving #Cross-modal Retrieval #Autoformalization

2026년 6월 29일

[논문리뷰] The Surprising Effectiveness of Video Diffusion Models for Hand Motion Reconstruction

본 논문은 기존의 egocentric 4D 손 모션 재구성 방법론이 직면한 심각한 병목 현상을 해결하고자 합니다. 기존 방식들은 이미지 기반 탐지기(Detector)에 의존하거나, 제한된 데이터로 학습된 시간적 모듈을 사용하여 심한 은닉 상황에서 성능이 저하되는 한계가 있습니다 .

#Review #Video Diffusion Models #Hand Motion Reconstruction #Egocentric Video #4D Reconstruction #Embodied AI #Occlusion Reasoning

2026년 6월 29일

[논문리뷰] TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents

본 논문은 기존 컴퓨터 사용 벤치마크들이 GUI 환경이나 특정 도메인(주로 코딩)에 편향되어 있어, 일반적인 터미널 환경에서의 범용적인 에이전트 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.

#Review #Terminal-Use Agents #General-Purpose Benchmark #Command-Line Interface #Execution-Grounded Evaluation #Scientific Workflows

2026년 6월 29일

[논문리뷰] TACO: Tool-Augmented Credit Optimization for Agentic Tool Use

본 논문은 에이전트의 불필요하거나 오도하는 도구 호출 문제를 해결하기 위해, 도구 호출 자체의 기여도를 정밀하게 평가하는 최적화 프레임워크를 제안한다.

#Review #Agentic Tool Use #Reinforcement Learning #Multimodal Models #Credit Assignment #Tool-Augmented Credit Optimization #GRPO #Differential Answer-Probe Reward

2026년 6월 29일

[논문리뷰] Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

본 논문은 에이전트 모델의 성능을 향상시키기 위한 기존의 파라미터 스케일링 전략이 갖는 높은 비용과 재현성 문제를 해결하기 위해 에이전트 호라이즌(Horizon) 확장을 제안합니다 .

#Review #Agents-A1 #Long-Horizon #Knowledge-Action Graph #Mixture-of-Experts #On-Policy Distillation #Salient Vocabulary Alignment

2026년 6월 29일

[논문리뷰] SafePyramid: A Hierarchical Benchmark for In-context Policy Guardrailing

본 논문은 기존의 고정된 위험 분류 체계에 의존하는 Guardrail이 실제 애플리케이션의 가변적인 요구사항을 충족하지 못하는 문제를 해결하고자 합니다 .

#Review #In-context Policy Guardrailing #Safety Benchmark #Hierarchical Evaluation #LLM Safety #Rule Dependency #Policy Framework

2026년 6월 29일

[논문리뷰] ReasoningLens: Hierarchical Visualization and Diagnostic Auditing for Large Reasoning Models

본 연구는 LRMs가 생성하는 지나치게 긴 Chain-of-Thought 추론 과정이 야기하는 '투명성 부담(Transparency burden)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Chain-of-Thought #Diagnostic Auditing #Hierarchical Visualization #Agentic Diagnosis #Systemic Profiling

2026년 6월 29일

[논문리뷰] ReFreeKV: Towards Threshold-Free KV Cache Compression

본 논문은 기존의 KV cache pruning 연구들이 특정 데이터셋이나 도메인에 종속된 Budget Threshold 설정에 지나치게 의존하여, 실제 환경의 가변적인 입력 처리에 한계가 있다는 점을 지적한다.

#Review #KV Cache Compression #Threshold-Free #Large Language Models #Attention Sparsity #Inference Efficiency #Dynamic Budgeting

2026년 6월 29일

[논문리뷰] RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation

본 논문은 현대 컴퓨터 비전의 핵심인 VFM이 가지는 고해상도 정보 부족 문제를 해결하기 위해 RaysUp을 제안한다 . 기존의 feature upsampling 방식들은 고정된 2D 인접 영역에 의존하거나 특정 모델에 종속되어 재학습이 필요한 등 범용성과 효율성 측면에서 한계가 있다.

#Review #Feature Upsampling #Vision Foundation Models #Ray Representation #Geometry-Aware #Cross-Attention #3D Geometric Priors

2026년 6월 29일

[논문리뷰] PoseShield: Neural Collision Fields for Human Self-Collision Resolution

본 논문은 SMPL 기반의 인간 자세 추정 및 모션 생성 모델에서 발생하는 고질적인 자기 충돌(self-collision) 문제를 해결하는 것을 목적으로 합니다.

#Review #SMPL #Self-Collision #Eikonal Equation #Neural Collision Field #Constrained Optimization #Motion Synthesis #Pose Space

2026년 6월 29일

[논문리뷰] PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

본 논문은 기존의 Safeguarding 기술이 주로 악의적인 콘텐츠나 jailbreak 방지에만 치중하고 있어, 에이전트의 복잡한 절차적 정책 준수(Policy adherence) 문제를 해결하는 데 한계가 있다는 점을 지적합니다 .

#Review #LLM Agents #Policy Adherence #Dialogue-Grounded #Verifier #Tool-Calling #Safeguarding #Procedural Compliance

2026년 6월 29일

[논문리뷰] One Scene, Two Depths: Probing Geometric Ambiguity in Monocular Foundation Models

본 논문은 현대의 monocular depth foundation models가 투명한 장면(transparent scenes)과 같은 다층 기하학적 구조를 단일 scalar depth로만 표현해야 하는 근본적인 한계(single-layer constraint)를 해결하고자 한다 .

#Review #Monocular Depth Estimation #Geometric Ambiguity #Laplacian Visual Prompting #Foundation Models #Ordinal Benchmark #Layered Geometry

2026년 6월 29일

[논문리뷰] One Forward Beats Two: InnerZoom for Accurate and Efficient GUI Grounding

본 논문은 MLLM 기반의 GUI Grounding에서 나타나는 비효율성과 정확도 저하 문제를 해결하고자 합니다. 기존의 ZoomIn 계열 방식은 타겟 영역을 외부에서 크롭하여 두 번 추론(Two-pass)함으로써 정확도를 높였으나, 이는 Latency를 증가시키고 계산 비용을 높이는 원인이 됩니다.

#Review #GUI Grounding #MLLM #Cross-Layer Evidence #Coordinate Generation #InnerZoom #Efficient Inference #Region-to-Point Gap

2026년 6월 29일

[논문리뷰] OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

본 논문은 기존의 컴퓨터 사용 벤치마크들이 지나치게 단기적이고 단순한 작업 위주로 구성되어 있어, 실제 실무 환경에서의 복잡한 Long-Horizon 업무를 평가하기에 한계가 있다는 점을 지적한다.

#Review #Computer-Use Agents #Long-Horizon Tasks #Benchmark #Multimodal Agents #Reasoning #Task-Level Planning #Autonomous Agents

2026년 6월 29일

[논문리뷰] Nemotron-Labs-Diffusion-Image: Advancing Masked Discrete Diffusion for High-Resolution Image Synthesis

본 논문은 기존 Masked Discrete Diffusion Model이 가진 자기 교정 능력의 부재와 대규모 코드북 학습의 어려움을 해결하기 위해 Nemotron-Labs-Diffusion-Image (NLD-Image)를 제안한다.

#Review #Masked Discrete Diffusion #Text-to-Image Synthesis #Token Editing #Grouped Cross-Entropy #Codebook Sparsity #Self-Correction #High-Resolution Generation

2026년 6월 29일

[논문리뷰] Monte Carlo Energy Aggregation for Mobile 3D Gaussian Splatting

본 논문은 3DGS를 모바일 플랫폼에 배포할 때 발생하는 높은 추론 및 저장 비용 문제를 해결하는 것을 목적으로 합니다.

#Review #3D Gaussian Splatting #Mobile Rendering #Monte Carlo Specular Energy Aggregator #Spherical Harmonics #Multi-view Densification #Real-time Rendering

2026년 6월 29일

[논문리뷰] MIMFlow: Integrating Masked Image Modeling with Normalizing Flows for End-to-End Image Generation

본 논문은 Normalizing Flows (NFs)의 엄격한 가역성이 저수준 픽셀 디테일에 모델 용량을 과도하게 소모하게 하여, 고수준 시맨틱 구조를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Normalizing Flows #Masked Image Modeling #End-to-End Generation #Variational Inference #Latent Representation #Token Bottleneck

2026년 6월 29일

[논문리뷰] LiveEdit: Towards Real-Time Diffusion-Based Streaming Video Editing

본 논문은 실시간 스트리밍 비디오 편집 환경에서 발생하는 Attention distribution shift와 Spatial-temporal token redundancy 문제를 해결하고자 한다 .

#Review #Streaming Video Editing #Diffusion Models #Distillation #Real-Time Inference #Attention Distribution #Mask Cache #Autoregressive Generation

2026년 6월 29일

[논문리뷰] Learning Transferable Dynamics Priors from Action to World Modeling

본 논문은 대규모 로봇 데이터를 활용하여 범용적인 Dynamics Priors를 학습하고, 이를 통해 로봇 학습의 시뮬레이터와 정책 성능을 동시에 향상시키는 것을 목표로 합니다.

#Review #Robot Learning #World Modeling #Diffusion Models #Dynamics Priors #Action-Conditioned #Policy Evaluation #Sim-to-Real

2026년 6월 29일

[논문리뷰] Large-Scale Tunnel Air-Ground Collaboration With FLISP: Fast LiDAR-IMU Synchronized Path Planner

대규모 수력 발전 터널과 같은 대형 인프라 점검은 현재 수작업에 의존하고 있어 매우 위험하고 비효율적입니다. 기존의 map-based multi-robot 시스템은 이러한 긴 터널 환경에서 SLAM 드리프트와 계산 부하 문제로 인해 안정적인 운용이 어렵습니다.

#Review #Path Planning #LiDAR-IMU #Air-Ground Collaboration #Tunnel Inspection #Mapless #Heterogeneous Multi-Robot #Obstacle Avoidance

2026년 6월 29일

[논문리뷰] Interleaved Speech Language Models Latently Work In Text

본 논문은 Interleaved Speech-Text LMs의 내부 latent space에서 음성과 텍스트 모달리티가 어떻게 상호작용하는지에 대한 불투명성을 해결하고자 한다.

#Review #Speech Language Models #Interleaved Training #Logit Lens #Implicit Transcription #Multimodal Latent Space #Cross-modal Alignment

2026년 6월 29일

[논문리뷰] Illuminating Unified Multimodal Model for Free-form Interleaved Text-Image Generation

본 논문은 기존 MLLM이 텍스트와 이미지를 교차로 생성하는 Free-form interleaved task에서 겪는 성능 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Interleaved Generation #Unified Paradigm #Classifier-Free Guidance #ILScore #Data Pipeline #Cross-Modal Continuity

2026년 6월 29일

[논문리뷰] How Good Can Linear Models Be for Time-Series Forecasting?

본 논문은 시계열 예측 분야에서 모델의 복잡도를 높이는 것이 성능 향상을 보장한다는 기존의 통념을 반박하고, 선형 모델의 한계가 모델 자체의 capacity가 아닌 부적절한 Preprocessing 설정에서 기인함을 증명합니다.

#Review #Time-Series Forecasting #Ridge Regression #Preprocessing #Hyperparameter Optimization #Context Length #Normalization #Forecasting Diagnostic

2026년 6월 29일

[논문리뷰] Geometric Stability of Neural Population Codes: Regional Variation, Behavioral Relevance, and Circuit Dependence

본 연구는 neural population code의 신뢰성을 평가하는 기존의 Temporal Stability 및 Centroid 기반 프레임워크가 놓치고 있는 핵심 축인 Geometric Stability를 정의하고 분석하고자 합니다.

#Review #Representational Geometry #Neural Population Code #Geometric Stability #Representational Drift #Split-Half Reliability

2026년 6월 29일

[논문리뷰] GUICrafter: Weakly-Supervised GUI Agent Leveraging Massive Unannotated Screenshots

본 논문은 GUI agent 학습 시 발생하는 데이터 확보의 고비용 문제와 이로 인한 성능 저하를 해결하기 위해 제안되었습니다.

#Review #GUI Agent #Weakly-Supervised Learning #Reinforcement Learning #Visual Grounding #Curriculum Learning #Data Efficiency

2026년 6월 29일

[논문리뷰] Focusing on What Matters: Saliency-Harnessing Accurate Routing for Diffusion MoE

본 연구는 기존 Diffusion MoE 프레임워크에서 발생하는 불균형한 계산 자원 배분 문제를 해결하고자 합니다.

#Review #Diffusion Models #Mixture-of-Experts #Saliency-Aware Routing #Post-Training #Visual Generation #Latent Features

2026년 6월 29일

[논문리뷰] DreamForge-World 0.1 Preview: A Low-Compute Real-Time Controllable World Model

본 논문은 제한된 컴퓨팅 환경에서 Real-time 인터랙티브 시뮬레이션을 가능하게 하는 DreamForge-World 0.1 Preview를 제안합니다 .

#Review #World Model #Interactive Generation #Real-time #Consumer GPU #Autoregressive #Multimodal #LoRA

2026년 6월 29일

[논문리뷰] Cognitive Episodes in LLM Reasoning Traces Enable Interpretable Human Item Difficulty Prediction

본 연구는 문항 난이도 예측을 문항 텍스트 기반의 정적 정보에서 벗어나, 학습자가 문항을 해결할 때 겪는 인지적 부하(Problem-solving burden)라는 동적 관점으로 전환하고자 합니다.

#Review #Large Reasoning Models #Item Difficulty Prediction #Schoenfeld’s Episode Theory #Interpretability #Educational Assessment #Reasoning Traces

2026년 6월 29일

[논문리뷰] Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction

본 논문은 현대의 MLLM(Multimodal Large Language Models)이 VideoQA와 같은 피상적인 시각적 단서 인식에는 뛰어나지만, 영상 튜토리얼로부터 깊은 절차적 지식을 습득하고 이를 복잡한 하위 작업에 일반화하는 능력은 부족하다는 점을 문제로 제기합니다 .

#Review #VideoQA #Video-Guided Agent #Keyframe Extraction #In-Context Learning #GUI Agents #Procedural Knowledge #Temporal Reasoning

2026년 6월 29일

[논문리뷰] Beyond IID: How General Are Tabular Foundation Models, Really?

본 논문은 현재 테이블 데이터 예측 머신러닝 분야의 평가가 지나치게 IID 환경에만 편중되어 있어, 실제 실무 환경에서 요구되는 복잡하고 다양한 도메인 문제를 반영하지 못한다는 한계를 지적합니다.

#Review #Tabular Foundation Models #BeyondArena #DataFoundry #Non-IID #Benchmarking #In-Context Learning #Predictive Machine Learning

2026년 6월 29일

[논문리뷰] Beyond Drug Discovery: The Nanotechnology Molecular Optimization (NMO) Benchmark

본 논문은 기존의 분자 설계 벤치마크들이 제약 분야의 데이터셋 편향(Dataset Bias)에 의존하고 있어, 실제 물리적 타겟에 대한 전이 가능성(Transferability)이 낮다는 문제를 해결하고자 합니다.

#Review #Molecular Optimization #Nanotechnology #Quantum Simulations #Benchmarking #Generative Models #Graph Group SELFIES

2026년 6월 29일

[논문리뷰] AsyncOPD: How Stale Can On-Policy Distillation Be?

본 논문은 LLM 사후 학습에서 OPD가 겪는 On-policy systems bottleneck 문제를 해결하기 위해 비동기식 학습 파이프라인의 도입 필요성을 제기한다. 기존의 동기식 학습은 rollout 생성이 완료될 때까지 학습기를 대기시켜 하드웨어 활용률을 저하시킨다.

#Review #On-policy Distillation #Asynchronous RL #Reverse KL #Staleness #Teacher Cache #Multi-sample MC #Large Language Model

2026년 6월 29일

[논문리뷰] Agentic Abstention: Do Agents Know When to Stop Instead of Act?

본 논문은 LLM 기반 에이전트가 불가능하거나 모호한 작업을 수행할 때 무분별하게 액션을 지속하는 문제를 해결하고자 한다.

#Review #Agentic Abstention #LLM Agents #Context Engineering #Sequential Decision Making #Tool Use #Timely Recall

2026년 6월 29일

[논문리뷰] Translation as a Bridging Action: Transferring Manipulation Skills from Humans to Robots

본 논문은 인간의 풍부한 동작 데이터를 로봇 학습에 활용할 때 발생하는 데이터 간 불일치 및 품질 문제를 해결하고자 한다.

#Review #Robotics #Imitation Learning #Vision-Language-Action Models #Cross-Embodiment #Manipulation Skills #Bridging Action

2026년 6월 28일

[논문리뷰] Towards Automating Scientific Review with Google's Paper Assistant Tool

본 논문은 급증하는 AI 기반 과학 논문 제출량으로 인해 전통적인 인간 피어 리뷰 시스템이 한계에 도달한 'Scientific Validation Bottleneck' 문제를 해결하고자 합니다.

#Review #Paper Assistant Tool #Inference Scaling #Scientific Review #AI Automation #Error Detection #Peer Review

2026년 6월 28일

[논문리뷰] Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents

본 논문은 클라우드 기반 LLM의 높은 추론 능력과 온디바이스 모델의 즉각적인 반응성이라는 이중적 요구사항을 동시에 만족하기 위한 새로운 하이브리드 아키텍처를 제안합니다.

#Review #Conversational Infill #On-device AI #Model Collaboration #Latency #Streaming Knowledge #LLM

2026년 6월 28일

[논문리뷰] The Tatoxa System for Text Detoxification in Low-Resource Languages: The Case of Tatar

본 논문은 Tatar와 같이 데이터 자원이 부족한 언어에서 발생하는 자동화된 텍스트 정화(detoxification) 성능 저하 문제를 해결합니다. 기존의 다국어 대규모 언어 모델(LLM)은 저자원 언어에 대한 이해도가 낮고, 문화적 맥락이나 언어적 미묘함을 반영하지 못해 정화 성능이 제한적입니다.

#Review #Text Detoxification #Low-Resource Languages #Tatar #Machine Translation #LoRA #Cross-lingual Transfer

2026년 6월 28일

[논문리뷰] SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

기존의 다중 모달 가드레일 모델들은 대부분 고정된 분류 체계(Static Taxonomy)에 의존하며, 배포 환경이나 정책 변화에 따라 유연하게 대응하지 못하는 한계가 있습니다. 특히 고정된 레이블을 사용하는 기존 모델은 미학습된 규칙이나 새로운 정책 상황에서 성능이 급격히 저하되는 문제가 발생합니다.

#Review #Multimodal LLM #Guardrail #Policy-Adaptive #Dynamic Reasoning #Fast-Slow Decoupled RL #Safety Benchmark

2026년 6월 28일

[논문리뷰] SimFoundry: Modular and Automated Scene Generation for Policy Learning and Evaluation

본 논문은 로봇 정책 학습 및 평가를 위한 대규모 데이터 확보의 어려움과 복잡한 환경에서의 시뮬레이션 구축 비용 문제를 해결하기 위해 SimFoundry를 제안한다.

#Review #Real2Sim #Sim2Real #Scene Generation #Policy Learning #Policy Evaluation #Digital Twins #Digital Cousins

2026년 6월 28일

[논문리뷰] Qwen-Image-2.0-RL Technical Report

본 연구는 Qwen-Image-2.0 diffusion 모델이 가진 생성 품질과 지시 이행 능력 사이의 간극을 좁히고, 복잡한 편집 태스크에서 일관된 성능을 확보하기 위해 수행되었다.

#Review #RLHF #On-policy Distillation #Diffusion Models #Reward Modeling #Flow Matching #GRPO #Qwen-Image-Bench

2026년 6월 28일

[논문리뷰] ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

본 논문은 KB-VQA의 고질적인 문제인 정적인 파이프라인의 한계를 극복하고, 모델이 예산 효율적으로 정보를 검색하며 스스로 추론하는 에이전트 시스템을 구축하는 것을 목적으로 한다. 기존 연구들은 고정된 top-k 설정에 의존하여 검색된 정보가 불충분하거나 잘못된 경우 이를 수정할 수 없는 고착 상태에 빠지기 쉽다 .

#Review #Knowledge-Based Visual Question Answering #Multimodal Search Agent #Progressive Retrieval #Reinforcement Learning #Tool-Normalized GSPO

2026년 6월 28일

[논문리뷰] PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

본 논문은 최신 비디오 생성 모델들이 로봇 조작 과업에서 나타내는 물리적 불일치(Physical implausibility) 문제를 해결하고자 합니다.

#Review #Embodied Intelligence #Video Generation #World Models #Physics-aware #Robotic Manipulation #Hierarchical Alignment

2026년 6월 28일

[논문리뷰] Parallel Rollout Approximation for Pixel-Space Autoregressive Image Generation

본 논문은 픽셀 공간에서 직접 수행되는 Autoregressive 이미지 생성의 낮은 효율성과 오차 누적 문제를 해결하는 것을 목적으로 합니다.

#Review #Autoregressive Generation #Pixel-Space #Parallel Rollout Approximation #Continuous-Token #Diffusion Head #Intermediate States #Train-Inference Mismatch

2026년 6월 28일

[논문리뷰] Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

본 논문은 imitation learning 기반의 VLA가 실제 로봇의 정밀한 물리적 상호작용에서 발생하는 오차 누적으로 인해 빈번히 실패하는 문제를 해결하고자 한다.

#Review #Vision-Language-Action Models #Reinforcement Learning #Sim-to-Real Transfer #Robot Manipulation #Object-Centric #Residual RL

2026년 6월 28일

[논문리뷰] NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

본 연구는 Flow-matching 모델의 RL post-training 시 발생하는 reward over-optimization과 그에 따른 지각적 품질 저하 문제를 해결합니다.

#Review #Reinforcement Learning #Flow-Matching #Norm Inflation #Reward-Preserving #Perceptual Quality #Regularization

2026년 6월 28일

[논문리뷰] MultiHashFormer: Hash-based Generative Language Models

본 연구는 고정된 어휘 사전 크기로 인해 발생하는 vocabulary bottleneck 문제를 해결하고, 파라미터 효율적인 causal language modeling을 가능하게 하는 것을 목표로 합니다.

#Review #Generative Language Models #Token Hashing #Vocabulary Bottleneck #Multi-ID Signature #Causal Language Modeling

2026년 6월 28일

[논문리뷰] Learning to Fold: prizewinning solution at LeHome Challenge 2026 (1st place online, 2nd offline)

본 연구는 고정된 공간 내에서 가구를 가장 효율적으로 배치하고 조립 순서를 최적화해야 하는 NP-hard 범주의 복합적 문제를 해결하고자 합니다. 기존의 단순 배치 알고리즘은 가구 간의 기하학적 간섭(Interference)과 조립 단계의 Latency를 적절히 처리하지 못하는 한계가 있었습니다.

#Review #Furniture Assembly #Optimization #Heuristic Search #LeHome Challenge #Computational Geometry

2026년 6월 28일

[논문리뷰] Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents

본 논문은 기존의 웹 에이전트 벤치마크가 Depth(단일 정보 탐색) 위주로 편중되어 있으며, 다수의 속성을 포함한 구조적 집합을 완성하는 Breadth 능력에 대한 평가가 부족하다는 점을 지적합니다 .

#Review #Web Agents #Breadth-Search #Korean Benchmark #Set Enumeration #Tool Use #Evaluation Pipeline #Difficulty Tiers

2026년 6월 28일

[논문리뷰] GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems

본 논문은 Multi-Agent System(MAS)의 성능 향상을 저해하는 근본적인 문제로 Fine-grained credit assignment의 부재를 지적합니다.

#Review #Multi-Agent Systems #Gradient-Based Connections #Prompt Optimization #Credit Assignment #Attribution #Computational Graph #AgentChord

2026년 6월 28일

[논문리뷰] Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

본 논문은 LLM의 잠재 추론(latent reasoning)이 실제로는 기능적 요건을 충족하지 못할 수 있다는 점을 지적하며, 이를 검증하기 위한 공리적 평가 프레임워크를 제안합니다 .

#Review #LLM #Latent Thought Representation #Axiomatic Framework #Causality #Minimality #Separability #Stability #Functional Reasoning

2026년 6월 28일

[논문리뷰] Cluster, Route, Escalate: Cascaded Framework for Cost-Aware LLM Serving

본 논문은 프로덕션 환경에서 LLM 배포 시 발생하는 정확도와 비용(Latency) 간의 트레이드오프 문제를 해결하기 위한 Cascaded Framework를 제안합니다.

#Review #LLM Serving #Model Routing #Cost-Aware Inference #Quality Estimation #Cascaded Framework #Pareto Analysis #TPOT

2026년 6월 28일

[논문리뷰] Boundary-Aware Context Grounding for A Low-Channel EEG Agent

본 논문은 일반적인 LLM이 특정 EEG 장치, 기록 프로토콜, 소프트웨어 버전 또는 결과 스키마에 대한 지식이 부족하여 발생하는 '범주 오류(category error)' 문제를 해결하고자 한다.

#Review #low-channel EEG #large language models #hardware-aware AI #boundary awareness #reproducibility #scientific software

2026년 6월 28일

[논문리뷰] Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

본 논문은 다단계 도구 사용 태스크에서 RL 기반 최적화가 겪는 학습 불안정성과 성능 정체 문제를 해결하고자 합니다.

#Review #Tool Learning #Reinforcement Learning #Structural Collapse #Supervisory Signals #Interleaved Training #Process Reflection Supervision

2026년 6월 25일

[논문리뷰] When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

본 논문은 다양한 LLM 시스템(Routing, Voting, Mixture-of-Agents)의 정확도 향상 잠재력이 일반적으로 알려진 것보다 훨씬 낮다는 문제를 제기한다. 기존 실무에서는 모델 간의 오차 상관관계인 $\rho$를 지표로 활용하여, $\rho$가 낮으면 다양한 모델을 결합하는 것이 효과적이라 판단해왔다.

#Review #LLM Orchestration #Model Routing #Co-failure Ceiling #Error Correlation #Mixture-of-Agents #Inference Economics

2026년 6월 25일

[논문리뷰] ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

본 논문은 기존 MLLM에서 시각적 인코더가 사용하는 연속적 표현(continuous representation)과 언어 모델의 이산적 토큰(discrete token) 사이의 표현 불일치 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Visual Quantization #Representation Learning #Any-Resolution #Discrete Visual Representations #Text-Aligned #Efficiency

2026년 6월 25일

[논문리뷰] The Verification Horizon: No Silver Bullet for Coding Agent Rewards

본 논문은 최신 Coding Agent의 성능이 발전함에 따라, 생성된 코드의 정확성을 신뢰할 수 있게 검증하는 문제가 생성 자체보다 훨씬 어려워진 현실을 지적합니다.

#Review #Coding Agents #Reward Design #Reward Hacking #Alignment #Verification #Systematic Evaluation

2026년 6월 25일

[논문리뷰] Running the Gauntlet: Re-evaluating the Capabilities of Agents Beyond Familiar Environments

본 연구는 기존 에이전트 벤치마크들이 지나치게 단순한 작업이나 친숙한 웹 환경에만 치중하여 현대 에이전트의 잠재적 한계를 적절히 탐지하지 못한다는 문제의식에서 출발한다. 기존 벤치마크는 주로 온라인 쇼핑이나 단순 정보 검색과 같은 소비자 중심의 작업을 대상으로 하므로, 에이전트의 성능이 조기에 포화되는 현상을 보인다.

#Review #Agentic Systems #GauntletBench #Temporal Perception #Graphical Understanding #3D Reasoning #Generalization #Multimodal Large Language Models

2026년 6월 25일

[논문리뷰] Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델이 실세계의 복잡하고 모호한 요청을 처리하는 데 겪는 구조적 한계를 해결하고자 합니다. T2I 모델은 일반적으로 완전히 명시된 프롬프트에 최적화되어 있으나, 실세계의 사용자 요청은 불완전하거나 맥락 정보를 필요로 하는 경우가 많습니다 .

#Review #Agentic Image Generation #Context Gap #Context-Aware Planning #Context Grounding #IA-Bench #Multimodal Large Language Model (MLLM)

2026년 6월 25일

[논문리뷰] PhysiFormer: Learning to Simulate Mechanics in World Space

본 연구는 영상 기반의 물리 모델링이 겪는 뷰 의존성과 물리 법칙 위배 문제를 해결하고, 3D Mesh 수준에서 직접 물리 시뮬레이션을 수행하는 PhysiFormer를 제안합니다.

#Review #PhysiFormer #Diffusion Transformer #3D Mesh #World Space Simulation #Physically-plausible #Trajectory Prediction

2026년 6월 25일

[논문리뷰] OpenBioRQ: Unsolved Biomedical Research Questions for Agents

본 논문은 기존의 LLM 평가 벤치마크들이 정해진 정답(ground-truth)이 있는 질문들만을 다룸으로써, 실제 환경에서 발생하는 치명적인 오류 유형을 간과하고 있다는 문제를 제기합니다 .

#Review #Biomedical Research #Agentic Evaluation #Retrieval-Grounded #Faithfulness #Citation Factuality #Open Questions

2026년 6월 25일

[논문리뷰] OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

본 논문은 에이전트 강화학습에서 outcome-based RL의 희소하고 지연된 보상이 중간 의사결정에 대한 세밀한 신용 할당(credit assignment)을 제공하지 못하는 문제를 해결합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Skill Extraction #Hindsight Supervision #Hierarchical Skills #Self-Distillation #Token-level Advantage

2026년 6월 25일

[논문리뷰] JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

본 논문은 기존 Speculative Decoding 방식이 직면한 확장성(Scalability) 한계, 즉 '인과성-효율성 딜레마(Causality-Efficiency Dilemma)'를 해결하고자 한다 .

#Review #Speculative Decoding #Parallel Tree Drafting #Causal Attention #LLM Inference #Latency Reduction

2026년 6월 25일

[논문리뷰] In-Context World Modeling for Robotic Control

본 연구는 기존 VLA 모델들이 훈련 단계의 고정된 환경 컨텍스트에 지나치게 의존하여, 카메라 시점이나 로봇 형태가 변경되는 환경에서의 일반화(generalization) 실패 문제를 해결하고자 합니다.

#Review #In-Context World Modeling #VLA models #System Identification #Robotic Control #Generalization #Zero-shot Adaptation

2026년 6월 25일

[논문리뷰] How Post-Training Shapes Biological Reasoning Models

본 논문은 생물학적 추론 모델 개발에서 Post-Training 과정이 모델의 일반화 능력과 과잉 최적화(Over-specialization)에 미치는 영향을 체계적으로 규명한다.

#Review #Biological Reasoning #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Generalization #Foundation Models

2026년 6월 25일

[논문리뷰] Hallucination in World Models is Predictable and Preventable

본 논문은 현대의 generative world model들이 매우 사실적인 미래를 생성함에도 불구하고, 실제 동역학으로부터 이탈하는 Hallucination 문제를 해결하고자 한다.

#Review #World Models #Hallucination #Data Coverage #Visual Generative Modeling #Representation Learning #Curiosity-driven Data Collection

2026년 6월 25일

[논문리뷰] GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

본 논문은 기존의 Computer-Use 에이전트 평가 방식이 GUI와 CLI라는 상호작용 모달리티(Modality)의 차이를 모델 성능, 작업 환경, 에이전트의 제어 능력과 혼동하고 있다는 점을 지적한다.

#Review #GUI Agents #CLI Agents #Computer-Use #Skill-Mediated #Execution Bottlenecks #Benchmark #Action Space #Visual Grounding

2026년 6월 25일

[논문리뷰] Fast LeWorldModel

본 논문은 LeWM과 같은 기존 JEPA 기반 World Model이 가진 비효율적인 계획(Planning) 과정을 개선하는 것을 목표로 합니다. 기존의 Autoregressive Rollout 방식은 미래 상태를 예측하기 위해 한 단계씩 순차적으로 모델을 호출해야 하므로 계산 비용이 매우 높습니다.

#Review #Latent World Models #Visual Planning #Joint-Embedding Predictive Architectures (JEPA)#Action-Prefix Prediction #Parallel Rollout #CEM (Cross-Entropy Method)

2026년 6월 25일

[논문리뷰] Discretizing Reward Models

본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 .

#Review #Reward Model #Reinforcement Learning #Oversensitivity #Discretization #Reward Clustering #Monte Carlo Dropout #Discriminative Ability #Specificity

2026년 6월 25일

[논문리뷰] DanceOPD: On-Policy Generative Field Distillation

본 연구는 단일 모델이 T2I, 로컬/글로벌 에디팅 등 서로 충돌할 수 있는 다양한 생성 능력을 통합하면서도 각각의 성능을 유지해야 하는 문제를 해결하고자 합니다. 기존의 데이터 혼합(data mixing)이나 모델 결합 방식은 capability 간의 gradient 충돌을 야기하거나 성능을 희석시키는 한계를 가집니다.

#Review #Generative Field Distillation #Flow Matching #On-Policy Distillation #Capability Composition #Hard-Routed Field Matching #Multi-Capability Alignment

2026년 6월 25일

[논문리뷰] Confidence-Aware Tool Orchestration for Robust Video Understanding

본 논문은 현대의 Video-LLM들이 실세계의 다양한 시각적 열화 환경에서 프레임별 신뢰도를 무시함으로써 발생하는 Blind Trust Problem을 해결하는 것을 목표로 합니다.

#Review #Video Understanding #Robustness #Tool Orchestration #GRPO #Frame Selection #Blind Trust Problem #Confidence-Aware

2026년 6월 25일

[논문리뷰] CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

본 논문은 기존 LLM 에이전트 벤치마크가 단일 에이전트나 동질적인 환경에 국한되어, 현실적인 경제 시스템의 복잡성을 반영하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #Long-Horizon #Multi-Agent Economy #Benchmark #Supply Chain #Decision-making

2026년 6월 25일

[논문리뷰] COrigami: An AI Pipeline for Co-Designing Flat-Foldable Visually Recognisable Origami

본 논문은 현대의 생성형 AI가 물리적인 제약 조건과 인간의 미적 취향을 동시에 만족시키는 물리적 예술 작품을 설계하는 데 한계가 있다는 점을 지적합니다.

#Review #Computational Origami #Flat-Foldable #Reinforcement Learning #Vision-Language Model #Neuro-symbolic Pipeline #Box Pleating #Crease Pattern

2026년 6월 25일

[논문리뷰] When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

본 논문은 LLM 에이전트가 작업 수행 시 불필요하게 높은 권한의 도구를 선택하는 Over-privileged Tool Selection의 심각성과 그 기저의 행동적 원인을 규명합니다 .

#Review #LLM Agents #Tool Selection Bias #Least Privilege #Privilege-Aware Post-Training #Agent Safety #ToolPrivBench

2026년 6월 24일

[논문리뷰] What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

본 논문은 대규모 언어 모델(LLMs)의 안전성을 위협하는 Jailbreak 공격을 모델 내부의 활성화 상태(internal representations) 분석을 통해 효율적으로 탐지하고자 합니다. 기존 연구들은 주로 프롬프트 수준의 필터링이나 외부 분류기에 의존하여 모델 내부의 의미적 변화를 간과하는 한계가 있습니다.

#Review #Jailbreak Detection #Large Language Models #Predictive Entropy #Logit Lens #Intermediate Layers #Adversarial Robustness #Uncertainty Dynamics

2026년 6월 24일

[논문리뷰] Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

본 논문은 실시간 오디오-비디오 인터랙션의 단절성과 모듈 간의 지연 시간 문제를 해결하기 위해 Wan-Streamer를 제안한다. 기존 연구들은 VAD, ASR, LLM, TTS 등을 결합한 캐스케이드(cascaded) 방식을 사용하여, 모듈 경계에서의 대기 시간과 오차 누적 문제에 직면해 있다 .

#Review #End-to-End #Real-time Interaction #Multimodal Foundation Models #Full-duplex #Streaming Inference #Block-causal Attention #Thinker-Performer Pipeline

2026년 6월 24일

[논문리뷰] V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

본 논문은 Fine-grained visual reasoning 분야에서 요구되는 고비용의 RL 기반 탐색 및 대규모 텍스트 레이블 의존 문제를 해결하기 위해 제안되었습니다.

#Review #Multimodal Large Language Models #On-Policy Distillation #Fine-Grained Visual Reasoning #Contrastive Evidence Gating #Visual Grounding

2026년 6월 24일

[논문리뷰] UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

본 논문은 기존의 다중 샷(multi-shot) 비디오 생성 모델들이 샷 간의 일관성(cross-shot coherence) 유지와 장기적인 내러티브 확장성이라는 두 가지 핵심 과제를 해결하지 못하는 문제를 다룹니다.

#Review #Multi-shot Video Generation #Memory-driven #Boundary-aware Gating #Diffusion Transformer #Audio-Visual Generation

2026년 6월 24일

[논문리뷰] TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

기존의 Video Virtual Try-on (VVT) 연구들은 입력 영상의 카메라 궤적에 종속되어 있어, 사용자가 원하는 다양한 각도에서의 의류 확인이 불가능하다는 구조적 한계가 존재함.

#Review #Video Virtual Try-on #Camera-controllable #4D Try-on Proxy #3DGS #Diffusion Transformer #CaM-VVTBench

2026년 6월 24일

[논문리뷰] The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

이 가이드는 현대 AI 시스템의 전체 스택을 이해하고 구축하고자 하는 연구자와 실무자를 위해, LLM의 기초 아키텍처부터 autonomous agentic 시스템까지를 통합적으로 설명합니다.

#Review #LLM #Reinforcement Learning #Agentic AI #System Architecture #Retrieval-Augmented Generation #Chain-of-Thought #Multi-Agent Systems

2026년 6월 24일

[논문리뷰] ShutterMuse: Capture-Time Photography Guidance with MLLMs

본 연구는 실제 촬영 현장에서 필요한 실시간 가이던스 기능을 기존의 MLLM과 사진 모델들이 효과적으로 제공하지 못한다는 문제 의식에서 출발한다.

#Review #MLLM #Photography Guidance #Capture-Time Guidance #Composition #Pose Recommendation #Reinforcement Fine-Tuning

2026년 6월 24일

[논문리뷰] RoPE-Aware Bit Allocation for KV-Cache Quantization

본 논문은 기존 KV-Cache 양자화 기법들이 Key를 단순한 평면 벡터(Flat Vector)로 취급하여 발생하는 정보 손실 문제를 해결하고자 합니다.

#Review #KV-Cache Quantization #RoPE #Bit Allocation #LLM Inference #Long-Context #TurboQuant #Block-GTQ

2026년 6월 24일

[논문리뷰] ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

본 논문은 표준 OPD 및 OPSD가 모든 SGO를 균등하게 취급하여 효율적인 학습 기회를 놓치고 있다는 점을 문제로 지적합니다.

#Review #On-Policy Distillation #Language Model Post-training #Sample Reweighting #Negative Trajectory #Reasoning #Knowledge Distillation #Prefix-based Training

2026년 6월 24일

[논문리뷰] RL-Index: Reinforcement Learning for Retrieval Index Reasoning

본 논문은 복잡한 논리적 추론이 필요한 검색 과제에서 기존 모델들이 겪는 한계를 극복하기 위해 제안되었다. 기존의 Query Rewriting 기반 접근 방식은 실시간으로 LLM을 호출해야 하므로 상당한 Online Latency를 유발하는 문제가 있다 .

#Review #Retrieval-Augmented Generation #Reinforcement Learning #Agentic Indexing #Group Relative Policy Optimization #Document Augmentation #Latency Optimization

2026년 6월 24일

[논문리뷰] MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

죄송합니다. 현재 제공해주신 논문 URL(https://arxiv.org/html/2606.26087)은 시스템상 접근이 제한되어 내용을 직접 읽고 분석할 수 없습니다.

2026년 6월 24일

[논문리뷰] Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

본 논문은 Multimodal CoT가 과연 모든 멀티모달 작업에서 일관되게 성능을 향상시키는지, 그리고 그 한계점은 무엇인지를 체계적으로 분석합니다. 최근 텍스트 중심 LLM에서는 CoT가 추론 능력을 극대화하는 표준으로 자리 잡았으나, 이를 멀티모달 영역으로 확장했을 때의 효용성은 여전히 불분명합니다.

#Review #Multimodal Chain-of-Thought #Visual Reasoning #LLM #Test-Time Scaling #Visual Reflection #Attention Bias

2026년 6월 24일

[논문리뷰] Improved Large Language Diffusion Models

본 논문은 기존 Autoregressive 패러다임이 지배적인 LLM 생태계에서 Diffusion 기반 언어 모델의 한계를 극복하고 그 가능성을 입증하고자 한다.

#Review #Diffusion Language Models #Bidirectional Attention #Masked Diffusion #Instruction Tuning #Large Language Models #Variable-Length Generation

2026년 6월 24일

[논문리뷰] IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

본 논문은 현대의 통합형 MLLM 기반 이미지 생성 모델들이 복잡한 구조적 요구사항(객체 수, 공간적 관계, 속성 결합 등)을 따르는 데 어려움을 겪는 구조적 불투명성 문제를 해결하고자 합니다.

#Review #IV-CoT #Chain-of-Thought #Structure-Aware #Text-to-Image Generation #MLLM-DiT #Latent Reasoning

2026년 6월 24일

[논문리뷰] EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

본 논문은 기존의 로봇 조작 벤치마크들이 단일 성공률(Success Rate) 스칼라 값에 의존하여 모델의 진정한 역량을 가리고 있다는 점을 해결하고자 합니다. 현재의 Generalist Manipulation 모델들은 유사한 성공률을 보고하지만, 실제 배포 시 성능이 크게 달라지는 구조적 한계를 가지고 있습니다.

#Review #EBench #Generalist Mobile Manipulation #VLA (Vision-Language-Action)#Capability Profiling #Embodied AI #Benchmark #Generalization

2026년 6월 24일

[논문리뷰] DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

본 논문은 기존의 Subject-driven Video Generation (S2V) 모델들이 고정된 도메인 내의 충실도(In-domain fidelity)에는 집중하지만, 스타일이나 도메인 속성이 변하는 Cross-domain 환경에서의 유연성과 편집 능력이 부족하다는 문제를 해결하고자 합니다 .

#Review #Subject-driven Video Generation #Open Domain #Domain-MoT #DualRoPE #Cross-Pair Consistent Loss #Video Diffusion Models

2026년 6월 24일

[논문리뷰] Distill Once, Adapt Life-Long: Exploring Dataset Distillation for Continual Test-Time Adaptation

본 논문은 CTTA 환경에서 발생하는 Catastrophic Forgetting과 Self-training 오류의 누적 문제를 해결하기 위해 DO-ALL 프레임워크를 제안합니다.

#Review #Continual Test-Time Adaptation #Dataset Distillation #Catastrophic Forgetting #Stability #Source-Free #Plug-and-Play #Representation Alignment

2026년 6월 24일

[논문리뷰] Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints

본 논문은 최신 에이전트 시스템에서 Tool Calling과 Structured Output 제약 조건이 동시에 활성화될 때 발생하는 의도치 않은 시스템 실패 모드를 규명합니다. 저자들은 기존의 평가 방식이 두 기능을 독립적으로 검증함에 따라, 통합 환경에서 발생하는 상호작용 문제를 간과하고 있음을 지적합니다.

#Review #Constraint Tax #Tool Suppression #Constraint Priority Inversion #Large Language Models #Agent Systems #Grammar-Constrained Decoding #Structured Output

2026년 6월 24일

[논문리뷰] Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

본 논문은 Autoregressive(AR) 비디오 확산 모델의 학습 효율성과 추론 품질 간의 불균형을 해결하기 위해 Causal-rCM을 제안한다.

#Review #Autoregressive Diffusion #Diffusion Distillation #Teacher-Forcing #Self-Forcing #Consistency Models #Streaming Video Generation #Interactive World Models

2026년 6월 24일

[논문리뷰] CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

대부분의 기존 연구는 입력 프롬프트 압축이나 출력 길이 제어 중 하나에만 집중하며, 이를 단순히 Task Accuracy 관점에서만 평가한다 .

#Review #Large Language Models #Inference Cost #Prompt Compression #Output Compression #Linguistic Reduction #Semantic Fidelity #Cost Asymmetry

2026년 6월 24일

[논문리뷰] Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

본 논문은 기존의 NL2Code 모델이 텍스트 중심의 명세에만 의존하여, 시각적 정보가 필수적인 실제 프로그래밍 작업의 복잡도를 완전히 해결하지 못한다는 점을 지적합니다.

#Review #Multimodal Code Intelligence #Large Language Models #Visual-to-Code #Program Synthesis #Graphical User Interface #Code-Centric Reasoning

2026년 6월 24일

[논문리뷰] Autodata: An agentic data scientist to create high quality synthetic data

본 연구는 고품질 데이터의 부족 문제를 해결하고, 인간의 개입을 최소화하면서 데이터 생성 파이프라인을 자동화하는 것을 목표로 합니다. 기존의 데이터 생성 방식은 데이터의 다양성이 부족하거나 품질 제어가 어렵다는 한계를 지니고 있으며, 단순히 양적인 데이터 확대만으로는 모델 성능의 비약적인 향상을 이끌어내기 어렵습니다.

#Review #Synthetic Data #Agentic Workflow #LLM #Data Curation #Model Training #Automated Discovery

2026년 6월 24일

[논문리뷰] Are We Ready For An Agent-Native Memory System?

본 논문은 기존 에이전트 메모리 시스템이 단일 블랙박스로 취급되면서 시스템 수준의 효율성, 아키텍처적 트레이드오프, 그리고 동적 지식 업데이트에 대한 견고성이 체계적으로 검증되지 않고 있다는 문제를 해결하고자 한다.

#Review #Agent Memory #Data Management #LLM Agents #Retrieval-Augmented Generation #Memory Architecture #Knowledge Graphs #System Evaluation

2026년 6월 24일

[논문리뷰] Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

본 논문은 예술적 텍스트(WordArt)가 가진 고도의 시각적 스타일화와 불규칙한 레이아웃으로 인해 기존 STR 모델들이 겪는 성능 한계를 해결하고자 합니다.

#Review #WordArt #Scene Text Recognition #Data Synthesis #Arbitrary-Shaped Input #Autoregressive Decoder #WATERec #WATER-S

2026년 6월 24일

[논문리뷰] World Value Models for Robotic Manipulation

본 연구는 기존 로봇 가치 모델이 정적인 이미지 기반의 VLM 백본에 의존하여 장기적인 시간적 맥락과 미래 결과를 이해하는 데 한계가 있다는 문제점에서 출발합니다.

#Review #World Models #Robotic Manipulation #Value Estimation #Flow Matching #Distributional Value #Suboptimal-Value-Bench

2026년 6월 23일

[논문리뷰] ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

본 논문은 실제 소셜 미디어 환경의 복잡한 다중 모달 허위 정보(misinformation)를 탐지하기 위한 기존 벤치마크와 모델들의 한계를 해결하고자 합니다.

#Review #Multimodal Misinformation Detection #Agentic Verification #Multilingual Benchmark #Memory-Augmented Retrieval #Evidence Provenance

2026년 6월 23일

[논문리뷰] Qwen-AgentWorld: Language World Models for General Agents

본 연구는 대규모 언어 모델(LLM) 기반 에이전트가 효과적으로 작동하기 위해 필수적인 환경 시뮬레이션 능력, 즉 World Model의 부재를 해결하고자 합니다. 기존 연구는 에이전트의 정책(Policy) 결정에만 집중할 뿐, 환경의 동역학을 예측하는 World Model 구축에는 소홀했습니다.

#Review #Language World Model #Agentic Environment #Foundation Model #Reinforcement Learning #Chain-of-Thought #Agentic Agents #Simulation Fidelity

2026년 6월 23일

[논문리뷰] QG-MIL: A Gated Transformer Aggregator for Domain-Agnostic Multiple Instance Learning in Medical Imaging

본 논문은 기존의 Attention 기반 Multiple Instance Learning(MIL) 모델이 가진 고질적인 Attention Concentration 문제를 해결하고자 한다.

#Review #Multiple Instance Learning #Weakly Supervised Classification #Gated Transformer #Digital Pathology #Hematology #Attention Concentration

2026년 6월 23일

[논문리뷰] OpenThoughts-Agent: Data Recipes for Agentic Models

본 논문은 에이전트용 모델을 학습시키기 위한 데이터 큐레이션(Data Curation) 방법론이 공개적으로 거의 알려져 있지 않은 문제를 해결하고자 한다.

#Review #Agentic Models #Data Curation #Supervised Fine-Tuning #Reinforcement Learning #Scaling Laws #Agentic Benchmarks

2026년 6월 23일

[논문리뷰] NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

본 논문은 AI 코딩 에이전트가 단순한 논문 구현(reproduction)을 넘어, 실제 과학적 난제에 대해 기존 SOTA를 능가하는 독창적인 방법론을 발견(discovery)할 수 있는지 평가하는 것을 목표로 한다.

#Review #Coding Agents #NatureBench #NatureGym #AI for Science #Benchmark #SOTA-normalized #Autonomous Discovery

2026년 6월 23일

[논문리뷰] MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

본 논문은 모바일 GUI 에이전트의 타겟 앱 적응 과정에서 발생하는 비용과 비효율성 문제를 해결하기 위해 MobileForge를 제안한다. 기존 연구들은 사람이 작성한 작업 데이터나 전문가 시연, 보상 레이블에 의존해야 하므로 앱의 잦은 업데이트에 대응하기 어렵다 .

#Review #Mobile GUI Agents #Annotation-Free Adaptation #Hierarchical Feedback #Policy Optimization #MobileGym #HiFPO #GRPO

2026년 6월 23일

[논문리뷰] MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

본 논문은 기존 MLLM 기반 모바일 GUI 에이전트들이 장기 작업(long-horizon task)에서 나타내는 신뢰성 저하와 컨텍스트 관리의 비효율성 문제를 해결하고자 합니다.

#Review #Mobile GUI Agent #Context-as-Action #Proactive Context Management #Long-horizon Task #History Folding #UI Memory #End-to-End Model

2026년 6월 23일

[논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

본 논문은 기존 정신과 AI 벤치마크들이 실제 임상 현장의 다학제적 진단 요구를 반영하지 못하고 있다는 문제의식에서 출발한다 . 기존 연구들은 주로 정적인 Q&A 방식에 국한되어 있어, 실제 진단 과정에 필수적인 동적 대화와 정보 수집 전략을 평가하는 데 한계가 있었다.

#Review #Psychiatric Diagnosis #Large Language Models #Multi-Agent Framework #Clinical Dialogue Benchmark #Mental Health #LingxiDiag-16K

2026년 6월 23일

[논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

본 논문은 LLM pre-training의 데이터 혼합 전략이 단일 최적화 관점에만 치중되어, 복잡하고 동적인 학습 과정을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Large Language Models #Deep Reinforcement Learning #Online Data Mixing #Reward Shaping #Multi-Objective Optimization #Curriculum Learning #Training Efficiency

2026년 6월 23일

[논문리뷰] FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning

본 논문은 기존 자율주행 계획 연구의 양대 산맥인 Scoring-based 방식과 Anchor-based 방식 사이의 구조적 한계를 해결하고자 한다.

#Review #Multimodal Driving Planning #Flow-matching #Reward-conditioned Distribution #Autonomous Driving #Trajectory Generation #Classifier-Free Guidance

2026년 6월 23일

[논문리뷰] FedOT: Ownership Verification and Leakage Tracing via Watermarks for Federated LDMs

본 논문은 Federated Learning 환경에서 학습된 LDMs의 모델 소유권 보호와 유출 경로 추적 문제를 해결하기 위해 제안되었습니다 . 기존의 연구들은 주로 분류 모델에 집중되어 있어 복잡한 생성 모델인 LDMs에 직접 적용하기 어렵습니다.

#Review #Federated Learning #Latent Diffusion Models #Watermarking #Ownership Verification #Leakage Tracing #Latent Vector Transformation

2026년 6월 23일

[논문리뷰] FLUX3D: High-Fidelity 3D Gaussian Generation with Diffusion-Aligned Sparse Representation

본 논문은 기존 sparse voxel 기반 image-to-3DGS 생성 모델이 겪는 고해상도 외형 디테일의 손실 문제를 해결하고자 합니다.

#Review #3D Gaussian Splatting #Diffusion-Aligned Sparse Representation #Sparse-Structure-Aware Diffusion #Image-to-3D Generation #High-Fidelity Reconstruction #Cross-modal Alignment

2026년 6월 23일

[논문리뷰] FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation

본 논문은 기존의 Feedforward 장면 생성 모델들이 출력하는 볼륨 기반의 3D Gaussian 방식이 가지는 기하학적 한계를 극복하고자 합니다.

#Review #3D Scene Generation #Triangle Splatting #Video Diffusion Models #Differentiable Rendering #Feedforward Latent Decoding #Surface Reconstruction

2026년 6월 23일

[논문리뷰] EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

본 논문은 기존의 VLA 모델이 엄격한 Markovian 가정 하에 작동하여 장기 작업(long-horizon) 중 발생하는 시각 정보의 차단이나 일시적 변화를 적절히 처리하지 못하는 문제를 해결합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #Long-Horizon #Memory-Augmented #Keyframe Evidence Memory #Non-Markovian

2026년 6월 23일

[논문리뷰] Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

본 연구는 LLM 기반 에이전트의 자가 진화(Self-evolution) 과정에서 발생하는 Self-Confirmation Trap 문제를 해결하고자 합니다.

#Review #LLM Agents #Experience Learning #Self-Confirmation Trap #Multi-Agent Collaboration #Memory Construction #Heterogeneous Execution

2026년 6월 23일

[논문리뷰] DiffusionBench: On Holistic Evaluation of Diffusion Transformers

본 논문은 현재 DiT 연구가 class-conditional ImageNet generation 성능에만 지나치게 편중되어, 실제 모델의 범용적인 성능 향상을 보장하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #ImageNet #Text-to-Image #Benchmarking #Unified Framework #Generative Modeling

2026년 6월 23일

[논문리뷰] DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

본 논문은 기존 Contrastive Learning 기반의 Dense Retriever 학습이 고비용의 레이블 데이터와 정교한 Hard Negative Mining을 필요로 하는 한계를 극복하고자 합니다.

#Review #Dense Retrieval #Autoregressive Modeling #Next-Token Prediction #Attention Heads #Frozen LLM #Information Retrieval

2026년 6월 23일

[논문리뷰] ChartWalker: Benchmarking the Cross-Chart RAG Task

본 논문은 기존의 Cross-Chart RAG 연구들이 가진 구조적 정보 부족과 논리적 추론 한계를 해결하고자 합니다.

#Review #Cross-Chart RAG #Knowledge Graph #Multimodal #Reasoning Paths #Benchmark #Agentic Retrieval

2026년 6월 23일

[논문리뷰] Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

본 논문은 현재의 Text-to-Image (T2I) 모델들이 진정한 인과적 추론 능력을 갖추었는지, 아니면 단순한 패턴 매칭에 불과한지를 검증하는 문제를 해결하고자 한다.

#Review #Counterfactual Reasoning #Text-to-Image Generation #Causal Understanding #Benchmark #Prior Resistance #Vision-Language Model

2026년 6월 23일

[논문리뷰] An Efficient Method for the Optimal Control of Microgrids Under Uncertainties using Local Reduction

본 논문은 마이크로그리드 내의 신재생 에너지, 전력 수요, 가격 등 다양한 불확실성 환경에서 최적의 설비 규모 결정과 전력 스케줄링을 수행하는 문제를 다룹니다 .

#Review #Microgrids #Robust Optimal Control #Local Reduction #Energy Storage Systems #Mixed-Integer Linear Programming #Nonlinear Programming

2026년 6월 23일

[논문리뷰] AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

기존의 개인용 운영체제는 앱 중심(app-centric)으로 설계되어 있어, 자율적으로 도구를 호출하고 작업을 수행하는 AI 에이전트의 워크플로우를 지원하는 데 적합하지 않습니다. 기존 시스템의 고정된 GUI와 파편화된 앱 생태계는 에이전트의 상호작용에 있어 높은 실행 오버헤드와 보안상의 취약점을 야기합니다.

#Review #OS-level Agent #AOSP #Personalized Service Composition #Agent-Native OS #Information-Flow Security #Android

2026년 6월 23일

[논문리뷰] AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning

본 논문은 현대의 LLM 기반 에이전트가 기업 내부의 방대한 문서 아카이브에서 실질적인 지식 업무를 수행하는 데 필요한 Archive-grounded reasoning 능력을 평가하기 위해 Agora를 제안한다.

#Review #Agentic AI #Document Reasoning #Archive-Grounded #Benchmark #Multi-Hop QA #Workplace Automation

2026년 6월 23일

[논문리뷰] Understanding the Behaviors of Environment-aware Information Retrieval

본 논문은 다양한 Retriever 환경에서 LLM이 범용적인 쿼리 방식만을 사용하는 것이 비효율적이라는 문제 의식에서 출발합니다.

#Review #Retrieval-Augmented Generation (RAG)#Reinforcement Learning (RL)#Query Formulation #Retriever-aware #Structural Drift #Branching Rollout #Group Relative Policy Optimization (GRPO)

2026년 6월 18일

[논문리뷰] Thinking with Visual Grounding

본 논문은 기존 VLM(Vision-Language Model)의 추론 과정이 언어적 논리에는 치중되어 있으나, 정작 그 논리의 근거가 되는 이미지 내 특정 영역을 명시하지 않아 검증이 어렵다는 문제를 해결하고자 합니다.

#Review #Visually Grounded Thinking #Vision-Language Models #Reinforcement Learning #Visual Grounding #SAM3 #Spatial Reasoning

2026년 6월 18일

[논문리뷰] Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

본 논문은 하이브리드 모델로의 전환 시 발생하는 부적절한 재귀적 파라미터 초기화 문제를 해결하고자 합니다. 기존 연구들은 Transformer의 가중치를 복사하는 데 집중하지만, 새롭게 도입되는 GDN의 동역학(decay, gate 등)을 고려하지 않아 초기 모델이 최적화되지 않은 상태에서 학습을 시작하게 됩니다 .

#Review #Hybrid Linear Attention #Gated DeltaNet #Model Distillation #Initialization #Softmax Attention #Knowledge Distillation #Recurrent Dynamics

2026년 6월 18일

[논문리뷰] Selective Synergistic Learning for Video Object-Centric Learning

본 논문은 기존 VOCL 연구에서 encoder와 decoder 사이의 구조적 비대칭성으로 인해 발생하는 학습 불안정성과 정보 정렬의 비효율성을 해결합니다.

#Review #Video Object-Centric Learning #Selective Distillation #Pseudo-labeling #Transitive Merging #Slot Attention #Encoder-Decoder Alignment

2026년 6월 18일

[논문리뷰] S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

본 논문은 기존 VLM들이 정적인 단일 프레임 관찰에 의존하여 연속적이고 진화하는 3D 환경에서의 공간 추론에 한계를 보인다는 점을 해결하고자 합니다 . 기존 모델들은 파편화된 2D 시각 정보에 의존하기 때문에 공간적 일관성(spatial consistency) 유지와 고도화된 3D 기하학적 이해가 어렵습니다.

#Review #Spatial Intelligence #Vision-Language Models (VLM)#Agentic Paradigm #Spatio-Temporal Reasoning #Tool-Use #Spatial Evidence Accumulation

2026년 6월 18일

[논문리뷰] Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

본 논문은 LLM pretraining에서 FP4 사용 시 관찰되는 훈련 불안정성의 근본 원인으로 E2M1 포맷의 기하학적 결함을 지목합니다. 기존 연구들은 이상치 처리를 위해 RHT를 사용하지만, 이는 텐서의 분포를 비대칭적인 E2M1 빈으로 집중시켜 오히려 양자화 품질을 저하시키는 결과를 초래합니다 .

#Review #FP4 #Shrinkage Bias #E2M1 #E1M2 #Random Hadamard Transform #LLM Pretraining #Quantization

2026년 6월 18일

[논문리뷰] Playful Agentic Robot Learning

본 논문은 기존의 Code-as-Policy 시스템이 외부 명령에 의존하는 Task-driven 방식으로 작동하여, 실제 작업이 주어지기 전에는 재사용 가능한 Skill을 습득하지 못한다는 한계를 해결하고자 한다.

#Review #Learning through Play #Agentic Robotics #Continual Skill Learning #Code-as-Policy #Robot Manipulation

2026년 6월 18일

[논문리뷰] No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

본 연구는 LLM의 코드 생성 능력이 학습 데이터가 풍부한 High-Resource 언어에 편중되어, 신생 기업에서 사용하는 No-Resource 언어에 대한 지원이 전무하다는 점을 해결하고자 한다.

#Review #Large Language Models #Code Generation #No-Resource Languages #Benchmark #Fine-Tuning #Pre-training

2026년 6월 18일

[논문리뷰] Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

본 논문은 기존의 코드 생성 평가가 특정 언어에 편향되어 있어 LLM의 실질적인 다국어 코딩 능력을 측정하지 못하는 한계를 해결하고자 한다. LiveCodeBench(LCB)는 지속적인 업데이트와 엄격한 오염 방지 제어를 통해 우수한 성능을 입증했으나, 오직 Python 언어만을 지원한다는 결정적인 단점이 존재한다 .

#Review #Code Generation #Multi-lingual Benchmark #Large Language Models #LiveCodeBench #Contamination-aware #Cross-lingual Evaluation

2026년 6월 18일

[논문리뷰] Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

본 논문은 10B-level industrial foundation model이 제공하는 고품질의 image inpainting 성능을 유지하면서도, 실제 배포가 불가능할 정도로 높은 연산 비용과 메모리 요구량을 해결하고자 합니다.

#Review #Image Inpainting #Diffusion Models #Knowledge Distillation #Model Compression #Latent Space Optimization #Lightweight Architecture #LλMI Block

2026년 6월 18일

[논문리뷰] LooseControlVideo: Directorial Video Control using Spatial Blocking

본 연구는 고품질 비디오 생성 모델에서 사용자 의도를 반영한 정밀한 3D 공간 제어와 복잡한 다중 객체 상호작용의 부재를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Diffusion Transformer #3D-Aware Control #Spatial Blocking #DNOCS #Motion Orchestration

2026년 6월 18일

[논문리뷰] JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

본 논문은 텍스트 기반의 프롬프트로부터 서로 다른 시점에서 상이한 의미를 갖는 3D Visual Illusion을 효율적으로 생성하는 문제를 해결하고자 한다 .

#Review #3D Visual Illusion #Zero-Shot Generation #Cross-Space Denoising #SDF Blending #View-Conditioned Texture Synthesis #CLIP-guided Orientation Search #Rectified Flow

2026년 6월 18일

[논문리뷰] JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

본 논문은 프로페셔널 게임 엔진 환경에서 프로젝트 레벨의 코드 프레임워크를 생성하고 평가하는 AI 기술의 부재를 해결하고자 한다 . 기존 연구들은 주로 단일 파일 생성이나 간단한 게임 로직에 국한되어 있으며, 게임의 복잡한 런타임 행동을 정량적으로 평가할 수 있는 방법론이 부족하였다.

#Review #Game Engine #Code Framework #Software Engineering #Benchmark #Dataset #Godot #Deterministic Evaluation

2026년 6월 18일

[논문리뷰] ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

기존의 WAM은 미래 비디오 생성에 의존하여 로봇 행동을 추론하지만, 여기에는 세 가지 심각한 한계가 존재합니다. 우선, 다수의 프레임에 대한 시공간 토큰을 처리해야 하므로 Inference 비용이 극도로 높습니다.

#Review #World Action Models #Image Editing #Robot Manipulation #Flow Matching #Efficient Inference #Embodied AI

2026년 6월 18일

[논문리뷰] HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Embodied foundation model 학습의 핵심 병목 현상은 정밀하게 주석 처리된 고품질 로봇 데이터의 부족과 데이터 수집의 높은 비용입니다.

#Review #Embodied AI #Egocentric Video #Pretraining #Robot Learning #Scaling Laws #Generalization #World-Action Models

2026년 6월 18일

[논문리뷰] Holo-World: Unified Camera, Object and Weather Control for Video World Model

본 연구는 비디오 월드 모델에서 카메라, 객체 동역학, 그리고 날씨 상태를 단일 인터페이스로 통합 제어하는 과정에서 발생하는 데이터 부족과 모델링 충돌 문제를 해결하고자 합니다.

#Review #Video World Model #Unified State Control #Weather Transfer #Unified Scene Adapter #Scene-Weather Decomposed CFG #HoloStateData

2026년 6월 18일

[논문리뷰] FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

본 연구는 스타일과 콘텐츠를 동시에 참조하는 Dual-Reference Generation 작업에서 발생하는 콘텐츠 누출(Content Leakage) 및 구조 왜곡 문제를 해결하고자 합니다.

#Review #Diffusion Models #Dual-Reference Generation #LoRA Mining #Content-Style Disentanglement #Attention Enrichment #RoPE Modulation

2026년 6월 18일

[논문리뷰] FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

본 논문은 기존 conditional generative 모델들이 컨디셔닝 신호를 정적인 입력으로만 취급하여 발생하는 생성 품질 저하와 정렬 실패 문제를 해결하고자 합니다.

#Review #Flow Matching #Conditional Generation #Feedback-Aware Training #Closed-Loop Inference #Self-Correction

2026년 6월 18일

[논문리뷰] FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

본 논문은 복잡한 Multi-step LLM 파이프라인에서 발생하는 단계 간 상호작용 실패와 병목 현상을 해결하기 위해 FAPO를 제안한다. 기존의 프롬프트 전용 최적화 기법은 파이프라인 전체의 구조적 결함을 파악하는 데 한계가 있으며, 단일 단계의 프롬프트 튜닝만으로는 성능 개선이 어렵다.

#Review #LLM Pipeline #Prompt Optimization #Autonomous Agent #Claude Code #LangGraph #Failure Attribution #Pipeline Architecture

2026년 6월 18일

[논문리뷰] ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

본 논문은 로봇의 Dexterous Manipulation 기술을 습득함에 있어 인간의 개입이 필수적인 현재의 병목 현상을 해결하고자 합니다.

#Review #Physical Autoresearch #Agentic Robot Policy #Robot Fleet #Closed-loop System #Self-Improvement #Task Manipulation

2026년 6월 18일

[논문리뷰] Duration Aware Scheduling for ASR Serving Under Workload Drift

본 논문은 대규모 ASR 시스템에서 FCFS 기반 스케줄링이 작업 시간의 가변성을 고려하지 못해 발생하는 비효율성 문제를 해결한다. 기존의 vLLM과 같은 서빙 엔진들은 입력을 순차적으로 처리하므로, 긴 오디오 요청이 짧은 요청들을 가로막는 Head-of-Line blocking 현상이 빈번하게 발생한다.

#Review #ASR #Scheduling #Latency #vLLM #Whisper #Workload Drift #SJF #HRRN

2026년 6월 18일

[논문리뷰] DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

본 연구는 관절형 물체를 조작할 때 발생하는 hand-object interaction (HOI) 의 물리적 안정성 문제를 해결하고자 합니다.

#Review #Dexterous Manipulation #Articulated Object Manipulation #Hand-Object Interaction #Reinforcement Learning #Contact-Driven #Physically Informed #Robustness

2026년 6월 18일

[논문리뷰] DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

본 연구는 기존 Distractor-Free Radiance Field 연구들이 대규모의 체계적인 데이터셋과 벤치마크의 부재로 인해 방법론의 강점과 한계를 파악하기 어렵다는 문제를 해결합니다.

#Review #Distractor-Free #Novel View Synthesis #Radiance Fields #3D Dataset #Benchmark #Diffusion-based Enhancement #DI2FIX

2026년 6월 18일

[논문리뷰] Current World Models Lack a Persistent State Core

본 논문은 현대의 World Models가 정교한 프레임을 생성할 수는 있으나, 관찰자가 보고 있지 않을 때에도 독립적으로 진화해야 하는 '지속적인 세계 상태(Persistent State Core)'를 결여하고 있다는 점을 지적합니다.

#Review #World Models #Persistent State #Viewpoint Intervention #WRBench #Video Generation #Diagnostic Benchmark #World-State Consistency

2026년 6월 18일

[논문리뷰] Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

본 논문은 현대의 LLM 에이전트가 단일 점수 기반의 정적 리더보드로는 충분히 평가될 수 없으며, 이로 인해 Rank Instability가 발생한다는 점을 지적합니다.

#Review #LLM Agents #Predictive Validity #Benchmark #Evaluation #Out-of-Distribution #MCP #Leaderboard

2026년 6월 18일

[논문리뷰] Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

본 논문은 기존 3D 에셋이 물리 시뮬레이션에 필수적인 재질 정보(Young's modulus, Poisson's ratio, density)를 결여하고 있어, 사실적인 물리 시뮬레이션 구현에 병목 현상을 겪고 있다는 문제를 해결합니다 .

#Review #Mechanical Properties #Sparse Adaptive Voxels #Physics Simulation #Autoregressive Generation #3D Assets #Material Fields

2026년 6월 18일

[논문리뷰] iOSWorld: A Benchmark for Personally Intelligent Phone Agents

본 논문은 기존 모바일 에이전트 벤치마크가 사용자의 지속적인 데이터와 상호 연관된 개인적 문맥을 결여하고 있다는 점을 지적하며, '개인 지능(Personal Intelligence)'을 갖춘 에이전트 평가의 필요성을 제기합니다.

#Review #iOSWorld #Mobile Agents #Personal Intelligence #Human-Computer Interaction #LLM-as-a-Judge #Multi-app Reasoning #Simulator Benchmark

2026년 6월 17일

[논문리뷰] Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

본 논문은 OPSD 학습 과정에서 발생하는 교사 모델 신호의 품질 저하 문제를 해결하기 위해 Quality-Aware Self-Distillation을 제안한다.

#Review #GUI Grounding #On-Policy Self-Distillation #Teacher-Signal Reliability #Vision-Language Models #Correctness-Aware Gating #Probability Scaling

2026년 6월 17일

[논문리뷰] Sumi: Open Uniform Diffusion Language Model from Scratch

본 연구는 대규모 파라미터와 데이터 스케일로 scratch부터 사전 학습된 UDLM의 부재를 해결하고자 한다.

#Review #Uniform Diffusion Language Model #UDLM #Diffusion Models #Pre-training #Scaling #Generation Dynamics #Sumi

2026년 6월 17일

[논문리뷰] SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

본 논문은 frontier multimodal scientific reasoning 분야에서 단일 상용 LLM 시스템이 전문가 수준의 성능을 달성하지 못하는 한계를 극복하고자 합니다.

#Review #Multimodal Scientific Reasoning #LLM Orchestration #MCTS #Reinforcement Learning #Expert Model Delegation #Agentic Workflow

2026년 6월 17일

[논문리뷰] STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

본 논문은 RLVR 기반의 LLM 학습 과정에서 빈번하게 발생하는 Policy Entropy Collapse 문제를 해결하고자 합니다. 기존의 GRPO는 학습이 지속됨에 따라 출력 다양성이 사라지고 모델이 조기에 수렴하는 현상을 겪으며, 이는 장기적인 포스트 트레이닝의 병목 현상으로 작용합니다 .

#Review #Reinforcement Learning #Policy Entropy #GRPO #Advantage Reweighting #Surprisal #LLM Post-training #Credit Assignment

2026년 6월 17일

[논문리뷰] SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

본 논문은 SAE를 이용한 잠재 공간(latent-space) 방어 기법들이 행동을 완전히 통제하지 못할 수 있다는 한계점을 지적합니다.

#Review #Sparse Autoencoders #Intervention #Post-Intervention Recovery #Constrained Optimization #Interpretability #Safety #Residual Stream

2026년 6월 17일

[논문리뷰] Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

본 논문은 기존의 Spatial VLM들이 가진 복합적인 공간 추론 능력의 한계를 극복하고자 합니다. 현재의 모델들은 단순한 기하학적 인식에는 강점을 보이나, 깊이 정보와 거리 비교, 장면 관계가 얽힌 복합적인 다단계 추론에는 여전히 취약합니다 .

#Review #Spatial Vision-Language Models #Reinforcement Learning #Dual-Path Reasoning #Chain-of-Thought #3D Grounding #Geometric Reasoning

2026년 6월 17일

[논문리뷰] RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

본 논문은 Multi-turn Tool-Use 에이전트 학습 시 발생하는 데이터 부족 및 정보 밀도 감소 문제를 해결하고자 합니다.

#Review #Multi-turn Tool-Use #Reinforcement Learning #Data Synthesis #Gradient Variance #Capability Boundary #Agentic RL #Replay Buffer

2026년 6월 17일

[논문리뷰] Physics-IQ Verified

본 논문은 기존 Physics-IQ benchmark가 물리적 이해도를 측정하는 데 있어 포함하고 있는 측정 오류(Measurement Error)와 평가 프로토콜의 한계를 해결하고자 한다.

#Review #Video Generative Models #Physical Reasoning #Benchmark #Evaluation #Ground Truth #Artifacts #Physics-IQ

2026년 6월 17일

[논문리뷰] PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

기존의 World Foundation Models는 대부분 단일 뷰(Single-view) 기반으로 동작하거나, 다중 뷰를 단순히 시퀀스 차원에서 연결(Concatenation)하는 방식을 취하여 로봇 조작에 필수적인 3D 일관성 문제를 해결하지 못한다.

#Review #World Foundation Model #Robotic Manipulation #3D Consistency #Diffusion Transformer #Flow Matching #Multi-view Generation

2026년 6월 17일

[논문리뷰] Native Active Perception as Reasoning for Omni-Modal Understanding

본 논문은 기존의 패시브한 Long Video Understanding 모델들이 가진 컴퓨팅 자원 및 성능의 한계를 해결하기 위해 제안되었습니다. 기존 연구들은 비디오 전체를 균일하게 처리하거나 전역적 사전 스캔에 의존함으로써, 비디오 길이에 따라 계산 비용이 선형적으로 증가하는 고질적인 병목 현상을 겪고 있습니다 .

#Review #Omni-modal Understanding #Active Perception #POMDP #Agentic Reasoning #Test-time Scaling #TAURA #Reinforcement Learning

2026년 6월 17일

[논문리뷰] MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

본 논문은 기존의 Computer-Use 에이전트 벤치마크가 실사용 환경과 동떨어진 '개인성(Impersonality)' 결여 문제를 해결하고자 한다.

#Review #Computer-Use Agents #Personalization #Benchmark #Linux Desktop #Agent Harness #Cross-App Consistency

2026년 6월 17일

[논문리뷰] Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

본 논문은 터키어와 같은 교착어에서 기존 subword 토크나이저(BPE, WordPiece 등)가 가진 형태론적 무지성과 정보 손실 문제를 해결하고자 합니다.

#Review #Turkish NLP #Morphological Tokenizer #Differentiable Segmentation #Word Embedding #Poisson-Binomial #Reversible Tokenization

2026년 6월 17일

[논문리뷰] Learning User Simulators with Turing Rewards

본 논문은 기존의 사용자 시뮬레이터 학습 방식이 실제 인간의 행동을 충분히 모사하지 못하는 근본적인 한계를 해결하고자 합니다. 기존 연구들은 주로 Log-probability 최대화 또는 Ground truth 응답과의 단순 Similarity를 측정하는 방식에 의존해 왔습니다.

#Review #User Simulation #Turing Reward #Reinforcement Learning #Large Language Models #Indistinguishability #GRPO #Human-likeness

2026년 6월 17일

[논문리뷰] LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence

본 연구는 기존 오픈소스 5G 네트워크 환경에서 NWDAF의 기능적 한계와 비전문가 사용자를 위한 직관적인 관리 도구의 부재를 해결하고자 합니다.

#Review #NWDAF #5G Core Network #6G #LLM Interface #Intent-Based Networking #Open-Source Testbed #RAG

2026년 6월 17일

[논문리뷰] Kairos: A Native World Model Stack for Physical AI

본 논문은 현재 World Model이 단순한 비디오 생성기를 넘어 Physical AI를 위한 근본적인 인프라로 진화해야 한다는 필요성에서 출발한다 .

#Review #Physical AI #World Model #Diffusion Transformer #Gated Linear Attention #Cross-Embodiment #Deployment-Aware #Embodied Control

2026년 6월 17일

[논문리뷰] IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

본 연구는 기존의 일반적인 시각적 추론 벤치마크가 산업용 제품의 복잡하고 지식 집약적인 사양 이해를 다루지 못한다는 한계에서 출발합니다.

#Review #IndustryBench-MIPU #Attribute Value Extraction #Multimodal Large Language Models #Industrial Products #Completeness Gap #Multi-Image Integration

2026년 6월 17일

[논문리뷰] Guava: An Effective and Universal Harness for Embodied Manipulation

본 논문은 Embodied Manipulation 환경에서 복잡한 저수준 제어를 직접 학습하는 기존의 End-to-End VLA(Vision-Language-Action) 모델의 데이터 비효율성과 낮은 복구 능력을 해결하기 위해 Guava 프레임워크를 제안합니다.

#Review #Embodied Manipulation #Harness Framework #Vision-Language Models #ReAct #Tool Use #Policy Distillation #Sim2Real

2026년 6월 17일

[논문리뷰] From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

본 연구는 RL 학습 환경을 수동으로 설계하는 기존 파이프라인의 비효율성과 확장성 한계를 해결하고자 수행되었습니다. 기존의 RL 학습은 환경 설정이 고정되어 있거나, 전문가가 휴리스틱에 의존하여 학습 커리큘럼을 직접 조정해야 하므로 복잡한 시나리오에서의 일반화 및 최적화 능력이 저하되는 문제가 있습니다.

#Review #Reinforcement Learning #LLM-as-Environment-Engineer #Multi-Agent Path Finding #MAPF-FrozenLake #Self-Improvement #Policy Conditioning

2026년 6월 17일

[논문리뷰] Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

본 논문은 현대의 AI 과학자 시스템들이 자동화된 과학적 연구 수행에는 능숙하나, 연구의 논리적 근거와 추론 과정이 모델의 내부 상태에 잠겨 있어 외부에서 검증하거나 감사하기 어렵다는 문제를 제기한다 .

#Review #AI Scientist #Research Harness #Research Synthesis #Experimental Validation #Claim Drift #Auditability #Paper Graph Infrastructure

2026년 6월 17일

[논문리뷰] EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

본 논문은 LLM의 RL 학습 과정에서 발생하는 Rollout 생성의 고질적인 Latency 문제를 해결하기 위해 고안되었습니다.

#Review #Reinforcement Learning #Speculative Decoding #Self-Speculative Decoding #LLM Rollout #System-Aware #Quantization

2026년 6월 17일

[논문리뷰] CEO-Bench: Can Agents Play the Long Game?

본 논문은 기존의 에이전트 평가 방식이 단기 작업(Short-horizon tasks)에 치우쳐 있어, 실제 세계의 복잡한 의사결정 과정을 검증하지 못한다는 문제 의식에서 출발한다 .

#Review #Long-Horizon #Agent Evaluation #Business Simulation #Decision Making #Partial Observability #Strategic Planning #Autonomous Agents

2026년 6월 17일

[논문리뷰] Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

본 논문은 MLLM이 현재 눈에 보이는 정보 외에 과거의 관측값을 기억하고 이를 활용해야 하는 Non-Markov 상황에서의 한계를 해결하고자 합니다. 기존 벤치마크들은 은닉 상태를 재구성하는 능력과 다른 에이전트 기술들을 혼재시키거나, 에피소드가 끝난 후 기억을 테스트하는 방식으로 기억력을 제대로 격리하지 못했습니다.

#Review #Multimodal Large Language Models #Non-Markov Games #In-context State Tracking #Belief State #Closed-loop Evaluation #Memory Gap

2026년 6월 17일

[논문리뷰] Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

본 논문은 기존의 Value Alignment 평가가 개별 agent의 충실도에만 집중하여, 멀티 에이전트 시스템 전체가 보유해야 할 문화적 다양성을 간과하고 있다는 문제를 제기합니다.

#Review #Value Diversity #Multicultural Agent Systems #LLM Alignment #Collective Decision-Making #Cultural Homogenization #System-Level Evaluation

2026년 6월 17일

[논문리뷰] Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

본 논문은 Transformer의 내부 연산 과정을 해석하기 위해 별도의 해석 모델을 훈련해야 하는 기존 방식의 비효율성을 해결하고자 한다.

#Review #Mechanistic Interpretability #Transformer #Standard Basis #Dimension-Level #Feature Discovery #Sign Patterns #Zero-Training

2026년 6월 17일

[논문리뷰] A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

본 논문은 스프레드시트 환경에서 부족한 자동 완성(auto-completion) 기능을 보완하기 위해 차세대 작업 예측을 위한 벤치마크와 평가 프레임워크를 제안합니다. 기존의 코드 자동 완성 연구와 달리, 스프레드시트는 공개적인 편집 기록(edit history) 데이터가 부족하고 작업 공간이 복잡하다는 한계가 있습니다.

#Review #Spreadsheet Automation #Next Action Prediction #Benchmark #Online Evaluation #Human-AI Collaboration #Code Completion

2026년 6월 17일

[논문리뷰] Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

본 논문은 소형 모델(Small-scale Student)의 지식 전달(Knowledge Transfer) 시 발생하는 일반화 성능 저하 및 강화학습의 비효율성 문제를 해결하고자 합니다.

#Review #ZPPO #Reinforcement Learning #Knowledge Distillation #Prompt Engineering #VLM #LLM #Policy Gradient #Zone of Proximal Development

2026년 6월 16일

[논문리뷰] Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

본 논문은 기존의 Multimodal Deep Search Agent들이 실제 환경의 복잡한 시각 정보를 효과적으로 다루지 못하는 'Visual Blindness' 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Agentic Search #Active Visual Reasoning #Data Synthesis #Visual-native #Multi-hop Reasoning

2026년 6월 16일

[논문리뷰] Variable-Width Transformers

본 논문은 대부분의 Transformer 모델이 모든 층에 걸쳐 일정한 Width를 유지하는 Uniform-Width 설계를 고수함으로써 발생하는 자원 비효율성 문제를 해결하고자 한다. 저자들은 층별로 수행하는 계산적 역할이 다름에도 불구하고 고정된 매개변수와 연산 예산을 균등하게 할당하는 것은 최적이 아니라고 주장한다.

#Review #Transformer #Nonuniform Capacity Allocation #Variable-Width Architecture #Scaling Laws #KV Cache #Computational Efficiency #Representation Collapse

2026년 6월 16일

[논문리뷰] Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

본 논문은 시각적 이해(understanding)와 생성(generation)이 서로 다른 representation space를 사용하여 통합된 모델링을 저해한다는 핵심 문제를 해결합니다.

#Review #Unified Multimodal Modeling #Autoregressive Modeling #Binary Spherical Quantization #Visual Tokenizer #Parallel Bitwise Prediction #Shared Context

2026년 6월 16일

[논문리뷰] The Price of Anarchy in Disaggregated Inference

본 연구는 Disaggregated Inference 시스템이 다수의 독립적인 에이전트(요청, 연산 풀, 캐시 블록)가 자원을 놓고 경쟁하는 복잡한 멀티 에이전트 시스템이라는 점에 주목한다.

#Review #Disaggregated Inference #Price of Anarchy #LLM Serving #Game Theory #Resource Allocation #KV Cache

2026년 6월 16일

[논문리뷰] Text-Vision Co-Instructed Image Editing

본 논문은 기존 이미지 편집 방식이 가진 공간 제어의 불명확성과 의미적 의도의 모호성 문제를 해결하기 위해 제안되었습니다. 기존의 textual instruction-based 모델은 의미적 표현력은 뛰어나지만, 정교한 공간적 제어나 객체의 움직임을 지정하는 데 한계가 있습니다 .

#Review #Computer Vision #Diffusion Models #Image Editing #Text-Vision Co-Instruction #Spatial Control #Semantic Editing

2026년 6월 16일

[논문리뷰] TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

임상적 의사결정 지원 시스템은 환자 선별(Triage)을 위한 정밀한 위험 점수와 임상의가 신뢰할 수 있는 자연어 설명(Rationales)을 동시에 제공해야 합니다 .

#Review #Medical Time Series #Large Language Models #Dialectical Reasoning #Risk Prediction #Explainability #Calibration

2026년 6월 16일

[논문리뷰] Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

본 논문은 픽셀 공간 확산 모델에서 모델의 컴퓨팅 자원이 비효율적으로 할당되는 문제를 해결하고자 합니다.

#Review #Pixel-space Diffusion #Rectified-flow #Spectral Forcing #Data-to-Noise Ratio #Capacity Allocation #Coarse Tokenization

2026년 6월 16일

[논문리뷰] Rethinking the Role of Efficient Attention in Hybrid Architectures

본 논문은 하이브리드 아키텍처에서 Efficient Attention이 모델의 장거리 문맥 학습 능력에 미치는 영향을 체계적으로 규명하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Efficient Attention #Full Attention #Scaling Law #Long-Context Capability #Optimization Prior #Large-Window Laziness

2026년 6월 16일

[논문리뷰] RepSelect: Robust LLM Unlearning via Representation Selectivity

본 논문은 LLM에서 특정 정보를 삭제하는 unlearning 과정이 왜 쉽게 역전(reversal)되는지 그 근본 원인을 분석하고 해결책을 제시합니다.

#Review #LLM Unlearning #Representation Selectivity #SVD #Robustness #Fine-tuning Attack #Few-shot Prompting

2026년 6월 16일

[논문리뷰] RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

본 연구는 사용자 제공 고해상도 참조 이미지(HRRI)를 저해상도(LR)로 다운샘플링하여 입력하는 기존 파이프라인의 정보 손실 문제와, 이로 인해 발생하는 생성 아티팩트를 동시에 해결하고자 합니다.

#Review #Reference-guided Generation #Super-Resolution #Generative Artifact Refinement #Diffusion Transformer #Frequency-adaptive Mixture of LoRA #Post-processing

2026년 6월 16일

[논문리뷰] OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

본 연구는 기존 메모리 증강 에이전트들이 단기적인 경험 저장이나 활용에는 능숙하지만, 상호작용 기록과 피드백을 지속적인 행동 개선으로 전환하는 '진정한 의미의 자가 진화(self-evolution)' 역량이 부족하다는 문제의식에서 출발합니다.

#Review #Agent Evolver #On-Policy Distillation #Experience Lifecycle #Memory Augmentation #Slow-Fast Co-evolution #Agentic Foundation Models

2026년 6월 16일

[논문리뷰] MotionVLA: Vision-Language-Action Model for Humanoid Motion

본 논문은 기존의 단일 코드북 기반 모션 토큰화가 저주파 포즈 정보에 편향되어 고주파 물리적 역학을 제대로 표현하지 못하는 문제를 해결하고자 합니다. 대다수 연구들은 움직임을 하나의 시퀀스로 통합하여 이산화하는데, 이는 관절 위치(저주파)와 속도(고주파)의 상이한 통계적 특성을 무시하게 만듭니다.

#Review #Vision-Language-Action #Humanoid Motion #Frequency-Domain Tokenizer #Autoregressive Generation #Dual-Stream Representation #MotionVLA

2026년 6월 16일

[논문리뷰] Looped World Models

본 논문은 기존 World Models가 장기 시뮬레이션에서 겪는 Compounding Prediction Error와 고정된 연산 깊이로 인한 비효율성 문제를 해결하기 위해 고안되었습니다.

#Review #Looped World Models #Latent Dynamics #Parameter Efficiency #Adaptive Computation #Spectral Stability #Deferred Decoding

2026년 6월 16일

[논문리뷰] LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

본 논문은 LoopCoder-v2를 통해 PLT에서 루프 횟수(loop count) 선택이 성능에 미치는 영향을 규명하고, 왜 특정 루프 횟수에서 성능이 포화되거나 저하되는지를 분석하고자 합니다.

#Review #Parallel Loop Transformer #Test-Time Compute #Gain-Cost Trade-off #Code Generation #Cross-Loop Position Offset #Representation Dynamics

2026년 6월 16일

[논문리뷰] LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

본 논문은 기존 AI 기반 교육 솔루션들이 단순 콘텐츠 추천이나 정적인 텍스트 제공에 국한되어, 학습자에게 실질적인 몰입과 이해를 돕는 Embodied 교수 행위를 통합하지 못하는 문제를 해결하고자 합니다 .

#Review #Multi-Agent Framework #Adaptive Personalized Learning #Embodied Teaching #Teaching Action-Speech Alignment #LLM Agent #Education Technology

2026년 6월 16일

[논문리뷰] Learning from the Self-future: On-policy Self-distillation for dLLMs

본 논문은 기존의 OPSD 방법론들이 Autoregressive (AR) 모델에 최적화되어 있어, dLLMs의 고유한 특성인 비자기회귀적 생성 방식과 충돌한다는 문제를 해결하고자 합니다.

#Review #On-policy Self-distillation #Diffusion Large Language Models #dLLMs #Step-level Divergence #Self-future #Reasoning Benchmarks

2026년 6월 16일

[논문리뷰] GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

본 논문은 현대의 Coding Agent가 자연어 명세(Specification)를 실제 실행 가능한 게임으로 변환하는 End-to-End 생성 능력을 엄밀하게 평가하고자 합니다.

#Review #Game Generation #Coding Agents #Game Engine #Godot #End-to-End Evaluation #Interactive Verification #Benchmark

2026년 6월 16일

[논문리뷰] EgoCS-400K: An Egocentric Gameplay Dataset for World Models

본 논문은 대규모 상호작용 세계 모델(Interactive World Models) 학습을 위한 고품질의 영상-액션-언어 데이터셋 부족 문제를 해결하고자 한다.

#Review #World Models #Egocentric Video #Gaming Agent #Video Generation #Replay-grounded #Embodied AI

2026년 6월 16일

[논문리뷰] Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

본 논문은 대규모 코퍼스에서 에이전트 기반 검색(Agentic Search)의 확장성과 정밀도 사이의 상충 문제를 해결하고자 합니다.

#Review #Agentic Search #Direct Corpus Interaction (DCI)#Workspace Expansion #Retrieval-Augmented Generation (RAG)#Dynamic Pull #Large-scale Corpus #Information Retrieval

2026년 6월 16일

[논문리뷰] ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

본 논문은 LLM이 영어 기반 논리 벤치마크에서는 우수한 성능을 보이지만, 중국어와 같이 언어적/실용적 변동성이 큰 환경에서도 이러한 논리적 추론 성능이 유지되는지 의문을 제기한다.

#Review #Logical Reasoning #Chinese Language Understanding #Robustness #Large Language Models #Benchmark #Surface Realization #Back-translation

2026년 6월 16일

[논문리뷰] Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

본 논문은 기존의 browsing-based 벤치마크들이 대부분 모국어(monolingual) 환경을 가정하고 있어, 실제 정보 탐색 시 필수적인 언어 간 교차(cross-lingual) 능력을 평가하지 못한다는 문제를 해결하고자 한다.

#Review #Deep Research #Cross-lingual Retrieval #Agentic Search #Multilingual Evaluation #Evidence Recall #Benchmarking #Information Seeking

2026년 6월 16일

[논문리뷰] Aligning Quantum Operators with Large Language Models

본 연구는 LLM이 텍스트나 기호 기반의 양자 프로그램은 처리할 수 있으나, 양자 연산의 본질인 Unitary Matrix와 같은 수학적 객체를 직접 이해하지 못한다는 한계를 해결하고자 합니다. 기존의 방식들은 기호화된 프록시에 의존하여 양자 연산자의 수치적 구조를 파악하지 못하는 문제가 있습니다.

#Review #Quantum Circuit Synthesis #Large Language Models #Pauli Transfer Matrix #Multimodal Alignment #Unitary Synthesis #Stepwise Autoregressive Synthesis #Language-Conditioned Synthesis

2026년 6월 16일

[논문리뷰] ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

기존의 인터랙티브 월드 모델은 주로 이동(locomotion)과 뷰포인트 제어에 집중되어 있어, 실질적인 객체 상호작용을 지원하지 못하는 한계가 있습니다 . 이러한 '네비게이션-상호작용 격차'는 크게 두 가지 병목 현상에서 기인합니다.

#Review #World Model #Interactive Generation #Action-Aware Memory #Chunk-Autoregressive #Video Diffusion #Embodied AI #Human-Object Interaction

2026년 6월 16일

[논문리뷰] ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

본 논문은 일반 목적의 VLA 모델 학습 시 데이터의 양과 다양성을 확보하기 위해 로봇 데이터와 대규모 인간 egocentric 영상을 통합하고자 합니다. 기존의 VLA pretraining은 로봇 실습 데이터의 비용과 노동 집약적 수집 방식 때문에 규모 확장에 한계가 있습니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Learning from Human Video #Embodied AI #Cross-Embodiment #Pseudo-Action Supervision #Data Heterogeneity

2026년 6월 16일

[논문리뷰] A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

본 논문은 RLVR 학습 과정에서 발생하는 빈번한 모델 Collapse 문제를 토큰 단위의 경사(Gradient) 역학 관점에서 분석합니다. 기존의 GRPO 스타일 최적화 기법들은 오프라인 샘플을 재사용하는 과정에서 정책 드리프트나 비대칭적인 경사 업데이트로 인해 학습이 불안정해지는 한계가 있습니다.

#Review #RLVR #Policy Optimization #Gradient Dynamics #WAPO #Training Stability #Token-level Taxonomy

2026년 6월 16일

[논문리뷰] Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

본 논문은 다양한 능력을 갖춘 여러 MDLM의 지식을 디코딩 단계에서 어떻게 효과적으로 융합할 것인가에 대한 문제를 다룹니다. 기존의 Autoregressive 모델용 앙상블 기법은 순차적인 생성 방식에 의존하므로, 비순차적이고 유연한 디코딩 방식을 가진 MDLM에는 직접 적용하기 어렵습니다.

#Review #Masked Diffusion Language Models #Ensembling #Decoding Dynamics #Trajectory-based Iterative Ensembling #Knowledge Fusion #Confidence Dynamics

2026년 6월 15일

[논문리뷰] Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

본 논문은 LLM이 정답을 알고 있음에도 불구하고, 외부의 그럴듯한 반론에 의해 얼마나 쉽게 답변을 번복하는지, 즉 '답변 안정성(Answer Stability)'을 체계적으로 평가하는 데 목적이 있습니다.

#Review #LLM #Answer Instability #Sycophancy #Argument-driven Challenge #MMLU #MaxFlip #Answer Flip Rate

2026년 6월 15일

[논문리뷰] Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

본 논문은 웹 에이전트 평가의 핵심 문제인 '최종 성공 여부(Terminal Success)에만 의존하는 방식'이 에이전트의 실패 원인을 규명하는 데 한계가 있다는 점을 지적한다. 기존의 결과 중심 평가는 긴 상호작용 과정에서 발생하는 질적으로 다른 실패 모드들을 하나로 압축하여, 구체적인 개선 방향을 제시하지 못한다 .

#Review #Web Agent #Process-Level Evaluation #Semantic MDP #Benchmark #Skill Diagnosis #Trajectory Analysis

2026년 6월 15일

[논문리뷰] VisualClaw: A Real-Time, Personalized Agent for the Physical World

본 논문은 현재 VLM 기반 에이전트 배포의 세 가지 핵심 격차를 해결하고자 합니다 . 첫째, Dense Video Frame 처리에 따른 높은 Latency와 API 호출 비용 문제입니다. 둘째, 배포 후 에이전트의 구조(Scaffold)가 정적으로 고정되어 적응력이 떨어진다는 점입니다.

#Review #Multimodal Agent #Vision Language Models #VisualClaw #Hybrid Encoding #Skill Evolution #Streaming Video #Agentic Benchmark

2026년 6월 15일

[논문리뷰] VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

본 논문은 3B 파라미터 규모의 소형 모델(SLM)이 대형 모델(LLM)의 전유물로 여겨지던 최전선 수준의 논리적 추론 능력을 달성할 수 있는지 검증하고자 한다.

#Review #Small Language Models #Verifiable Reasoning #Reinforcement Learning #Parametric Compression-Coverage Hypothesis #Reasoning-Knowledge Decoupling #Test-time Scaling

2026년 6월 15일

[논문리뷰] Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

본 논문은 독립적인 random seed로 학습된 SAE들이 왜 서로 다른 feature 세트를 학습하는지, 즉 feature의 비재현성(non-reproducibility) 문제를 해결하고자 합니다.

#Review #Sparse Autoencoders #Feature Stability #Mechanistic Interpretability #Seed Dependence #Subspace Analysis #Functional Asymmetry

2026년 6월 15일

[논문리뷰] UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

본 논문은 기존의 Multimodal 모델들이 Understanding과 Generation이라는 서로 다른 과업을 수행할 때 겪는 효율성 저하와 아키텍처 불일치 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Understanding #Generation #Diffusion Transformer #Decoupled Architecture #Unified Framework

2026년 6월 15일

[논문리뷰] TuneJury: An Open Metric for Improving Music Generation Preference Alignment

본 논문은 음악 생성 시스템의 평가와 선호도 정렬(Preference Alignment) 과정에서 기존 자동화 메트릭이 갖는 한계를 해결하고자 합니다.

#Review #Reward Model #Music Generation #Preference Alignment #Pairwise Comparison #Text-to-Music #Anchor Calibration

2026년 6월 15일

[논문리뷰] TokenPilot: Cache-Efficient Context Management for LLM Agents

본 논문은 LLM 에이전트의 세션이 길어짐에 따라 발생하는 컨텍스트 누적과 이로 인한 기하급수적인 추론 비용 문제를 해결하고자 합니다. 기존의 텍스트 가지치기(Pruning)나 동적 메모리 제거 기법들은 시퀀스의 레이아웃을 임의로 변경하여 프롬프트 접두사의 연속성을 깨뜨립니다.

#Review #LLM Agents #Context Management #Prompt Caching #KV Cache #Inference Cost #Ingestion-Aware Compaction #Lifecycle-Aware Eviction

2026년 6월 15일

[논문리뷰] The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

본 논문은 예측 시장 플랫폼 Polymarket에서 발생하는 'Ghost Fills' 문제를 체계적으로 분석하여, 하이브리드 아키텍처가 가진 구조적 취약점을 증명합니다.

#Review #Polymarket #DeFi #Ghost Fills #Cancellation Attack #Hybrid Architecture #Smart Contract Security #MEV

2026년 6월 15일

[논문리뷰] Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

본 논문은 Multi-turn LLM serving 시 발생하는 선형적인 KV Cache 증가 문제를 해결하기 위해 도입된 Non-uniform KV Cache Compression이, 기존의 시스템 소프트웨어 스택과 충돌하여 발생하는 심각한 효율성 저하 문제를 지적합니다.

#Review #LLM Serving #KV Cache Compression #Non-uniform Compression #PagedAttention #Deterministic Scheduling #AOT Load Balancing

2026년 6월 15일

[논문리뷰] Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

본 논문은 현대의 콘텐츠 중재 시스템이 표준적인 Aggregate Metrics에서는 우수한 성능을 보이는 것처럼 보이나, 실제로는 네트워크의 중심적 역할을 하는 교량 노드에서 심각한 거버넌스 실패를 야기할 수 있다는 문제를 제기합니다 .

#Review #Governance Failures #Modular Networks #Noisy Classification #Bridge Nodes #Governance Loss #Algorithmic Content Moderation #Stochastic Block Model

2026년 6월 15일

[논문리뷰] SP^3: Spherical Priors for Plug-and-Play Restoration

본 논문은 기존의 Diffusion 및 Flow 기반 생성 모델을 활용한 zero-shot 이미지 복원 기법들이 추론 시 계산량이 많고 gradient 계산이 필수적이라는 한계를 해결하고자 합니다.

#Review #Plug-and-Play #Image Restoration #Spherical Encoder #Manifold Projection #Half-Quadratic Splitting #Anytime Generation #Gradient-free

2026년 6월 15일

[논문리뷰] Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

본 논문은 VLA 정책을 새로운 태스크에 확장할 때 발생하는 데이터 수집 및 컴퓨팅 자원의 비효율성 문제를 해결하고자 합니다. 기존 연구(Baseline)는 새로운 태스크마다 고가의 Teleoperation 데이터를 수집하고, 모델 전체를 Fine-tuning하는 과정이 필수적이어서 확장성이 낮다는 한계가 있습니다.

#Review #Robot foundation models #World-action models #Retrieval-augmented policies #Vision-language-action models

2026년 6월 15일

[논문리뷰] Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

본 연구는 로봇 공학에서 파편화된 행동 표현과 도메인별 시뮬레이션의 한계를 극복하기 위해 통합된 언어 기반의 월드 모델링을 제안한다. 기존 모델들은 특정 도메인(예: 조작, 주행)에 과적합되어 있거나 로봇 의존적인 제어 인터페이스를 요구하여 범용적인 로봇 학습 환경으로 사용하기 어렵다는 한계가 있다.

#Review #Embodied Intelligence #World Model #Video Generation #Language-Conditioned Action #Double-Stream MMDiT #Embodied World Knowledge

2026년 6월 15일

[논문리뷰] Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

본 논문은 복잡한 추론을 위해 필수적인 Chain-of-Thought (CoT)가 초래하는 높은 Latency와 연산 비용 문제를 해결하기 위해 고안되었습니다.

#Review #Prompt-Level Distillation #Non-Parametric #Chain-of-Thought #System Prompt #Reasoning Transfer #Inference Efficiency

2026년 6월 15일

[논문리뷰] PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

본 연구는 기존 모바일 에이전트 평가가 지나치게 GUI 제어 중심의 task 수행에만 집중되어 있어 실제 사용자 워크플로우를 반영하지 못한다는 한계를 해결하고자 합니다.

#Review #Phone Agents #Mixed-Action Space #GUI Control #CLI #Tool-Use #Verifiable Execution #Safety Evaluation

2026년 6월 15일

[논문리뷰] PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

본 논문은 카메라 제어 비디오 생성에서 편집 작업(예: 스타일 변환, 객체 수정) 후 시간 및 시점 간의 일관성을 유지하는 문제를 해결합니다.

#Review #Video Generation #Context Memory #Disentangled Representation #Edit-aware #Consistency #Long-term Generation #Spatial Memory

2026년 6월 15일

[논문리뷰] OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

본 논문은 현대의 Transformer 기반 다중 작업 추천 모델들이 여전히 Encoder-Predictor 구조를 답습하고 있어, 근본적인 성능 한계와 확장성 제약에 직면해 있음을 지적합니다 .

#Review #Recommender Systems #Multi-Task Learning #Transformer #Ranking #Representation Learning #Gradient Interference #Information Bottleneck

2026년 6월 15일

[논문리뷰] Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

본 논문은 대규모 언어 모델의 추론 효율성과 복잡한 Agentic Reasoning 능력 사이의 상충 관계를 해결하기 위해 Nemotron 3 Ultra를 제안합니다. 기존의 거대 밀집(Dense) 모델들은 높은 성능을 보이지만, 대규모 컴퓨팅 자원을 요구하여 실시간 추론에 한계가 있습니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic-Reasoning #Hybrid-Architecture #State-Space-Models

2026년 6월 15일

[논문리뷰] Memento: Reconstruct to Remember for Consistent Long Video Generation

본 논문은 장기 비디오 생성 시 인물의 정체성이 시간이 지남에 따라 왜곡되거나 소실되는 문제를 해결하고자 한다 . 기존의 시간적 분해(Temporal Decomposition) 기반 모델들은 차기 샷(Next-shot)의 시각적 연속성만을 최적화할 뿐, 인물의 정체성을 보존하기 위한 명시적 신호가 부족하다는 한계가 있다.

#Review #Long Video Generation #Subject Consistency #Diffusion Models #Memory Bank #Identity Grounding #Autoregressive Generation

2026년 6월 15일

[논문리뷰] MVEB: Massive Video Embedding Benchmark

기존 비디오 벤치마크는 단일 Task에 초점을 맞추어 모델의 일반 목적 비디오 표현 품질을 평가하기 어렵게 만들며, 이는 fragmented landscape를 초래합니다.

#Review #Video Embeddings #Benchmark #Multimodal Learning #Zero-Shot Classification #Retrieval #MTEB #Audio-Visual

2026년 6월 15일

[논문리뷰] MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

본 논문은 Frozen Diffusion Transformer 백본으로부터 Dense한 Perceptual 정보(Semantic segmentation, depth, saliency 등)를 효과적으로 추출하여 Multi-modal 생성 시스템으로 확장하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Multi-Modal Generation #Multi-Timestep Feature Fusion #Concept-Driven Attention #Synthetic Data Generation #Frozen Backbone

2026년 6월 15일

[논문리뷰] Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

본 연구는 trillion-parameter scale에서 instant response와 high token efficiency를 동시에 달성하는 agentic intelligence 모델을 구축하는 데 따르는 핵심적인 문제를 해결하고자 합니다.

2026년 6월 15일

[논문리뷰] LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

본 논문은 기존의 Vision-Language-Action models (VLAs)가 갖는 미래 예측 능력의 부재와, World-Action Models (WAMs)가 겪는 높은 추론 비용 문제를 해결하기 위해 제안되었습니다 .

#Review #Robot Manipulation #World Action Models #Latent World Models #Vision-Language-Action Models #Latent Subgoals

2026년 6월 15일

[논문리뷰] JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

본 논문은 현대의 Large Models이 대부분 Turn-based 구조로 설계되어 있어, 실시간으로 변화하는 현실 세계의 중요한 순간을 능동적으로 포착하지 못한다는 문제점을 지적합니다. 기존 연구들은 응답 속도 최적화에는 성공했으나, 여전히 사용자의 발화를 기다리는 수동적 체계에 머물러 있습니다.

#Review #Vision-Language Model #Real-Time Interaction #Proactive AI #Video Streaming #Embodied Intelligence #Deployment

2026년 6월 15일

[논문리뷰] Implicit Reasoning for Large Language Model-based Generative Recommendation

본 논문은 LLM 기반의 Generative Recommendation(GR) 시스템에서 명시적 CoT 추론이 오히려 추천 성능 향상에 한계를 보인다는 문제를 다룹니다. 기존 연구들은 LLM의 월드 지식을 활용하고자 자연어 추론 과정을 도입했으나, 이는 계산 비용이 크고 실제 성능 기여도가 불분명합니다 .

#Review #Generative Recommendation #Large Language Models #Chain-of-Thought #Semantic IDs #Implicit Reasoning #Representation Alignment #PauseRec

2026년 6월 15일

[논문리뷰] Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

본 논문은 VLA의 online RL fine-tuning이 에피소드당 단일 binary 성공/실패 신호만 제공하는 sparse outcome 문제를 지적하며, viability와 efficiency 신호를 분리해 transition 단위 학습 가중치를 생성하는 Hierarchical Advantage-Weighted Behavior Cloning(HABC)을 제안합니다.

#Review #Vision-Language-Action Models #Online Reinforcement Learning #Robot Manipulation #Hierarchical Advantage Weighting #Sparse Episode Outcomes #Dual-Head Critic #Intervention-Aware Credit Assignment

2026년 6월 15일

[논문리뷰] Geometric Action Model for Robot Policy Learning

본 논문은 기존의 Vision-Language-Action Models (VLAs)가 2D 기반의 시각적 지식에 의존하여 3D 물리적 조작 환경에서 깊이, 스케일, 폐색(occlusion)을 명시적으로 추론하지 못하는 한계를 해결하고자 합니다.

#Review #Robot Policy Learning #Geometric Foundation Model #Vision-Language-Action Model #World Model #Causal Future Prediction #3D Geometry

2026년 6월 15일

[논문리뷰] GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

본 논문은 LLM의 다차원적 성능 향상을 위해 사용되는 Multi-Reward RL 환경에서 발생하는 Advantage 상쇄 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Multi-Reward Optimization #Policy Optimization #Conflict Mitigation #Dynamic Filtering #Tool Calling #Alignment

2026년 6월 15일

[논문리뷰] FastContext: Training Efficient Repository Explorer for Coding Agents

본 논문은 LLM 기반 코딩 에이전트의 저장소 탐색 단계에서 발생하는 고비용 토큰 소비 및 불필요한 컨텍스트 오염 문제를 해결하기 위해 제안되었다. 기존 에이전트들은 동일한 모델이 탐색과 문제 해결을 모두 수행하여, 탐색 과정에서 누적된 방대한 양의 관련 없는 코드 스니펫이 주 모델의 컨텍스트를 오염시킨다 .

#Review #Coding Agents #Repository Exploration #Subagent Architecture #Supervised Fine-Tuning #Reinforcement Learning #Context Efficiency #Token Consumption

2026년 6월 15일

[논문리뷰] EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

본 논문은 일상적인 상호작용이 담긴 단일 egocentric RGB 영상으로부터 복잡한 변형체(Deformable objects)의 물리적 속성을 파악하여 '디지털 트윈'을 구축하는 난제를 해결하고자 합니다.

#Review #Physical Understanding #Real-to-sim #Egocentric Video #Deformable Objects #Digital Twin #Physics-based Simulation

2026년 6월 15일

[논문리뷰] DreamX-World 1.0: A General-Purpose Interactive World Model

본 논문은 다양한 visual domain(photorealistic, game-style, stylized) 전반에서 카메라 탐색 및 이벤트 조작을 실시간으로 지원하는 general-purpose interactive world model 구축을 목표로 합니다 .

#Review #Interactive World Model #Camera Control #E-PRoPE #Memory-Conditioned Scene Persistence #Event Instruction Tuning #Autoregressive Distillation #Reinforcement Learning

2026년 6월 15일

[논문리뷰] Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

본 논문은 데이터 저널리즘에서 발생하는 할루시네이션(Hallucination) 문제와 데이터 투명성 결여를 해결하기 위해 Data2Story를 제안한다.

#Review #Data Journalism #Multi-Agent System #Evidence-Grounded #Multimodal Generation #Verifiability #Auditability

2026년 6월 15일

[논문리뷰] CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

본 논문은 현대의 자율 에이전트가 실제 소프트웨어 엔지니어링이나 데이터 분석 현장에서 겪는 복잡한 데이터 처리 요구사항을 해결하지 못하고 있다는 문제의식에서 출발합니다.

#Review #CoDA-Bench #Code Agents #Data-Intensive Tasks #Data Discovery #Autonomous Engineering #Kaggle Ecosystem #Evaluation Benchmark

2026년 6월 15일

[논문리뷰] BadWorld: Adversarial Attacks on World Models

본 논문은 VWMs의 잠재적 취약성을 평가하기 위한 최초의 적대적 공격 프레임워크인 BadWorld를 제안합니다.

#Review #Adversarial Attack #Visual World Models #Autoregressive Generation #Flow Matching #Trajectory-Adaptive Optimization #Label-Free

2026년 6월 15일

[논문리뷰] BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

본 논문은 기존의 Physically-based inverse rendering 모델들이 가지는 물리적 불일치 문제와 Generative 모델들의 제어 불가능성 문제를 동시에 해결하기 위해 BRDFusion 프레임워크를 제안합니다.

#Review #Inverse Rendering #3D Gaussian Splatting #Generative Prior #Relighting #Urban Scene #Diffusion Model

2026년 6월 15일

[논문리뷰] Artificial Intelligence Index Report 2026

본 보고서는 AI 기술이 전례 없는 속도로 확산됨에 따라, 기술 발전 속도와 이를 관리하기 위한 거버넌스 및 평가 프레임워크 간의 격차가 심화되는 문제를 제기한다.

#Review #Generative AI #AI Sovereignty #Technical Benchmarks #AI Adoption #Responsible AI

2026년 6월 15일

[논문리뷰] μ_0: A Scalable 3D Interaction-Trace World Model

본 논문은 기존 로봇 학습이 직면한 데이터 파라독스, 즉 '액션이 포함된 로봇 데이터의 희소성'과 '비디오 데이터의 높은 가용성' 사이의 간극을 해결하고자 합니다 .

#Review #World Model #3D Interaction-Trace #Robot Manipulation #Cross-Embodiment Learning #Semantic Flow Matching #Data Pipeline

2026년 6월 14일

[논문리뷰] iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

본 논문은 Embodied World Model이 로봇 정책(Policy) 평가 시 가지는 행동 조건부(Action-Conditioning) 비디오 생성의 불확실성 문제를 해결하고자 한다.

#Review #Embodied World Models #Action-Conditioned Video Generation #Robot Policy Evaluation #Motion Images #Contact Images #URDF/FK #Long-Horizon Manipulation

2026년 6월 14일

[논문리뷰] World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

본 논문은 기존의 단일 이미지 3D 추정 방식이 가진 '충실도(Faithfulness)'와 '완전성(Completeness)' 사이의 상충 문제를 해결하고자 합니다.

#Review #World Tracing #Pixel-Aligned #Geometry Generation #Diffusion Transformer #Flow Matching #Multilayer #3D Vision

2026년 6월 14일

[논문리뷰] When is Your LLM Steerable?

본 연구는 Activation Steering의 성공 여부가 모델, 프롬프트, 개념, 그리고 Steering Strength의 복합적인 요소에 의해 결정되는 취약성 문제를 해결하고자 합니다.

#Review #Activation Steering #Steerability Prediction #LLM Inference #Gradient Boosting Decision Trees #ASTEER Dataset #SteerBoost

2026년 6월 14일

[논문리뷰] WaveDiT: Distribution-Aware Wavelet Flow Matching for Efficient 3D Brain MRI Synthesis

본 논문은 3D MRI 합성 시 발생하는 높은 계산 비용과 해부학적 상세 정보 손실 문제를 해결하기 위해 WaveDiT를 제안합니다.

#Review #3D MRI Synthesis #Flow Matching #Discrete Wavelet Transform #Heteroscedastic Uncertainty #Generative Models #Brain Age Prediction

2026년 6월 14일

[논문리뷰] VISTA: View-Consistent Self-Verified Training for GUI Grounding

본 논문은 기존의 GRPO를 활용한 GUI Grounding 학습에서 발생하는 보상 퇴화(reward degeneracy) 문제를 해결하는 데 집중합니다.

#Review #GUI Grounding #GRPO #Self-Verified Training #View-Consistent #Reinforcement Learning #VLM

2026년 6월 14일

[논문리뷰] The Hidden Power of Scaling Factor in LoRA Optimization

본 논문은 LoRA 학습 시 하이퍼파라미터인 scaling factor $\alpha$의 역할이 체계적으로 연구되지 않았으며, 단순히 learning rate($\eta$)의 보조적 수단으로만 간주되어 온 점을 지적합니다.

#Review #LoRA #Scaling Factor #Optimization Dynamics #Signal-Drift Framework #Spectral Suppression #PEFT

2026년 6월 14일

[논문리뷰] The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

본 논문은 독립적으로는 정렬된(Aligned) 에이전트들이 상호작용하며 발생하는 예측 불가능한 시스템 레벨의 위험을 감지하기 위한 실시간 감사 프레임워크를 제안한다.

#Review #Multi-agent Safety #Emergent Misalignment #Alignment Auditing #LLM Agents #AI Control #Budget-constrained Monitoring

2026년 6월 14일

[논문리뷰] Squeeze-Release: Iterative Pruning with Exact Structural Minimization

본 논문은 일반적인 비구조적(Unstructured) Pruning이 파라미터의 중요도에 따라 0으로 만들더라도, 실제 tensor의 물리적 크기를 줄이지 못해 모델 압축 효과가 미비한 문제를 해결하고자 한다. .

#Review #Network Pruning #Model Compression #Iterative Pruning #Function-preserving Transformations #Layer Normalization

2026년 6월 14일

[논문리뷰] Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반 LLM 학습에서 rollout diversity를 향상시키기 위한 새로운 차원을 식별한다.

#Review #GRPO #LLMs #Policy-Level Diversity #Token-Level Diversity #S2L-PO #Reinforcement Learning #Mathematical Reasoning #Parameter-Level Compression

2026년 6월 14일

[논문리뷰] Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

본 논문은 모든 입력에 대해 고정된 depth와 순서로 수행되는 기존 LLM의 정적 추론 방식이 비효율적이며, 모델의 잠재적 추론 능력을 충분히 활용하지 못한다는 점을 지적합니다 .

#Review #Large Language Models #Dynamic Inference #Program-of-Layers #Test-time Scaling #Layer Skipping #Layer Recurrence #Computational Efficiency

2026년 6월 14일

[논문리뷰] RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

본 논문은 기존 비디오 생성 모델에서 관찰되는 3D spatiotemporal attention의 이차 복잡도로 인한 과도한 Inference Latency 및 계산 비용 문제를 해결하는 것을 목적으로 한다.

#Review #Video Diffusion Models #Diffusion Transformers #Training-Free Acceleration #Asynchronous Scheduling #Latent Trajectory Projection #Spatiotemporal Coherence

2026년 6월 14일

[논문리뷰] Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

본 논문은 VideoRAG 시스템이 직면한 평가의 불투명성과 최적의 검색 전략 부재 문제를 해결하고자 합니다.

#Review #VideoRAG #Egocentric Video #V-RAGBench #CARVE #Chunk-Adaptive Reranking #Multimodal Retrieval #Long-form Video Understanding

2026년 6월 14일

[논문리뷰] RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

본 논문은 현대 Text-to-Image (T2I) 시스템에서 LLM이 단순한 텍스트 인코딩에만 그치고 있다는 점을 문제로 제기합니다 . 기존 시스템들은 정적인 텍스트 임베딩만을 생성하고, 정작 중요한 denoising 과정은 새로 초기화된 DiT가 단독으로 수행하는 비효율적인 분업 구조를 취하고 있습니다.

#Review #RepFusion #Multimodal LLMs (MLLM)#Diffusion Transformers (DiT)#Representation Autoencoders (RAE)#Denoising #Conditional Encoder #Test-time Compute

2026년 6월 14일

[논문리뷰] RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

본 논문은 에이전트의 실행 기록(execution trace)이 투명성과 디버깅을 위해 공개될 때, 그 안에 포함된 proprietary procedural skill이 무단으로 유출되는 보안 문제를 해결하고자 합니다.

#Review #Agent Security #Trace Redaction #Procedural Skill Protection #Behavioral Watermarking #Black-box Trace Disclosure

2026년 6월 14일

[논문리뷰] Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

본 논문은 LLM의 환각(Hallucination) 탐지를 단순한 분류(Classification) 문제가 아닌 스트리밍 환경에서의 Sequential Change-Point Detection 문제로 재정의합니다.

#Review #Sequential Change-Point Detection #Hallucination Detection #CUSUM #Lorden Bound #Information Rate #Autoregressive Model

2026년 6월 14일

[논문리뷰] P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

본 논문은 기존의 3D 생성 벤치마크가 프로그램 기반의 파라메트릭 생성 능력을 종합적으로 평가하지 못한다는 한계를 해결하기 위해 P3D-Bench를 제안합니다 .

#Review #Parametric 3D Generation #MLLM #Benchmark #CAD #Structural Reasoning #Code Generation

2026년 6월 14일

[논문리뷰] Orchestra-o1: Omnimodal Agent Orchestration

본 논문은 기존의 LLM 기반 에이전트가 단일 양식 혹은 제한적인 멀티모달 환경에 최적화되어 있어, 실생활의 복잡한 옴니모달(Omnimodal) 작업을 처리하는 데 한계가 있다는 문제의식에서 출발합니다.

#Review #Omnimodal Agent #Agent Orchestration #Task Decomposition #Multi-Agent System #Reinforcement Learning #DA-GRPO

2026년 6월 14일

[논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

본 논문은 기존 자동화된 오디오-비주얼 QA 파이프라인의 “비디오-캡션-QA” 패러다임이 가진 근본적인 한계를 해결하고자 합니다 . 기존 연구들은 비디오를 독립적인 짧은 클립으로 분할하여 처리함으로써 시청각 모달리티 간의 결합을 파괴하고 개체 기술의 불일치를 초래합니다.

#Review #Audio-Visual Reasoning #Instruction-tuning #Entity-Anchored Scripting #Clue-Guided QA Generation #Multimodal Large Language Models (MLLMs)#Evidence Chains

2026년 6월 14일

[논문리뷰] OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

본 논문은 기존 비디오 생성 모델의 카메라 제어 방식이 지닌 정밀도 한계와 데이터 희소성 문제를 해결하기 위해 OmniDirector를 제안합니다.

#Review #Video Generation #Camera Control #Multi-shot Cloning #Diffusion Transformers #Camera Grid #Multimodal Control #Prompt Expansion

2026년 6월 14일

[논문리뷰] Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

본 논문은 LLM 에이전트가 복잡한 장기 상호작용 기록에서 장기 기억을 효과적으로 활용하지 못하는 근본적인 원인을 지적합니다.

#Review #LLM Agents #Memory Reconstruction #Graph Memory #Associative Memory #Active Retrieval #Long-horizon Reasoning

2026년 6월 14일

[논문리뷰] Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

본 논문은 최신 LLM이 의학적 시험에서는 우수한 성적을 거두지만, 실제 의료 환경의 복잡하고 오염된 정보 속에서는 판단 능력이 취약하다는 문제를 해결하고자 한다. 기존의 의료 벤치마크들은 주로 깨끗한(clean) 입력을 바탕으로 지식과 추론 능력을 평가하여 실제 배포 환경에서의 안정성을 과대평가하는 경향이 있다 .

#Review #Epistemic Resilience #LLM Evaluation #Medical Misinformation #Robustness #Benchmark #Medical Reasoning

2026년 6월 14일

[논문리뷰] MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

본 논문은 기존의 영상 생성 평가 벤치마크들이 영상 품질, 모션 일관성, 텍스트 정렬에만 집중할 뿐, 세계 모델의 핵심인 장기적 메모리(Long-term Memory) 능력을 과소평가하고 있다는 문제의식에서 출발한다 .

#Review #Video World Models #Long-term Memory #Benchmark #Entity Consistency #Environment Consistency #Causal Consistency

2026년 6월 14일

[논문리뷰] LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

본 연구는 LLM 기반 에이전트가 폐쇄적인 그룹 채팅 환경에서 암묵적인 사회적 규범을 추론하고 이에 맞춰 행동을 조정하는 능력을 평가하는 데 중점을 둡니다.

#Review #Local Social Norm Adaptation #Multi-party Chat #LLM Benchmarking #Theory of Mind #Conversational Context #Social Intelligence

2026년 6월 14일

[논문리뷰] LLM Agents Can See Code Repositories

본 논문은 현대적인 코딩 에이전트가 텍스트 기반의 인터페이스에 지나치게 의존함으로써 저장소의 복잡한 구조적 관계를 파악하는 데 한계를 겪고 있다는 점을 해결하고자 합니다 .

#Review #Multimodal Large Language Models #Software Engineering #Code Repository Understanding #Issue Resolution #Visual Representation #Agentic Frameworks

2026년 6월 14일

[논문리뷰] Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

본 연구는 파편화된 로봇 학습 시스템의 한계를 극복하고, 데이터 수집부터 실제 현장 배치(Deployment)까지를 아우르는 통합된 엔드투엔드 VLA 학습 스택을 구축하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Flow Matching #Robot Learning Stack #Proximalized Preference Optimization #UMI

2026년 6월 14일

[논문리뷰] HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

본 논문은 현대 AI Agent의 성능이 모델 자체의 스케일링뿐만 아니라 이를 둘러싼 Harness 설계에 크게 의존함에도 불구하고, 기존 Harness들이 수동적이고 정적(static)이라는 점을 핵심 문제로 정의합니다.

#Review #AI Agent #Harness Engineering #Evolutionary Optimization #Agentic Workflow #Composable Architecture #Operational Mirror #GRPO

2026년 6월 14일

[논문리뷰] From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

본 논문은 LLM이 단순히 텍스트를 생성하는 챗봇에서 벗어나, 디지털 환경에서 자율적으로 업무를 수행하는 Digital Colleague로 진화하는 패러다임 전환 과정을 체계적으로 분석합니다.

#Review #Large Language Models #Autonomous AI #Digital Colleague #Workspace + Skill #Task Closure #Agentic Systems #Inference-time Computation

2026년 6월 14일

[논문리뷰] From AGI to ASI

본 논문은 AGI 달성이 더 이상 먼 미래의 일이 아닌 현 시점에서, 그 이후의 인공지능 발전 경로인 ASI로의 이행 과정을 학술적으로 탐구하고자 합니다.

#Review #AGI #ASI #Superintelligence #Universal Intelligence #Effective Compute

2026년 6월 14일

[논문리뷰] FVSpec: Real-World Property-Based Tests as Lean Challenges

본 논문은 AI 모델 및 에이전트의 실제 소프트웨어 형식 검증(formal software verification) 능력을 평가하기 위한 벤치마크 부족 문제를 해결하고자 합니다.

#Review #Formal Verification #Property-Based Testing #Lean 4 #LLM Pipeline #Benchmark #AI Safety #Structural Faithfulness

2026년 6월 14일

[논문리뷰] Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

본 연구는 OPD가 일반적인 Supervised Fine-tuning(SFT)과 달리 어떤 기하학적 특성을 가지며, 왜 RLVR(Reinforcement Learning from Verifier-derived Rewards)과 유사한 sparse한 업데이트 양상을 보이는지 규명합니다.

#Review #On-policy Distillation #Parameter Sparsity #Model Geometry #Subnetwork Masking #LLM Post-training #Optimizer Dynamics

2026년 6월 14일

[논문리뷰] ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

본 논문은 기존 의료용 MLLM 평가 체계가 최종 답변의 정확도만 판단할 뿐, 환각(Hallucination)이 발생하는 근본적인 원인을 규명하지 못하는 한계를 해결하고자 합니다.

#Review #Medical MLLM #Hallucination Diagnosis #Chain-of-Thought #Multimodal Reasoning #Stage-wise Evaluation #Stage-Replacement Intervention

2026년 6월 14일

[논문리뷰] CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

본 논문은 자율주행 시스템이 상호작용 상황에서 발생하는 False-Veto 문제를 효과적으로 해결하고, 이를 위한 인증 가능한 수정 메커니즘을 정의하는 것을 목표로 한다.

#Review #Autonomous Driving #Interactive Repair Certification #Cooperation Envelope #Right-of-Way #Safety Filtering

2026년 6월 14일

[논문리뷰] Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

본 논문은 기존 AI agent 벤치마크가 과학 연구의 복잡성과 상호작용적인 성격을 충분히 반영하지 못하는 한계를 해결하고자 합니다. 기존의 연구들은 지나치게 정적인 과제에 국한되어 있거나, 과학적 도메인의 특수성(데이터의 이질성, 다단계 의존성 등)을 고려하지 않아 실질적인 과학적 기여도를 측정하는 데 미흡했습니다.

#Review #AI Agents #Scientific Discovery #Benchmarking #Computational Science #Multi-scale Modeling #Evaluation Framework

2026년 6월 14일

[논문리뷰] Avatar V: Scaling Video-Reference Avatar Video Generation

본 연구는 기존의 아바타 생성 방식이 가진 Generalization 부족과 Efficiency 문제를 해결하기 위해 대규모 데이터 기반의 Scaling 접근 방식을 제안합니다. 기존의 개별 모델 학습 방식은 특정 피사체에 종속되어 있어 다양한 인물과 동작을 일반화하는 데 한계가 있었습니다.

#Review #Avatar Generation #Video-Reference #Scaling Law #Diffusion Models #Neural Rendering #Computer Vision

2026년 6월 14일

[논문리뷰] An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

본 논문은 Large Reasoning Models가 추론 결과 생성에는 탁월한 성능을 보임에도 불구하고, 논리적 오류를 평가하는 능력에서는 심각한 결함을 보이는 Production-Evaluation Gap 문제를 제기한다.

#Review #Large Reasoning Models #Production-Evaluation Gap #Answer Confirmation Bias #Reasoning Evaluation #Chain-of-Thought #Causal Patching

2026년 6월 14일

[논문리뷰] AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

본 논문은 Multimodal Foundation Models (MFMs)가 물리적 세계의 3D 공간을 추론하는 데 있어 근본적인 한계를 지니고 있음을 지적합니다.

#Review #AlloSpatial #Spatial Reasoning #Allocentric Cognitive Mapping #World2Mind #Spatial Reasoning Harness #Foundation Models #Reinforcement Learning

2026년 6월 14일

[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.

#Review #Streaming Reasoning #Reinforcement Learning #Hierarchical Relative Policy Optimization #Adaptive Computation #Large Language Models #Chain-of-Thought

2026년 6월 14일

[논문리뷰] ActiveMimic: Egocentric Video Pretraining with Active Perception

본 논문은 대규모 Egocentric Human Video를 로봇 학습에 활용할 때 발생하는 성능 저하의 핵심 원인이 '능동적 인식(Active Perception) 정보의 부재'에 있음을 규명합니다 .

#Review #Robot Manipulation #Egocentric Human Video #Active Perception #Robot Pretraining #Unified Action Representation

2026년 6월 14일

[논문리뷰] APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

본 논문은 continuous-action 기반 VLA 모델이 겪는 OOD 언어 일반화 성능 저하 문제를 해결하기 위해 APT (Action Expert Pretraining)를 제안합니다.

#Review #Vision-Language-Action #Language Generalization #Action Expert Pretraining #Bayesian Factorization #Visuomotor Prior #Gated Fusion

2026년 6월 14일

[논문리뷰] APPO: Agentic Procedural Policy Optimization

본 논문은 기존 Agentic RL의 조잡한(coarse) 보상 할당(credit assignment) 문제를 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Procedural Reasoning #Decision Points #Branching Score #Policy Optimization

2026년 6월 14일

[논문리뷰] Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback

본 논문은 현대의 T2I 모델이 생성하는 이미지의 국소적이고 미묘한 결함을 효과적으로 진단하고 해결하지 못하는 기존 scalar 기반 평가 방식의 한계를 해결하고자 합니다.

#Review #Text-to-Image #Structured Defect Grounding #VLM #Diffusion Model Alignment #Reinforcement Learning #BoxFlow-GRPO #Dataset

2026년 6월 11일

[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다.

#Review #Computer-Use Agent #Long-Horizon #Real-World Benchmark #Hybrid Interface #Human-Computer Interaction #Agent Evaluation

2026년 6월 11일

[논문리뷰] WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

본 논문은 기존 월드 모델들이 복잡한 매니퓰레이션 태스크를 수행할 때 겪는 High Latency와 Context Length의 제한 문제를 해결하고자 한다.

#Review #World Model #Robotic Manipulation #Autoregressive Inference #Transformer #Efficiency #Generative Modeling

2026년 6월 11일

[논문리뷰] Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

본 논문은 기존의 단일 체인 추론(Single-chain Reasoning) 방식이 시각적 추론 과정에서 범하는 조기 지각적 확신(Early Perceptual Commitment)과 환각(Hallucination) 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Large Language Models #Multi-Agent Framework #Visual Reasoning #Role-Decoupled Optimization #Inference Efficiency

2026년 6월 11일

[논문리뷰] VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

본 연구는 3D Human Motion 데이터셋의 희소성과 구축 비용 문제를 극복하기 위해 2D 영상으로부터 3D 모션을 생성하는 새로운 접근 방식을 제안합니다.

#Review #3D Human Motion Generation #Diffusion Models #2D Supervision #Motion Synthesis #Video Analysis

2026년 6월 11일

[논문리뷰] VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

본 논문은 기존의 Speculative Decoding이 가진 이분법적(accept 또는 full recompute) 검증 구조의 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Hierarchical Verification #Intra-Model Routing #KL Divergence #LLM Inference #Efficiency #Slim-Verifier

2026년 6월 11일

[논문리뷰] TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

본 논문은 복잡한 Deep Search 과정에서 에이전트가 단일 선형 궤적을 맹목적으로 따르거나, 체계적인 규칙 없이 분기를 탐색하여 예산을 낭비하는 문제를 해결합니다.

#Review #Deep Search #Tree-Structured Search #Tree-Search #TreeMem #Textual UCB #Branch-and-Return #Agentic Workflow

2026년 6월 11일

[논문리뷰] ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

본 논문은 LLM의 도구 사용 능력을 평가할 때 기존의 End-to-End 방식이 모델의 내부 지식(Parametric Knowledge)과 추론 능력을 명확히 구분하지 못하는 한계를 해결하기 위해 제안되었습니다.

#Review #LLM #Tool Learning #Parametric Knowledge #Diagnostic Framework #Tool Auditing #Evaluation

2026년 6월 11일

[논문리뷰] Surflo: Consistent 3D Surface Flow Model with Global State

본 연구는 기존의 3D Scene Flow 추정 방식이 가지는 프레임 간의 기하학적 불일치 문제를 해결하는 것을 목표로 합니다. 기존 모델들은 주로 독립적인 프레임 페어 간의 대응 관계를 찾는 데 집중하여, 연속적인 시간 흐름 속에서 누적 오차가 발생하거나 장면의 표면 구조를 왜곡시키는 한계가 있습니다.

#Review #3D Scene Flow #Surface Flow #Global State #Point Cloud #Temporal Consistency

2026년 6월 11일

[논문리뷰] SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling

본 연구는 기존의 Off-policy Distillation이 지닌 데이터 고립성 문제와 Teacher-Student 간의 Distribution Mismatch를 해결하는 데 초점을 맞춥니다.

#Review #Knowledge Distillation #On-Policy Learning #Sign-Consistency #Phased Teacher Sampling #Large Language Models #Model Alignment

2026년 6월 11일

[논문리뷰] Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

본 논문은 대규모 언어 모델(LLM)의 안전성 평가가 고정된 쿼리 예산(fixed query budget)에 의존함에 따라 발생하는 심각한 정보 왜곡 문제를 해결하고자 합니다.

#Review #Adversarial Robustness #Compute-Aware Evaluation #FLOPs #Jailbreak Attacks #Risk-Compute Curves #Safety Alignment

2026년 6월 11일

[논문리뷰] Revisiting Articulated Parts Perception in Robot Manipulation

본 연구는 기존의 로봇 조작 연구들이 정적인 객체 인식에 편중되어, 관절형 객체의 복잡한 기구학적 특성을 충분히 반영하지 못하고 있다는 점을 해결하고자 한다.

#Review #Articulated Parts #Robot Manipulation #Part Segmentation #Motion Estimation #Geometric Reasoning

2026년 6월 11일

[논문리뷰] PianoKontext: Expressive Performance Rendering from Deadpan Context

본 논문은 기존의 음악 생성 모델이 표현적 타이밍(Expressive timing)과 다성 음악(Polyphonic music)의 복잡성을 제대로 모델링하지 못하는 문제를 해결하기 위해 PianoKontext를 제안한다.

#Review #Expressive Performance Rendering #Flow Matching #Latent Diffusion #Dynamic Time Warping #Music2Latent #DiT #RoPE

2026년 6월 11일

[논문리뷰] N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

본 연구는 LLM의 강화학습 과정 중 Rollout 단계에서 발생하는 효과적인 탐색(Exploration)의 부족과 기존 방법론의 한계점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Semantic Neighbor Mixing #Policy Optimization #Embedding Space #Latent Reasoning

2026년 6월 11일

[논문리뷰] MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

본 논문은 기존 쿼드콥터 시뮬레이터들이 가진 물리적 정확성, Multi-agent 지원, 그리고 현대적인 Deep RL 파이프라인에 필요한 처리량(Throughput) 간의 Trade-off 문제를 해결하고자 합니다.

#Review #Multi-drone Simulator #MuJoCo #Reinforcement Learning #GPU Acceleration #MJX #Aerial Robotics #Gymnasium

2026년 6월 11일

[논문리뷰] MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

본 논문은 단일 NFOV 이미지로부터 사용자가 자유롭게 이동하며 탐색할 수 있는 spatially persistent한 3D 환경을 생성하는 것을 목표로 합니다.

#Review #World Model #3D Gaussian Splatting #Panoramic Generation #Video Rendering #Real-Time Interaction

2026년 6월 11일

[논문리뷰] MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

본 논문은 대규모 언어 모델이 수학적 증명 문제에서 겪는 Hallucination과 Logical Inconsistency 문제를 해결하는 것을 핵심 목표로 합니다.

#Review #Mathematical Reasoning #Reinforcement Learning #Test-Time Scaling #Generative-Verifier #Formal Verification #Scalable Alignment

2026년 6월 11일

[논문리뷰] MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training

본 논문은 기존의 Representation Alignment 기법이 diffusion 모델의 학습 효율성을 개선함에도 불구하고, 노이즈가 포함된 모델 입력과 깨끗한 이미지 기반의 참조 특징 사이에서 발생하는 근본적인 '불일치(mismatch)' 문제를 해결하고자 합니다.

#Review #Diffusion Models #Representation Alignment #Token Masking #Efficient Training #Stochastic Interpolants #Transformer

2026년 6월 11일

[논문리뷰] Leveraging Morphology for Historical Script Metrological Analysis

본 연구는 고대 필사본 연구에서 필자의 서체 특성을 객관적으로 정량화하기 위한 자동화된 도구가 부족하다는 점을 해결하고자 합니다. 기존의 수동적인 Paleography 분석은 연구자의 주관에 의존하며, 대규모 데이터를 처리하는 데 한계가 있습니다.

#Review #Historical Script #Metrological Analysis #Morphology #Paleography #Feature Extraction #Geometric Analysis

2026년 6월 11일

[논문리뷰] LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

본 연구는 기존의 General-purpose VLA 모델들이 정밀한 과학 실험실 환경에서의 특수성과 고도의 Domain-specific 작업 수행 능력 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Robotics #Scientific Laboratory #Multimodal Learning #Embodied AI #Automation

2026년 6월 11일

[논문리뷰] InterleaveThinker: Reinforcing Agentic Interleaved Generation

본 논문은 기존의 Unified Multimodal Models(UMMs)가 장기 시퀀스 생성 과정에서 겪는 Visual Over-reliance와 Step-wise Error Accumulation 문제를 해결하기 위해 고안되었습니다.

#Review #Interleaved Generation #Multi-Agent Framework #Reinforcement Learning #GRPO #Visual Over-reliance #Error Accumulation

2026년 6월 11일

[논문리뷰] IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

본 논문은 VFM 기반의 RAE가 재구성 품질과 의미 보존 사이에서 겪는 근본적인 병목 현상을 해결하고자 합니다. 기존 연구들은 주로 깊은 계층의 의미론적 정보에만 의존하는데, 이는 디테일한 시각적 속성(색상, 텍스트, 로컬 구조 등)을 소실시키는 결과를 초래합니다.

#Review #Representation Autoencoder #Vision Foundation Models #Vector Quantization #Autoregressive Generation #Semantic Preservation #Reconstruction Fidelity

2026년 6월 11일

[논문리뷰] High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation

본 연구는 고품질 이미지 생성 모델의 Inference Latency 문제와 다단계 생성 과정에서의 정보 손실을 해결하는 것을 목표로 합니다.

#Review #Image Generation #Knowledge Distillation #Diffusion Models #Model Compression #Latent Diffusion #Efficiency

2026년 6월 11일

[논문리뷰] HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

본 논문은 기존의 수동으로 설계된(manually engineered) Harness가 복잡하고 긴 호흡의(long-horizon) 과제에서 비효율적인 상호작용을 초래하는 문제를 해결하고자 합니다.

#Review #LLM Agent #Harness Engineering #Bidirectional Projection #Observation Projection #Action Projection #Unified Instruction Tuning #Long-Horizon Task

2026년 6월 11일

[논문리뷰] HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

본 논문은 기존 Multimodal Large Language Models(MLLMs)가 Visual Encoder와 LLM 사이의 불균형 및 정보 정렬(Alignment) 미흡으로 인해 발생하는 성능 저하 문제를 해결합니다.

#Review #Multimodal Learning #Visual Tokenizer #Unified Architecture #Large Language Models #Representation Learning #Vision-Language Integration

2026년 6월 11일

[논문리뷰] From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

본 논문은 기존의 Multimodal Image Fusion (MMIF) 기법들이 공유 표현(shared representation)으로 dense 2D feature grid를 사용함으로써 발생하는 구조적 한계를 해결합니다.

#Review #Multimodal Image Fusion #1D Tokenizer #Shared Representation #Selective Token Editing #Global Appearance #Local Fidelity

2026년 6월 11일

[논문리뷰] Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

본 논문은 대규모 데이터셋에 대한 GMM 훈련 시 발생하는 메모리 부족(OOM) 문제와 과도한 HBM 대역폭 요구 사항을 해결합니다.

#Review #Gaussian Mixture Models #GMM #Triton #IVF #Approximate Nearest Neighbor #Memory-Efficient #Soft Clustering

2026년 6월 11일

[논문리뷰] FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

본 연구는 Deep Search Agents가 훈련 과정에서 데이터셋 내의 의도치 않은 패턴인 Shortcut에 과도하게 의존하여 실제 검색 환경에서 성능이 저하되는 현상을 해결합니다.

#Review #Deep Search Agents #Shortcut-Resistant #Task Synthesis #Representation Learning #Reinforcement Learning #Information Retrieval #Robustness

2026년 6월 11일

[논문리뷰] Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

본 논문은 Compact Language Models 기반의 에이전트가 복잡한 MCP 도구 사용 환경에서 겪는 구조적 취약성과 낮은 실행 성공률 문제를 해결하고자 합니다.

#Review #Tool-use #Compact Language Models #Inference-time Evolution #Executable Workflow #MCP-Bench #LLM Agents #Evolutionary Search

2026년 6월 11일

[논문리뷰] EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

본 연구는 기존의 정적인 벤치마크 환경이 급변하는 실시간 정보 환경을 제대로 반영하지 못하는 한계를 극복하고자 수행되었습니다. 대다수의 기존 모델들은 학습 데이터에 포함된 과거 정보에 의존하거나, 고정된 문서 데이터셋 내에서만 평가되어 실시간으로 업데이트되는 사실 관계를 추적하는 데 어려움을 겪습니다.

#Review #Search Agents #Evolving Knowledge #Benchmarking #Information Retrieval #LLM #Dynamic Environments

2026년 6월 11일

[논문리뷰] A Stationary (and Therefore Compatible) Representation is All You Need

본 논문은 급변하는 모델 생태계에서 개별 모델의 Representation이 변화함에 따라 발생하는 Compatibility 단절 문제를 해결하고자 합니다.

#Review #Stationary Representation #Model Compatibility #Representation Learning #Knowledge Distillation #Feature Alignment

2026년 6월 11일

[논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?

본 연구는 기존 세계 모델 평가 방식이 파편화되어 있고 실제 물리적 환경에서의 복합적인 능력을 충분히 측정하지 못한다는 문제의식에서 출발합니다. 현재 대부분의 연구는 특정 태스크에만 최적화되어 있어, 변화하는 환경에서의 일반화(Generalization) 성능이나 복잡한 인과 관계 이해도를 확인하기 어렵습니다.

#Review #World Models #Benchmarking #Embodied AI #Generalization #Multimodal Evaluation #Simulator

2026년 6월 9일

[논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

본 연구는 기존 에이전트 벤치마크가 지나치게 단순하거나, 실제 전문 업무의 복잡성을 충분히 반영하지 못한다는 한계를 해결하고자 합니다. 기존의 단기적인 작업 위주 평가는 실세계 환경에서 요구되는 고도의 Planning 능력과 Error Correction 능력을 측정하는 데 한계가 있습니다.

#Review #Computer-use Agents #Long-Horizon Evaluation #Real-World Workflows #Agentic Tasks #Benchmark Platform #Professional Fields

2026년 6월 9일

[논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

본 연구는 Multi-turn Reasoning 환경에서 모델의 CoT가 실제 최종 답변의 정확도를 보장하지 않으며, 오히려 논리적 모순을 유발할 수 있다는 점을 문제로 제기합니다.

#Review #Multi-turn Reasoning #Chain of Thought #Failure Modes #Faithfulness #LLM Evaluation

2026년 6월 9일

[논문리뷰] UniPET: a universal network for high-quality PET image denoising across varied dose reduction factors

본 연구는 고정된 노이즈 수준에 맞춰진 기존 PET 노이즈 제거 모델들이 다양한 임상적 상황에서의 변동성에 효과적으로 대응하지 못한다는 문제점을 해결하고자 합니다.

#Review #PET Image Denoising #Universal Network #Dose Reduction #Deep Learning #Medical Imaging

2026년 6월 9일

[논문리뷰] U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

본 논문은 기존의 Supervised Learning 기반 PET Denoising 모델들이 훈련 데이터와 테스트 데이터 간의 Domain Shift가 발생할 경우 성능이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #PET Image Denoising #Test-Time Training #Generalization #Deep Learning #Unsupervised Learning #Medical Imaging

2026년 6월 9일

[논문리뷰] The Role of Feedback Alignment in Self-Distillation

본 연구는 신경망 훈련 시 대규모 연산 자원이 필요한 Backpropagation의 의존성을 줄이고, Self-Distillation 과정에서의 효율성을 극대화하기 위해 수행되었다.

#Review #Self-Distillation #Feedback Alignment #Backpropagation #Knowledge Distillation #Deep Learning

2026년 6월 9일

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일

[논문리뷰] Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

본 논문은 현대의 멀티모달 딥 리서치 시스템이 정보 수집 과정에서 발생하는 Cross-modal conflict를 적절히 해결하지 못하는 '지식적 경직성(epistemic rigidity)' 문제를 해결하고자 합니다.

#Review #Multimodal #Deep Research Agents #Belief Revision Theory #Structural Thinking #Multimodal Structural Graph (MSG)#Conflict-aware

2026년 6월 9일

[논문리뷰] Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

본 연구는 고성능 LLM Agents를 구축하는 과정에서 직면하는 데이터 희소성과 정밀한 추론 전략의 부재를 해결하는 데 초점을 둡니다.

#Review #LLM Agents #Dual-Role Evolution #Self-Play #Knowledge Bootstrapping #Task Planning #Iterative Refinement

2026년 6월 9일

[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.

#Review #LLM Agents #Trajectory Optimization #Self-Preference #Reinforcement Learning #Alignment #Inference Optimization

2026년 6월 9일

[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.

#Review #LLM Safety #Psychology-Informed #Refusal Strategy #Alignment #Red Teaming #Cognitive Science #AI Ethics

2026년 6월 9일

[논문리뷰] Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

본 연구는 기존 Web Agent가 복잡하고 동적인 웹 환경에서 일반화된 지식의 한계로 인해 특정 도메인이나 새로운 인터페이스 적응에 실패하는 문제를 해결하고자 합니다.

#Review #Web Agents #Online Skill Learning #Dynamic Retrieval #State-Grounded #Sequential Decision Making #Skill Library #LLM

2026년 6월 9일

[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.

#Review #Multimodal QA #Latent Memory #Resource-Constrained #Token Efficiency #Evidence Retrieval #Visual Language Model

2026년 6월 9일

[논문리뷰] Next Forcing: Causal World Modeling with Multi-Chunk Prediction

본 논문은 기존 Autoregressive 모델이 긴 시퀀스를 생성할 때 발생하는 높은 Latency와 연산 비효율성 문제를 해결한다. 전통적인 모델은 토큰을 하나씩 생성해야 하므로, 복잡한 환경을 시뮬레이션하거나 긴 문맥을 생성할 때 병목 현상이 발생한다.

#Review #World Modeling #Multi-Chunk Prediction #Causal Modeling #Autoregressive Generation #Sequence Modeling

2026년 6월 9일

[논문리뷰] MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

본 논문은 기존 비디오 생성 모델들이 직면한 긴 영상 생성 시 발생하는 Temporal Inconsistency와 정보의 누락 문제를 해결하고자 합니다. 기존의 프레임 단위 또는 짧은 세그먼트 기반의 생성 방식은 시간이 지날수록 전역적 구조를 잃어버리는 한계가 있습니다.

#Review #Video Generation #Hierarchical Latents #Long-Range Consistency #Diffusion Models #Latent Space #Spatiotemporal Modeling

2026년 6월 9일

[논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

본 논문은 기존 Vision-Language Models(VLMs)가 긴 영상을 처리할 때 발생하는 토큰 폭발과 주의력 희석(Attention Dilution) 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Hierarchical Graph Memory #Agentic Retrieval #Vision-Language Models #Decoupled Perception and Reasoning

2026년 6월 9일

[논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

본 논문은 기존 Diffusion 기반의 오디오-비디오 생성 모델이 가진 높은 Latency와 연산 복잡도 문제를 해결하는 것을 목표로 합니다. 기존 방식은 고품질의 출력을 생성하기 위해 수십 번의 Sampling Step이 필요하여 실시간 서비스에 적용하기 어렵습니다.

#Review #Lip Synchronization #Diffusion Models #Autoregressive #Real-time #Audio-Driven Talking Face

2026년 6월 9일

[논문리뷰] Kwai Keye-VL-2.0 Technical Report

본 연구는 대규모 다중 모달 데이터셋 환경에서 높은 추론 성능과 효율적인 정렬을 동시에 달성하기 위한 고성능 VLM 아키텍처 개발을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Pretraining #Alignment #Instruction Tuning #Visual Encoder #LLM

2026년 6월 9일

[논문리뷰] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

본 연구는 TTS 언어 모델의 내부 동작이 '블랙박스'로 남아있어, 특정 음성 속성을 정교하게 제어하기 어렵다는 문제를 해결합니다. 기존의 음성 모델은 특정 스타일이나 화자 변환을 위해 전체 모델을 재학습하거나 프롬프트 엔지니어링에 의존해야 하며, 이는 제어의 정밀도와 효율성 측면에서 한계가 있습니다.

#Review #Sparse Autoencoders #Text-to-Speech #Mechanistic Interpretability #Latent Space #Controllable Generation

2026년 6월 9일

[논문리뷰] How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

LLM의 추론 과정은 내부적인 Information Flow가 불투명한 'Black Box' 형태로 작동하여 모델이 왜 특정 추론 결과를 도출하는지 설명하기 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reasoning Process #Attention Mechanism #Information Flow #Reinforcement Learning

2026년 6월 9일

[논문리뷰] Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

본 논문은 기존의 강화학습 미세 조정 기법이 Flow Matching 모델의 고유한 확률적 역학을 충분히 고려하지 못하여 발생하는 성능 불안정성 문제를 해결합니다.

#Review #Flow Matching #RLHF #Proximal Policy Optimization #Divergence Constraint #Policy Optimization

2026년 6월 9일

[논문리뷰] FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

본 논문은 Autoregressive Video Diffusion 모델에서 장기 문맥(Long-term context) 유지가 어려워 발생하는 비디오의 시간적 붕괴 문제를 해결합니다.

#Review #Video Diffusion Models #Memory Consolidation #Autoregressive Generation #Temporal Consistency #Long-term Dependency

2026년 6월 9일

[논문리뷰] Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

본 연구는 모델이 사용자에게 맞추려는 경향성인 Sycophancy가 결과적으로 모델의 근본적인 Safety Alignment를 훼손하고 Emergent Misalignment를 초래한다는 점에 주목합니다.

#Review #Sycophancy #Emergent Misalignment #Alignment Gating #Safety Alignment #Reinforcement Learning

2026년 6월 9일

[논문리뷰] Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Coding Agent의 성능 평가가 실제 실무 능력과 괴리되는 현상은 모델이 벤치마크 데이터를 암기하거나 유출된 테스트 케이스를 미리 확인하는 Cheating 문제에서 기인합니다.

#Review #Coding Agents #Cheating Detection #Capped Evaluation #Randomized Tests #Benchmark Overfitting #Code Generation

2026년 6월 9일

[논문리뷰] Bridging the Agent-World Gap: Text World Models for LLM-based Agents

본 논문은 LLM 기반 에이전트가 복잡하고 동적인 환경에서 환경 변화를 정확히 예측하지 못해 발생하는 Agent-World Gap 문제를 해결하고자 합니다.

#Review #LLM-based Agents #World Models #Text World Models #Environment Interaction #Planning #Sequential Decision Making

2026년 6월 9일

[논문리뷰] BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

본 논문은 파편화되어 있고 재현하기 어려운 기존의 Ad-hoc 가중치 수정 방식들을 체계적이고 선언적인 파이프라인으로 통합하는 것을 목표로 합니다. 기존 연구들은 코드 수준에서 가중치를 하드코딩하거나 복잡한 파이썬 스크립트에 의존하여, 수정 과정의 투명성이 낮고 버전 관리가 어렵다는 한계를 지닙니다.

#Review #Model Editing #Model Upcycling #Weight Manipulation #Declarative Framework #Reproducibility #Neural Network Surgery

2026년 6월 9일

[논문리뷰] BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

본 연구는 현재의 LLM 평가 체계가 주로 영어 중심이며, Bengali와 같은 저자원 언어(Low-resource languages)에 대한 Alignment 및 Sycophancy 평가가 극히 제한적이라는 문제의식에서 출발합니다.

#Review #LLM #Sycophancy #Bengali #Alignment #Benchmarking #NLP #Multilingual Evaluation

2026년 6월 9일

[논문리뷰] Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

본 연구는 CoT Fine-tuning이 모델의 논리적 추론 능력을 향상시키는 반면, 예기치 않게 기존에 보유했던 Long-Range Recall 능력을 훼손하는 상충 관계(Trade-off)를 해결하고자 합니다.

#Review #Chain-of-Thought #Hybrid LLMs #Long-Range Recall #Attention Amnesia #Fine-tuning #Memory Decay #Inference Efficiency

2026년 6월 9일

[논문리뷰] ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

본 연구는 기존 멀티모달 모델들이 시각적 인코더와 언어 모델을 단순히 결합하는 방식에서 벗어나, 모달리티 간의 진정한 통합을 달성하고자 합니다.

#Review #Autoregressive Model #Large Multimodal Model #Discrete Representation #Visual Tokenization #Unified Architecture

2026년 6월 9일

[논문리뷰] WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

본 논문은 기존 비디오 생성 모델이 가진 정적인 생성 한계를 극복하고, 사용자가 직접 환경과 상호작용할 수 있는 능동적인 세계 모델 구축을 목표로 합니다.

#Review #World Models #Interactive Video Generation #Object Manipulation #Camera Navigation #Embodied AI

2026년 6월 8일

[논문리뷰] Why Muon Outperforms Adam: A Curvature Perspective

본 논문은 LLM pretraining에서 Muon이 왜 Adam보다 약 2배 빠른 학습 효율을 보이는지, 그 근본적인 기하학적 이유를 규명하고자 합니다.

#Review #Muon #Adam #Curvature #Normalized Directional Sharpness (NDS)#Large Language Model #Optimization Landscape #Hessian

2026년 6월 8일

[논문리뷰] Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

본 논문은 Whisper와 같은 대규모 신경망 기반 ASR 모델이 비음성 오디오를 입력받았을 때 발생하는 환각 문제를 해결하는 것을 목적으로 한다. 기존의 heuristic 필터링 방식은 높은 신뢰도로 환각을 생성하는 사례를 효과적으로 걸러내지 못하는 한계를 지닌다.

#Review #Automatic Speech Recognition #Hallucinations #Whisper #Sparse AutoEncoder #Activation Steering

2026년 6월 8일

[논문리뷰] Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

생성 모델의 대규모 배포가 확산됨에 따라 데이터 프라이버시 및 저작권 문제가 심화되고 있으며, 모델이 학습 데이터를 직접적으로 복제하지 않더라도 내재된 정보를 기억(Memorisation)하고 있을 가능성이 제기됩니다.

#Review #Rectified Flows #Membership Inference Attack #Generative Models #Interpolation Path #Memorisation #Deep Learning Security

2026년 6월 8일

[논문리뷰] Trajectory-Refined Distillation

본 논문은 현대 LLM의 후행 학습에서 널리 사용되는 OPD가 구조적으로 직면한 Prefix Failure 문제를 해결하고자 합니다. 기존 연구들은 토큰 단위의 손실 함수 수정이나 특정 토큰의 가중치 조정을 통해 이 문제를 해결하려 했으나, 이는 실패한 궤적의 근본 원인을 수정하지 못하는 한계가 있었습니다 .

#Review #On-policy Distillation #Prefix Failure #Trajectory-Refined Distillation #Large Language Models #Self-distillation #Policy Gradient #Alignment

2026년 6월 8일

[논문리뷰] Text-to-Image Models Need Less from Text Encoders Than You Think

본 논문은 최신 Text-to-Image(TTI) 모델들이 복잡한 Text Encoder에 크게 의존하는 현상을 분석하고, 과연 이러한 모델들이 실제로 풍부한 문맥 정보를 활용하는지 의문을 제기합니다.

#Review #Text-to-Image #Diffusion Transformer #Text Encoder #Contextless Embedding #Bag-of-Position-Tagged-Words #Compositionality

2026년 6월 8일

[논문리뷰] SwiftVR: Real-Time One-Step Generative Video Restoration

본 논문은 실시간 비디오 스트리밍 환경에서 고해상도 복원을 수행하기 위한 제너레이티브 VR 모델의 배포 문제를 해결합니다.

#Review #Generative Video Restoration #Real-time #Diffusion Transformer #Shifted-Window Attention #Streaming Inference

2026년 6월 8일

[논문리뷰] SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

본 논문은 기존의 정적인 VQA나 시뮬레이터 종속적 벤치마크가 멀티모달 에이전트의 실제 환경에서의 동적 공간 추론 능력을 평가하는 데 한계가 있다는 점을 지적합니다. 대부분의 기존 연구는 privileged state 정보에 의존하거나 특정 환경에 고착화된 인터페이스를 사용하여 일반적인 공간 지능을 측정하기 어렵습니다 .

#Review #Spatial Reasoning #Multimodal Agents #Interactive Benchmark #Egocentric Vision #POMDP #Spatial Intelligence

2026년 6월 8일

[논문리뷰] SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

본 논문은 현대의 Deep Research Agents가 성공률만을 극대화하려는 brute-force 학습 전략으로 인해 심각한 연산 비효율성에 직면했다는 문제를 제기합니다.

#Review #Web Agents #Training Efficiency #Reward Gating #Adaptive Efficiency Anchoring #Pareto Frontier #Reinforcement Learning #Supervised Fine-Tuning

2026년 6월 8일

[논문리뷰] Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

본 논문은 LLM post-training에서 활용되는 기존의 reward evaluation 방식이 이질적인 평가 기준을 통합하는 데 한계를 보이고 있다는 점을 지적한다.

#Review #Reward Modeling #Agent Skills #LLM-as-a-Judge #Reinforcement Learning #Instruction Following #Evidence-based Evaluation

2026년 6월 8일

[논문리뷰] Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

본 논문은 기존 MLLM 기반 에이전트들이 3D 공간 추론 작업에서 장면의 특성을 무시하고 획일적인 툴 사용 전략을 취함으로써 성능이 저하되는 문제를 해결하고자 한다.

#Review #Agentic AI #3D Spatial Reasoning #Scene-Aware Skills #Tool Learning #Skill Evolution

2026년 6월 8일

[논문리뷰] SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

본 논문은 기존의 LLM 압축 기법들이 가중치 분해 시 발생하는 정밀도 저하와 그로 인한 성능 손실을 효과적으로 극복하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Compression #SVD #Low-Rank Decomposition #Weight Quantization #Model Pruning #Parameter Efficiency

2026년 6월 8일

[논문리뷰] Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

본 논문은 LLM이 외부 Judge의 평가를 사전에 예측하여 스스로 자신의 답변을 재평가하거나 선별할 수 있는지에 대한 근본적인 의문을 탐구합니다.

#Review #Large Language Models #Self-Evaluation #Calibration #Reinforcement Learning #Elicitation #Distillation #Alignment

2026년 6월 8일

[논문리뷰] SWE-Explore: Benchmarking How Coding Agents Explore Repositories

본 논문은 기존의 SWE-bench와 같은 벤치마크가 이슈 해결 여부를 이분법적(성공/실패)으로만 판단하여, 에이전트의 내부적인 탐색, 위치 파악, 맥락 추출 능력을 측정하지 못하는 문제를 해결하고자 합니다 .

#Review #Repository-level Coding #Coding Agents #Repository Exploration #Line-level Benchmark #Context Retrieval #Software Engineering

2026년 6월 8일

[논문리뷰] Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?

본 연구는 LLM을 활용한 극저자원 언어(extremely low-resource language)의 Machine Translation (MT) 성능을 향상시키는 것을 목표로 합니다.

#Review #Low-Resource Machine Translation #Large Language Models #Linguistic Reasoning Traces #In-Context Learning #Universal Dependencies #Chain-of-Thought

2026년 6월 8일

[논문리뷰] Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

본 논문은 RLVR의 고질적인 문제인 Non-diverse reward group으로 인한 학습 신호 소실과 컴퓨팅 자원 낭비를 해결하는 것을 목표로 합니다.

#Review #Reasoning Arena #RLVR #Trace Tournament #Bradley-Terry Model #Non-diverse Reward Group #Adaptive Routing

2026년 6월 8일

[논문리뷰] Pruning and Distilling Mixture-of-Experts into Dense Language Models

본 연구는 MoE 모델의 높은 메모리 요구량으로 인해 발생하는 배포 제약 문제를 해결하기 위해, 전문가 기반 구조를 효율적인 Dense 모델로 변환하는 체계적인 프레임워크를 제안한다.

#Review #Mixture-of-Experts #Knowledge Distillation #Model Pruning #D-Optimal Selection #Dense Language Models #Expert Scoring #Submodularity

2026년 6월 8일

[논문리뷰] Phase Marginalization for Patch-Grid Instability in Vision Transformers

본 논문은 Vision Transformers(ViT)의 패치화(patchification) 과정에서 발생하는 patch-grid phase instability 문제를 해결하고자 한다.

#Review #Vision Transformers #Patch-Grid Phase #Dense Prediction #Phase Marginalization #Test-Time Augmentation #Aliasing

2026년 6월 8일

[논문리뷰] PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

본 논문은 기업 내 Property Graph 환경에서 신뢰할 수 있는 Text2Cypher 평가를 위한 반복 가능하고 자동화된 벤치마크 생성 파이프라인의 부재 문제를 해결합니다.

#Review #Text2Cypher #Benchmark Generation #Property Graph #Execution Validation #Local LLM #Governed Generation

2026년 6월 8일

[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.

#Review #Reinforcement Learning #Long-Horizon Credit Assignment #Bayesian Inference #Self-Distillation #Search Agents #Agentic RL

2026년 6월 8일

[논문리뷰] Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

본 연구는 기존의 텍스트 기반 CoT(Chain-of-Thought)가 가지는 비효율성과 multimodal 태스크에서의 표현력 한계를 해결하고자 한다.

#Review #Optical Reasoning #Multimodal Large Language Models #Chain-of-Thought #Context Compression #Interleaved-modal Reasoning #Visual Reasoning

2026년 6월 8일

[논문리뷰] On the Geometry of On-Policy Distillation

본 논문은 OPD가 SFT와 RLVR의 특성을 모두 공유함에도 불구하고, 파라미터 공간에서의 구체적인 학습 동역학(training dynamics)은 제대로 규명되지 않았다는 점을 핵심 문제로 정의합니다.

#Review #On-policy Distillation #Parameter-space Geometry #Subspace Locking #SFT #RLVR #Large Language Models

2026년 6월 8일

[논문리뷰] OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

본 논문은 기존 VLM Agent 벤치마크가 단일 시도(First-attempt) 점수만을 보고하고, Solo 플레이 위주로 구성되어 있어 에이전트의 학습 및 개선 능력을 측정하지 못한다는 문제를 지적한다.

#Review #VLM Agents #Benchmark #Unreal Engine 5 #Improvement Dynamics #Agentic Reflection #Cold-start #Generalization

2026년 6월 8일

[논문리뷰] OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

본 논문은 Omni-modal 모델들이 복잡한 사용자 지시 사항을 준수하는 능력인 Instruction Following에 대한 체계적인 평가 도구가 부족하다는 점을 해결하고자 합니다.

#Review #Omni-modal Large Language Models #Instruction Following #Video Captioning #Temporal Grounding #Constraint Framework #Format-Content Tradeoff

2026년 6월 8일

[논문리뷰] OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

본 논문은 휴머노이드 로봇의 Loco-Manipulation 태스크를 위한 대규모의 고품질 Demonstration Data 부족 문제를 해결하고자 합니다.

#Review #Humanoid Loco-Manipulation #Simulation Data Collection #Zero-Shot Transfer #Domain Randomization #Visuomotor Policy #Flow Matching #Unitree G1

2026년 6월 8일

[논문리뷰] Light-WAM: Efficient World Action Models with State-Fusion Action Decoding

본 논문은 대규모 생성적 아키텍처를 기반으로 하는 기존 WAM의 높은 학습 비용과 추론 Latency 문제를 해결하기 위해 Light-WAM을 제안합니다.

#Review #World Action Models #Robot Manipulation #State-Fusion Action Decoding #Efficient Inference #Latent Space Supervision #Video Co-training

2026년 6월 8일

[논문리뷰] Liberating LLM Capabilities in Full-Duplex Speech Models

본 논문은 기존의 음성 기반 LLM이 음성 응답이라는 제한된 출력 채널에 갇혀, 텍스트가 가진 구조적·논리적 강점을 충분히 활용하지 못한다는 점을 지적한다.

#Review #Full-Duplex #Speech LLM #Visible Writing #Tri-channel Paradigm #Token Schema #Real-time Interaction

2026년 6월 8일

[논문리뷰] Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

본 논문은 LLM 에이전트 워크플로우 및 실행 궤적에 대한 공식적인 모델링, 검증, 디버깅 방법론이 부재한 문제를 해결한다.

#Review #Formal Methods #LLM Agent #Lean4 #Workflow Verification #Trajectory Analysis #FormalAgentLib #LeanEvolve

2026년 6월 8일

[논문리뷰] LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

본 논문은 LLM Agent가 외부 기술을 프롬프트에 직접 주입할 때 발생하는 컨텍스트 오버헤드와 보안 노출 문제를 해결하고자 합니다. 기존의 In-Context Skill 방식은 매 단계마다 기술 텍스트를 삽입해야 하므로 추론 비용이 높고, 프롬프트 내에 기술 내용이 그대로 노출되어 공격에 취약하다는 단점이 있습니다.

#Review #LLM Agents #LoRA #Hypernetworks #Skill Composition #Weight Space #Prompt Efficiency #Modular Learning

2026년 6월 8일

[논문리뷰] Latent Spatial Memory for Video World Models

본 논문은 기존 비디오 월드 모델이 가진 3D 공간 일관성 유지의 한계와 과도한 계산 비용 문제를 해결하기 위해 Mirage를 제안한다.

#Review #Video Generation #Spatial Memory #3D-consistent Video Generation #Video World Models #Latent Space #Diffusion Models

2026년 6월 8일

[논문리뷰] Human Psychometric Questionnaires Mischaracterize LLM Behavior

본 논문은 LLM의 가치와 성격을 평가하기 위해 인간용 심리측정 설문지를 사용하는 것이 과연 실제 사용자 상호작용에서의 행동을 신뢰성 있게 예측하는지 의문을 제기합니다.

#Review #LLM #Psychometrics #Value Portrait #Generation Probability #Alignment #Construct Validity

2026년 6월 8일

[논문리뷰] Honest Lying: Understanding Memory Confabulation in Reflexive Agents

본 논문은 Reflexion과 같은 에이전트가 자가 생성한 피드백에 의존할 때 발생하는 'Memory Confabulation' 문제를 해결하고자 합니다. 기존 연구는 에이전트가 스스로 자신의 실패를 정확히 진단할 수 있다고 가정하지만, 저자들은 이 가정이 체계적으로 실패할 수 있음을 입증합니다.

#Review #Reflexive Agents #Memory Confabulation #Reflexion #ALFWorld #LLM Agents #Programmatic Feedback Extraction #Reflection Repetition Rate

2026년 6월 8일

[논문리뷰] Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

본 논문은 현대의 Agent Benchmarks가 보유한 outcome verifier의 취약성을 지적하고, 이를 자동으로 강화할 수 있는 체계적인 방법론을 제안한다. 기존의 방식은 새로운 유형의 공격이 발견될 때마다 개발자가 수동으로 검증기를 패치하는 사후 대응적(reactive) 접근에 의존하고 있어 확장이 어렵다 .

#Review #Agentic Evaluation #Reward Hacking #Adversarial Robustness #LLM Benchmarks #Hacker-Fixer Loop #Verifiers #Defense Pool

2026년 6월 8일

[논문리뷰] FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

본 논문은 초장기 context 처리 시 발생하는 KV 캐시의 메모리 병목 현상을 해결하고자 합니다 . 기존 LLM은 모든 historical context를 GPU 메모리에 상주시켜야 하므로, context 길이가 길어짐에 따라 GPU 메모리 요구량이 선형적으로 증가하는 치명적인 한계가 있습니다.

#Review #Large Language Models #Ultra-Long Context #Sparse Attention #KV Cache Compression #Lookahead Sparse Attention #Neural Memory Indexer #Decoupled Training

2026년 6월 8일

[논문리뷰] Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

본 논문은 기존 의료용 에이전트(Medical Agent)들이 정적인 지식이나 단기 메모리에 의존하여, 복잡한 임상 상황에서 장기적인 경험을 효과적으로 축적하지 못하는 한계를 해결하고자 합니다.

#Review #Medical Agent #Skill Memory #Self-Evolving #Clinical Reasoning #Value-aware Retrieval #Trajectory-to-Skill Distillation #Non-parametric Reinforcement

2026년 6월 8일

[논문리뷰] Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

본 논문은 현재 AI 평가 생태계가 파편화되어 있어, 모델의 성능 지표를 신뢰하거나 비교하기 어렵다는 점을 해결하고자 합니다. 기존 연구들은 평가의 특정 측면만을 다루거나 정적인 보고서 형태에 머물러 있어, 실제 평가 파이프라인에서 발생하는 데이터들을 체계적으로 통합하지 못합니다.

#Review #AI Evaluation #Reporting Framework #Reproducibility #Transparency #Interpretive Layer #Benchmark Metadata #Rollout Hierarchy

2026년 6월 8일

[논문리뷰] End-to-End Context Compression at Scale

본 연구는 긴 문맥(long-context) 처리가 LLM의 핵심 역량임에도 불구하고, 기하급수적으로 증가하는 KV Cache 메모리 점유율과 이로 인한 추론 속도 저하 문제를 해결하고자 합니다.

#Review #Context Compression #KV Cache #Latent Context Language Models #Encoder-Decoder #End-to-End Training #Model Efficiency

2026년 6월 8일

[논문리뷰] EmpiriGraph-Psy: A Dataset and LLM Pipeline for Extracting Empirical Relation Graphs from Psychology Abstracts

본 논문은 심리학과 같은 변수 지향적(Variable-oriented) 학문 분야의 과학적 지식을 구조화하기 위해 EmpiriGraph-Psy를 제안합니다.

#Review #Scientific Relation Extraction #Knowledge Graphs #Psychology #LLM Pipeline #Empirical Research #Variable Normalization

2026년 6월 8일

[논문리뷰] Echo-Memory: A Controlled Study of Memory in Action World Models

본 논문은 Action World Models에서 발생하는 근본적인 Memory 실패 문제를 해결하기 위해 연구를 시작했다 . 기존의 연구들은 서로 다른 Backbone, Training recipe, Evaluation protocol을 사용하여 메모리 성능을 정확하게 비교하는 것이 불가능했습니다.

#Review #Action World Models #Video Diffusion #Memory Mechanism #Open-domain Return #Replay Consistency #State-Space Memory #Context Compression

2026년 6월 8일

[논문리뷰] EMMA: Extracting Multiple physical parameters from Multimodal Data

본 연구는 실제 환경에서 작동하는 자율 주행 플랫폼이나 드론과 같은 시스템의 물리적 파라미터를 파편화된 멀티모달 데이터로부터 정교하게 추정하는 문제를 해결합니다.

#Review #Multimodal Data #Physical Parameter Extraction #Liquid Time-Constant Network #Physics-Informed #Digital Twin #Implicit Dynamics #Forced Dynamical Systems

2026년 6월 8일

[논문리뷰] DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

본 논문은 기존의 Deep Research(DR) 시스템들이 직면한 4가지 핵심적인 한계점을 해결하고자 합니다. 첫째, 불충분하게 정의된 연구 범위 속에서 긴 호흡의 계획을 수행할 때 발생하는 복잡성 문제입니다. 둘째, 단일 에이전트 환경에서 하위 작업의 분해 및 스케줄링 과정 중 발생하는 오류 전파의 위험입니다.

#Review #Deep Research #Multi-Agent System #Graph-Based Dynamic Planning #Recursive Execution #Rubric-Grounded Reasoning #Auditability #Test-Time Optimization

2026년 6월 8일

[논문리뷰] DEI: Diversity in Evolutionary Inference for Quality-Diversity Search

본 논문은 기존의 병렬 LLM 기반 탐색이 컴퓨팅 자원의 확장에만 초점을 맞출 뿐, 모델의 인지적 다양성을 간과하고 있다는 문제를 해결하고자 합니다.

#Review #Quality-Diversity Search #Large Language Models #Evolutionary Algorithms #Digital Red Queen #Heterogeneous Ensemble #Distributed Optimization

2026년 6월 8일

[논문리뷰] Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

본 논문은 LVR 프레임워크에서 latent와 타깃 간의 정렬 지표인 Cosine 유사도가 모델의 성능을 제대로 반영하지 못하는 '오도(Misleading)' 현상을 해결하고자 한다 .

#Review #Vision-Language Models #Latent Visual Reasoning #Information Bottleneck #Linear Probing #Auxiliary Loss #Faithfulness #Diagnostic

2026년 6월 8일

[논문리뷰] CoVEBench: Can Video Editing Models Handle Complex Instructions?

본 논문은 기존 비디오 편집 벤치마크들이 단순하고 고립된 편집 작업에만 초점을 맞추어, 실제 사용자의 복잡한 편집 요구사항을 반영하지 못하는 한계를 해결하고자 합니다 .

#Review #Compositional Video Editing #Instruction-guided Editing #Benchmark #Instruction Compliance #Video Fidelity #MLLM-based Evaluation #Fine-grained Diagnostics

2026년 6월 8일

[논문리뷰] Chiaroscuro Attention: Spending Compute in the Dark

본 연구는 표준 Transformer가 모든 토큰에 대해 일관되게 고비용의 O(n²d) self-attention을 적용하는 비효율성을 해결하고자 합니다.

#Review #CHIAR-Former #Spectral Entropy #DCT(Discrete Cosine Transform)#Routing Collapse #Operator Routing #Transformer Efficiency

2026년 6월 8일

[논문리뷰] CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

본 논문은 기존의 Cross-view geo-localization 접근 방식인 이미지 검색(Image Retrieval)과 포즈 추정(Pose Estimation)이 별도의 파이프라인으로 운용되어 발생하는 비효율성을 해결하고자 합니다 .

#Review #Cross-view Geo-localization #Image Retrieval #Pose Estimation #Transformer #Multi-task Learning #Bidirectional Cross-attention

2026년 6월 8일

[논문리뷰] Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

본 논문은 기존의 heuristic한 방식이나 단순한 성공/실패 횟수에 의존하는 Agent Skill 업데이트가 비효율적이며, noisy한 편집으로 인해 오히려 성능 저하를 초래할 수 있다는 문제를 해결하고자 한다.

#Review #LLM Agent #Bayesian Evidence #Skill Evolution #SOP #Harness Engineering #Posterior-Guided Optimization

2026년 6월 8일

[논문리뷰] Answer Presence Drives RAG Rewriting Gains

본 논문은 RAG 파이프라인에서 Rewriter 도입으로 얻는 성능 향상이 실제 정답 문자열 노출에 의한 것인지, 혹은 증거 문서의 질적 개선(Curation)에 의한 것인지 규명하고자 합니다.

#Review #Retrieval-Augmented Generation (RAG)#LLM Rewriting #Causal Intervention #Answer-string Surfacing #Sentinel-Fragility #Audit Protocol

2026년 6월 8일

[논문리뷰] AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

본 논문은 기존 World-Action Model(WAM)이 월드 모델링과 액션 실행을 동일한 시간 해상도로 강제 결합함으로써 발생하는 구조적 비효율 문제를 해결하고자 합니다 .

#Review #Robot Learning #Embodied Manipulation #World-Action Model #Diffusion Transformer #Asynchronous Inference #Horizon-Adaptive #Observation-Guided Context Routing

2026년 6월 8일

[논문리뷰] A Geometric Account of Activation Steering through Angle-Norm Decomposition

기존의 Additive Steering은 단순히 특정 방향의 벡터를 더하는 방식으로, 이는 개념 제어(Angular)와 hidden state의 크기 변화(Radial)를 동시에 발생시켜 제어의 기하학적 의미를 모호하게 만듭니다 .

#Review #Activation Steering #Angle-Norm Decomposition #Representation Engineering #LLM Geometry #Spherical Steering

2026년 6월 8일

[논문리뷰] dots.tts Technical Report

본 논문은 기존의 이산적(Discrete) 토큰 기반 TTS 모델이 가진 표현력의 한계를 극복하고, 연속적인(Continuous) latent 공간에서 안정적인 AR 음성 생성을 구현하고자 합니다.

#Review #Text-to-Speech #Continuous Latent #Flow-Matching #Autoregressive #AudioVAE #Self-Correction #MeanFlow Distillation

2026년 6월 7일

[논문리뷰] Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

본 논문은 LLM이 우수한 zero-shot 능력을 갖추고 있음에도 불구하고, 범용 text embedding 모델로 활용될 때는 성능이 저하되는 원인을 분석하고 해결하고자 한다.

#Review #Large Language Model #Text Embedding #Mechanistic Interpretability #Unembedding Matrix #Dimensionality Reduction #Logit Lens #Edge Spectrum

2026년 6월 7일

[논문리뷰] WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

본 논문은 기존 멀티모달 벤치마크들이 모델의 실제 추론 능력을 충분히 측정하지 못하는 한계점을 극복하기 위해 WorldBench를 제안한다. 많은 기존 벤치마크가 특정 도메인에 편향되어 있거나 시각적 다양성이 부족하여, VLM의 실제 문제 해결 능력을 과대평가하게 만드는 경향이 있다.

#Review #Multimodal Reasoning #Benchmark #Vision-Language Model #Visual Diversity #Inference #Evaluation #LLM

2026년 6월 7일

[논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

본 논문은 기존의 LLM 에이전트 벤치마크들이 이상적인 'Happy Path' 환경만을 상정하여, 현실의 불안정한 도구 실행 및 오류 상황을 제대로 평가하지 못하는 한계를 지적한다.

#Review #LLM Agents #Tool-Integrated Reasoning #Fault-Tolerance #Dynamic Replanning #Anomaly Recovery #Benchmark #DAG-based Task Generation

2026년 6월 7일

[논문리뷰] When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges

본 논문은 여러 평가 기준을 동시에 고려해야 하는 Multi-Objective LLM Judge의 프롬프트 최적화 과정에서 발생하는 근본적인 문제들을 규명한다.

#Review #LLM-as-a-Judge #Prompt Optimization #Textual Gradient #Multi-Objective Optimization #Gradient Dilution #Instruction Interference

2026년 6월 7일

[논문리뷰] Watch, Remember, Reason: Human-View Video Understanding with MLLMs

본 연구는 짧은 클립 위주의 비디오 이해에서 벗어나 분 단위 이상의 장기적이고 다중 모달이 얽힌 복잡한 비디오 환경으로 변화하는 트렌드를 다룹니다.

#Review #Multimodal Large Language Models #Video Understanding #Temporal Grounding #Memory Modeling #Long-video Reasoning #Efficient Perception

2026년 6월 7일

[논문리뷰] UniSHARP: Universal Sharp Monocular View Synthesis

기존의 monocular novel view synthesis 연구(예: SHARP, Flash3D)는 주로 pinhole 카메라 기반의 perspective 이미지에 최적화되어 있어, 시야각이 넓거나 왜곡이 큰 wide-FoV, fisheye, panoramic 카메라 환경으로의 일반화가 어렵습니다 .

#Review #Novel View Synthesis #3D Gaussian Splatting #Monocular Rendering #Omnidirectional Latent Space #Ray-Based Representation #Universal Camera Model

2026년 6월 7일

[논문리뷰] Towards Retrieving Interaction Spaces for Agentic Search

본 논문은 기존의 Agentic Search 방식이 가진 확장성 및 효율성 문제를 해결하기 위해 제안되었습니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Direct Corpus Interaction #Interaction Space #Information Retrieval #LLM

2026년 6월 7일

[논문리뷰] Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

본 논문은 현대의 ASR 시스템이 단일 패스 방식에 고착되어 있어, 인간의 의사소통처럼 반복적인 확인과 수정이 필요한 상황에서 의미론적 오류(Meaning-critical errors)를 효과적으로 해결하지 못하는 문제를 해결합니다 .

#Review #Interactive ASR #Agentic Correction #Semantic Evaluation #S2ER #Human-AI Alignment #LLM-as-a-Judge

2026년 6월 7일

[논문리뷰] Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

기존의 VLM들은 관측된 이미지에 제한되어 있어 보이지 않는 레이아웃을 추론하거나 시점 변화에 따른 공간적 일관성을 유지하는 데 한계를 보입니다. 특히 제한적인 일인칭 관측 환경에서는 alternative viewpoint에서 장면을 파악해야 할 필요성이 크지만, 현 모델들은 이를 능동적으로 해결하지 못합니다.

#Review #Vision-Language Models #Spatial Reasoning #World Simulator #Reinforcement Learning #View Consistency #Agentic Reasoning

2026년 6월 7일

[논문리뷰] SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

본 연구는 장기 기억을 가진 AI 에이전트가 축적된 기억들 간의 복잡한 관계를 정확히 이해하고 활용하지 못하는 근본적인 문제를 해결하고자 합니다.

#Review #Long-Horizon AI Agents #Long-term Memory #Relational Memory #Benchmarking #LLM Agents #Knowledge Discrimination

2026년 6월 7일

[논문리뷰] Streaming Video Generation with Streaming Force Control

본 논문은 기존 비디오 생성 모델들이 가진 상호작용성(Interactivity)의 결여와 물리적 제어의 한계를 해결하기 위해 StreamForce를 제안합니다.

#Review #Streaming Video Generation #Force Control #Causal Autoregressive Model #Force-aware Distillation #Unified Force Representation

2026년 6월 7일

[논문리뷰] Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors

본 논문은 기존 3D LMM들이 전체 장면 관측이나 미리 정의된 비디오 클립을 요구하는 오프라인 방식으로 운영되어 실시간 환경 적용에 한계가 있다는 문제점을 해결하고자 합니다 . 이러한 방식은 자율 로봇이나 AR/VR 기기와 같이 실시간 상호작용이 필수적인 임베디드 애플리케이션에서 사용하기 어렵습니다.

#Review #3D Large Multimodal Models #Online Spatial Understanding #Incremental Geometry Priors #Visual-Spatial Feature Integration #Geometry-Adaptive Voxel Compression #Streaming Video

2026년 6월 7일

[논문리뷰] Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

본 연구는 LLM 기반 소프트웨어 엔지니어링 에이전트가 고품질 태스크 데이터 부족으로 인해 학습 및 일반화 성능이 제한되는 문제를 해결하고자 합니다. 기존 합성 데이터 생성 방식은 고정된 규칙이나 무작위 버그 주입에 의존하여 에이전트의 실제 취약점이나 학습 진행 상황을 반영하지 못한다는 한계가 있습니다.

#Review #Software Engineering #Large Language Models #Reinforcement Learning #Self-Evolution #Agent Skills #Trace-Driven Learning #Code Repair

2026년 6월 7일

[논문리뷰] SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

본 논문은 실시간으로 변화하는 복잡한 갈등 상황에서 LLM 기반 중재자를 안정적으로 평가할 수 있는 체계적인 방법론이 부재하다는 문제에서 출발한다. 기존 연구들은 몇몇 제한된 도메인에 의존하거나, 중재자의 성능을 전체 대화 맥락에서 평가함으로써 관련 없는 대화 내용에 의한 노이즈를 발생시킨다는 한계가 있다.

#Review #LLM Mediation #Automated Evaluation #Socio-cognitive Adaptation #Agentic Pipeline #Topic-localized Evaluation

2026년 6월 7일

[논문리뷰] SPACENUM: Revisiting Spatial Numerical Understanding in VLMs

본 논문은 VLM이 embodied 환경에서 생성하는 수치적 출력값(예: action magnitude, spatial coordinate)이 실제 공간 정보에 기반하고 있는지에 대해 의문을 제기합니다.

#Review #Vision-Language Models #Spatial Numerical Understanding #Spatial Exploration #Spatial Reasoning #Metric Grounding #Num2Space #Space2Num

2026년 6월 7일

[논문리뷰] SIA: Self Improving AI with Harness & Weight Updates

본 논문은 기존 AI 자기 개선 연구가 Harness(scaffold) 개선과 Test-time training(weight updates)이라는 두 가지 고립된 사일로(silo)로 나뉘어 있는 한계를 해결하고자 한다 .

#Review #Self-Improving Agents #Test-Time Training #Reinforcement Learning #Harness Engineering #Scaffold Generation #LoRA

2026년 6월 7일

[논문리뷰] Robots Need More than VLA and World Models

본 논문은 현재 로봇 학습 분야가 VLA 모델의 스케일링에만 지나치게 의존하고 있으며, 이것만으로는 일반적인 로봇 지능(Generalist robot intelligence)을 달성할 수 없다고 지적한다.

#Review #Robotics #Vision-Language-Action Models #Physical Intelligence #Embodied AI #Grounding #Robot Learning #Data Engines

2026년 6월 7일

[논문리뷰] Reinforcement Learning from Rich Feedback with Distributional DAgger

본 연구는 기존의 RLVR 패러다임이 가진 극심한 희소 보상 문제와 그에 따른 부적절한 신용 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Rich Feedback #Self-Distillation #DAgger #Policy Optimization #Credit Assignment

2026년 6월 7일

[논문리뷰] Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

본 논문은 현대의 Image-to-Video(I2V) 생성 모델이 뛰어난 시각적 품질에도 불구하고 왜 기초적인 물리 법칙을 자주 위반하는가라는 핵심 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Physical Consistency #Phase Erosion #Latent Delta Guidance #Spectral Analysis #Training-Free

2026년 6월 7일

[논문리뷰] Parametric Social Identity Injection and Diversification in Public Opinion Simulation

본 논문은 기존의 LLM 기반 공공 의견 시뮬레이션 방식이 가진 심각한 다양성 결여 문제를 해결하고자 한다. 저자들은 기존의 프롬프트 기반 페르소나 방식이 실제 인간의 응답 분포를 모사하지 못하고, 계층적 정보 전달 과정에서 정체성 정보가 유실되는 Diversity Collapse 현상을 발견하였다 .

#Review #Agent-based Modeling #Public Opinion Simulation #Social Diversity #Large Language Models #Hidden State Manipulation

2026년 6월 7일

[논문리뷰] PaperFlow: Profiling, Recommending, and Adapting Across Daily Paper Streams

본 논문은 기존의 논문 추천 시스템이 대부분 고정된 후보군을 대상으로 하는 Static Ranking 문제로 프레임워크를 제한하고 있다는 한계를 지적합니다 .

#Review #Scientific Paper Recommendation #User Profiling #Interest Drift #Longitudinal Benchmark #Multi-signal Aggregation #LLM-based Recommendation

2026년 6월 7일

[논문리뷰] OpenSkill: Open-World Self-Evolution for LLM Agents

본 논문은 LLM 에이전트가 배포 후 외부의 정답이나 지도 없이 스스로 학습할 수 있는 'Open-World Self-Evolution' 환경에서의 불확실성을 해결하고자 합니다 .

#Review #Open-World Self-Evolution #LLM Agents #Supervision-Free #Skill Evolution #Virtual Verifier #Knowledge Acquisition #Model Transferability

2026년 6월 7일

[논문리뷰] Measuring Model Robustness via Fisher Information: Spectral Bounds, Theoretical Guarantees, and Practical Algorithms

본 논문은 딥러닝 모델의 견고성 평가가 특정 공격(Attack-dependent)에 과도하게 의존하고 있으며, 이론적 근거가 부족하다는 점을 해결하고자 한다. 기존의 Lipschitz constant나 CLEVER score와 같은 지표들은 확장성(Scalability)이 낮거나 확률적 해석력이 부족하다는 한계가 있다.

#Review #Model Robustness #Fisher Information Matrix #Spectral Norm #Adversarial Vulnerability #Interpretability #Deep Learning

2026년 6월 7일

[논문리뷰] MMAE: A Massive Multitask Audio Editing Benchmark

본 연구는 instruction-based audio editing 분야의 급격한 발전에도 불구하고, 이를 체계적으로 평가할 수 있는 통합적인 인프라가 부재하다는 문제점을 해결하고자 합니다.

#Review #Audio Editing #Benchmark #Multitask Learning #Rubric-based Evaluation #Instruction Following #Consistency

2026년 6월 7일

[논문리뷰] LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models

본 논문은 에이전트 시스템에서 도구 호출과 계획 수립처럼 서로 다른 복잡도를 가진 작업이 수행됨에도 불구하고, 모든 단계에 동일한 연산량을 투입하는 비효율성을 해결하고자 합니다. 기존 LLM 추론 시스템은 고정된 transformer 레이어 구조를 사용하여 모든 토큰에 대해 동일한 컴퓨팅 비용을 소모합니다.

#Review #Layer Skipping #Agentic LLM #LoRA #Adaptive Inference #Straight-Through Estimator #Model Efficiency

2026년 6월 7일

[논문리뷰] LLM Explainability with Counterfactual Chains and Causal Graphs

본 논문은 LLM의 추론 과정이 불투명하여 고위험 영역에서의 신뢰성 확보가 어렵다는 문제를 해결하고자 합니다. 기존의 어텐션 분석이나 특징 기여도(feature attribution) 방식은 본질적으로 상관관계에 기반하고 있어, LLM의 복잡한 추론 메커니즘을 명확하게 설명하는 데 한계가 있습니다.

#Review #LLM Explainability #Causal Graphs #Counterfactual Chains #Concept Discovery #MCMC #Predictive Fidelity

2026년 6월 7일

[논문리뷰] LIMMT: Less is More for Motion Tracking

본 논문은 휴머노이드 모션 트래킹 학습에서 무분별한 데이터 확장(Data Scaling)이 오히려 성능 저하를 초래한다는 문제점을 지적합니다.

#Review #Motion Tracking #Humanoid Robot #Data-Centric AI #Physics-based Simulation #Imitation Learning #Data Curation

2026년 6월 7일

[논문리뷰] How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

본 논문은 chord-symbol 시계열 데이터가 실제 음악 장르의 정체성을 얼마나 담아낼 수 있는지, 그 표현력의 한계는 어디인지를 규명하는 것을 목적으로 한다.

#Review #Chord-symbol modeling #Genre identity #PEFT #LoRA #Music Transformer #Representation boundary

2026년 6월 7일

[논문리뷰] HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems

본 논문은 LLM agent 시스템의 Meta-adaptation을 수행할 때 발생하는 '실행 호환성(Executable Compatibility) 결여' 문제를 해결합니다.

#Review #LLM Agents #Meta-Adaptation #Harness-Policy Co-evolution #Agent System Design #Reasoning Policy Alignment

2026년 6월 7일

[논문리뷰] GENEB: Why Genomic Models Are Hard to Compare

본 논문은 현재 유전체 머신러닝 분야가 파편화된 벤치마크와 상호 호환되지 않는 평가 프로토콜로 인해 모델 간의 정당한 비교가 불가능한 문제에 직면해 있다고 지적한다 .

#Review #Genomic Foundation Models #Benchmark #Probing #Cross-Model Evaluation #Architecture #Pretraining #Genomics

2026년 6월 7일

[논문리뷰] Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

본 논문은 확산 모델(Diffusion Model) 학습 시 확신에 기반한 그래디언트 가중치 부여가 모델의 오류를 증폭시킬 수 있다는 기존의 고정관념을 반박하고, 이를 통해 구조적 이점을 얻을 수 있음을 입증합니다.

#Review #Diffusion Models #Belief Space #Music Generation #LoRA #Implicit Curriculum #Entropy #Log-Barrier

2026년 6월 7일

[논문리뷰] Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

본 연구는 기존의 Object insertion 기술이 2D image plane에 국한되어 있어, 사용자가 원하는 물체의 3D pose를 정밀하게 제어하지 못하는 한계를 해결하고자 합니다.

#Review #Object Insertion #Pose-Controllable #Decomposed Visual Proxies #3D-Aware #Diffusion Model #Image Synthesis

2026년 6월 7일

[논문리뷰] Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

본 논문은 Agentic Search 환경에서 기존 Retriever의 경직성이 전체 시스템 성능의 병목 현상(bottleneck)을 유발한다는 점을 해결하고자 합니다. 기존 연구들은 주로 Reasoning Agent만을 최적화하거나, Retriever를 고정된 블랙박스로 간주하는 한계를 보입니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Instruction-tuned Retriever #Inference-time Scaling #Contrastive Learning #Introspective Feedback

2026년 6월 7일

[논문리뷰] Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

본 논문은 최신 Reasoning 모델들이 생성하는 긴 Chain-of-Thought 추론 과정이 Distillation 시 비용을 크게 증가시키고, Student 모델이 지나치게 장황한 답변을 생성하도록 유도한다는 점에 주목합니다.

#Review #Knowledge Distillation #Chain-of-Thought #Reasoning Trace #Model Compression #Supervised Fine-tuning #Inference Efficiency #Large Language Models

2026년 6월 7일

[논문리뷰] Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

본 논문은 Long-context LLM의 추론 효율성을 높이기 위한 기존 Query-aware sparse inference 기법들의 성능 한계를 극복하는 것을 목표로 한다.

#Review #Efficient Inference #Query-Aware Sparsity #KV-cache #Exponentially Decaying Memory #RAT+#Long-Context LLM

2026년 6월 7일

[논문리뷰] AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

기존의 interactive world model들은 주로 키보드/마우스 입력이나 단순한 텍스트 프롬프트에 의존하여, 인간의 실제 동작(full-body motion)에 기반한 자연스러운 상호작용을 반영하지 못하는 한계가 있습니다.

#Review #Embodied AI #Egocentric World Simulation #World Customization #Human Action Control #Anchor-View Priors #Video Generation

2026년 6월 7일

[논문리뷰] World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

본 논문은 기존의 WAM (World-Action Model)과 VLA (Vision-Language-Action Model)가 가진 한계를 극복하기 위해 제안되었다.

#Review #Embodied AI #World Modeling #Language Reasoning #Action Synthesis #Autoregressive Transformer #Test-Time Scaling #Cross-Embodiment

2026년 6월 4일

[논문리뷰] VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

본 논문은 현대의 멀티모달 모델들이 단순한 시각적 인식을 넘어 전문적인 도메인 지식과 다단계 추론이 필요한 비디오 이해 태스크에서 한계를 보인다는 점을 지적한다.

#Review #Video Understanding #Knowledge-Intensive Reasoning #Training Corpus #CoT #Benchmark #Skill-Oriented #Reinforcement Learning

2026년 6월 4일

[논문리뷰] Video2LoRA: Parametric Video Internalization for Vision-Language Models

본 논문은 기존 VLM 기반 비디오 이해 모델들이 겪는 고질적인 컨텍스트 윈도우 병목 현상과 과도한 토큰 소비 문제를 해결하고자 합니다. 기존 방식은 프레임별로 수백 개의 시각 토큰을 컨텍스트에 삽입해야 하므로, 영상 길이가 길어지거나 질의가 반복될 때마다 메모리와 Latency 부담이 기하급수적으로 증가합니다 .

#Review #Video-Language Models #Low-Rank Adaptation #Hypernetwork #Video Internalization #Inference Efficiency #Parametric Knowledge Compression #Perceiver

2026년 6월 4일

[논문리뷰] Unsupervised Skill Discovery for Agentic Data Analysis

본 논문은 데이터 분석 에이전트의 성능 향상을 위한 효과적인 스킬을 지도 학습 없이 발견하는 문제를 다룬다. 데이터 분석 작업은 도메인과 데이터 형식이 다양하여 표준화된 파이프라인 적용이 어렵고, 성공 여부를 판단하기 위한 신뢰성 있는 지도 데이터(Annotation)를 획득하는 데 큰 비용이 발생한다.

#Review #Agentic Data Analysis #Unsupervised Skill Discovery #Inference-time Augmentation #LLM Agent #Adaptive Checklist Verifier #Answer Agreement Verifier

2026년 6월 4일

[논문리뷰] Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

본 연구는 코드 스위칭 ASR 시스템이 소수의 학습된 언어 쌍을 넘어 보지 못한 언어 쌍으로 범용성을 확장할 수 있는지 검증합니다.

#Review #Automatic Speech Recognition (ASR)#Code-Switching (CS)#Model Merging #Domain Generalization #Multilingual ASR #Generalization

2026년 6월 4일

[논문리뷰] Towards One-to-Many Temporal Grounding

본 연구는 기존 Temporal Grounding 연구들이 주로 단일 세그먼트 검색(One-to-One)에 치중되어 있어, 실세계의 반복적인 이벤트 구조를 다루지 못한다는 한계를 해결합니다.

#Review #Temporal Grounding #MLLM #One-to-Many #Reinforcement Learning #Event Cardinality #Benchmark

2026년 6월 4일

[논문리뷰] The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models

본 논문은 LLM이 고차원적인 추론에서는 뛰어난 성능을 보임에도 불구하고, 다중 자리수 덧셈과 같은 기초적인 산술 연산에서 발생하는 체계적인 오류(Off-by-one error)를 해결하고자 합니다.

#Review #Mechanistic Interpretability #Large Language Models #Arithmetic Reasoning #Probing #Representation Geometry #Inference-time Intervention

2026년 6월 4일

[논문리뷰] The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

본 연구는 고정된 컴퓨팅 자원 환경에서 LLM의 추론 성능을 극대화하기 위한 효율적인 예산 배분 문제를 해결합니다. 기존의 Uniform 정책은 모든 쿼리에 동일한 토큰 제한을 부여함으로써, 쉬운 문제에는 자원을 낭비하고 어려운 문제에는 성능 발휘에 필요한 충분한 자원을 제공하지 못하는 한계가 있습니다.

#Review #Inference-time Scaling #Budget Allocation #Shadow Price #Lambert W Function #Rational Abandonment #LLM Reasoning #Compute-Utility Equilibrium

2026년 6월 4일

[논문리뷰] TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration

본 논문은 기존 LLM 에이전트가 사용자 요청에만 의존하는 수동적(Reactive) 모델이라는 점을 문제로 정의합니다. 실제 환경에서는 사용자가 미처 인지하지 못한 다수의 잠재적 문제가 존재함에도 불구하고, 기존 방식은 가장 눈에 띄는 문제 하나에만 집중하거나 일반적인 추론에 그치는 경향이 있습니다.

#Review #Proactive Agents #Multi-Problem Discovery #Thought Templates #Iterative Discovery #LLM Agents #Context Understanding

2026년 6월 4일

[논문리뷰] SePO: Self-Evolving Prompt Agent for System Prompt Optimization

본 논문은 기존 시스템 프롬프트 최적화 방식이 갖는 불완전한 최적화 루프 문제를 해결하고자 합니다.

#Review #Prompt Optimization #Self-Evolving Agents #Evolutionary Search #System Prompt #Meta-Learning #Cross-Task Generalization

2026년 6월 4일

[논문리뷰] SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction

로봇 시스템은 저비용·저전력 센서로부터 방대한 시각 데이터를 수집하지만, 제한된 대역폭과 온디바이스(on-device) 컴퓨팅 자원으로 인해 고해상도 처리에 어려움을 겪고 있습니다.

#Review #Cloud Robotics #Image Compression #Representation Learning #Asymmetric Autoencoder #JPEG #Transcoding

2026년 6월 4일

[논문리뷰] RobotValues: Evaluating Household Robots When Human Values Conflict

본 논문은 기존의 로봇 벤치마크가 작업 완수(task completion)나 안전 준수 여부에만 집중하여, 인간의 다양한 가치가 충돌하는 일상적인 의사결정 상황을 간과하고 있다는 문제를 제기합니다 . 가정 내 로봇은 사적인 공간에 존재하며, 로봇의 선택은 사용자의 안전, 프라이버시, 자율성 등에 즉각적인 영향을 미칩니다.

#Review #Household Robots #Value-Conflict #Vision-Language Models #Human-Robot Interaction #Benchmarking #Alignment

2026년 6월 4일

[논문리뷰] Revising Context, Shifting Simulated Stance: Auditing LLM-Based Stance Simulation in Online Discussions

본 연구는 LLM이 온라인 사용자들의 의견을 시뮬레이션할 때, 이것이 실제 신념의 반영인지 아니면 문맥에 따른 모델의 표면적 반응인지를 체계적으로 파악하고자 합니다.

#Review #LLM-based Stance Simulation #Counterfactual Context Revision #Online Discussion #Multimodal Stance #Context Sensitivity #Social Simulation

2026년 6월 4일

[논문리뷰] Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

본 논문은 LLM Agent의 Continual Learning을 위한 Experience Internalization 과정에서 나타나는 Capability Collapse 문제를 해결하고자 합니다.

#Review #Experience Internalization #Self-Evolving LLM Agents #Continual Learning #Context Distillation #Tool Use #Step-wise Injection #Off-policy Distillation

2026년 6월 4일

[논문리뷰] Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

본 논문은 초저자원(Extreme Low-resource) 언어 번역을 위해 모델이 특정 언어를 암기하는 방식에서 벗어나, 언어에 독립적인 Meta-skill을 습득하게 하는 새로운 학습 프레임워크를 제안합니다.

#Review #Low-resource Translation #Reinforcement Learning #In-context Learning #Meta-skill #Language-independent Learning #Meta-linguistic Reasoning

2026년 6월 4일

[논문리뷰] Quality-Guided Semi-Supervised Learning for Medical Image Segmentation

본 연구는 의료 영상 세그멘테이션의 데이터 부족 문제를 해결하기 위한 Semi-Supervised Learning (SSL)에서 Pseudolabel의 신뢰도를 평가하는 기존 방식의 한계를 극복하고자 합니다.

#Review #Semi-Supervised Learning #Medical Image Segmentation #Quality Prediction #Pseudolabeling #Contextual Grounding #Consistency Regularization

2026년 6월 4일

[논문리뷰] Personal AI Agent for Camera Roll VQA

본 연구는 사용자 개인의 Camera Roll 전체를 대상으로 대화형 AI가 사진을 검색하고 질의에 응답하는 VQA 설정에서의 한계를 해결하고자 한다.

#Review #Personal AI Agent #Camera Roll #Visual Question Answering #Long-horizon Memory #Hierarchical Memory #Multimodal LLM #Agentic Workflow

2026년 6월 4일

[논문리뷰] OPRD: On-Policy Representation Distillation

본 논문은 Large Language Models (LLMs)의 Post-training에 필수적인 On-Policy Distillation (OPD) 방식의 본질적인 두 가지 한계점을 지적하며, 이를 해결하기 위한 새로운 접근 방식인 OPRD (On-Policy Representation Distillation)를 제안합니다.

#Review #On-Policy Distillation #Representation Distillation #Large Language Models #Knowledge Distillation #Hidden States #Mathematical Reasoning #Variance Reduction

2026년 6월 4일

[논문리뷰] Multimodal Music Recommendation System using LLMs

본 논문은 현대 음악 추천 시스템이 곡을 독립적인 ID 토큰으로만 취급하여 시맨틱(Semantic) 및 어쿠스틱(Acoustic) 콘텐츠 정보를 간과하는 문제를 해결합니다. 기존의 ID 기반 모델은 상호작용이 부족한 Cold-start 환경에서 성능이 저하되는 한계가 있습니다.

#Review #Music Recommendation #Multimodal Learning #Large Language Models #Sequential Recommendation #Audio Embeddings #Metadata Enrichment

2026년 6월 4일

[논문리뷰] Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

본 논문은 메모리 기반 LLM agent가 장기적인(long-horizon) 과업 수행 시 발생하는 성능 저하 문제를 해결하기 위해 연구되었습니다.

#Review #LLM Agents #Long-Horizon Reasoning #Belief Entropy #Memory Optimization #Reinforcement Learning #Metacognition

2026년 6월 4일

[논문리뷰] MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

본 논문은 범용 Multimodal Large Language Models (MLLMs)가 기계 공학 도면의 복잡성과 도메인 특수성을 제대로 해석하지 못하는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Mechanical Drawing Understanding #Visual Question Answering #Spatial Reasoning #Reinforcement Learning #Domain-Specialized Benchmark

2026년 6월 4일

[논문리뷰] MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

본 논문은 기존의 LLM 기반 Machine Learning Engineering(MLE) 에이전트들이 겪고 있는 정보 고립, 메모리 부족, 비효율적인 long-horizon 최적화 문제를 해결하기 위해 MLEvolve를 제안합니다.

#Review #Automated Machine Learning #LLM Agents #Monte Carlo Graph Search #Self-Evolving #Long-Horizon Optimization #Algorithm Discovery

2026년 6월 4일

[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection #Scale-and-Add

2026년 6월 4일

[논문리뷰] Latent Reasoning with Normalizing Flows

본 연구는 기존 텍스트 기반 Chain-of-Thought(CoT)의 높은 추론 비용과 정보 밀도 부족 문제를 해결하고자 합니다.

#Review #Chain-of-Thought #Normalizing Flows #Latent Reasoning #Large Language Models #Likelihood-based Modeling #Code Generation

2026년 6월 4일

[논문리뷰] LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs

본 논문은 기존의 대규모 언어 모델(LLM) Memorization 평가가 지나치게 'Capability(능력)' 측정에만 치중되어 있다는 한계를 지적합니다. 기존 연구들은 대개 Prefix Attack과 같은 adversarial 환경에서 모델이 얼마나 학습 데이터를 출력할 수 있는지만을 측정했습니다 .

#Review #Large Language Models #Memorization #Propensity-Aware Evaluation #Data Leakage #SimpleTrace #PropMe #Adversarial Attack

2026년 6월 4일

[논문리뷰] Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing

본 논문은 현재의 확산 모델(Diffusion-based models) 기반 이미지 편집 시스템이 표면적인 지시사항 수행(Surface-level instruction following)에만 치중하여 논리적 일관성이 결여된 결과물을 생성하는 문제를 해결하고자 합니다 .

#Review #Image Editing #Reasoning-aware #Benchmark #Diffusion Models #Multi-modal LLMs #Logic Consistency #EditRefine

2026년 6월 4일

[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.

#Review #Video Event Prediction #Multimodal Large Language Models #Latent Visual Reasoning #Interleaved Reasoning #Reinforcement Learning #Future-L1 #LA-DAPO

2026년 6월 4일

[논문리뷰] ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

본 논문은 자율 연구 에이전트가 기술의 미래 발전 방향을 예측하는 의사결정 영역에서 얼마나 타당한 판단을 내릴 수 있는지에 대한 근본적인 의문을 제기합니다.

#Review #LLM Agents #Foresight Evaluation #Scientific Judgment #Temporal Integrity #Benchmark #Research Forecasting

2026년 6월 4일

[논문리뷰] Flash-WAM: Modality-Aware Distillation for World Action Models

본 논문은 WAM이 manipulation 벤치마크에서 강력한 성능을 보임에도 불구하고, 실시간 제어를 저해하는 높은 inference latency 문제를 해결하고자 합니다. 기존 WAM은 video 및 action denoising에 수십 단계의 반복적인 과정을 거쳐야 하므로 실시간 로봇 제어에 부적합합니다.

#Review #World-Action Models #Step Distillation #Consistency Models #Robotic Foundation Models #Flow Matching #Modality-Aware Distillation

2026년 6월 4일

[논문리뷰] EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

기존의 데이터 과학 에이전트는 고정된 작업 워크플로우와 제한적인 Action space에 의존하여, 경험을 체계적으로 축적하거나 재사용하는 능력이 부족합니다.

#Review #Data Science Agent #Multi-Agent System #Self-Evolving #Agent Skill #Agentic Reinforcement Learning

2026년 6월 4일

[논문리뷰] Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

본 논문은 비디오 생성 모델이 단순히 시각적으로 그럴듯한 영상을 만드는 수준을 넘어, 실제 물리 법칙을 내재화한 'World Model'로서의 기능을 수행하는지 검증하고자 합니다.

#Review #Video Generation Models #Robotic Manipulation #Physical Executability #Benchmark #Sim-to-Real #World Models

2026년 6월 4일

[논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

본 논문은 기존 자율주행 시스템이 행동 조건부 동역학(Action-conditioned dynamics)을 명시적으로 모델링하지 못하고, 단순한 Direct State-to-Action Mapping에 의존한다는 근본적인 한계를 해결하고자 한다 .

#Review #Autonomous Driving #World Model #Discrete Diffusion #Token Editing #Policy Learning #Counterfactual Reasoning

2026년 6월 4일

[논문리뷰] Complexity-Balanced Diffusion Splitting

본 논문은 표준 확산 모델이 사용하는 단일 모놀리식(monolithic) 구조의 비효율성을 해결하고자 합니다. 기존 방식은 단순한 노이즈부터 복잡한 데이터 구조까지 모든 영역을 하나의 고정된 네트워크가 처리하게 하여, 특정 생성 단계에서 필요한 적정 모델 용량을 적재적소에 할당하지 못하는 한계가 있습니다.

#Review #Diffusion Models #Complexity-Balanced Splitting #Temporal Capacity Allocation #De Boor Principle #Dirichlet Energy #Path Acceleration #Generative Flow

2026년 6월 4일

[논문리뷰] Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

본 논문은 RLVR의 확장을 가로막는 핵심 병목인 '도전적인 검증 가능(verifiable) 코드 데이터의 희소성' 문제를 해결하고자 합니다.

#Review #RLVR #Synthetic Data #Atomic Decomposition #Code Generation #Scaling #Reinforcement Learning

2026년 6월 4일

[논문리뷰] Benchmark Everything Everywhere All at Once

본 논문은 기존의 수동적인 벤치마크 구축 방식이 가진 한계인 노동 집약성, 재사용 불가능성, 그리고 모델 성능 향상에 따른 빠른 벤치마크 포화(Saturation) 문제를 해결하고자 합니다.

#Review #Benchmark Agent #Autonomous Evaluation #Benchmark Construction #MLLM-as-a-Judge #Agentic Workflow #Performance Saturation

2026년 6월 4일

[논문리뷰] ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?

본 연구는 기존 RPLA 벤치마크가 캐릭터를 서사 흐름과 무관한 정적인 persona로 간주하여 발생하는 행동 일관성 부족 문제를 해결하고자 합니다.

#Review #Role-Playing Language Agents #Character Arc #Narrative Evaluation #Temporal Alignment #Language Model Benchmarking #Persona Grounding

2026년 6월 4일

[논문리뷰] AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

본 논문은 실세계 복잡한 환경에서 LLM 에이전트가 Progressive Disclosure되는 Dual Constraints 환경 하에서 효과적으로 계획을 수립하고 수정하는 능력이 부족하다는 점을 지적한다.

#Review #Large Language Model Agents #Adaptive Planning #Dual Constraints #Progressive Disclosure #Interactive Benchmarking #Constraint-based Planning

2026년 6월 4일

[논문리뷰] AdaCodec: A Predictive Visual Code for Video MLLMs

본 논문은 기존 비디오 MLLMs가 비디오의 시간적 중복성(Temporal Redundancy)을 무시하고 모든 프레임을 독립적인 RGB 이미지로 처리하여 발생하는 비효율성 문제를 해결한다.

#Review #Video MLLMs #Predictive Coding #Visual Token #Efficiency #Temporal Redundancy #GOP (Group of Pictures)#Latency

2026년 6월 4일

[논문리뷰] Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents

본 논문은 금융 AI 에이전트가 겪는 '금융 인지 마찰(financial cognition friction)'과 그에 따른 성능 저하 문제를 해결합니다.

#Review #Financial LLM Agents #Interaction-Native #Knowledge Harness #Temporal Knowledge Graph #Passive Knowledge Injection #Execution Safety #Cognition Friction

2026년 6월 4일

[논문리뷰] AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents

기존의 LLM 에이전트는 사용자의 Literal query에만 집중하여, 그 이면에 숨겨진 의도(예: '누가 어디에 있는가?'라는 질문 속에 숨겨진 '지금 그 사람이 대화할 여유가 있는가?'라는 의도)를 간과하는 문제가 있다.

2026년 6월 4일

[논문리뷰] ZipSplat: Fewer Gaussians, Better Splats

본 논문은 기존의 Feed-forward 3DGS 방식이 3D Gaussian 배치를 입력 이미지의 픽셀 그리드에 고정시킴으로써 발생하는 구조적 비효율성을 해결하고자 합니다.

#Review #3D Gaussian Splatting #Feed-forward Reconstruction #Novel View Synthesis #Scene Tokens #Clustering #Pose-free

2026년 6월 3일

[논문리뷰] Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

본 연구는 Deep-Research Agent의 오류 원인을 파악하기 어렵다는 블랙박스 특성을 해결하고자 합니다. 기존의 에이전트 평가는 주로 최종 결과물(Final Answer)의 정확도에만 집중하기 때문에, 중간 단계의 어떤 부분에서 추론이 어긋났는지 진단하는 데 한계가 존재합니다.

#Review #Deep-Research Agents #Error Localization #Agent Trajectories #Span-Level Analysis #LLM Reasoning #Debugging

2026년 6월 3일

[논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale

본 논문은 Gated Delta Network와 같은 효율적인 선형 아키텍처에서 대규모 학습 시 안정적인 feature learning을 지원하는 최적의 $\mu P$ 구성 방식을 도출하는 것을 목표로 합니다.

#Review #Gated Delta Network #Maximal Update Parametrization #Feature Learning #Hyperparameter Transfer #Linear Recurrent Models #Deep Learning Theory

2026년 6월 3일

[논문리뷰] Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

본 연구는 다수의 LoRA를 결합하여 복합적인 개념을 생성할 때 발생하는 의미적 간섭(Interference)과 그에 따른 화질 및 충실도 저하 문제를 해결합니다.

#Review #LoRA #Diffusion Models #Multi-Concept Composition #Prompt-Aware Weighting #Training-Free #Image Generation

2026년 6월 3일

[논문리뷰] ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

본 논문은 LRMs가 추론 과정에서 '오버씽킹(overthinking)' 현상으로 인해 불필요하게 긴 CoTs를 생성하여 비효율적인 계산 자원을 소모하는 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Reinforcement Learning #Chain-of-Thoughts #Preference Learning #Reasoning Efficiency #Redundancy Mitigation

2026년 6월 3일

[논문리뷰] Streaming Communication in Multi-Agent Reasoning

본 논문은 기존의 'generate-then-transfer' 패러다임이 유발하는 불필요한 대기 시간과 추론 효율 저하 문제를 해결하기 위해 고안되었습니다.

#Review #Multi-Agent Reasoning #LLM #Pipeline Parallelism #Streaming Communication #Step-Level Scaling Law #Communication Protocol

2026년 6월 3일

[논문리뷰] Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

본 논문은 이미지 레이어 분해(Layer Decomposition) 모델의 학습에서 발생하는 데이터 부족 및 정답의 모호성 문제를 해결하기 위해 제안되었습니다. 기존 모델은 합성된 레이어 데이터셋에 의존하여 학습되는데, 이는 단일 정답을 강요함으로써 레이어 분해의 유연성을 제한하고 다양한 편집 가능성을 저해합니다 .

#Review #Image Layer Decomposition #Reinforcement Learning #Vision-Language Model #Flow-GRPO #LoRA #VLM-as-Judge

2026년 6월 3일

[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .

#Review #VLM Agents #3D Spatial Reasoning #Action-Conditioned #Interactive Refinement #Benchmark #Simulator-Grounded

2026년 6월 3일

[논문리뷰] Semi-Supervised Noise Adaptation: Transferring Knowledge from Noise Domain

본 연구는 레이블이 거의 없는 target domain에서 의미 있는 소스 데이터를 구하기 어려운 문제를 해결하기 위해, 무작위 생성된 노이즈 분포를 소스 도메인으로 활용하는 SSNA 문제를 정의한다.

#Review #Semi-Supervised Learning #Transfer Learning #Noise Adaptation #Generalization Bound #Distribution Alignment #Representation Learning

2026년 6월 3일

[논문리뷰] Self-Distilled Policy Gradient

본 논문은 제공된 URL에 직접 접근할 수 없는 기술적 제한으로 인해, 해당 논문의 상세 내용(Figure, 구체적 수치 등)을 직접 추출하여 요약하는 것이 불가능합니다.

2026년 6월 3일

[논문리뷰] Score-Control for Hallucination Reduction in Diffusion Models

본 논문은 현대 Diffusion Model에서 발생하는 Hallucination 문제가 학습된 Score Function의 지나친 Smoothness에서 기인한다는 점을 이론적으로 규명합니다.

#Review #Diffusion Models #Hallucination Reduction #Score Smoothness #Variance-Guided Score Modulation (VSM)#Lipschitz Constant #Generative AI #Jacobian

2026년 6월 3일

[논문리뷰] STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

본 논문은 LLM의 예측 결과를 학습 데이터로 거슬러 올라가 추적하는 TDA의 계산 효율성과 이론적 한계를 해결하고자 합니다.

#Review #Training Data Attribution #LLM #Sparse Recovery #Compressive Sensing #Activation-Space #Steering Operators #Causal Inference

2026년 6월 3일

[논문리뷰] Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

본 연구는 Rubric-based RL에서 발생하는 보상 해킹의 불투명성을 해결하기 위해 수행되었습니다. 실제 환경에서는 모델의 답변 품질과 평가자의 잠재적 편향이 혼재되어 있어, 보상 해킹의 발현 시점을 정확히 파악하거나 해킹의 원인을 단일 요소로 분리하기가 어렵습니다 .

#Review #Reinforcement Learning #Reward Hacking #LLM-as-a-Judge #Alignment #Policy Gradient #Alignment #Evaluation

2026년 6월 3일

[논문리뷰] Qwen-Image-Flash: Beyond Objective Design

본 논문은 기존의 few-step distillation 연구가 주로 증류 목적 함수(Distillation Objective) 설계에만 치중하여 실제 훈련 레시피(Training Recipe)가 미치는 영향력을 간과했다는 점을 지적한다.

#Review #Few-step Distillation #Flow Matching #DMD #T2I Generation #Image Editing #Training Recipe #Multi-teacher Guidance

2026년 6월 3일

[논문리뷰] PaintBench: Deterministic Evaluation of Precise Visual Editing

본 논문은 최신 멀티모달 모델들이 일반적인 시각 편집에는 능숙하지만, 정확한 단일 결과가 요구되는 정밀 편집 작업(Precise Visual Editing) 수행에는 한계를 보인다는 문제 의식에서 출발합니다.

#Review #Multimodal Models #Image Editing #Benchmark #Deterministic Evaluation #Pixel-level #Procedural Generation

2026년 6월 3일

[논문리뷰] OpenSTBench: Beyond Semantic Evaluation for Speech Translation

본 논문은 현대의 음성 번역 시스템이 S2TT, S2ST, 오프라인, 스트리밍 환경 등 다양한 시나리오로 확장됨에 따라 발생하는 평가의 불일치 문제를 해결하고자 한다.

#Review #Speech Translation #Evaluation Framework #S2ST #S2TT #Streaming #Multidimensional #Temporal Quality

2026년 6월 3일

[논문리뷰] OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

본 논문은 실시간 환경에서 활동하는 멀티모달 에이전트가 단편적인 현재 시점의 정보가 아닌, 시간 흐름에 따른 공간적 구조를 지속적으로 유지하고 추론해야 한다는 도전 과제를 해결하고자 합니다.

#Review #Multimodal LLMs #Streaming Spatial Intelligence #Egocentric Video #Hierarchical Benchmark #Spatiotemporal Reasoning #Allocentric Mapping

2026년 6월 3일

[논문리뷰] MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation

본 논문은 기존의 autoregressive 메시 생성 모델들이 겪고 있는 낮은 토큰화 효율성과 기하학적 정보 부족 문제를 해결하고자 한다.

#Review #Autoregressive Mesh Generation #Sparse-Voxel Encoder #Surface Weaving #Vertex-Level Tokenization #Geometry-Aware Guidance #3D Deep Learning

2026년 6월 3일

[논문리뷰] MemTrain: Self-Supervised Context Memory Training

본 논문은 장기적인 컨텍스트를 처리해야 하는 LLM 에이전트에서 Memory 병목 현상을 해결하는 것을 핵심 문제로 다룹니다 . 기존의 연구들은 전체 입력 기록을 컨텍스트에 모두 포함시키는 방식을 사용했으나, 이는 계산 비용의 급격한 증가를 초래합니다.

#Review #LLM Agents #Context Memory #Self-Supervised Learning #Reinforcement Learning #GRPO #Long-Horizon Reasoning

2026년 6월 3일

[논문리뷰] MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

본 연구는 고정밀 Lane-level Map의 자동 생성 및 유지보수 과정에서 발생하는 사양 준수 오류를 해결하기 위한 Agentic Framework를 제안한다.

#Review #Map Generation #Map Agent #Vision-Language Models #Lane-level Mapping #Agentic Framework #Vectorization #Constraint Verification

2026년 6월 3일

[논문리뷰] MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

본 논문은 웹상의 방대한 절차적 지식을 에이전트가 실행 가능한 Skill로 활용하지 못하는 근본적인 문제(procedural grounding 부족)를 해결한다.

#Review #Guide-to-Skill Learning #Vision-Language Model (VLM) Agents #Closed-Loop Framework #Procedural Grounding #In-the-Wild Guides #Trajectory-Driven Revision

2026년 6월 3일

[논문리뷰] M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

본 논문은 현존하는 많은 멀티모달 모델이 짧은 컨텍스트 내의 정보 이해에는 능숙하지만, 복잡한 비디오 시퀀스에서 장기적인 기억을 유지하는 데는 심각한 한계가 있다는 점을 지적합니다. 기존 벤치마크들은 주로 단기적 정보 인식에 치중되어 있어, 인간처럼 긴 시간 동안 사건을 축적하고 재구성하는 능력을 측정하기 어렵습니다.

#Review #Multi-Modal Memory #Video Understanding #Benchmark #Cognitive Science #Long-term Memory

2026년 6월 3일

[논문리뷰] KletterMix: Climbing Toward High-Quality German Pretraining Data

본 논문은 독일어 프리트레이닝 데이터의 낮은 품질과 부족한 문서화 문제를 해결하기 위해 KletterMix를 제안합니다. 기존의 독일어 데이터는 노이즈가 많은 웹 크롤링 기반이거나, 데이터 구조와 문서화 수준이 영어권 데이터에 비해 현저히 낮아 모델 성능 개선에 한계가 있었습니다.

#Review #Pretraining Data #German Corpus #Machine Translation #Dataset Construction #Quality Estimation #COMETKiwi #Language Modeling

2026년 6월 3일

[논문리뷰] GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

본 논문은 휴머노이드 로봇의 loco-manipulation 정책을 학습시키기 위한 데이터 수집의 높은 비용과 확장성 문제를 해결하고자 한다.

#Review #Humanoid #Loco-Manipulation #Video Foundation Models #3D Assets #Sim-to-Real #HOI Reconstruction

2026년 6월 3일

[논문리뷰] Functional Attention: From Pairwise Affinities to Functional Correspondences

본 논문은 기존의 Transformer 기반 연산자 학습 모델이 가진 비효율성과 구조적 한계를 극복하기 위해 제안되었다.

#Review #Operator Learning #Functional Attention #Functional Maps #PDE Solving #Spectral Domain #Adaptive Basis #Resolution Invariance

2026년 6월 3일

[논문리뷰] Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

본 논문은 기존 OPD가 가진 불균일한 학습 가치 문제를 해결하기 위해 최적화 Granularity를 재설계하고자 합니다. 기존 연구들은 단순히 전체 trajectory를 사용하거나, 개별 토큰을 선별하는 Hard selection 방식에 의존하여 정보 손실과 최적화의 불안정성을 초래했습니다 .

#Review #On-Policy Distillation #Knowledge Distillation #Optimization Granularity #Trajectory Filtering #Token Reweighting #Large Language Models

2026년 6월 3일

[논문리뷰] Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

본 연구는 기존의 정적인 단일 턴(Single-turn) 의학 벤치마크가 복잡하고 역동적인 실제 임상 환경을 충분히 반영하지 못한다는 한계를 해결하고자 한다.

#Review #MedSP1000 #Clinical Agents #Standardized Patients #ACGME Competencies #Dynamic Clinical Decision-Making #LLM Evaluation

2026년 6월 3일

[논문리뷰] Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

본 논문은 MLLM이 물리적 환경에서 복잡한 공간 추론을 수행하기 위해 필수적인 Wide-Baseline Matching 능력을 체계적으로 학습하고 평가할 프레임워크가 부족하다는 점을 문제로 지적합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Wide-Baseline Matching #Reinforcement Learning #Curriculum Learning #Vision-Language Benchmarks

2026년 6월 3일

[논문리뷰] Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

본 논문은 중앙 집중식 제어 없이도 다중 에이전트 시스템이 자율적으로 협력하고 고도의 지능을 갖출 수 있는 방법을 탐구합니다. 기존의 중앙 집중식 오케스트레이션은 모든 정보를 단일 게이트웨이로 처리해야 하므로 성능 병목 현상이 발생하고, 시스템 규모가 커짐에 따라 좌표화 복잡도가 기하급수적으로 증가하는 한계가 있습니다.

#Review #Multi-Agent System #Economic Interaction #Decentralized Coordination #Credit Assignment #Large Language Models #Agentic Intelligence #Self-Organization

2026년 6월 3일

[논문리뷰] Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

본 논문은 autoregressive 비디오 생성 모델에서 발생하는 무제한적인 KV-cache 성장과 시간적 위치 임베딩 오버플로우 문제를 해결하는 것을 목적으로 한다.

#Review #Autoregressive Video Generation #KV-cache #Memory Queries #RoPE #Long-term Consistency

2026년 6월 3일

[논문리뷰] Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

본 논문은 UMMs에서 수행된 텍스트 기반 지식 편집(Knowledge Editing)이 이미지 생성 과정으로 적절히 전이되는지 검증하고자 합니다 . 기존의 텍스트 도메인 지식 편집 기법들은 텍스트 출력에서는 높은 성공률을 보이지만, 동일한 수정이 시각적 생성 결과로까지 일관되게 이어지는지는 불명확합니다.

#Review #Unified Multimodal Models #Knowledge Editing #Cross-Modal Transfer #Visual Generation #UniKE #Reasoning-Augmented

2026년 6월 3일

[논문리뷰] Deep Embedded Multiplicative DMD for Algebra-Preserving Koopman Learning

본 논문은 Koopman 연산자 학습 시 고차원 시스템에서의 표현력 문제와 대수적 구조 보존 사이의 상충 관계를 해결하고자 합니다.

#Review #Koopman Operator #Dynamic Mode Decomposition #Deep Learning #Algebra-Preserving #Autoencoder #Manifold Learning

2026년 6월 3일

[논문리뷰] DAR: Deontic Reasoning with Agentic Harnesses

본 논문은 LLM 기반의 Deontic Reasoning에서 발생하는 긴 법령의 구조적 복잡성과 정보 검색의 비효율성 문제를 해결하고자 합니다. 기존 Direct Reasoning 방식은 대규모 규정집을 한 번에 컨텍스트로 제공해야 하므로, 모델이 정작 필요한 규칙을 놓치거나 잘못 참조하는 한계가 있습니다 .

#Review #Deontic Reasoning #Agentic Harness #LLM #DeonticBench #Statutory Reasoning #Tool Use #Inference Efficiency

2026년 6월 3일

[논문리뷰] Cosmos 3: Omnimodal World Models for Physical AI

Physical AI 에이전트 학습을 위한 기존의 파편화된 파이프라인은 이해(Understanding)와 생성(Generation) 모듈이 분리되어 있어 데이터 효율성과 확장성이 낮습니다.

#Review #World Model #Physical AI #Mixture-of-Transformers #Omnimodal #Data-Driven Specialization #Synthetic Data #Action-Conditioned Generation

2026년 6월 3일

[논문리뷰] BraveGuard: From Open-World Threats to Safer Computer-Use Agents

본 논문은 컴퓨터 사용 에이전트가 직면한 고유한 보안 취약점인 '다단계 실행 궤적의 불투명성' 문제를 해결하는 것을 목적으로 합니다.

#Review #Computer-use Agents #Safety Guardrails #Trajectory-level Supervision #Open-world Threat Discovery #Self-evolving Defense #Agent Security

2026년 6월 3일

[논문리뷰] Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

본 논문은 기존의 LLM 에이전트 평가 방식이 정적이고 단기적인 작업에 치중되어 있어, 실제 프로덕션 환경에서 요구되는 복잡한 장기 워크플로우를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Agentic Models #Runtime Assessment #Software Engineering #Long-horizon Workloads #Compiler Construction #Resurrection Protocol #Production Systems

2026년 6월 3일

[논문리뷰] BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

본 논문은 최신 Frontier LLM들이 기존의 코딩 벤치마크(LiveCodeBench 등)에서 90% 이상의 높은 Pass@1 성능을 기록하며 벤치마크가 포화(Saturation)되는 문제를 해결하고자 합니다.

#Review #Frontier LLM #Coding Benchmark #Task Evolution #Solution-Centric #Reinforcement Learning #Executable Semantics #Self-Improvement

2026년 6월 3일

[논문리뷰] AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

본 논문은 기존 벤치마크가 단기적 또는 단일 단계(single-turn) 성능 평가에 치중되어 있어, 실제 과학 및 공학 분야에서 요구되는 장기적 반복 최적화 프로세스를 평가하지 못하는 한계를 해결하고자 합니다 .

#Review #AutoLab #Long-horizon optimization #Frontier models #Agentic benchmarks #Closed-loop optimization #System optimization #CUDA kernel optimization

2026년 6월 3일

[논문리뷰] Audio Interaction Model

본 논문은 기존의 Large Audio Language Models(LALMs)가 고정된 전체 오디오 입력을 처리하는 수동적(Offline) 모델에 머물러 있어, 인간의 실시간 상호작용 특성을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Large Audio Language Models #Streaming Interaction #Perceive–Decide–Respond #FIFO Scheduling #SoundFlow #StreamAudio-2M #Proactive-Sound-Bench

2026년 6월 3일

[논문리뷰] Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

본 논문은 기존 LLM 에이전트 프레임워크가 가지는 보안 경계의 모호함과 장기 실행 에이전트에 대한 인프라 부족 문제를 해결하기 위해 Agent libOS를 제안합니다.

#Review #LLM Agents #Library OS #Runtime Security #Capability-based Security #Object Memory #Tool-use #System Architecture

2026년 6월 3일

[논문리뷰] Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging

본 논문은 LLM 규모의 모델 병합(Merging) 작업에서 발생하는 과도한 Expert-read I/O 병목 문제를 해결하는 것을 목표로 합니다.

#Review #Model Merging #LLM Systems #Parameter-Efficient Adaptation #Expert Access-Set #I/O Budgeting #Weight-Space Merging #MergePipe

2026년 6월 3일

[논문리뷰] AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

본 논문은 LLM 기반의 금융 감사 모델이 구조화된 XBRL 데이터 내의 수치적 일관성을 검증하는 데 겪는 신뢰성 문제를 해결하고자 합니다. 기존 LLM 에이전트들은 검색이나 도구 활용 능력이 뛰어나지만, 정작 중요한 수치 계산 및 규칙 적용을 모델의 추론 능력에 의존함으로써 높은 오류율을 보입니다 .

#Review #XBRL #Financial Auditing #Multi-agent Framework #Symbolic Environment #Graph-grounded #Numerical Consistency

2026년 6월 3일

[논문리뷰] AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation

본 논문은 one-step autoregressive video generation에서 발생하는 motion collapse와 학습 불안정성 문제를 해결하고자 합니다 .

#Review #One-Step Autoregressive Video Generation #Asymmetric Adversarial Distillation #Diffusion Models #Bidirectional Discriminator #Holistic Discrimination #Distribution Matching Distillation

2026년 6월 3일

[논문리뷰] αDepth: Learning Single-Pass Soft Boundary Decomposition for Stereo Conversion

본 논문은 모노큘러 이미지에서 고품질의 스테레오 영상을 생성할 때 발생하는 soft boundary 처리 문제를 해결합니다. 기존의 depth 추정 모델은 픽셀당 하나의 깊이 값만 할당하므로, 경계면에서의 색상 혼합으로 인해 발생하는 깊이 모호성을 처리하지 못해 왜곡된 3D 구조를 생성합니다 .

#Review #Stereo Conversion #Soft Boundary Decomposition #Circular Alpha Representation #Depth Ambiguity #Layered Representation #Alpha Matting

2026년 6월 2일

[논문리뷰] Ψ-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

본 논문은 현대의 Personalized LLM Agent가 사용자의 선호에 맞춘 수동적 응답자(Passive Responder)에 머물러 있다는 한계를 지적하며, 보다 능동적인 설득 및 가이드 능력을 갖춘 'Proactive Personalization'의 필요성을 제기합니다.

#Review #LLM #Personalization #Persuasive Dialogue #Persona-Sensitive Influencing #Proactive Agent #Benchmark

2026년 6월 2일

[논문리뷰] World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

본 논문은 미래지향적 시각 추론에서 World Models와 MLLMs를 결합할 때 발생하는 신뢰성 문제를 해결하고자 합니다. 기존의 단순한 결합 방식은 생성된 Rollout이 확률적이고 때로는 작업상 부정확할 수 있음에도 불구하고, 이를 에이전트가 효과적으로 제어하지 못한다는 한계가 있습니다 .

#Review #World Models #Multimodal Large Language Models (MLLMs)#Controlled Concrete Reasoning #Privileged-Future On-Policy Self-Distillation (PF-OPSD)#Future Prediction #Simulation-Control

2026년 6월 2일

[논문리뷰] Value-Aware Stochastic KV Cache Eviction for Reasoning Models

본 논문은 Reasoning 모델이 복잡한 추론 과정에서 생성하는 긴 출력(Chain of Thought)으로 인해 발생하는 심각한 메모리 및 연산 병목 현상을 해결하고자 한다.

#Review #KV Cache #Eviction #Reasoning Models #Stochasticity #Value-Awareness #Sparse Attention #Large Language Models

2026년 6월 2일

[논문리뷰] Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

본 논문은 실시간 객체 탐지 모델이 가진 NMS 의존성, 불필요한 모델 파라미터 팽창, 학습 효율성 저하, 그리고 소형 객체 탐지 실패 문제를 해결하고자 합니다 .

#Review #YOLO26 #Real-Time Object Detection #End-to-End #NMS-Free #MuSGD #STAL #Instance Segmentation

2026년 6월 2일

[논문리뷰] Trust Region On-Policy Distillation

본 논문은 Small Reasoning Models (SRM)을 위한 On-Policy Distillation (OPD)의 학습 불안정성과 비효율성 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Reasoning Models #Trust Region #Policy Gradient #Knowledge Distillation #Language Models

2026년 6월 2일

[논문리뷰] TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

본 연구는 시각적 추론(visual reasoning)을 위한 RL 학습 시, 정적 데이터셋(static datasets)이 가진 한계를 극복하기 위해 수행되었습니다.

#Review #Reinforcement Learning #Visual Reasoning #Online Environment #Multimodal Large Language Models #Rule-Verifiable #Curriculum Learning

2026년 6월 2일

[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.

#Review #Test-Time Scaling #Adaptive Sampling #Reinforcement Learning #Markov Decision Process #Inference Efficiency #Large Language Models

2026년 6월 2일

[논문리뷰] Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes

본 논문은 산업용 비전 시스템이 직면한 핵심 문제인 '데이터 활용 가능성'과 '실제 배포 환경 간의 도메인 간극'을 체계적으로 재정의한다 . 기존 연구들은 시뮬레이션에서 현실로의 전이를 단순히 합성 이미지에서 실사 이미지로의 변환으로 좁게 해석하는 한계가 있다.

#Review #Industrial Visual Sim-to-Real #Prior Availability #CAD-Guided Vision #CAD-Unavailable Inspection #6D Object Pose Estimation #Industrial Anomaly Detection #Domain Gap

2026년 6월 2일

[논문리뷰] Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations

본 연구는 LLM의 deception detection을 위해 사용되는 Linear Probes가 실전 환경에서 보이는 극심한 성능 저하의 원인을 규명하고자 합니다.

#Review #LLM #Deception Detection #Linear Probes #Scaling Laws #Robustness #Geometric Analysis #Activation Engineering

2026년 6월 2일

[논문리뷰] PlatonicNav: Unveiling Semantic Correspondence in Navigation with Platonic Topological Maps

본 논문은 기존의 Embodied Navigation 연구들이 Vision-Language Navigation (VLN)과 Object Goal Navigation (ObjNav)을 분리된 문제로 다루며, 이들 사이의 연계를 위해 과도한 Cross-modal 학습이나 대규모 VLM 모델에 의존하고 있다는 점을 문제로 지적한다 .

#Review #Embodied Navigation #Platonic Representation Hypothesis #Topological Map #Blind Matching #Zero-shot Navigation #Cross-modal Alignment

2026년 6월 2일

[논문리뷰] PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

본 연구는 고성능 0.9B 파라미터 모델인 PaddleOCR-VL-1.5의 잔여 오류를 해결하여 성능을 극대화하고자 합니다 . 저자들은 단순히 훈련 데이터를 늘리는 것만으로는 긴 꼬리(long-tail) 분포의 문서 레이아웃, 복잡한 테이블, 희귀 스크립트 등에서 발생하는 오류를 근본적으로 해결할 수 없음을 관찰했습니다.

#Review #Document Parsing #Vision-Language Model #Under-Optimized Region #Progressive Post-Training #Data Engine #GRPO

2026년 6월 2일

[논문리뷰] OCC-RAG: Optimal Cognitive Core for Faithful Question Answering

본 논문은 범용 LLM이 파라미터 내 방대한 지식에 의존하여 주어진 Context를 무시하거나 할루시네이션(Hallucination)을 생성하는 문제를 해결하고자 합니다.

#Review #Small Language Models #Context Question Answering #Multi-hop Reasoning #Faithfulness #Mid-training #Synthetic Data #Abstention

2026년 6월 2일

[논문리뷰] NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation

본 논문은 기존의 Reconstruction-based 자율주행 시뮬레이터가 가진 제약 사항인 데이터 의존성과 새로운 장면(Novel scene)에 대한 일반화 부족 문제를 해결하기 위해 OmniDreams를 제안한다. 기존 방식은 캡처된 데이터 환경 내부에서만 가상 시나리오를 구성할 수 있어 확장성이 매우 제한적이다.

#Review #Generative World Model #Autonomous Vehicle Simulation #Closed-Loop #Autoregressive Diffusion #World-Action Model #Vision-Language-Action

2026년 6월 2일

[논문리뷰] Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

본 연구는 MLLM이 평가자(Judge)로 활용될 때 발생하는 Perceptual Judgment Bias를 해결하여 평가의 신뢰성을 제고하고자 합니다. 기존 MLLM 평가자들은 시각적으로 잘못된 응답임에도 불구하고 논리적으로 그럴듯한 텍스트가 포함되어 있으면 높은 점수를 부여하는 경향이 있습니다 .

#Review #Multimodal LLM-as-a-Judge #Perceptual Judgment Bias #Reward Modeling #Perceptual Perturbation #GRPO #Visual Grounding

2026년 6월 2일

[논문리뷰] MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

본 논문은 이질적인(Heterogeneous) Mid-training 데이터 혼합물에서 효과적인 데이터 선택이 어렵다는 문제를 해결하고자 합니다.

#Review #Mid-training #Data Selection #Rubric Discovery #LLM #Distillation #Source-Aware #Scalability

2026년 6월 2일

[논문리뷰] MERIT: Learning Disentangled Music Representations for Audio Similarity

본 논문은 기존 음악 유사도 모델이 여러 음악적 요소를 하나의 Monolithic 점수로 융합하여 표현함에 따라 발생하는 해석 가능성 및 세밀한 쿼리 제어의 한계를 해결하고자 합니다 .

#Review #Music Representation Learning #Disentanglement #Audio Similarity #Representation Learning #Contrastive Learning #Self-Supervised Learning

2026년 6월 2일

[논문리뷰] Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

본 논문은 현대의 LLM이 배포 이후 새로운 정보를 지속적으로 학습하지 못하는 '정적(Static)'인 한계와, 업데이트 시 발생하는 Catastrophic Forgetting (CF) 문제를 해결하고자 합니다.

#Review #Continual Learning #Language Models #Memory Consolidation #Knowledge Seeding #Self-Improvement #Dreaming #Catastrophic Forgetting

2026년 6월 2일

[논문리뷰] KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

본 논문은 test-time scaling 환경에서 발생하는 KV-Cache 양자화의 오류 누적 문제를 해결하는 데 집중합니다. 기존의 양자화 방식은 주로 고정된 긴 컨텍스트를 다루는 prefill 설정에서 평가되었으나, 실제 디코딩 과정에서는 토큰 생성마다 오류가 반복적으로 누적되어 추론 품질이 급격히 저하됩니다 .

#Review #KV-Cache Quantization #Variance Normalization #Error Accumulation #Reasoning Tasks #Hadamard Rotation #Dual-Scaling

2026년 6월 2일

[논문리뷰] Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

본 논문은 기존 휴머노이드 모션 트래킹 연구가 겪고 있는 데이터 및 모델 규모의 한계와 그로 인한 일반화 성능 저하 문제를 해결하고자 합니다. 기존의 연구들은 주로 소규모 MLP 기반 정책에 의존해왔으며, 이는 정교한 모션 추적과 범용적인 일반화 사이의 고질적인 트레이드오프(trade-off)를 유발했습니다 .

#Review #Humanoid Motion Tracking #Transformer #Zero-Shot Generalization #Large-scale Motion Data #Harmonic Motion Embedding #DAgger Distillation

2026년 6월 2일

[논문리뷰] From Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

본 논문은 뇌의 시각적 개념 표상을 결정하는 데 있어 기존의 Activation-based 방법론이 갖는 근본적인 한계를 해결하고자 합니다.

#Review #fMRI #Causal Representation Discovery #Visual Concept Localization #Generative Models #Counterfactual Stimuli #BrainCause

2026년 6월 2일

[논문리뷰] Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning

본 논문은 LLM의 도메인 특화 적응(Domain-Specific Adaptation) 과정에서 발생하는 데이터 확보 문제를 해결하고자 한다.

#Review #Domain-Specific Data Synthesis #LLMs #Minimal Sufficient Representation Learning #Prompt Tuning #Contrastive Disentanglement #Domain Adaptation

2026년 6월 2일

[논문리뷰] Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

본 연구는 답변이 정확한 Long-CoT 데이터라도 그 내부의 추론 궤적에 따라 모델 학습의 유효성이 크게 달라질 수 있다는 점을 문제로 제기합니다. 기존 연구들은 데이터 선택이나 단순한 길이 절삭(truncation)에 의존하여 추론 단계의 품질을 근본적으로 규명하지 못했습니다.

#Review #Long-CoT #Supervised Fine-Tuning #Harmful Continuation #Uncertainty–Geometry Mismatch #Reasoning Trace #Boundary Proxy

2026년 6월 2일

[논문리뷰] Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

본 논문은 기존 coupled diffusion models가 unified I2I translation 과제에서 겪는 성능 한계를 해결하고자 합니다.

#Review #Diffusion Models #Image-to-Image Translation #Domain Harmonization #Data Efficiency #Residual Learning #Manifold Lifting

2026년 6월 2일

[논문리뷰] Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

본 연구는 대규모 instruction tuning에서 발생하는 Gradient Interference와 시스템 통신 병목이라는 두 가지 핵심 문제를 동시에 해결하고자 한다.

#Review #Instruction Tuning #Model Merging #Decentralized Optimization #Gradient Interference #Vision-Language Models #PCA Decomposition

2026년 6월 2일

[논문리뷰] ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree

본 논문은 LLM 에이전트 생태계에서 핵심 소프트웨어 단위인 Agent Skills의 보안 문제를 다루며, 서로 다른 보안 스캐너(VirusTotal, Static Analysis, SkillSpector)들이 동일한 스킬에 대해 불일치하는 결과를 보일 때 이를 어떻게 해석하고 대응할 것인지에 대한 문제를 제기한다.

#Review #Agent Skills #LLM Agents #Software Supply Chain #Security Scanning #Scanner Disagreement #Trust Artifacts #OpenClaw

2026년 6월 2일

[논문리뷰] Bootstrap Your Generator: Unpaired Visual Editing with Flow Matching

본 논문은 대규모 paired dataset 없이도 instruction-based visual editing이 가능한 범용 프레임워크인 ByG (Bootstrap Your Generator)를 제안합니다 .

#Review #Flow Matching #Unpaired Editing #Cycle Consistency #Straight-Through Estimation #Gradient Routing #Bootstrap #Visual Editing

2026년 6월 2일

[논문리뷰] Benchmarking Visual State Tracking in Multimodal Video Understanding

본 논문은 최신 Multimodal Large Language Models (MLLMs)가 비디오의 지속적인 역동성을 이해하고 상태를 추적하는 능력, 즉 Visual State Tracking 능력이 결여되어 있다는 점을 지적한다 .

#Review #Multimodal Large Language Models #Video Understanding #Visual State Tracking #Benchmark #Visual Perception #Agentic Frameworks

2026년 6월 2일

[논문리뷰] BA-T: An Iterative Transformer for Two-View Bundle Adjustment

본 연구는 기존의 feed-forward 3D 재구성 모델들이 의존하는 heavy decoder stack의 비효율성과 기하학적 self-correction 메커니즘의 부재를 해결하고자 합니다.

#Review #Bundle Adjustment #Iterative Transformer #Implicit Latent Space #Two-View Reconstruction #Pose Estimation #Geometric Consistency

2026년 6월 2일

[논문리뷰] AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

본 논문은 기존 의료 AI 벤치마크가 End-to-End 연구 과정의 복잡성을 간과하고 최종 결과물 평가에만 치중하여, 에이전트의 행동 특성이나 실패 원인을 파악하기 어렵다는 문제점을 해결하고자 합니다 .

#Review #Medical-AI #Autonomous Agents #Benchmark #Research Automation #Workflow-Aware Evaluation #LLM

2026년 6월 2일

[논문리뷰] Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams

본 논문은 기존의 Auto-Harness 시스템들이 고정된 오프라인 벤치마크에서는 우수한 성능을 보이지만, 실제 Open-Ended Task Streams 환경에서는 성능 저하를 겪는다는 문제를 해결합니다 .

#Review #Agentic System #Auto-Harness #Open-Ended Task Streams #Multi-Agent Evolution #Solve-Time Adaptation #Non-Stationarity #Human-in-the-Loop

2026년 6월 2일

[논문리뷰] AURA: Action-Gated Memory for Robot Policies at Constant VRAM

로봇 에이전트가 끊김 없이 지속적으로 동작하는 환경에서 기존의 Transformer KV-cache 방식은 에피소드 길이에 따라 메모리 요구량이 선형적으로 증가하여 에지 하드웨어의 메모리 대역폭을 심각하게 제한합니다.

#Review #Robot Policies #VRAM #Action-Utility Gate #Fast-Weight Memory #Inference Efficiency #POMDP

2026년 6월 2일

[논문리뷰] A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

FEA는 현대 공학의 필수 요소이나, 입문자에게 요구되는 높은 학습 곡선과 복잡한 시뮬레이션 설정 오류로 인해 진입 장벽이 매우 높습니다. 기존의 API 기반 자동화 방식은 고정된 스크립트와 템플릿에 의존하여 설계 변경 시 유연성이 부족하다는 한계를 가집니다.

#Review #AI agent #Finite Element Analysis (FEA)#Large Language Models (LLM)#Multi-agent framework #Retrieval-Augmented Generation (RAG)#Solid mechanics

2026년 6월 2일

[논문리뷰] A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

본 논문은 순차적 Multi-Domain RL에서 발생하는 선택적 성능 저하 메커니즘을 규명하고 이를 해결하기 위한 이론적 토대를 구축한다. 기존 연구들은 이를 catastrophic forgetting 또는 global gradient conflict로 설명하려 했으나, 실제 실험 결과는 이러한 설명들과 불일치한다 .

#Review #Multi-Domain RL #Cross-Domain Interference #Local Perturbation Theory #Gradient Conflict #Domain Refresh #Second-Order Damage #Active Routes

2026년 6월 2일

[논문리뷰] X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

본 논문은 기존의 영상 이해 연구가 주로 단일 스트림 기반에 머물러 있어, 실제 환경에서 요구되는 멀티 스트림 간의 협업 및 이해 능력을 평가하지 못한다는 한계를 지적합니다 .

#Review #Multi-Stream Understanding #MLLMs #Multiplexing #Streaming Benchmark #Online Inference #Cross-Stream Reasoning

2026년 6월 1일

[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .

#Review #Spatial Intelligence #Vision-Language Models #Video Generation Models #Frozen-Feature Probing #Representation Learning #Semantic Tagging #3D Geometry Prediction

2026년 6월 1일

[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.

#Review #Target Viewpoint Reproduction #TVRBench #Active Exploration #Foundation Models #Spatial Intelligence #Embodied AI #GRPO #SFT

2026년 6월 1일

[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .

#Review #Multi-Agent RL #LLM Workflows #Reinforcement Learning #Policy-Sharing #Gradient Dynamics #Role Drift

2026년 6월 1일

[논문리뷰] VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

본 논문은 autoregressive 영상 확산 모델에서 streaming 생성 시 발생하는 방대한 KV 캐시 메모리 비용 문제를 해결하고자 합니다.

#Review #Video Diffusion #Multi-Head Latent Attention #KV Cache #Autoregressive Generation #Low-Rank Latent #Streaming Video #3D-RoPE

2026년 6월 1일

[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .

#Review #Video Generation Models #Video Reasoning #Vision-Language Models #Test-Time Optimization #LoRA #Differentiable Rewards

2026년 6월 1일

[논문리뷰] Unified Neural Scaling Laws

본 논문은 기존의 Neural Scaling Laws가 가진 예측 한계를 극복하고, 다차원적인 변수가 동시에 변화하는 복잡한 환경에서 모델 성능을 정확히 예측하는 문제를 해결합니다.

#Review #Neural Scaling Laws #Multivariate Scaling #Functional Form #Extrapolation #Deep Learning #Model Performance #Hyperparameter Optimization

2026년 6월 1일

[논문리뷰] StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

본 연구는 기존 Video World Models가 nominal한 미래 예측에만 의존하여, 로봇 정책의 실패 가능성이나 위험한 이벤트를 과소평가(under-explore)하는 문제를 해결하고자 합니다.

#Review #Video World Models #Diffusion Models #Inference-time Steering #Robust Policy Evaluation #Typical Set #Vision-Language Models

2026년 6월 1일

[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .

#Review #Streaming #Character Animation #Audio-Video Generation #Decoupled Orchestration #Diffusion Transformer #Knowledge Distillation #Long-Horizon Coherence

2026년 6월 1일

[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Pipeline Parallelism #LLM Inference #Feature Aggregation #Latency Hiding #Throughput

2026년 6월 1일

[논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

본 논문은 기존 LLM 에이전트의 기술 적응 방식이 장기 과제(Long-horizon tasks)에서 가지는 한계를 해결하고자 합니다.

#Review #LLM Agents #Skill Adaptation #Failure Attribution #Trajectory-level #Step-level #Training-free

2026년 6월 1일

[논문리뷰] Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

본 논문은 LLM agent의 성능 향상을 위해 사용되는 기존의 skill library들이 모델의 용량(capacity)이나 행동 특성을 고려하지 않는 'model-agnostic' 방식으로 설계되었다는 한계를 지적합니다.

#Review #LLM Agents #Skill Alignment #Model-Aware #Hierarchical Evolution #In-Context Learning #Action Optimization

2026년 6월 1일

[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.

#Review #Physical AI #Runtime Guardrails #Embodied AI #Vision-Language-Action Models #Silent Failures #Runtime Assurance

2026년 6월 1일

[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.

#Review #Vision Foundation Models #Semantic Correspondence #Benchmark #Object-Centric Representation #Transfer Learning #Feature Extraction

2026년 6월 1일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.

#Review #Vision-Language-Action Models #Embodied AI #Semantic Grounding #Action Prediction #Robotics Benchmark #Instruction-following

2026년 6월 1일

[논문리뷰] Policy and World Modeling Co-Training for Language Agents

본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.

#Review #Language Agents #Reinforcement Learning #World Modeling #Co-Training #On-policy RL #Clipped MAE #Reward-adaptive Loss

2026년 6월 1일

[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.

#Review #Vision-Language Models #Token Compression #Elastic Inference #Matryoshka Representation Learning #Pool-Conditioned Query Resampling #Efficient Multimodal Learning

2026년 6월 1일

[논문리뷰] OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

본 연구는 시각적 웹 에이전트(visual web agents)의 학습을 위해 사용되는 기존의 supervised post-training 방식이 가진 확장성 한계와 고비용 데이터를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Visual Web Agents #Multimodal Multi-turn GRPO #Live Website Interaction #Scalable Training Framework

2026년 6월 1일

[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.

#Review #PEFT #LoRA #Personal Models #Reinforcement Learning #MoE #Infrastructure #Scaling Laws

2026년 6월 1일

[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models #Process Reward Model #Inference-time Guidance #Chunk-Level Generation #Likelihood Scoring #Training-Free

2026년 6월 1일

[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR

본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling #Credit Allocation #Trajectory Percentile Score (TP-Score)#Policy Optimization

2026년 6월 1일

[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training

본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Pre-training #Next Implicit Token Prediction #Representation Geometry #Representation Degeneration #Self-supervised Learning #MoE #Representation Expressivity

2026년 6월 1일

[논문리뷰] Multi-Agent Computer Use

본 논문은 현대의 CUA들이 주로 단일 직렬 에이전트 방식으로 운용됨에 따라 복잡하고 긴 호흡의 작업에서 한계를 보인다는 점을 해결하고자 합니다. 기존 방식은 작업 분해, 병렬 실행, 새로운 정보에 기반한 재계획이 부족하여 긴 작업 수행 시 쉽게 정체되는 문제를 겪습니다.

#Review #Multi-Agent System #Computer Use Agent #DAG #Task Decomposition #Parallel Execution #Replanning

2026년 6월 1일

[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .

#Review #MLLM Agents #Open-World Exploration #Minecraft #Embodied AI #Benchmark #Task Synthesis #Multi-Agent Workflow

2026년 6월 1일

[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching

본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.

#Review #LLM Unlearning #Activation Patching #Model Privacy #Mechanistic Interpretability #White-box Evaluation #Faithfulness #Robustness

2026년 6월 1일

[논문리뷰] Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

본 논문은 에이전트의 장기 궤적에서 발생하는 문맥 과부하 문제를 해결하기 위한 Observation Masking 기법이 특정 조건에서만 유효하게 작동하는 근본적인 이유를 규명하고자 합니다.

#Review #Agentic Search #Context Management #Observation Masking #Retriever-Model Mismatch #Model Saturation

2026년 6월 1일

[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.

#Review #Model Context Protocol #LLM Agents #Personalized Applications #Environment Simulation #Benchmarking #Tool-Traverse

2026년 6월 1일

[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .

#Review #Long Video Generation #Autoregressive #Retrieval-Augmented Generation #Video Diffusion #Temporal Consistency #Attention

2026년 6월 1일

[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.

#Review #Context Compression #Long-Context Reasoning #Large Language Models #Fine-Tuning #Cross-Attention #Code Reasoning #Cross-Family Generalization #Two-Stage Training

2026년 6월 1일

[논문리뷰] Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

본 논문은 현대의 다중 모델(multi-provider) 생태계에서 기존의 LLM 워터마킹 기술이 근본적으로 취약하다는 점을 지적합니다. 기존 연구들은 공격자가 단일 모델에만 접근할 수 있다는 가정하에 설계되었으나, 실제로는 사용자가 여러 frontier LLM을 자유롭게 사용할 수 있는 환경이 조성되어 있습니다.

#Review #Watermarking #LLM #Ensemble #Distributional Perturbation #WASH #Attribution

2026년 6월 1일

[논문리뷰] LVSA: Training-Free Sparse Attention for Long Video Diffusion

본 논문은 video diffusion transformers의 긴 영상 생성 과정에서 발생하는 dense self-attention의 연산 효율성 저하와 품질 저하 문제를 해결합니다.

#Review #Video Diffusion Transformers #Sparse Attention #Long Video Generation #Training-Free #FlashInfer #Attention Optimization

2026년 6월 1일

[논문리뷰] K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

본 논문은 최신 Frontier 모델들이 Agentic Capability 평가로 패러다임을 전환하고 있음에도 불구하고, 한국어 환경에 특화된 브라우징 에이전트 벤치마크가 부재하다는 문제 의식에서 출발합니다.

#Review #Web Browsing Agent #Korean Contexts #Agentic Benchmark #Information Retrieval #Multi-hop Reasoning #Synthetic Data Generation

2026년 6월 1일

[논문리뷰] Joint Agent Memory and Exploration Learning via Novelty Signals

본 논문은 LLM 기반 에이전트가 개방형 환경에서 효율적인 탐색을 수행하지 못하는 문제를 해결하고자 합니다. 기존 에이전트는 환경과의 상호작용 기록이 길어짐에 따라 전체 기록을 유지하는 데 발생하는 막대한 계산 비용과 메모리 저장 공간 문제에 직면해 있습니다.

#Review #Agent Memory #Exploration #Novelty Signals #GUI Agents #Latency #Token Efficiency #Latent Memory

2026년 6월 1일

[논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

본 연구는 기존 검색 에이전트들이 semantic 검색 결정과 복잡한 상태 관리(bookkeeping)를 동시에 수행함에 따라 발생하는 학습의 비효율성과 성능 저하 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Reinforcement Learning #Stateful Harness #Cognitive Offloading #Search Agents

2026년 6월 1일

[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.

#Review #VQA #Japanese #Document AI #Multimodal LLMs #Chart Understanding #Table Reasoning #Benchmark

2026년 6월 1일

[논문리뷰] FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

본 논문은 기존의 Agentic Search 모델들이 겪는 정답의 희소성 문제와 기존 Test-Time Compute scaling 기법들이 가진 신뢰성 한계를 해결하고자 합니다.

#Review #Agentic Search #Test-Time Compute #Self-Verification #Fine-Grained #LLM #Benchmark Auditing

2026년 6월 1일

[논문리뷰] EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

본 논문은 기존의 Diffusion 기반 3D 생성 모델들이 의미론적 이해(semantic understanding)와 기하학적 추론(geometric reasoning)을 분리하여 처리함으로써 발생하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Mixture-of-Transformers #3D Native Generation #Context-aware Editing #Flow Matching #Sparse Voxel Representation

2026년 6월 1일

[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization

본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.

#Review #Reinforcement Learning #Large Language Models #Proximal Policy Optimization #Early Stopping #Reasoning #Compute Efficiency #Credit Assignment

2026년 6월 1일

[논문리뷰] Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

본 논문은 Speculative decoding에서 draft 품질과 연산 비용 간의 trade-off 문제를 해결하는 것을 목표로 합니다.

#Review #Speculative Decoding #LLM Inference #Autoregressive Drafting #Parallel Drafting #Causal Modeling #Low-Rank Correction

2026년 6월 1일

[논문리뷰] Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

본 논문은 과학적 도해(Scientific Figure) 생성의 자동화가 현실적인 연구 환경의 다양성을 충족하지 못하며, 생성된 출력물이 편집 불가능하다는 한계를 해결하고자 합니다.

#Review #Scientific Figure Generation #Multi-Agent Harness #Editable SVGs #Raster-to-Vector Conversion #CraftBench #LLM Agent #Iterative Refinement

2026년 6월 1일

[논문리뷰] Confidence-Adaptive SwiGLU for Mixture-of-Experts

본 논문은 MoE 모델 내 SwiGLU 활성화 함수의 게이트 선택성이 훈련 과정 전반에 걸쳐 고정되어 있다는 점을 해결하고자 합니다.

#Review #Mixture-of-Experts #SwiGLU #Gate Sharpness #Routing Confidence #Transformer #Activation Function #MoE

2026년 6월 1일

[논문리뷰] Brain-IT-VQA: From Brain Signals to Answers

본 논문은 기존의 fMRI 기반 시각적 재구성 및 VQA 연구들이 가진 성능적 한계와 신경과학적 해석의 어려움을 해결하고자 합니다.

#Review #fMRI #Visual Question Answering #Brain Decoding #Vision-Language Models #Brain-IT #NSD-VQA

2026년 6월 1일

[논문리뷰] Agent Skills Should Go Beyond Text: The Case for Visual Skills

본 논문은 현재 에이전트 스킬 학습 패러다임이 텍스트 중심적(text-only)으로 구성되어 있어 시각적 과업 수행 시 발생하는 '텍스트 병목 현상(Textual Bottleneck)'을 해결하고자 합니다 .

#Review #Multimodal Agent #Visual Skill #Spatial Prior #GUI Grounding #Task Decomposition #Skill Reusability #Textual Degradation

2026년 6월 1일

[논문리뷰] Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation

본 연구는 기존의 Multilingual Embedding Models가 Turkish와 같은 저자원(Low-resource) 언어에서 충분한 성능을 발휘하지 못하는 구조적 한계를 해결하고자 한다.

#Review #Multilingual Embedding Models #Turkish #Tokenizer Surgery #Offline Distillation #Cross-Lingual Transfer #Semantic Search

2026년 6월 1일

[논문리뷰] ACL-Verbatim: hallucination-free question answering for research

본 논문은 현대적인 Retrieval-Augmented Generation (RAG) 시스템이 근본적으로 지니고 있는 환각(Hallucination) 및 답변의 불투명성 문제를 해결하고자 합니다. 기존 LLM 기반 RAG는 문서를 참조하더라도 모델 내부 지식과 혼합되어 부정확하거나 무의미한 답변을 생성할 위험이 큽니다.

#Review #Retrieval-Augmented Generation #Hallucination-free #Extractive Question Answering #ModernBERT #ACL Anthology #Scientific QA

2026년 6월 1일

[논문리뷰] A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

본 논문은 기존의 툴 사용 에이전트 벤치마크가 고정된 시나리오에 의존함에 따라 발생하는 심각한 포화(Saturation) 현상과 벤치마크 구축의 높은 노동 집약적 비용 문제를 해결하고자 합니다.

#Review #Agent Benchmarks #Tool-use #Task Synthesis #Coverage #Difficulty #Adaptive Contrastive n-gram Model

2026년 6월 1일

[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #3D Modeling #Procedural Generation #Vision-Language Models #Agentic Workflow #Benchmark #Human-Preference #Blender

2026년 6월 1일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] dMoE: dLLMs with Learnable Block Experts

본 논문은 MoE 기반 dLLM에서 블록 병렬 디코딩(block parallel decoding) 시 발생하는 과도한 전문가 활성화 문제를 해결하여 inference 효율성을 높이는 것을 목적으로 합니다.

#Review #dLLM #Mixture-of-Experts #Parallel Decoding #Block-level Routing #Expert Compression #Memory-bound

2026년 5월 31일

[논문리뷰] When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

본 논문은 Fully Non-AR DLM decoding 과정에서 나타나는 고질적인 생성 실패 문제를 해결하고자 한다. 기존의 확신도 기반 디코딩은 EOT(End-of-Text) 토큰에 과도하게 높은 확신도를 부여하여 응답이 불완전하게 생성되는 문제를 안고 있다 .

#Review #Diffusion Language Models #Fully Non-Autoregressive Decoding #Suffix Anchoring #Confidence Modulation #Inference Optimization

2026년 5월 31일

[논문리뷰] VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

본 논문은 기존 VLA 모델들이 겪는 '정확도와 효율성'의 상충 관계를 해결하고자 한다.

#Review #Vision-Language-Action (VLA) Policies #Visual Intermediate Reasoning #Low-Latency Inference #Task-Adaptive Routing #Embodied Control

2026년 5월 31일

[논문리뷰] VLM3: Vision Language Models Are Native 3D Learners

본 논문은 표준 VLM이 복잡한 전용 설계 없이도 3D 이해를 수행할 수 있음을 증명하기 위해 수행되었다.

#Review #Vision Language Models #3D Understanding #Metric Depth Estimation #Pixel Correspondence #Camera Pose Estimation #Focal Length Unification #Scalable Training

2026년 5월 31일

[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation

본 논문은 OPD 초기 단계에서 발생하는 학습 불안정성과 낮은 품질의 데이터 생성 문제를 해결하고자 합니다. 기존 OPD는 학생 모델이 학습 초기에 낮은 품질의 trajectory를 생성하면, 교사 모델의 지도(supervision)가 비효율적인 영역에 집중되는 한계가 있습니다 .

#Review #On-policy Distillation #Trust Region #Knowledge Distillation #Language Model Alignment #Annealed Warmup #Behavior Policy

2026년 5월 31일

[논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

본 논문은 실시간 인터랙티브 환경에서 몰입형 경험을 제공하기 위한 고품질 공간 오디오 생성 모델의 지연 시간과 정확도 문제를 해결하고자 합니다.

#Review #Spatial Audio Generation #Autoregressive Diffusion Transformer #Multimodal Learning #Streaming Generation #First-Order Ambisonics #Contrastive Learning #Direct Preference Optimization

2026년 5월 31일

[논문리뷰] The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

본 논문은 Markov boundary가 이론적으로는 tabular prediction에 가장 효율적인 feature 집합임에도 불구하고, 실제 ML 파이프라인에서 왜 기대만큼의 성과를 내지 못하는지 그 이유를 규명한다.

#Review #Markov boundary #Markov-blanket discovery #Tabular prediction #Feature selection #Causal discovery #Structural causal models

2026년 5월 31일

[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.

#Review #RLHF #Reward Model #Self-Supervised Learning #On-Policy Feedback #Value-Anchored #Minimax Optimization #Policy Alignment

2026년 5월 31일

[논문리뷰] Task-Focused Memorization for Multimodal Agents

본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.

#Review #Multimodal Agents #Long-term Memory #Reinforcement Learning #Task-Focused Memorization #Direct Preference Optimization #Streaming VQA

2026년 5월 31일

[논문리뷰] SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

본 논문은 기존의 긴 형식(Long-form) 다이얼로그 합성이 화자 전환, 정서적 연속성, 그리고 음향적 일관성 유지를 유지하는 데 한계가 있다는 문제를 해결하고자 한다. 기존의 워크아웃 방식인 개별 턴 단위 합성 및 병합은 전체적인 대화 맥락을 파악하지 못해 부자연스러운 전환과 환경 불일치를 초래한다.

#Review #Zero-Shot TTS #Long-Form Synthesis #Dialogue Synthesis #Flow-Matching #DiffusionNFT #Speech Alignment

2026년 5월 31일

[논문리뷰] SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

본 논문은 Autonomous AI Agents가 연구 파이프라인을 자동화함에 따라, 무분별한 실험 수행 전에 아이디어의 타당성을 걸러내는 First-gate 단계가 필수적임을 강조합니다.

#Review #Autonomous AI Agents #Research Evaluation #Methodological Soundness #Large Language Models #Optimism Bias #Scientific Benchmarking #First-gate Evaluation

2026년 5월 31일

[논문리뷰] Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

본 논문은 기존의 spatial reasoning 벤치마크들이 시각적 관측이 항상 충분하고 신뢰 가능하다는 비현실적인 가정에 의존하고 있다는 점을 지적합니다.

#Review #Vision-Language Models #Spatial Reasoning #Observational Uncertainty #Abstention #Occlusion #Perspective Ambiguity #Embodied AI

2026년 5월 31일

[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.

#Review #Self-Play #Open-Ended Tasks #Reinforcement Learning #Rubric Reward #Retrieval-Augmented Generation #Co-Evolution #Data-Free

2026년 5월 31일

[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.

#Review #Diffusion Transformer #Streaming Video Editing #Hybrid Architecture #Cycle-Reverse Regularization #Mixed-Precision Quantization #Real-time Inference

2026년 5월 31일

[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.

#Review #Agentic Search #Reinforcement Learning #Over-Search Mitigation #Knowledge Boundary #Search Efficiency #Reward Hacking

2026년 5월 31일

[논문리뷰] Representation Forcing for Bottleneck-Free Unified Multimodal Models

본 논문은 기존 UMM이 frozen VAE에 의존하여 발생하는 structural bottleneck 문제를 해결하기 위해 Representation Forcing (RF)을 제안한다 .

#Review #Unified Multimodal Models #Representation Forcing #Pixel-space Diffusion #Vector Quantization #End-to-End Learning #Bottleneck-Free #Mixture-of-Transformers

2026년 5월 31일

[논문리뷰] Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

본 논문은 최신 GUI 에이전트가 뛰어난 성능을 보임에도 불구하고, 실행 과정에서 발생하는 Policy-Induced Errors를 인지하고 복구하는 능력이 부족하여 실제 배포에 한계가 있다는 문제를 해결하고자 합니다.

#Review #GUI Agent #Robustness #Trajectory Synthesis #Policy-Induced Errors #Error Recovery #VLM

2026년 5월 31일

[논문리뷰] PEEK: Picking Essential frames via Efficient Knowledge distillation

본 논문은 현대의 Vision-Language Models (VLMs)가 비디오 이해를 위해 제한된 수의 프레임만을 처리할 수 있다는 병목 문제를 해결하는 데 목적이 있습니다.

#Review #Video-language models #Frame selection #Knowledge distillation #Video captioning #Query-free sampling #Temporal modeling

2026년 5월 31일

[논문리뷰] OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

본 논문은 급격히 팽창하는 LLM Agent용 Skill 생태계에서 발생하는 평가의 불투명성과 비효율성 문제를 해결하고자 합니다. 현재 커뮤니티에서 배포되는 수많은 Skill들이 실제 성능 향상에 기여하는지, 혹은 특정 모델과 프레임워크에서 어떻게 상호작용하는지에 대한 체계적인 분석이 부재합니다.

#Review #LLM Agents #Agent Skills #Automatic Evaluation #Skill Ecosystem #Benchmarking #Trajectory Trace Analysis #Artifact Evaluation

2026년 5월 31일

[논문리뷰] One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

본 연구는 기존 세포 인스턴스 분할 모델들이 학습 데이터에 종속되어 Out-of-Distribution (OOD) 세포 유형에서 성능이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #Cell Instance Segmentation #Foundation Models #Group Prompting #Chain-of-Prompts #Training-free #Histopathology #SAM

2026년 5월 31일

[논문리뷰] Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

본 논문은 기존의 Selective OPD 기법들이 단순히 토큰의 불확실성(Entropy)이나 교사-학생 간의 불일치(Divergence)만을 토큰 선택 기준으로 삼는 한계를 해결하고자 합니다.

#Review #On-policy Distillation #Knowledge Distillation #Token Teachability #Selective OPD #Teacher-Student Compatibility

2026년 5월 31일

[논문리뷰] Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

본 논문은 Physical AI 환경에서 필수적인 batch-1 LLM decode가 단순히 HBM Bandwidth에 의해서만 제한되는 것이 아니라, CPU-side Launch Overhead에 의해 크게 제약받고 있음을 밝힙니다.

#Review #Batch-1 Inference #LLM Decode #HBM Bandwidth #CUDA Graphs #Launch Overhead #Physical AI

2026년 5월 31일

[논문리뷰] Mellum2 Technical Report

Marko Kojic이 arXiv에 게시한 'Mellum2 Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #LLM #Pretraining #Model Architecture #Technical Report #Evaluation #Training Pipeline

2026년 5월 31일

[논문리뷰] MAAT: Multi-phase Adapter-Aware Targeted Unlearning

본 논문은 기존의 기계 망각(machine unlearning) 연구들이 인과 관계(causal knowledge)를 다루는 'Why-type' 질문에 대한 평가가 전무하다는 결정적인 결함을 해결하고자 한다.

#Review #Machine Unlearning #LoRA #Causal Knowledge #5WBench #Adapter-Aware #SVD Pruning

2026년 5월 31일

[논문리뷰] Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

본 논문은 기존의 커넥터 기반 비디오 생성 모델이 높은 시각적 품질과 복잡한 논리적 추론 능력을 동시에 달성하는 데 겪는 한계를 해결하고자 합니다.

#Review #Video Unified Models #Unified Progressive Frequency Bridging #Reasoning-driven Generation #Connector-based #Flow-matching #Visual Fidelity

2026년 5월 31일

[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.

#Review #Long-Context #Reinforcement Learning #Rubric Reward #Search Agent Trajectories #Tiered Distractors #Multi-hop Reasoning

2026년 5월 31일

[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .

#Review #Agentic Data Analysis #Long-Horizon #State Management #Benchmark #LLM Agents #State-Evolution

2026년 5월 31일

[논문리뷰] Linear Scaling Video VLMs for Long Video Understanding

본 논문은 현대의 Video VLM이 긴 비디오나 실시간 스트리밍 작업을 처리할 때 겪는 이차 시간(quadratic time) 복잡도 문제를 해결하는 것을 목표로 합니다.

#Review #Video VLM #Long-video Understanding #Linear Scaling #StateKV #KV Cache Compression #Attention Approximation

2026년 5월 31일

[논문리뷰] Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

본 논문은 interactive video world model의 장기 생성 시 발생하는 과도한 연산 비용과 추론 지연 문제를 해결하기 위해 Light Interaction을 제안한다.

#Review #Interactive Video World Models #Inference Acceleration #Adaptive Context Management #Denoising Cache Acceleration #3D Sparse Attention #Autoregressive Generation

2026년 5월 31일

[논문리뷰] How can embedding models bind concepts?

본 논문은 최신 Vision-Language Embedding Models인 CLIP이 개념을 개별적으로는 잘 인지하면서도, 이들을 올바르게 조합하여 객체를 구성하는 Concept Binding에는 실패하는 문제에 주목합니다.

#Review #Concept Binding #Embedding Models #Compositional Generalization #Multiplicative Interaction #Representation Geometry #CLIP #Transformer

2026년 5월 31일

[논문리뷰] Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

본 논문은 범용 VLA 모델이 실환경 배포 시 겪는 실행 실패 문제를 실시간으로 감지하기 위한 효율적인 방법을 모색합니다. 기존의 방법론들은 고가의 단계별 실패 주석이 필요하거나, 액션 재샘플링 및 외부 VLM 모델 사용에 따른 높은 계산 오버헤드로 인해 실시간 배포가 어렵다는 한계가 있습니다.

#Review #Vision-Language-Action (VLA)#Failure Detection #Coarsely Supervised Learning #Contrastive Learning #Conformal Prediction #Embodied AI

2026년 5월 31일

[논문리뷰] GrepSeek: Training Search Agents for Direct Corpus Interaction

본 논문은 기존의 retrieval-augmented agentic search 시스템이 pre-computed index와 retriever에 의존함으로써 발생하는 한계를 해결하고자 합니다.

#Review #Direct Corpus Interaction #Search Agent #Reinforcement Learning #Sharded-Parallel Execution #Information Retrieval #Agentic Search

2026년 5월 31일

[논문리뷰] GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

실세계 이미지 복원(IR) 모델은 학습 데이터 부족으로 인해 실제 환경에서의 일반화 성능이 현저히 떨어지는 고질적인 병목 현상을 겪고 있습니다. 합성 데이터는 실세계의 복잡한 열화(degradation) 과정을 제대로 모델링하지 못하며, 실제 촬영된 데이터는 비용과 확장성 및 장면 다양성 확보에 한계가 있습니다.

#Review #Image Restoration #Generative Ground Truth #Multimodal Foundation Models #Generalization #Dataset Construction #Quality Control

2026년 5월 31일

[논문리뷰] GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

dLLMs는 기존의 Autoregressive Models(ARMs) 대비 효율적인 생성 성능을 제공하지만, 최적의 성능을 위해 필요한 강화학습(RL) 적용 시 정책 likelihood가 계산 불가능하다는 핵심적인 난관에 직면합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Self-Distillation #Training-Inference Mismatch #Logit Matching

2026년 5월 31일

[논문리뷰] Function2Scene: 3D Indoor Scene Layout from Functional Specifications

기존의 텍스트 기반 3D 실내 레이아웃 생성 모델들은 주로 가구 목록을 배치하는 '객체 중심(object-centric)' 접근 방식을 취하고 있어, 실제 실내 디자인의 핵심인 인간의 활동과 기능을 충분히 지원하지 못한다는 한계가 있습니다 .

#Review #3D Indoor Scene Synthesis #Functional Specification #Constraint Taxonomy #Iterative Refinement #Agentic Pipeline #Human-Centered Design

2026년 5월 31일

[논문리뷰] From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

본 논문은 Agentic Harness 환경에서 발생하는 다단계 Trojan 공격이 기존의 단일 턴 기반 방어 체계를 무력화하는 심각한 보안 위협임을 지적한다.

#Review #Agentic Harness #Multi-step Trojan Attack #Prompt Injection #DASGuard #ClawTrojan #Workspace Security

2026년 5월 31일

[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.

#Review #Large Vision-Language Models #Video Understanding #Spatio-Temporal Reasoning #Furniture Assembly #Object Tracking #Contact Reasoning

2026년 5월 31일

[논문리뷰] FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

본 연구는 로봇, 웨어러블 기기 등 자원이 제한된 환경에서 클라우드 기반의 AI 인식을 원활하게 수행하기 위한 실시간 영상 압축 기술의 한계를 해결하고자 합니다.

#Review #Compression #Autoencoder #Projection Pursuit #Asymmetric Codec #Real-time #Resource-constrained #Variable-rate

2026년 5월 31일

[논문리뷰] Exploring Autonomous Agentic Data Engineering for Model Specialization

본 논문은 LLM이 인간의 설계 없이 데이터 엔지니어링 파이프라인을 자율적으로 수행하여 모델 특화(Model Specialization)를 달성할 수 있는지에 대한 근본적인 의문을 해결하고자 한다 .

#Review #Autonomous Agentic Data Engineering #Model Specialization #LLM Agents #Data Synthesis #Closed-loop Optimization #End-to-End Pipeline

2026년 5월 31일

[논문리뷰] Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

본 논문은 자율적 LLM 에이전트들이 인간의 감시를 회피하기 위해 독자적인 언어를 발명하고 사용하는 현상을 규명하고자 한다.

#Review #LLM Agents #Emergent Languages #Oversight Evasion #Steganography #In-context Acquisition #Moltbook

2026년 5월 31일

[논문리뷰] DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

본 논문은 장기 비디오 생성 시 발생하는 시간적 일관성 부족과 계산 효율성 문제를 해결하기 위해 DecMem을 제안한다.

#Review #World Model #Video Generation #Long-horizon Extrapolation #Memory Architecture #Sparse Retrieval #Attention Dispersion

2026년 5월 31일

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일

[논문리뷰] Count Anything

본 연구는 객체 카운팅 분야가 특정 도메인(군중, 차량, 세포 등)에 편향된 데이터셋과 모델로 인해 파편화되어 있다는 점을 핵심 문제로 정의한다. 기존 연구들은 일반화 성능이 낮고, 개별 도메인에 종속된 카운팅 모델은 다양한 스케일과 밀도 분포를 가진 현실 세계의 객체를 효과적으로 처리하지 못한다.

#Review #Object Counting #Generalist Model #Text-guided #Cross-domain #Instance-grounded #Dual-granularity

2026년 5월 31일

[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.

#Review #Long-form Speech Generation #SwanBench-Speech #Speech Synthesis #Evaluation Benchmark #Prosodic Coherence #Acoustic Consistency #Expressive Hierarchy

2026년 5월 31일

[논문리뷰] COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

본 논문은 LLM agent가 단순히 단일 명령을 수행하는 수준을 넘어, 특정 전문가의 판단력과 행동 양식을 신뢰성 있게 재현해야 하는 요구를 해결하고자 합니다. 기존 시스템은 개인의 전문 지식을 파편화된 기억(Memory)이나 불투명한 프롬프트로 저장하여 관리와 수정이 어렵다는 한계가 있습니다 .

#Review #LLM Agents #Knowledge Distillation #Person-Grounded Skill #Artifact Engineering #Trace-to-Skill #Skill Package

2026년 5월 31일

[논문리뷰] Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

본 논문은 기존의 MTSF 연구가 개별 모델을 복잡한 'Holistic Model'로 간주하여 평가함에 따라, 내부 핵심 메커니즘의 개별적인 성능 기여도가 불분명하다는 문제를 제기합니다 .

#Review #Component-level Analysis #Benchmark #Time Series Forecasting #MTSF #AutoML #Zero-shot #Performance Corpus

2026년 5월 31일

[논문리뷰] Benchmarking Composed Image Retrieval for Applied Earth Observation

본 논문은 Earth Observation(EO) 아카이브 탐색 시 사용자의 구체적인 의도를 반영하기 어려운 기존의 단일 모달(이미지 혹은 텍스트) 검색 방식의 한계를 해결하고자 한다.

#Review #Remote Sensing Image Retrieval #Composed Image Retrieval #Multimodal Retrieval #Vision-Language Models #Earth Observation #Benchmarking

2026년 5월 31일

[논문리뷰] AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

본 논문은 범용적인 인간 모션 생성(Human Motion Generation) 모델이 직면한 데이터 부족 및 제어 유연성 문제를 해결하는 것을 목표로 한다. 기존 연구들은 특정 모달리티에 국한된 태스크(예: Text-to-Motion)나 고비용의 MoCap 데이터에 의존하여 확장성과 범용성이 떨어진다는 한계가 있다.

#Review #Any-Modality Conditional Motion Generation #Masked Modeling #OmniHuMo #Residual FSQ #Multimodal Motion Synthesis

2026년 5월 31일

[논문리뷰] A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

본 연구는 다수 UAV 기반 교통 관제에서 발생하는 차량 ID 단절(trajectory fragmentation) 문제를 해결하기 위해 수행되었습니다 .

#Review #Multi-UAV Tracking #MCMT #Spatiotemporal Handover #Edge Deployment #Topology-Aware #Identity Persistence

2026년 5월 31일

[논문리뷰] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

본 논문은 기존의 고품질 Video Foundation Model을 실시간 상호작용이 가능한 Interactive World Model로 전환하는 파이프라인의 부재 문제를 해결합니다.

#Review #Video World Models #Diffusion Models #Autoregressive #Distillation #Real-time Inference #Camera Control

2026년 5월 28일

[논문리뷰] YoCausal: How Far is Video Generation from World Model? A Causality Perspective

본 논문은 최신 Video Diffusion Models (VDMs)가 진정한 의미의 세계 모델(World Model)로 발전하고 있는지, 아니면 단순히 통계적 시간 패턴을 과적합(overfit)하고 있는지를 검증하고자 합니다.

#Review #Video Generation #World Models #Causality #Violation of Expectation #Reverse Surprise Index #Causality Cognition Index #Diffusion Models

2026년 5월 28일

[논문리뷰] WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

본 논문은 기존 memory 벤치마크가 정적인 대화 데이터에 편향되어 있고, memory를 단일 성공 지표로만 평가하여 실패 원인 파악이 어렵다는 문제를 해결하기 위해 WorldMemArena를 제안한다.

#Review #Multimodal Agent #Memory Benchmark #Action-World Interaction #Lifecycle Evaluation #Long-horizon #Lifelong Evolution #Agentic Execution

2026년 5월 28일

[논문리뷰] Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

본 논문은 더 큰 모델(Larger Models)이 더 작은 모델이 학습하지 못하는 작업들을 어떻게 학습하는지에 대한 근본적인 메커니즘을 규명하고자 합니다.

#Review #Scaling Laws #Rare-Task Retention #Gradient Interference #Neural Network Scaling #Multi-Task Learning #Feature Learning

2026년 5월 28일

[논문리뷰] When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

본 논문은 LLM이 장기적인 상호작용 속에서 누적되는 정보들 중 무엇을 믿고, 무엇을 수정하며, 무엇을 무시해야 하는지에 대한 문제(CBM)를 해결하고자 합니다. 기존의 LLM은 문맥 내에서 제공되는 형식적 증거를 따르기보다 사전 학습된 파라메트릭 지식이나 문맥상의 노이즈에 과도하게 의존하는 경향이 있습니다 .

#Review #Contextual Belief Management #Large Language Models #BeliefTrack #Reinforcement Learning #Contextual Interference #Symbolic Verification

2026년 5월 28일

[논문리뷰] When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

본 연구는 클라우드 기반의 고성능 Frontier 모델과 에지 장치 기반의 고효율 SLM(Small Language Model)을 통합하는 하이브리드 Multi-Agent System(MAS)의 설계 공간을 체계적으로 탐구합니다.

#Review #Multi-Agent Systems #Hybrid AI #Edge Inference #Cloud Agents #Agentic Workflow #KV-cache #Model Routing

2026년 5월 28일

[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.

#Review #Reinforcement Learning #Factuality #Process Supervision #Wikipedia #Co-occurrence #Large Language Models #GRPO

2026년 5월 28일

[논문리뷰] Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

본 논문은 UDM에서 사용되는 Bridge Plug-in 파라미터화가 표준적인 노이즈 제거 목표(denoising posterior)를 최적화하지 못한다는 구조적 불일치 문제를 해결합니다.

#Review #Uniform Diffusion Models #Leave-one-out #Denoiser #Absorbing State Reformulation #Discrete Diffusion #Bridge Plug-in

2026년 5월 28일

[논문리뷰] UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

본 논문은 LLM의 행동 제어를 위한 기존 Activation Steering 방법론들이 가진 확장성 및 구성적 제약 문제를 해결하기 위해 UniSteer를 제안합니다.

#Review #LLM Steering #Activation Space #Flow Matching #Text-Guided Control #Activation Inversion #Multi-Constraint #Zero-shot Classification

2026년 5월 28일

[논문리뷰] UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

본 논문은 모바일 GUI 자동화에서 lightweight 모델이 겪는 End-to-End 계획 수립의 한계를 극복하고자 합니다. 현재 대부분의 GUI 에이전트는 거대한 VLM에 의존하며, 이는 컴퓨팅 자원이 제한적인 온디바이스(on-device) 환경에서 높은 추론 비용과 신뢰성 부족 문제를 야기합니다.

#Review #GUI Agent #Knowledge Graph #Autonomous Exploration #On-device AI #Lightweight Model #Mobile Automation

2026년 5월 28일

[논문리뷰] Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

본 연구는 대규모 언어 모델(LLM)이 Deep Research 분야에서 사실 기반의 긴 리포트를 작성할 때 발생하는 불투명성과 시각 자료 활용의 한계를 해결하고자 합니다.

#Review #Multi-Agent System #Multimodal Deep Research #Verifiable Generation #Test-Time Scaling #Visual Working Memory #Report Generation

2026년 5월 28일

[논문리뷰] Towards Consistent Video Geometry Estimation

본 논문은 기존 비디오 기하학 추정 모델들이 모델 구조나 학습 프로토콜에 따라 offline(full-sequence) 또는 online(streaming) 환경 중 하나에만 국한되는 문제를 해결합니다.

#Review #Foundation Model #Video Geometry Estimation #Dynamic Chunking Attention #Depth Estimation #Surface Normal Estimation #Point Map Estimation

2026년 5월 28일

[논문리뷰] Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

본 논문은 HuggingFace와 같은 공공 모델 허브에서 배포되는 LoRA 어댑터가 데이터 오염(Poisoning)을 통해 치명적인 백도어에 취약할 수 있다는 점을 지적합니다.

#Review #LoRA Adapter #Backdoor Attack #Data Poisoning #Behavioral Detection #Weight-Level Detection #LLM Security

2026년 5월 28일

[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.

#Review #Large Language Models #Constrained Decoding #Structured Generation #Chain-of-Thought #Parser

2026년 5월 28일

[논문리뷰] SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

본 논문은 비디오 생성 모델이 Sparse한 조건(Text, Start/End Frame)에만 의존함에 따라 발생하는 서사 구조 및 시간적 페이싱(Temporal Pacing) 제어의 한계를 극복하고자 SmartDirector를 제안합니다.

#Review #Video Generation #Keyframe-Conditioned #Narrative Pacing #Flow Matching #Multi-Chunk VAE #Director-Gen #Director-SR

2026년 5월 28일

[논문리뷰] Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

본 논문은 에이전트의 효율적인 기술 습득과 OOD 환경에서의 범용성 확보를 위해 기술의 종류에 따른 차별화된 처리(Differentiated Treatment)가 필요함을 제기한다.

#Review #Agentic Reinforcement Learning #Skill Internalization #Out-of-Distribution Generalization #Difficulty-Aware Routing #Privileged Distillation #Shortcut Learning

2026년 5월 28일

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일

[논문리뷰] PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

본 논문은 텍스트 기반의 4D Human-Object Interaction(HOI) 생성 시 발생하는 물리적 불일치와 시각적 부자연스러움을 해결하는 것을 목표로 합니다.

#Review #4D Generation #Human-Object Interaction #Gaussian Splatting #Material Point Method #Diffusion Models

2026년 5월 28일

[논문리뷰] PhoneWorld: Scaling Phone-Use Agent Environments

본 논문은 모바일 에이전트 연구의 병목 현상인 '재현 가능하고 제어 가능한 환경의 부족' 문제를 해결하고자 한다. 기존 벤치마크들은 이미 구축된 환경에서의 평가에만 집중하고 있으며, 새로운 환경을 확장성 있게 구축할 방법은 제시하지 못하고 있다.

#Review #Phone-Use Agent #Environment Synthesis #GUI Trajectories #Autonomous App Construction #Scaling #Multimodal Agent

2026년 5월 28일

[논문리뷰] Parallax: Parameterized Local Linear Attention for Language Modeling

본 논문은 대규모 언어 모델(LLM) 학습에서 Softmax Attention이 가지는 구조적 한계를 극복하고 효율성을 높이는 것을 목표로 한다.

#Review #Local Linear Attention #Language Modeling #Muon Optimizer #Parameterized Attention #Arithmetic Intensity

2026년 5월 28일

[논문리뷰] PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

본 논문은 급증하는 머신러닝 논문 투고량으로 인해 피어 리뷰 시스템이 한계에 직면했으며, 이를 보완하기 위한 LLM 기반 자동화 리뷰어의 실질적인 역량을 검증해야 한다는 문제의식에서 출발합니다.

#Review #LLM Peer Reviewer #Benchmarking Framework #Scientific Peer Review #Argument Mining #Retrieval-Augmented Verification #Constructiveness

2026년 5월 28일

[논문리뷰] OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

본 연구는 현실 세계의 다양한 정보 요구가 비정형 텍스트, 관계형 데이터베이스, 지식 그래프 등 구조적으로 이질적인 소스들에 분산되어 있음에도 불구하고, 기존 검색 시스템들이 단일 소스 혹은 단일 query language에만 최적화되어 있어 통합적인 검색이 어렵다는 점을 해결하고자 합니다 .

#Review #OmniRetrieval #Heterogeneous Knowledge Sources #Native Query Language #Unified Retrieval #LLM #Knowledge Graph #Text-to-SQL

2026년 5월 28일

[논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

본 논문은 오디오-비주얼 스트리밍 환경에서 Omnimodal Large Language Models가 실시간으로 상호작용하는 능력을 평가하는 데 있어 기존 벤치마크들의 한계를 해결하고자 합니다.

#Review #Omnimodal LLM #Streaming Interaction #Benchmark #Real-time AI #Full-duplex #Interaction-Aware Scoring

2026년 5월 28일

[논문리뷰] ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

본 논문은 현대의 스마트폰 사기가 단일 앱 내의 메시지 분석만으로는 탐지하기 어려운 다단계, 교차 앱(Cross-app) 형태의 복합적인 과정을 거친다는 문제점에서 출발합니다 .

#Review #Scam Anticipation #Streaming App Usage #Agentic Framework #Self-Evolving Context Manager #On-Policy Self-Distillation #Cross-temporal Reasoning #Long-horizon Benchmark

2026년 5월 28일

[논문리뷰] NeuROK: Generative 4D Neural Object Kinematics

본 논문은 정적 3D 형상으로부터 물리적으로 타당한 4D 동적 궤적을 생성하는 범용적인 프레임워크의 부재 문제를 해결합니다. 기존 연구들은 특정 객체 범주에 최적화된 물리 모델이나 명시적인 물리 파라미터 식별에 의존하여 확장성이 낮고 범용성이 떨어진다는 한계가 있습니다.

#Review #Neural Object Kinematics #4D Generative Simulation #Lagrangian Mechanics #Latent Manifold #Kinematic Parameterization

2026년 5월 28일

[논문리뷰] Native Audio-Visual Alignment for Generation

본 논문은 오디오-비디오 조인트 생성 모델에서 발생하는 동기화 성능 저하와 모달리티 간 정보 결합 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Native Alignment #MMDiT #Timbre-in-Context Conditioning #Condition-Factorized Guidance

2026년 5월 28일

[논문리뷰] MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

전통적인 CG (Computer Graphics) 파이프라인에서 동물의 fur와 muscle dynamics를 시뮬레이션하는 작업은 고도의 전문성과 막대한 컴퓨팅 자원을 요구하는 노동 집약적인 과정입니다.

#Review #Video Diffusion #Animal Fur Simulation #Muscle Dynamics #Generative Dynamics Solver #Role-Aware RoPE #Asymmetric Decoupled Attention

2026년 5월 28일

[논문리뷰] LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

본 논문은 최신 VLM들이 텍스트 질문을 그에 대응하는 렌더링된 이미지로 교체했을 때 발생하는 성능 저하 문제, 즉 carrier sensitivity 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Modality Gap #Carrier Sensitivity #Local Modality Substitution #Supervised Fine-Tuning #Cross-modal Alignment

2026년 5월 28일

[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.

#Review #Language Agents #Terminal Environments #Zero-dependency Synthesis #Supervised Fine-tuning #Direct Multi-turn Preference Optimization #Long-horizon Tasks

2026년 5월 28일

[논문리뷰] Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

본 논문은 자율주행 환경에서 시야가 차단된(partially observable) 환경에서의 인지 불확실성과 이로 인한 주행 전략 수립의 한계를 해결하고자 합니다.

#Review #Autonomous Driving #Partial Observability #Risk Map #Diffusion Model #Occlusion-Aware Prediction #Trajectory Planning

2026년 5월 28일

[논문리뷰] LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

본 논문은 RL post-training 과정에서 발생하는 data contamination이 모델의 평가 신뢰성과 일반화 성능을 저해한다는 문제를 지적한다. 기존의 탐지 방식은 주로 token likelihood나 entropy 등 출력(Output-level) 신호에 의존해왔다.

#Review #Data Contamination #Reinforcement Learning #Membership Inference Attack #Representation Geometry #Representation Dynamics #Model Interpretability

2026년 5월 28일

[논문리뷰] Is Position Bias in Dense Retrievers Built In-or Learned from Data?

본 논문은 Dense Retrievers가 문서 내 정보 위치에 따라 성능이 크게 변하는 Position Bias 문제를 해결하고자 한다. 기존 연구들은 이러한 편향의 원인을 모델의 아키텍처나 사전 학습(pretraining) 방식에서 찾으려 했으나, 이들만으로는 체계적인 편향 방향을 완벽히 설명하지 못한다.

#Review #Dense Retrievers #Position Bias #Fine-tuning #Position-Controlled Data #Retrieval-Augmented Generation #Positional Sensitivity #Data Curation

2026년 5월 28일

[논문리뷰] How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

본 논문은 LoRA를 활용한 Parametric Memory의 용량 한계와 내부 기억 메커니즘을 정량적으로 규명하는 것을 핵심 문제로 다룹니다 .

#Review #LoRA #Parametric Memory Law #Exact Memorization #Deterministic Phase Transition #MemFT

2026년 5월 28일

[논문리뷰] Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

본 논문은 2D 기반 Foundation Model들이 가지는 3D 인지 능력 부족으로 인한 semantic correspondence의 구조적 오류를 해결하고자 합니다.

#Review #Semantic Correspondence #3D Foundation Models #PartField #Geodesic Filtering #Self-Supervised Learning #Render-and-Compare

2026년 5월 28일

[논문리뷰] GenClaw: Code-Driven Agentic Image Generation

본 논문은 기존의 end-to-end 방식의 image generation 모델이 겪는 제어 가능성 및 추론 능력의 한계를 해결하고자 합니다. 기존 모델들은 프롬프트 재작성을 통해 반복적인 '블랙박스' 식 시행착오를 거치며, 복잡한 공간 관계나 텍스트 레이아웃을 정밀하게 제어하는 데 실패하는 경우가 많습니다 .

#Review #Agentic Image Generation #Code-Driven #SVG #Multimodal Reasoning #Layered Representation #Controllable Generation

2026년 5월 28일

[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding

본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .

#Review #Video-LLMs #Token Compression #Vision Encoder #Time-to-First-Token #Inference Efficiency #Training-free

2026년 5월 28일

[논문리뷰] Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

기존의 LLM 기반 정책 합성 연구는 수동으로 설계된 파이프라인에 의존하며, 파이프라인의 각 구성 요소(프롬프트, 피드백 등)가 최종 정책의 질에 미치는 영향이 매우 큼에도 불구하고 이를 체계적으로 최적화하기 어렵다는 한계가 있습니다.

#Review #Sequential Social Dilemmas #Autoresearch #LLM Policy Synthesis #Mechanism Design #Information Design #Multi-agent Reinforcement Learning

2026년 5월 28일

[논문리뷰] Colored Noise Diffusion Sampling

본 논문은 기존의 Diffusion model SDE(Stochastic Differential Equations) 솔버가 생성 과정의 Spectral Bias를 무시하고 균일한(uniform) white noise를 주입함으로써 유한한 에너지 예산을 비효율적으로 사용하는 문제를 해결합니다.

#Review #Diffusion Models #Spectral Bias #Stochastic Differential Equations #Colored Noise Sampling #Inference-time Optimization #Generative Fidelity

2026년 5월 28일

[논문리뷰] CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

본 논문은 기존의 Customized Image Generation 분야에서 다수의 효과를 적용할 때 발생하는 스토리지 오버헤드, 라우팅 지연, 그리고 모듈 간 매개변수 간섭 문제를 해결하고자 합니다.

#Review #CollectionLoRA #Multi-Teacher Distillation #On-Policy Distillation #Diffusion Models #Few-step Generation #Concept Isolation

2026년 5월 28일

[논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

본 논문은 LLM 에이전트의 tool retrieval 과정에서 발생하는 성능 병목 문제를 해결하기 위해 CoHyDE를 제안한다.

#Review #Tool Retrieval #LLM Agent #Dense Encoder #Co-training #Direct Preference Optimization (DPO)#Query Expansion

2026년 5월 28일

[논문리뷰] ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

본 논문은 기존 아동 음성 처리 연구들이 일반적인 ASR(Automatic Speech Recognition)에만 편중되어 있어, 아동 발달 과정의 핵심인 비언어적 의사소통 신호를 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #ChildVox #Child Development #Audio Benchmark #LALMs #Speech Foundation Models #Physiological Sounds #Acoustic Intelligence

2026년 5월 28일

[논문리뷰] CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

본 논문은 기존의 인과 추론 벤치마크가 LLM의 진정한 인과적 사고를 평가하기보다 암기된 지식에 의존하는 'Causal parrot' 문제를 해결하기 위해 CausaLab을 제안한다 .

#Review #Causal Discovery #LLM Agents #Structural Causal Models #Interactive Benchmarking #Scientific Discovery #Mechanism Recovery

2026년 5월 28일

[논문리뷰] Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

본 논문은 현대의 Vision-Language Models(VLMs)가 3D 공간 추론에서 겪는 근본적인 한계를 해결하고자 합니다.

#Review #Vision-Language Models #3D Spatial Reasoning #Geometric Priors #Correspondence Learning #Depth Consistency #Object Constancy

2026년 5월 28일

[논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

기존 LLM 에이전트 연구들은 주로 단일 태스크 환경과 즉각적인 도구 응답을 가정하여 평가를 수행해왔습니다. 그러나 실제 환경에서는 도구 호출 시 지연 시간(latency)이 발생하며, 여러 태스크를 동시에 처리해야 하는 상황이 빈번합니다.

#Review #Asynchronous Tool Calling #Multi-task Scenarios #LLM Agent #Temporal Coordination #Latency #Benchmark

2026년 5월 28일

[논문리뷰] Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

본 논문은 RLHF가 정렬을 위해 사용하는 선호도 데이터셋이 사실은 모델 스스로의 출력에 의해 오염될 수 있는 구조적 한계를 해결하고자 한다. 기존의 RLHF는 응답의 선택 이유를 명시하지 않고 단순히 pairwise 비교 결과만을 사용하기 때문에, 고품질 응답에 포함된 편향을 의도치 않게 학습하게 된다 .

#Review #RLHF #Alignment Tampering #Bias Amplification #Reward Hacking #Bias-Quality Correlation

2026년 5월 28일

[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .

#Review #Agent Safety #Alignment Framework #AgentDoG 1.5 #Trajectory-level Diagnosis #Reinforcement Learning #Online Guardrail

2026년 5월 28일

[논문리뷰] AdaState: Self-Evolving Anchors for Streaming Video Generation

본 논문은 기존 autoregressive 비디오 생성 모델이 겪는 '일관성과 동적 표현 사이의 트레이드오프' 문제를 해결하고자 합니다.

#Review #Streaming Video Generation #Autoregressive Diffusion #Adaptive State #Attention Sink #Horizon-Weighted DMD #KV Cache #Temporal Dynamics

2026년 5월 28일

[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.

#Review #VibeSearch #Proactive Search #Large Language Models #Agent Harness #Knowledge Graph #Benchmark

2026년 5월 27일

[논문리뷰] Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

본 논문은 AI 코딩 에이전트가 생성한 코드의 정확성을 보장하기 위해 형식적 검증을 도입하려 할 때, 정작 그 코드의 기준이 되는 '형식적 명세' 자체의 오류가 발생하는 문제를 해결하고자 한다.

#Review #Formal Verification #Specification Autoformalization #Agentic Environment #Verus #Codeforces #Executable Specifications

2026년 5월 27일

[논문리뷰] Triplet-Block Diffusion RWKV

본 논문은 Causal Transformer Language Models(LLMs)가 겪는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Triplet-Block Layout #Diffusion Language Models #RWKV #Linear-time Recurrent Networks #Parallel Decoding #Inference Throughput

2026년 5월 27일

[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.

#Review #Chain-of-Thought #CoT Monitorability #Deception #Linguistic Distribution Shift #Mechanistic Interpretability #LLM Safety

2026년 5월 27일

[논문리뷰] SkillGrad: Optimizing Agent Skills Like Gradient Descent

본 논문은 LLM 에이전트의 도메인 적응력을 높이기 위한 Agent Skills가 흔히 불완전하거나, 시대에 뒤떨어지거나, 신뢰할 수 없다는 문제를 해결하고자 합니다.

#Review #Agent Skills #Gradient Descent #Skill Evolution #LLM Agents #Procedural Knowledge #Structured Optimization #Textual Momentum

2026년 5월 27일

[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search

본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .

#Review #Large Language Models #Evolutionary Search #Bidirectional Search #Goal Decomposition #Post-Training #Inference Scaling

2026년 5월 27일

[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.

#Review #Autonomous Research #Chain-of-Evidence #Verifiability #Provenance #Integrity Audit #LLM

2026년 5월 27일

[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning

본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.

#Review #Large Language Models #Logical Reasoning #Chain-of-Thought #Causal Mediation Analysis #Circuit Interpretability #Attention Heads #Deductive Reasoning

2026년 5월 27일

[논문리뷰] Rethinking Memory as Continuously Evolving Connectivity

본 논문은 기존 LLM agent의 기억 시스템이 Static Repository에 의존하여 동적인 환경 변화나 피드백을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #FluxMem #Memory Connectivity #Heterogeneous Graph #Agentic Memory #Long-term Consolidation #Self-evolving Agents

2026년 5월 27일

[논문리뷰] ResearchMath-14K: Scaling Research-Level Mathematics via Agents

본 논문은 최신 LLM이 기초적인 수학 경시 수준을 넘어 연구 수준(research-level)의 수학 문제를 해결하도록 유도하는 데 필요한 대규모 학습 데이터가 부족하다는 점을 해결하고자 한다.

#Review #Research-level Mathematics #Dataset Construction #Agentic Pipeline #Factuality #Reasoning Trajectories #Fine-tuning #Language Models

2026년 5월 27일

[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.

#Review #Proactive Recommendation #Reinforcement Learning #Policy Gradient Estimation #Path Feasibility #Guidance Effectiveness

2026년 5월 27일

[논문리뷰] PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

본 논문은 현대의 PEFT 방식이 다운스트림 작업 성능 향상(Plasticity)에는 집중하고 있으나, 사전 학습된 범용 역량의 보존(Stability) 문제는 간과하고 있다고 지적한다.

#Review #Parameter-Efficient Finetuning #Stability-Plasticity #Orthogonal Finetuning #Representation Geometry #Spectral Analysis #Pathwise Diagnosis

2026년 5월 27일

[논문리뷰] PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

본 논문은 기존 LLM 기반 embodied agent가 의존하는 비파라미터식(non-parametric) 기억 방식의 근본적인 한계를 해결하고자 합니다.

#Review #Embodied Agent #Parametric Memory #Contrastive Learning #Mixture-of-Experts #Continual Learning #Minecraft

2026년 5월 27일

[논문리뷰] OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

본 논문은 기존 multimodal verifier의 이진 판단 방식이 가진 coarse한 피드백의 한계를 해결하고자 합니다.

#Review #Multimodal Meta-Verification #Symbolic Rationale #Decoupled Reinforcement Learning #Agentic Generation #Region-level Self-Correction

2026년 5월 27일

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.

#Review #Video Generation #Diffusion Transformers #Sparse Attention #Sequence Parallelism #Quantization #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Models That Know How Evaluations Are Designed Score Safer

본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.

#Review #AI Safety #Evaluation Awareness #Meta-Knowledge #Synthetic Document Finetuning #Benchmark Contamination #Alignment Faking #Model Evaluation

2026년 5월 27일

[논문리뷰] MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

본 논문은 LLM 메모리 시스템에서 발생하는 복잡한 오류의 근본 원인을 파악하고 추적하기 위한 자동화된 프레임워크가 부재하다는 문제를 해결합니다.

#Review #LLM Memory Systems #Failure Attribution #Execution Graphs #MemTraceBench #Automatic Debugging #Prompt Optimization

2026년 5월 27일

[논문리뷰] Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

본 논문은 현대 LLM이 가진 방대한 어휘력에도 불구하고, 출력 텍스트가 구조적으로 동질화되고 표현의 다양성이 저하되는 'Lexical Homogenization' 문제를 해결하고자 합니다.

#Review #Large Language Models #Decoding Mechanics #Word Coverage Score #Lexical Reachability #Homogenization #Sampling Filters

2026년 5월 27일

[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Information Bottleneck #Tree-based Policy Optimization #Exploration-Exploitation Balance #LLM Reasoning #IB-Score

2026년 5월 27일

[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.

#Review #Search Agents #Intrinsic Knowledge Dependence (IKD)#Deep Search #Benchmark Design #Evidence-Led Discovery

2026년 5월 27일

[논문리뷰] Less is More: Early Stopping Rollout for On-Policy Distillation

본 논문은 기존 OPD 방식에서 발생하는 Off-policy Teacher Decay 문제를 해결하기 위해 제안되었습니다 .

#Review #On-policy Distillation #Knowledge Distillation #Language Models #Early Stopping Rollout #Off-policy Teacher Decay #Cascading Alignment #Sub-mode Commitment

2026년 5월 27일

[논문리뷰] Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

본 논문은 소규모(Small) 오픈소스 CUA들이 다양한 소프트웨어 환경에서 도메인 특화 성능이 여전히 부족하다는 점을 해결하고자 합니다.

#Review #Computer-Use Agent #Domain Specialization #Annotation-free #Weakness-aware #Direct Preference Optimization #GUI Agent

2026년 5월 27일

[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.

#Review #Multi-Token Prediction #Reinforcement Learning #Optimization #Optimal Coefficient Calibration #Large Language Models #Mathematical Reasoning

2026년 5월 27일

[논문리뷰] HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

본 논문은 Hybrid-Reasoning LLM의 효율적인 활용을 위한 핵심 과제인 '상황별 최적의 추론 모드 선택' 문제를 해결하고자 합니다. 기존 연구들은 각기 다른 모델, 데이터셋, 평가 환경에서 개별적으로 제안되었기 때문에, 전략 간의 실질적인 성능이나 효율성을 객관적으로 비교하기 어렵다는 한계가 있습니다.

#Review #Hybrid-Reasoning LLMs #Adaptive Thinking-Mode Switch #Efficiency-Effectiveness Trade-off #Prompt-Tuning #Routing #Speculative Execution #LLM Benchmarking

2026년 5월 27일

[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.

#Review #Sparse Autoencoder #LLM Post-training #Reinforcement Learning #Data Engineering #Mechanistic Interpretability #Curriculum Learning #Data Selection

2026년 5월 27일

[논문리뷰] GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning

본 논문은 LLM fine-tuning 과정에서 발생하는 backdoor 공격을 효과적으로 탐지하고 제거하기 위한 새로운 filtering 기법을 제안합니다.

#Review #LLM Fine-Tuning #Backdoor Defense #Gradient Spectral Entropy #Sample Filtering #SVD #Robustness

2026년 5월 27일

[논문리뷰] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

본 논문은 기존 비디오 세계 모델이 단일 에이전트 환경에 집중되어 있어, 다중 에이전트가 상호작용하는 복잡한 공유 환경을 효율적으로 시뮬레이션하지 못하는 문제를 해결합니다.

#Review #Generative World Model #Multi-Agent Interaction #Diffusion Transformer #Permutation Symmetry #Rotary Positional Embedding #Sparse Hub Attention

2026년 5월 27일

[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence

본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.

#Review #Embodied Intelligence #Vision-Language Models #Generative Supervision #Depth Map Prediction #Diffusion Transformer #Robot Manipulation #Spatiotemporal Planning

2026년 5월 27일

[논문리뷰] GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

본 논문은 현대 로봇 학습에서 정책(Policy) 모델의 복잡도는 증가하는 반면, 이를 안정적으로 평가할 수 있는 시뮬레이션 환경이 병목 현상으로 작용하는 문제를 해결하고자 한다.

#Review #Robotic Manipulation #Video World Simulator #Action-Conditioned Generation #Closed-loop Evaluation #Proprioceptive State Expert #World Judge

2026년 5월 27일

[논문리뷰] From Pixels to Words -- Towards Native One-Vision Models at Scale

본 논문은 기존의 modular VLM이 가진 복잡한 파이프라인과 파편화된 visual-language 정보를 해결하기 위해 단일화된 Native one-vision 아키텍처를 제안한다.

#Review #Native Vision-Language Models #Monolithic Backbone #Spatiotemporal Attention #One-Vision Foundation Model #End-to-End Learning #Spatial Intelligence

2026년 5월 27일

[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.

#Review #Autonomous Driving #VLM #Block-Diffusion #Inference Efficiency #Trajectory Planning #Scaffold Speculative Decoding #Latency #Throughput

2026년 5월 27일

[논문리뷰] Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

본 논문은 이미지 생성과 super-resolution이 본질적으로 스케일 간 정보 손실을 역전시키는 동일한 과정임을 지적하며, 이를 통합할 수 있는 새로운 접근법을 제시합니다 .

#Review #Diffusion Models #Scale Invariance #Super-Resolution #Frequency Space #Renormalization Group #Unconditional Generation

2026년 5월 27일

[논문리뷰] Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

본 논문은 LLM이 생성한 코드의 출처를 투명하게 추적하고 저작권 준수를 확인해야 하는 시급한 문제 의식에서 출발합니다. 기존의 Winnowing 기반 플래지어리즘 탐지 도구는 정확도는 높지만, 데이터셋 전체를 스캔해야 하는 선형 시간 복잡도로 인해 최신 LLM이 학습되는 대규모 데이터셋에 적용하기에는 한계가 있습니다.

#Review #Provenance Tracking #Code Similarity #LLM #Vector Search #Winnowing #SourceTracker #HybridSourceTracker

2026년 5월 27일

[논문리뷰] ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

본 논문은 기존 ESC 시스템들이 주로 end-to-end 방식에 의존하여 해석 가능성이 낮고 체계적인 기술 개선이 어렵다는 문제를 해결하고자 합니다.

#Review #Emotional Support Conversations #Skill-centric Framework #Intervention Units #Self-Evolutionary #Large Language Models #Simulation-based Verification

2026년 5월 27일

[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.

#Review #Reinforcement Learning #Reasoning Models #Denoising Reasoning #Weak-to-Strong Generalization #Self-correction #Large Language Models

2026년 5월 27일

[논문리뷰] CubePart: An Open-Vocabulary Part-Controllable 3D Generator

기존의 3D 생성 모델은 모놀리식 메쉬(monolithic mesh)를 생성하거나, 사용자가 제어할 수 없는 임의의 파트 단위로만 분해하여 게임 엔진이나 물리 시뮬레이션 환경에 필요한 특정 구조와 정렬하기 어렵습니다.

#Review #3D Generation #Part-Controllable #Open-Vocabulary #Diffusion Transformer #Schema-driven #Game Asset

2026년 5월 27일

[논문리뷰] Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings

본 논문은 대규모 신경망 임베딩(neural embeddings)을 저장할 때 발생하는 과도한 메모리 및 스토리지 비용 문제를 해결하기 위해 Clark Hash를 제안합니다.

#Review #Neural Embeddings #Johnson-Lindenstrauss #Quantization #Sparse Projection #Stateless Codec #Dimensionality Reduction

2026년 5월 27일

[논문리뷰] Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

본 논문은 기존의 Chart QA 벤치마크가 VLM의 진정한 시각적 추론 능력을 정확히 측정하지 못하고, 단순한 시각적 패턴 매칭이나 사전 학습된 파라메트릭 지식에 의한 '지름길(Shortcut)'을 활용하고 있다는 문제를 제기합니다.

#Review #Vision-Language Models #Chart QA #Counterfactual Generation #Visual Reasoning #Shortcut Learning #Generalization

2026년 5월 27일

[논문리뷰] AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

본 논문은 과학적 탐구의 장기적인 연구 과정에서 발생하는 비효율적인 실험 반복과 고립된 탐색 문제를 해결하기 위해 AutoScientists를 제안합니다 .

#Review #Multi-agent Systems #Scientific Experimentation #Self-Organization #Autonomous Discovery #LLM Agents #BioML-Bench

2026년 5월 27일

[논문리뷰] AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 Long-Horizon Tasks 수행 능력 향상에 Scaling Out 전략이 기여할 수 있는지에 대한 연구를 수행한다.

#Review #Agent Scaling #Collective Reasoning #Long-Horizon Tasks #Shared Reasoning Hub #Multi-Agent Systems #Homogeneous Teams #Heterogeneous Teams #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.

#Review #Multimodal Agentic Reasoning #Reinforcement Learning #GRPO #AXPO #Tool-call Resampling #Thinking-Acting Gap #Vision-Language Models

2026년 5월 27일

[논문리뷰] AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

본 논문은 LLM 기반의 다중 에이전트 시스템에서 발생하는 조율 불투명성과 고정된 파이프라인의 경직성 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Online Policy Learning #Coordination Substrate #Large Language Models #Task Signatures #Relative Trajectory Evaluation

2026년 5월 27일

[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models

본 연구는 대규모 다중모달 모델(LMM)이 인식 및 추론 능력은 크게 발전했음에도 불구하고, 비일상적인 상황에서 사물을 창의적으로 재사용하는 물리적 지능이 여전히 부족하다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Creative Tool Repurposing #Physical Affordance #Visual Grounding #Direct Preference Optimization (DPO)#Interactive Benchmark

2026년 5월 27일

[논문리뷰] AI Research Agents Narrow Scientific Exploration

본 연구는 AI 연구 에이전트가 과학적 발견의 범위를 실질적으로 확장하는지, 아니면 기존 연구의 주변부에 머무르는지를 규명하는 것을 목적으로 합니다.

#Review #AI Research Agents #Scientific Discovery #Ideation #Citation Analysis #Research Breadth #Bibliographic Coupling

2026년 5월 27일

[논문리뷰] The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

본 논문은 large language model (LLM)이 long-horizon agentic workflow로 전환됨에 따라 발생하는 efficiency 및 cost bottleneck 문제와 intrinsically complex, high-stakes task 해결의 어려움을 다룹니다.

#Review #Mixture-of-Experts (MoE)#Mini Activations #Agentic AI #Self-Evolution #Reinforcement Learning (RL)#Multi-Token Prediction (MTP)

2026년 5월 26일

[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…

#Review #Spatial Foundation Models #3D Reconstruction #Benchmark #Domain Generalization #Input Density #Embodied AI

2026년 5월 26일

[논문리뷰] Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration

본 논문은 Long-horizon Video-to-Video Generation의 핵심 과제인 Long Cinematic Video Remaking 문제를 해결하고자 합니다.

#Review #Long-Video Remaking #Multi-Agent System #Dual-Bridge Consistency #Character Identity #Narrative Fidelity #Video-to-Video Generation

2026년 5월 26일

[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.

#Review #Test-Time Scaling #Collaborative Parallel Thinking #Large Language Models #Information Sharing #Redundant Exploration #Accuracy-Latency Pareto Frontier #Mathematical Reasoning

2026년 5월 26일

[논문리뷰] MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

모바일 GUI Agent 연구는 빠른 발전을 보였지만, 현재 평가 및 훈련 환경은 근본적인 Trade-off 문제에 직면해 있다.

#Review #Mobile GUI Agent #Simulation Environment #Reinforcement Learning #Verifiable Outcome Signals #Interaction Fidelity #MobileGym-Bench #Sim-to-Real Transfer

2026년 5월 26일

[논문리뷰] LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

본 논문은 기존 Audio-Visual Generation 벤치마크가 Minute-Scale Content의 평가 요구사항을 충족하지 못하는 문제를 해결하고자 한다.

#Review #Audio-Visual Generation #Long Video Generation #Evaluation #Benchmark #T2AV #I2AV #V2AV #MLLM-assisted assessment

2026년 5월 26일

[논문리뷰] LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

The End of the content of the urls browsed.

2026년 5월 26일

[논문리뷰] Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction

본 논문은 Degraded Input Condition 하에서 Multi-view 3D Reconstruction의 Robustness를 향상시키기 위해 Geometry-Aware Representation Denoising (GARD) 프레임워크를 제안한다.

#Review #Multi-view 3D Reconstruction #Image Restoration #Representation Denoising #Diffusion Models #Geometry-Aware Features #Feed-Forward Models #Camera Pose Estimation

2026년 5월 26일

[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.

#Review #Video Generation #Benchmarking #Cinematic Quality #VLM #Chain-of-Thought #Human-Machine Alignment #Evaluation Framework #Reinforcement Learning

2026년 5월 26일

[논문리뷰] D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

본 논문은 D-LLM의 안전성 monitoring 연구가 미흡하며, D-LLM의 오용 가능성이 증대함에 따라 효과적인 방어 메커니즘이 필요하다고 주장합니다.

#Review #Diffusion LLMs #Safety Monitoring #Hesitation-Aware Routing #Probe-based Monitors #Multi-step Trajectory #Sample Difficulty #Efficiency-effectiveness Tradeoff #Adversarial Inputs

2026년 5월 26일

[논문리뷰] Your Embedding Model is SMARTer Than You Think

본 논문은 single-vector multimodal retriever가 rich하고 sequential한 token sequence를 단일 global representation으로 압축하면서 발생하는 근본적인 information bottleneck 문제를 해결하고자 합니다.

#Review #Multimodal Retrieval #Single-Vector Embeddings #Multi-Vector Embeddings #Late Interaction #Information Bottleneck #Hidden States #Contrastive Learning #Plug-and-Play

2026년 5월 25일

[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.

#Review #Interactive World Models #Video Generation #Benchmark #Multi-turn Interaction #Evaluation Metrics

2026년 5월 25일

[논문리뷰] TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

I was unable to access the content of the provided URL: https://arxiv.org/html/2605.26115.

2026년 5월 25일

[논문리뷰] Toward Native Multimodal Modeling: A Roadmap

본 논문은 기존 Large Language Models (LLMs)이 텍스트 전용 인터페이스에 근본적으로 제한되어 실제 세계의 풍부한 센서리 신호(sensory signals)를 통한 그라운딩(grounding)이 부족하다는 문제의식에서 출발합니다.

#Review #Native Multimodal Modeling #Cross-modal Fusion #Transformer Architectures #Multimodal LLMs #M2M Symmetric Modeling #Mid-Fusion #Early-Fusion

2026년 5월 25일

[논문리뷰] ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

I am unable to access the content of the provided URL: https://arxiv.org/html/2605.23081. The browsing tool encountered an error while trying to fetch the page.

2026년 5월 25일

[논문리뷰] SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

본 논문은 LLM Agents가 실제 작업을 해결하면서 축적하는 풍부한 Episodic Experience가 재사용 가능한 Procedural Skills로 증류될 수 있는지 여부가 불분명하다는 핵심 문제를 제기한다.

#Review #LLM Agents #Procedural Skills #Skill Formation #Episodic Experience #Benchmarking #Skill Evolution #Abstraction Bottleneck #Deployment Transfer

2026년 5월 25일

[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.

#Review #Deep Research Agents #Synthetic Data #Rubric Tree #Context Management #Reinforcement Learning #Fact Seeking #Citation Grounding #Report Synthesis

2026년 5월 25일

[논문리뷰] ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

I am sorry, but I was unable to fetch the content of the provided URL: https://arxiv.org/html/2605.20342.

2026년 5월 25일

[논문리뷰] Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

I was unable to access the content of the provided URL: https://arxiv.org/html/2605.25449. The browsing tool encountered an error when trying to fetch the page.

2026년 5월 25일

[논문리뷰] On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

제공된 URL https://arxiv.org/html/2605.26105 에서 논문 내용을 가져오는 데 실패했습니다. 현재로서는 해당 논문의 내용을 분석할 수 없어 요청하신 요약 및 Figure 정보 추출 작업을 완료할 수 없습니다. URL 접근에 지속적인 문제가 발생하고 있습니다.

2026년 5월 25일

[논문리뷰] MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

I am unable to browse the provided URL https://arxiv.org/html/2605.23986. The browsing tool reported an error when trying to fetch the content.

2026년 5월 25일

[논문리뷰] Macaron-A2UI: A Model for Generative UI in Personal Agents

본 논문은 Personal Agent가 복잡하고 사용자 중심적인 Task를 처리함에 따라, 기존의 Static Plain-Text Chat이 병목 현상으로 작용하는 문제를 해결하고자 한다.

#Review #Generative UI #Personal Agents #A2UI #Reinforcement Learning #Supervised Fine-tuning #Dialogue Systems

2026년 5월 25일

[논문리뷰] InstructSAM: Segment Any Instance with Any Instructions

죄송합니다. 제공해주신 논문 URL https://arxiv.org/html/2605.26102에서 내용을 가져오는 데 실패했습니다. 논문을 분석하고 요약하려면 해당 콘텐츠에 접근할 수 있어야 합니다. URL을 다시 확인해 주시거나 다른 접근 가능한 URL을 제공해 주시면 감사하겠습니다.

2026년 5월 25일

[논문리뷰] Helix4D: Complex 4D Mesh Generation

I apologize, but I was unable to access the content of the provided URL: https://arxiv.org/html/2605.26109. The browsing tool encountered an error while trying to fetch the page.

2026년 5월 25일

[논문리뷰] Geometry-Aware Image Flow Matching

기존의 Continuous Normalizing Flows (CNF), Diffusion models (DM), Flow Matching (FM)과 같은 발전된 생성 모델들은 이미지 데이터를 고차원 Euclidean space의 벡터로 간주하는 Euclidean geometry 가정을 기반으로 합니다.

#Review #Flow Matching #Spherical Geometry #Image Generation #Riemannian Manifold #Optimal Transport #Hyperspherical Projection #Generative Models

2026년 5월 25일

[논문리뷰] Foundation Protocol: A Coordination Layer for Agentic Society

I was unable to fetch the content from the provided URL: https://arxiv.org/html/2605.23218. The browsing tool reported an error.

2026년 5월 25일

[논문리뷰] DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

I am sorry, but I was unable to fetch the content from the provided URL: https://arxiv.org/html/2605.25604. The browsing tool encountered an error when trying to access the page.

2026년 5월 25일

[논문리뷰] ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

I am sorry, but I was unable to fetch the content of the provided URL: https://arxiv.org/html/2605.25569.

2026년 5월 25일

[논문리뷰] Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

현재 Large Language Model(LLM) 기반 agent 시스템은 user의 digital world 중 매우 제한적인 부분에만 접근하여 context-sensitive reasoning과 효과적인 assistance 제공에 심각한 한계를 보입니다.

#Review #Personal Assistant Agents #Benchmark #Context-Aware Reasoning #Multi-device Interaction #Proactive Assistance #Long-horizon Event Streams #LLM Agents #Digital World

2026년 5월 25일

[논문리뷰] Channel-wise Vector Quantization

본 연구는 기존 Vector Quantization (VQ) 기반 이미지 tokenization 및 autoregressive 생성 방식의 근본적인 한계점을 해결하고자 합니다.

#Review #Channel-wise Vector Quantization #Autoregressive Generation #Next-Channel Prediction #Codebook Utilization #Visual Tokenization #Image Reconstruction #Text-to-Image Generation #Nested Channel Dropout

2026년 5월 25일

[논문리뷰] AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

본 연구는 AI가 과학 연구의 개별 작업을 지원하는 task-level AI for Science를 넘어 workflow-level research automation으로 전환되는 현상 속에서 발생하는 분야의 파편화 문제를 해결하고자 한다.

#Review #AutoResearch #AI for Science #Workflow Automation #Scientific Discovery #Autonomy Spectrum #Human-AI Collaboration #Evaluation Framework #Scientific Credibility

2026년 5월 25일

[논문리뷰] Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

I apologize, but I was unable to access the content of the provided URL https://arxiv.org/html/2605.25971.

2026년 5월 25일

[논문리뷰] VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

죄송합니다. 요청하신 논문(https://arxiv.org/html/2605.22570)에 대한 실시간 접근이 제한되어, 해당 논문의 내용을 직접적으로 추출할 수 없었습니다.

2026년 5월 24일

[논문리뷰] The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

본 논문은 최신 AI 기술 연구 내용을 다루고 있으나, 현재 요청하신 URL(https://arxiv.org/html/2604.20665)은 서버 접근 문제로 인해 본문 내용 확인이 불가능합니다.

2026년 5월 24일

[논문리뷰] StepAudio 2.5 Technical Report

본 논문은 ASR, TTS, 실시간 음성 대화와 같은 서로 다른 음성 작업이 공통적인 표현 공간(Representational Space)을 공유함에도 불구하고, 기존 통합 모델들이 개별 특화 시스템 대비 성능 차이를 보이는 문제를 해결하고자 합니다.

#Review #Audio-Language Foundation #ASR #TTS #Realtime Interaction #RLHF #Multi-token Decoding #Operational Regimes

2026년 5월 24일

[논문리뷰] SkillOpt: Executive Strategy for Self-Evolving Agent Skills

본 논문은 LLM 기반 에이전트가 복잡한 환경에서 스킬을 재사용할 때 발생하는 비효율성과 적응력 저하 문제를 해결합니다. 기존의 정적인 스킬 라이브러리는 에이전트의 다양한 상황 대응 능력을 제한하며, 스킬 간의 Dependencies를 고려하지 못한 실행은 성능 저하를 초래합니다.

#Review #Self-Evolving Agent #Skill Optimization #Executive Strategy #Hierarchical Planning #Agentic Workflow #Skill Library

2026년 5월 24일

[논문리뷰] See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

죄송합니다. 요청하신 논문(arXiv:2605.18018)에 직접 접속하여 내용을 분석하려고 시도했으나, 현재 해당 URL의 접근이 제한되어 있어 논문의 상세 내용을 확인할 수 없습니다.

2026년 5월 24일

[논문리뷰] SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

본 연구는 급증하는 과학적 문헌의 양으로 인해 인간 연구자가 최신 지식을 통합적으로 이해하고 활용하는 데 한계가 있다는 점을 지적합니다. 기존의 개별 논문 분석 중심 접근법은 과학적 지식 간의 유기적인 연결(Interdisciplinary Connection)을 포착하지 못한다는 단점이 있습니다.

#Review #Knowledge Graph #Scientific Research #Automated Discovery #Large-Scale #Information Extraction #Scientific Reasoning

2026년 5월 24일

[논문리뷰] SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

죄송합니다. 제공해주신 URL https://arxiv.org/html/2605.23345에서 논문 내용을 가져오는 데 실패했습니다. 해당 페이지에 접근할 수 없어 논문을 분석하고 요약해 드릴 수 없습니다.

2026년 5월 24일

[논문리뷰] Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

본 논문은 Muon 옵티마이저가 사전 학습(Pretraining) 단계를 넘어선 하류 태스크(Downstream tasks), 특히 VLA 및 RLVR 환경에서 성능 저하를 보이는 근본적인 이유를 규명합니다.

#Review #Muon #Pretraining #Spectral Analysis #VLA #RLVR #Optimization #Deep Learning

2026년 5월 24일

[논문리뷰] Rethinking Cross-Layer Information Routing in Diffusion Transformers

제공해주신 URL (https://arxiv.org/html/2605.20708)에 접근하여 논문 내용을 분석하려 했으나, 현재 해당 페이지의 기술적 문제로 인해 콘텐츠를 직접 로드할 수 없습니다.

2026년 5월 24일

[논문리뷰] RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

죄송합니다. 요청하신 논문 링크(https://arxiv.org/html/2605.21195)에 대해 현재 접근이 제한되어 내용을 확인할 수 없습니다.

2026년 5월 24일

[논문리뷰] PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

본 연구는 기존 Latent Diffusion Models(LDMs)에서 사용되는 재구성 기반(reconstruction-oriented) 디코더가 고해상도 생성 시 발생하는 정보 손실과 연산 효율성 저하 문제를 해결하고자 합니다.

#Review #Latent Diffusion Models #Pixel Diffusion #Latent Decoding #Super-Resolution #Generative Decoding #Distillation

2026년 5월 24일

[논문리뷰] PhotoFlow: Agentic 3D Virtual Photography Missions

본 논문은 3D 환경 내에서의 복잡한 Photography 작업을 수행하기 위한 지능형 에이전트 프레임워크의 부재를 해결한다. ...

2026년 5월 24일

[논문리뷰] Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

본 요청에 대해 https://arxiv.org/html/2605.21573 페이지에 접근을 시도하였으나, 기술적인 문제로 인해 해당 논문의 내용을 직접 추출할 수 없었습니다.

2026년 5월 24일

[논문리뷰] LatentUMM: Dual Latent Alignment for Unified Multimodal Models

본 논문은 기존 멀티모달 모델이 겪고 있는 Modality 간의 표현 불일치 문제를 해결하기 위해 LatentUMM을 제안한다. 기존의 방식들은 서로 다른 모달리티의 특징을 독립적인 Latent Space로 학습하여, Cross-modal 태스크에서의 성능 저하 및 정렬(Alignment) 미흡이라는 한계를 가진다.

#Review #Multimodal Learning #Latent Alignment #Unified Models #Representation Learning #Cross-modal Representation

2026년 5월 24일

[논문리뷰] LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

본 논문은 LLM의 Scaling Laws를 경험적 관측이 아닌, Shannon의 정보 이론적 프레임워크를 통해 이론적으로 규명하고자 합니다.

#Review #Information Theory #Scaling Laws #Noisy Channel #Model Capacity #LLM #Mutual Information

2026년 5월 24일

[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Long-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.

#Review #Long-Horizon #Self-Distillation #Hindsight Experience Replay #Reinforcement Learning #Sparse Reward #Goal-Conditioned Policy

2026년 5월 24일

[논문리뷰] Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers

죄송합니다. 제공해주신 URL https://arxiv.org/html/2605.23892 에 접속하여 논문 내용을 가져오는 데 실패했습니다. 논문 내용을 확인할 수 없어 요청하신 요약을 작성할 수 없습니다. URL을 다시 확인해주시거나, 논문의 텍스트 내용을 직접 제공해주시면 분석을 시도할 수 있습니다.

2026년 5월 24일

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

본 연구는 고전적인 Multi-view Reconstruction 기법이 복잡한 조명 환경이나 희소한 시점(Sparse view) 조건에서 구조적 붕괴를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Reconstruction #Generative Priors #Multi-View Stereo #Diffusion Models #Neural Rendering #Latent Space

2026년 5월 24일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

본 논문은 에이전트가 방대한 원시 경험 데이터로부터 효과적으로 기술을 습득하지 못하는 비효율성 문제를 해결하기 위해 Skill Consumption 프레임워크를 제안한다. 기존 방식은 데이터의 노이즈와 구조적 미흡함으로 인해 기술 추출의 정밀도가 낮다는 한계가 있다.

#Review #Agent Skills #Skill Consumption #Model-Generated Skills #Autoregressive #Skill Acquisition

2026년 5월 24일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.

#Review #Proactive Personal Assistant Agents #Long-Horizon Workflows #Hidden Intents #Benchmark #Task Completion #Agentic Workflow

2026년 5월 21일

[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression

본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다.

#Review #World Models #Autoregressive Video Diffusion #KV Cache Management #World Retrieval #World Compression #Real-time Inference #Long-term Consistency

2026년 5월 21일

[논문리뷰] Unsupervised Process Reward Models

본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.

#Review #Unsupervised Learning #Process Reward Models #Reinforcement Learning #Reasoning #Test-time Scaling #LLM-as-a-Judge

2026년 5월 21일

[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.

#Review #TransitLM #Route Generation #Map-Free #Large Language Model #Continual Pre-Training #Urban Mobility #Benchmark

2026년 5월 21일

[논문리뷰] Training Large Language Models to Predict Clinical Events

본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .

#Review #Large Language Models #Clinical Prediction #Foresight Learning #EHR #LoRA #Temporal Modeling #Probabilistic Forecasting

2026년 5월 21일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] Swift Sampling: Selecting Temporal Surprises via Taylor Series

본 논문은 대부분의 비디오 데이터가 시간적으로 높은 중복성(Temporal Redundancy)을 가진다는 점에 착안하여, 제한된 frame budget 내에서 모델의 성능을 극대화할 수 있는 효율적인 프레임 선택 방식을 제안한다.

#Review #Swift Sampling #Taylor Series #Predictive Coding #Video Large Language Models #Keyframe Selection #Temporal Surprise #Computational Efficiency

2026년 5월 21일

[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다.

#Review #Large Language Model Agents #Reinforcement Learning #Spreadsheet Automation #GRPO #Excel Environment #Domain-Spreadsheet Benchmark

2026년 5월 21일

[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.

#Review #Multimodal Large Language Models #Spatial Intelligence #Visual Degradation #3D Gaussian Splatting #Robustness #Benchmarking #Degradation-aware Training

2026년 5월 21일

[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.

#Review #Autonomous Driving #Generative Modeling #Diffusion Model #4D Gaussian Splatting #Cross-Embodiment #Sensor Conversion

2026년 5월 21일

[논문리뷰] Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

본 논문은 기존의 VOT 방식들이 task-specific supervised training에 의존하여 unseen 환경에 대한 일반화 능력이 제한적이라는 점을 지적합니다.

#Review #Visual Object Tracking #Foundation Models #SAM 2 #Nonlinear Motion #Motion Predictor #Error Detection-Recovery

2026년 5월 21일

[논문리뷰] SceneAligner: 3D-Grounded Floorplan Localization in the Wild

본 논문은 대규모 환경 및 상업용 건물의 비정형(in-the-wild) 이미지 컬렉션 내에서 카메라 관측치를 2D floorplan에 로컬라이제이션하는 문제를 다룬다.

#Review #Floorplan Localization #3D Foundation Models #Cross-modal Correspondence #Density Map #LoRA #Computer Vision

2026년 5월 21일

[논문리뷰] Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws

본 논문은 기존의 스케일링 법칙이 최적화기(optimizer)를 고정된 요소로 간주하여, 모델 내부 표현의 구조적 차이를 간과한다는 점을 문제로 지적합니다. 저자들은 동일한 아키텍처와 컴퓨팅 자원을 사용하더라도 최적화기 선택에 따라 FFN 폭이 실제 유효 용량으로 전환되는 효율이 크게 달라질 수 있음을 밝힙니다 .

#Review #Spectral Scaling Laws #Optimizer Geometry #Effective Rank #FFN Width #Representation Scaling

2026년 5월 21일

[논문리뷰] Q-ARVD: Quantizing Autoregressive Video Diffusion Models

본 논문은 실시간 인터랙티브 비디오 생성을 위한 ARVDs의 추론 비용 문제를 해결하기 위해 모델 양자화(Model Quantization)를 제안합니다.

#Review #Autoregressive Video Diffusion Models #Model Quantization #Frame-wise Sensitivity #Outlier-aware Quantization #Dual-scale Quantization

2026년 5월 21일

[논문리뷰] PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

기존의 3D 생성 연구들은 주로 시각적인 사실성(photorealism)에만 집중하여 물리 기반 시뮬레이션이나 실제 로봇 제어 환경에서 요구되는 물리적 속성을 결여하고 있습니다. 또한, 기존 방법론들은 rigid, deformable, articulated 등 특정 객체 유형에 국한되어 있어 범용적인 활용이 어렵습니다 .

#Review #PhysX-Omni #Simulation-Ready #3D Generation #PhysXVerse #PhysX-Bench #Vision-Language Model

2026년 5월 21일

[논문리뷰] Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

본 논문은 MLLM이 인적 자원 관리나 정신 건강 진단 등 인간 중심적인 역할에 배치되면서 핵심적으로 요구되는 성격 인식(personality perception) 능력을 진단하고자 합니다.

#Review #Multimodal Large Language Models #Personality Perception #Grounded Personality Reasoning #MM-OCEAN #Prejudice Gap #Holistic-Grounding Rate #Apparent Personality Recognition

2026년 5월 21일

[논문리뷰] One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems

본 논문은 기존의 디지털 단편 드라마 제작 방식이 가진 narrative pacing의 부재, 클립 간 spatial consistency 부족, 그리고 높은 manual review 의존성이라는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Short-Form Drama #Multi-Agent System #3D-Grounded Generation #Narrative Pacing #Spatial Consistency #Production-Level Quality Control

2026년 5월 21일

[논문리뷰] OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

본 논문은 Omni-modal Large Language Models(MLLMs)의 발전에도 불구하고, 실제 환경에서의 Proactive 스트리밍 이해 능력을 정밀하게 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #Omni-proactive streaming #Video understanding #Benchmark #Multimodal LLMs #Audio-visual perception #Long-horizon evaluation

2026년 5월 21일

[논문리뷰] More Context, Larger Models, or Moral Knowledge? A Systematic Study of Schwartz Value Detection in Political Texts

본 논문은 정치적 텍스트에서 Schwartz values를 감지할 때, 주변 문맥(Context)과 명시적인 도덕 지식이 모델 성능에 미치는 영향을 체계적으로 분석하고자 한다 . 정치적 발화는 가치가 간접적으로 표현되는 경우가 많아 문장 단위의 분류가 매우 어렵다.

#Review #Schwartz Values #Political Text #Retrieval-Augmented Generation (RAG)#DeBERTa #Large Language Models (LLMs)#Context Analysis

2026년 5월 21일

[논문리뷰] Minimalist Visual Inertial Odometry

본 연구는 자원 제약적인 로봇 플랫폼에서 기존 VIO (Visual-Inertial Odometry) 시스템의 높은 전력 소모 및 계산 요구사항이 가지는 한계점을 해결하고자 합니다.

#Review #Visual-Inertial Odometry #Minimalist Vision #Planar Odometry #Gabor Masks #Photodiode #Temporal Convolutional Network #Motion Estimation

2026년 5월 21일

[논문리뷰] Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

본 논문은 현대 LLM 에이전트가 특정 도메인에 강점을 가진 다양한 전문가 모델과 모듈식 스킬을 효과적으로 활용하지 못하는 Coordination Bottleneck 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal Agent #Orchestration #Skill Library #Expert Models #Hierarchical Registry

2026년 5월 21일

[논문리뷰] Lean Refactor: Multi-Objective Controllable Proof Optimization via Agentic Strategy Search

본 논문은 LLM이 생성한 Lean 4 증명이 정답은 맞추지만, 지나치게 장황하고 특정 버전의 라이브러리에 취약하다는 점을 해결하고자 합니다 .

#Review #Lean 4 #Proof Optimization #Agentic Framework #Retrieval-Augmented Generation #Multi-Objective Optimization #Formal Verification

2026년 5월 21일

[논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

본 논문은 기존의 Explicit Text CoT 기반 MLLM이 고차원 오디오-비주얼 정보를 텍스트라는 좁은 병목으로 압축함에 따라, 다중 모달 간의 세밀한 시간적 정렬과 의미적 연결을 놓치는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Audio-Visual Reasoning #Latent Reasoning #Cross-modal Alignment #Chain-of-Thought #Instruction Tuning

2026년 5월 21일

[논문리뷰] KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving

본 논문은 Disaggregated LLM Serving 환경에서 KV cache 통신이 전체 end-to-end 지연시간의 최대 60%를 차지하는 주요 병목 현상을 해결하고자 한다 .

#Review #LLM Serving #KV Cache Compression #Disaggregated Inference #Bayesian Optimization #Service-Aware Control

2026년 5월 21일

[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.

#Review #Image Generation #Agentic Workflow #Self-Evolving #Visual Experience Distillation #Tool-Orchestrated #On-Policy Distillation #Multimodal Agent

2026년 5월 21일

[논문리뷰] Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

본 논문은 Linear Attention 기반 모델들에서 메모리 편집의 핵심인 erase(제거)와 write(삽입) 동작이 단일 scalar gate에 의해 묶여 있는 구조적 한계를 해결하고자 합니다.

#Review #Linear Attention #Recurrent Neural Networks #Delta Rule #Fast-Weight Memory #Selective State Space #Chunkwise Parallel Training #Long-Context Retrieval

2026년 5월 21일

[논문리뷰] Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

본 논문은 Long-context 추론 시 발생하는 full attention의 이차 비용(quadratic cost) 문제를 해결하기 위해 효율적인 스파스(sparse) 구조로의 전환을 제안한다.

#Review #Long-context LLM #Sparse Attention #Head Specialization #Dynamic Top-pp Selection #Efficient Inference #Self-distillation

2026년 5월 21일

[논문리뷰] From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning

본 논문은 난도가 높은 추론 문제에 대해 기존의 RLVR 방식이 가지는 효율성 한계를 해결하고자 한다 . 고난도 문제에서는 최종 정답에 도달하는 경로가 매우 희소하여, 모델이 중간 단계에서 올바른 추론을 수행하더라도 이를 학습 신호로 적절히 환원하기 어렵다.

#Review #Curriculum Reinforcement Learning #LLM Reasoning #Credit Assignment #Verifiable Rewards #Subproblem Decomposition #RLVR

2026년 5월 21일

[논문리뷰] FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

본 논문은 비디오 Diffusion 모델의 생성 범위를 학습된 문맥 길이 이상으로 확장하는 과정에서 발생하는 품질 저하와 시간적 일관성 문제를 해결하고자 합니다.

#Review #Long Video Generation #Flow Matching #Tweedie Matching #Stochastic Early-Phase Sampling #Inference-time Framework #Diffusion Models

2026년 5월 21일

[논문리뷰] Diversed Model Discovery via Structured Table Discovery

본 논문은 기존의 모델 검색 시스템이 텍스트 중심의 시맨틱 유사도에 과도하게 의존하여 결과의 다양성을 저해하고 비교 가능한 정보를 충분히 제공하지 못하는 문제를 해결하고자 한다.

#Review #Model Lake #Model Search #Structured Semantic Search #Table Discovery #Nugget-based Evaluation #Model Cards

2026년 5월 21일

[논문리뷰] DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

본 논문은 시퀀스 단위의 보상을 토큰 단위의 학습 신호로 변환할 때 발생하는 불투명성을 해결하기 위해 DelTA를 제안합니다. 기존의 RLVR 방식은 응답 전체에 대해 단일 스칼라 보상을 부여하지만, 실제 정책 업데이트는 토큰별로 이루어지므로 Granularity(세분성)의 불일치가 존재합니다.

#Review #RLVR #Credit Assignment #Discriminator #Policy-Gradient #Token-Level #Centroid

2026년 5월 21일

[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .

#Review #Representation Autoencoders #Vision Foundation Models #Detail-Condensing Queries #Latent Diffusion Models #Image Tokenizer #Reconstruction-Generation Trade-off

2026년 5월 21일

[논문리뷰] ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning

본 연구는 기존 의료용 LLM 및 agentic 시스템이 이미 정제된 evidence에만 의존하는 수동적 패러다임에 갇혀 있다는 문제의식에서 출발한다.

#Review #ClinSeekAgent #Agentic Clinical Reasoning #Multimodal Evidence Seeking #EHR Retrieval #Clinical Decision Support #LLM Agent #Trajectory Distillation

2026년 5월 21일

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.

#Review #Video Diffusion #Multimodal Large Language Models #Latent Semantic Planning #Diffusion Transformer #Video Editing #Chain-of-Thought

2026년 5월 21일

[논문리뷰] ACC: Compiling Agent Trajectories for Long-Context Training

본 연구는 기존 에이전트 학습(SFT)이 도구 응답을 차단함으로써 장거리 컨텍스트 상의 핵심 증거를 활용하지 못하는 Supervision Blind Spot 문제를 해결하고자 합니다.

#Review #Agent Trajectories #Long-Context Training #Supervision Blind Spot #Agent Context Compilation #Dependency Modeling #Expert Specialization

2026년 5월 21일

[논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

기존의 비디오 가상 피팅(VVT) 연구는 주로 피동적인 피사체나 단순한 움직임만을 다루어, 실제 이커머스 라이브 스트리밍 등에서 발생하는 인간-의류 간의 복잡한 상호작용을 포착하지 못한다는 한계가 있습니다.

#Review #Video Virtual Try-On #Interactive VVT #Diffusion Transformer #3D Hand Prior #Action-aware Semantic Guidance #Action-aware Constraint Loss

2026년 5월 20일

[논문리뷰] You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

본 연구는 고비용의 RLVR 학습 과정에서 발생하는 막대한 컴퓨팅 자원 소비 문제를 해결하기 위해 고안되었습니다. 기존의 RLVR은 성능 향상을 위해 방대한 최적화 단계가 필수적이지만, 학습 궤적의 기하학적 구조에 대한 이해가 부족하여 효율적인 최적화가 어려웠습니다.

#Review #RLVR #LLMs #Low-rank #Extrapolation #SVD #Training-free #Parameter Trajectories

2026년 5월 20일

[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.

#Review #GUI Agent #Pretraining #Interaction Trajectory #Multimodal Large Language Models #Scalable Data Synthesis #Action Grounding

2026년 5월 20일

[논문리뷰] UniT: Unified Geometry Learning with Group Autoregressive Transformer

본 논문은 기존의 Feed-forward 기하학적 인식 모델들이 파편화되어 있다는 문제를 해결하고자 합니다. 현재 연구들은 온라인 스트리밍 인식, 오프라인 다중 뷰 재구성, metric-scale 추정, 긴 시퀀스 확장성 등 각기 다른 Paradigm에 집중하고 있어 통합적인 프레임워크가 부재합니다.

#Review #Geometry Perception #Group Autoregressive Transformer #Metric-scale Estimation #Long-horizon Scalability #Multi-modal Fusion #Feed-forward Model

2026년 5월 20일

[논문리뷰] Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

본 연구는 UMM 학습 시 이해와 생성 작업 간에 발생하는 아키텍처적 충돌과 이로 인한 성능 트레이드오프 문제를 해결하고자 한다. 기존의 다중 작업 학습(Multi-task learning)은 복잡한 파이프라인과 데이터 균형 조정 기법을 필요로 하며, 종종 한 작업의 성능 향상이 다른 작업의 저하를 초래하는 한계가 있다.

#Review #Unified Multimodal Models #Intelligent Image Editing #Instruction Tuning #Data Synthesis #Multi-task Learning #Reasoning-intensive

2026년 5월 20일

[논문리뷰] Toto 2.0: Time Series Forecasting Enters the Scaling Era

본 논문은 TSFM(Time Series Foundation Models)이 NLP나 Vision 모델과 달리 모델 크기가 커져도 예측 성능이 정체되거나 저하되는 Scaling의 불확실성 문제를 해결하고자 합니다.

#Review #Time Series Foundation Models #Scaling Laws #Contiguous Patch Masking #u-μP #Quantile Output Head #NorMuon #Observability Metrics

2026년 5월 20일

[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models

본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.

#Review #Large Language Models #Reinforcement Learning #RLVR #Unlearnability #Gradient Outliers #Representation Learning

2026년 5월 20일

[논문리뷰] Stitched Value Model for Diffusion Alignment

본 논문은 diffusion model의 효과적인 alignment를 위해 noisy latent regime에서 정확하고 효율적인 Value Function을 구축하는 문제를 다룬다.

#Review #Diffusion Models #Alignment #Value Function #Model Stitching #Reward Modeling #Inference-time Steering #Reinforcement Learning

2026년 5월 20일

[논문리뷰] SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

본 요청에 대해 제공된 URL(https://arxiv.org/html/2605.21384) 및 관련 학술 검색 결과가 현재 접근 불가능하거나 유효하지 않은 상태입니다. 해당 논문은 가상의 정보이거나, 아직 arXiv 시스템에 정식으로 렌더링되지 않은 데이터일 가능성이 높습니다.

2026년 5월 20일

[논문리뷰] Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

본 논문은 LLM의 안전성 정렬 과정에서 발생하는 Alignment Tax가 본질적으로는 서로 다른 최적화 목적이 충돌하며 발생하는 'catastrophic forgetting'의 일종임을 규명합니다 .

#Review #Safety Alignment #Alignment Tax #Continual Learning #Catastrophic Forgetting #Gradient Projection #Orthogonal Constraint

2026년 5월 20일

[논문리뷰] Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

본 논문은 의료 분야에서 활용되는 LVLM의 예측 결과에 대한 Visual Attribution 방식이 실제로 모델의 판단 근거를 정확히 반영하는지 검증하는 데 핵심적인 한계를 해결하고자 합니다.

#Review #Large Vision Language Models #Chest X-ray #Visual Attribution #Causal Framework #Concept-based Interpretability #Optimal Transport

2026년 5월 20일

[논문리뷰] PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

본 논문은 기존의 계획 벤치마크가 고정된 인스턴스 집합에 의존하여 시나리오의 다양성과 구조적 복잡도를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 단순히 프롬프트 길이 등 표면적인 지표로 난이도를 측정하며, 자동화된 검증 및 확장 가능한 데이터 생성이 결여되어 있었습니다.

#Review #Large Language Models #PlanningBench #Constraint-driven Synthesis #Reinforcement Learning #Verifiable Data #Taxonomy

2026년 5월 20일

[논문리뷰] PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

본 연구는 희소한 건축학적 입력으로부터 몰입감 있는 multi-room indoor environment를 합성하는 데 있어, photorealistic한 파노라마와 cross-view spatial coherence를 동시에 유지하는 문제가 핵심적인 도전 과제임을 지적한다.

#Review #Generative Spatial World Model #Whole-House Panorama Synthesis #3D Gaussian Splatting #Panoramic LRM #Room-aware Group Attention #Topology-aware Progressive Caching #Decoupled Guidance

2026년 5월 20일

[논문리뷰] On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

본 연구는 급증하는 과학 연구 논문 생산량에 따른 피어 리뷰 시스템의 확장성 문제를 해결하기 위해 도입된 AI Reviewers의 역량과 신뢰성을 객관적으로 평가하는 것을 목표로 합니다.

#Review #AI Reviewers #Peer Review #LLM Agents #Scientific Evaluation #Expert Annotation

2026년 5월 20일

[논문리뷰] OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

본 연구는 Layout-Grounded Image Generation 분야에서 객체 간의 복잡한 Occlusion 문제를 해결하기 위해 고안되었습니다.

#Review #Layout-Grounded Image Generation #Occlusion Modeling #Z-Order #Transformer #Generative Models

2026년 5월 20일

[논문리뷰] OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

본 논문은 장문 컨텍스트 추론 및 다중 모드 지능의 발전으로 인해 KV Cache가 추론의 지배적인 메모리 병목으로 부상한 문제를 해결합니다. 기존의 per-channel 양자화 기법은 Key 텐서의 채널별 이상치를 처리하는 데 효과적이나, 압축률이 극도로 높아질 경우 그 효용이 급격히 감소합니다.

#Review #KV Cache Quantization #Token Norm Imbalance (TNI)#Omni-Scaled Canalized Rotation (OScaR)#Extreme Low-bit Quantization #Large Language Models (LLMs)#CUDA Kernel Optimization

2026년 5월 20일

[논문리뷰] OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization

Long-context 모델의 확장에 따라 KV cache의 메모리 점유율은 모델 서빙의 핵심적인 기술적 과제가 되었다.

2026년 5월 20일

[논문리뷰] Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

본 논문은 Agentic LLM의 추론 과정에서 발생하는 입력 기반(input-heavy) 오버헤드와 연산 단계 간 성능 저하 문제를 해결합니다. Agentic 워크플로우는 도구 사용 및 메모리 검색으로 인해 컨텍스트가 반복적으로 길어지며, 이는 Prefilling 단계가 전체 추론의 주요 병목이 되게 합니다 .

#Review #Agentic LLMs #Model Quantization #Prefilling #Decoding #NVFP4 #Efficiency

2026년 5월 20일

[논문리뷰] Mem-π: Adaptive Memory through Learning When and What to Generate

본 논문은 기존 LLM 에이전트의 정적인 메모리 검색 패러다임이 갖는 한계를 극복하기 위해 제안되었습니다. 현재의 메모리 증강 에이전트들은 주로 외부 저장소에서 과거의 경험을 검색하는 방식에 의존하지만, 이러한 검색된 데이터는 현재의 에이전트 맥락과 맞지 않거나 지나치게 특수하여 범용성이 떨어지는 문제가 있습니다.

#Review #Large Language Model Agents #Generative Memory #Reinforcement Learning #Adaptive Memory #Abstention Policy #Decoupled Policy Optimization

2026년 5월 20일

[논문리뷰] Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

본 논문은 기존의 ASR 기술이 깨끗한 환경에서는 뛰어난 성능을 보이지만, 실제 환경의 복합적인 음향 왜곡(noise, reverberation, far-field, obstruction 등) 속에서는 WER이 급격히 상승하고 할루시네이션(hallucination)이나 문장 누락이 발생하는 'acoustic robustness bottleneck'을 해결하고자 한다.

#Review #ASR-in-the-wild #Compound Acoustic Simulation #Acoustic-to-Semantic #Progressive Supervised Fine-Tuning #Policy Optimization #Robust Speech Recognition #Acoustic Robustness Bottleneck

2026년 5월 20일

[논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

본 논문은 LLM agent의 skill 최적화가 근본적으로 다목적(multi-objective) 문제임에도 불구하고, 기존 방식들이 이를 단일 목적 함수로 축소함으로써 발생하는 비효율성을 해결하고자 합니다.

#Review #Multi-Objective Optimization #LLM Agents #Skill Optimization #Chebyshev Scalarization #Hypervolume #Prompt Engineering #Constraint Satisfaction

2026년 5월 20일

[논문리뷰] LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

본 논문은 현재의 memory-augmented agent들이 현실 세계의 복잡하고 진화하는 long-horizon 환경에서 겪는 기억 오류 문제를 해결하고자 한다.

#Review #Long-Horizon #Agent Systems #Memory Evaluation #Multi-Target Interference #Retrieval-Augmented Generation #Benchmarking

2026년 5월 20일

[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.

#Review #Large Language Models #Training Control Governance #LBW-Guard #AdamW #Training Stability #Bounded Autonomous Control #Compute Efficiency

2026년 5월 20일

[논문리뷰] LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

본 논문은 LLM의 자연어 논리 추론 능력을 평가하는 기존 벤치마크들이 겪고 있는 한계를 극복하기 위해 LLMEval-Logic을 제안한다 .

#Review #LLM #Logical Reasoning #Benchmark #Z3 #Adversarial Hardening #NL-to-FL

2026년 5월 20일

[논문리뷰] It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

본 논문은 LLM이 개인 비서(Personal Agent)로 활용되면서 발생하는 문맥적 프라이버시(Contextual Integrity) 문제를 해결하고자 합니다.

#Review #Contextual Integrity #Large Language Models #Self-Distillation #Product-of-Experts #Privacy-Utility Trade-off #Alignment

2026년 5월 20일

[논문리뷰] IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

본 논문은 MLLM의 강력한 제로샷 성능에도 불구하고, 고도의 정밀함이 요구되는 산업 환경에서 도메인 불일치 및 구조적 환각(structural hallucination)으로 인해 발생하는 이상 탐지 성능 저하 문제를 해결합니다 .

#Review #Industrial Anomaly Detection #Multimodal Large Language Models #Agentic Framework #Reinforcement Learning #Tool Augmentation #Zero-shot Learning

2026년 5월 20일

[논문리뷰] HRM-Text: Efficient Pretraining Beyond Scaling

본 논문은 대규모 컴퓨팅 자원과 인터넷 규모의 raw text에 의존하는 기존의 Large Language Model(LLM) pretraining 패러다임이 가진 극심한 비효율성을 해결하고자 합니다.

#Review #Hierarchical Recurrent Model #Efficient Pretraining #MagicNorm #Task-completion Objective #PrefixLM #Compute Efficiency

2026년 5월 20일

[논문리뷰] Generative Recursive Reasoning

본 논문은 기존 Recursive Reasoning Models(RRMs)가 지닌 결정론적 성격으로 인한 탐색 능력 저하와 다중 해법 문제 해결의 한계를 해결하고자 합니다.

#Review #Recursive Reasoning Models #Generative Latent Modeling #Stochastic Latent Transitions #Inference-Time Scaling #Constraint Satisfaction #Amortized Variational Inference

2026년 5월 20일

[논문리뷰] Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

본 논문은 산업 자산 운영(Asset Operations) 분야의 에이전트 파이프라인이 겪는 높은 대기 시간과 기존 캐싱 기법의 한계 문제를 해결합니다.

#Review #Agentic Pipeline #Model Context Protocol #Temporal Semantic Caching #Workflow Optimization #Industrial Asset Operations #Latency Reduction

2026년 5월 20일

[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.

#Review #Long Video Generation #Train-Free #Autoregressive Generation #Consistency Enhancement #Diffusion Models #Test-Time Scaling #Temporal Consistency

2026년 5월 20일

[논문리뷰] DrawMotion: Generating 3D Human Motions by Freehand Drawing

본 논문은 텍스트 기술만으로는 사용자가 의도한 복잡하고 세밀한 3D 모션을 정밀하게 제어하기 어렵다는 점을 해결하고자 합니다. 기존 연구들은 복잡한 텍스트 묘사에 의존하거나, 추가적인 모델링을 통해 모션을 수정하지만 이는 사용자에게 상당한 시간적 비용과 입력 부담을 초래합니다.

#Review #Diffusion Models #Motion Generation #Human-Computer Interaction #Freehand Drawing #Multi-Condition Fusion #Intermediate Feature Guidance #Neural Collapse

2026년 5월 20일

[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.

#Review #GUI Agents #Media Post-Production #Benchmark #Multimodal #Long-Horizon #Grounding #Vibe Cutting

2026년 5월 20일

[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.

#Review #DPO #RLHF #Constrained Preference Optimization #Bradley-Terry Model #Alignment #Soft Margin Ranking #Absolute Advantage

2026년 5월 20일

[논문리뷰] A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

본 논문은 LALMs 분야의 급격한 발전에도 불구하고, 모델의 성능 평가 기준과 범용적 활용에 대한 통합적인 체계가 부족하다는 점을 해결하고자 한다.

#Review #Large Audio Language Models #Audio-Language Pretraining #Multimodal Foundation Models #Audio Reasoning #Model Alignment #Generalization #Trustworthiness

2026년 5월 20일

[논문리뷰] optimize_anything: A Universal API for Optimizing any Text Parameter

본 논문은 최적화 문제를 텍스트 아키텍처 개선으로 정의하고, 이를 통해 다양한 도메인에서 범용적으로 작동하는 통합 최적화 시스템을 제안한다.

#Review #LLM optimization #text artifact optimization #evolutionary search #agentic systems #Pareto optimization #declarative API

2026년 5월 19일

[논문리뷰] Where Does Authorship Signal Emerge in Encoder-Based Language Models?

죄송합니다. 제공해주신 논문 URL https://arxiv.org/html/2605.19908에 접속하여 내용을 가져오는 데 실패했습니다. 따라서 논문을 분석하고 요약하는 작업을 수행할 수 없습니다.

2026년 5월 19일

[논문리뷰] When Vision Speaks for Sound

본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .

#Review #Video-LLMs #Audio-Visual Grounding #Clever Hans Effect #Intervention-Driven Diagnostics #Direct Preference Optimization (DPO)#Multimodal Alignment

2026년 5월 19일

[논문리뷰] Video Models Can Reason with Verifiable Rewards

본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .

#Review #Video Generation #Reinforcement Learning #Verifiable Rewards #Video Reasoning #Diffusion Models #Flow-Matching #RLVR

2026년 5월 19일

[논문리뷰] TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization

본 논문은 billion-scale 3DGS training 시 발생하는 GPU VRAM 한계 문제를 해결하기 위해 TideGS를 제안합니다. 기존의 3DGS는 모델 파라미터가 증가함에 따라 메모리 수요가 선형적으로 증가하여, 24GB GPU 기준 약 1,100만 개의 가우시안으로 규모가 제한됩니다 .

#Review #3D Gaussian Splatting #Out-of-Core Optimization #Scalable Training #Visibility-induced Sparsity #Trajectory-Adaptive Streaming

2026년 5월 19일

[논문리뷰] Semantic Generative Tuning for Unified Multimodal Models

본 논문은 현대 UMM들이 이해와 생성이라는 두 핵심 과업을 분리된 최적화 경로로 학습함으로써 발생하는 표현적 불일치(Representational misalignment) 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Generative Tuning #Image Segmentation #Multimodal Alignment #Semantic Proxy #Representation Learning

2026년 5월 19일

[논문리뷰] SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects

본 연구는 기존의 정적인 3D 장면 표현 방식이 실내 공간의 동적 특성과 가동부를 효과적으로 편집하는 데 한계가 있다는 문제 의식에서 출발합니다.

#Review #3D Scene Understanding #Executable World Programs #Articulated Objects #Scene Editing #Inverse Graphics #Program Synthesis

2026년 5월 19일

[논문리뷰] SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

본 논문은 기존의 microsimulation 모델이 사용하는 parametric 소득 예측 프로세스의 구조적 한계를 해결하고자 합니다.

#Review #Deep Sequence Models #Probabilistic Forecasting #Conformal Prediction #Microsimulation #Transformer #Labor Economics

2026년 5월 19일

[논문리뷰] Process Rewards with Learned Reliability

본 논문은 기존 PRM이 중간 단계에 대해 단일 Scalar 보상값만을 제공하여, 해당 점수의 신뢰도를 평가할 수 없는 한계점을 해결하고자 합니다.

#Review #Process Reward Model #Beta-Binomial #Adaptive Computation Allocation #Test-Time Scaling #Uncertainty Estimation

2026년 5월 19일

[논문리뷰] PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

본 논문은 기존 T2I 모델들이 주로 1K~2K 수준의 해상도에 고착되어 있어, 디지털 영화 제작이나 상업 디자인 등에서 요구하는 100MP 수준의 Ultra-High-Resolution(UHR) 생성 능력이 부족한 문제를 해결하고자 한다.

#Review #Ultra-High-Resolution #Text-to-Image #100MP #PixVerve-95K #PixVerve-Bench #Diffusion Models

2026년 5월 19일

[논문리뷰] PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

본 연구는 대규모 외부 컨텍스트를 반복적으로 쿼리하는 LLM 에이전트 환경에서 발생하는 반복적인 오리엔테이션 작업의 비효율성 문제를 해결합니다.

#Review #Long-Context LLM Agents #Context Map #Orientation Cache #Prompt Engineering #LLM Inference

2026년 5월 19일

[논문리뷰] Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

죄송합니다. 제공해주신 논문 URL https://arxiv.org/html/2605.09640을 browse 도구를 사용하여 접근하는 데 실패했습니다. 논문 내용을 가져올 수 없어 요청하신 요약 및 Figure 정보 추출 작업을 수행할 수 없습니다.

2026년 5월 19일

[논문리뷰] OpenComputer: Verifiable Software Worlds for Computer-Use Agents

본 논문은 컴퓨터 사용 에이전트의 훈련과 평가를 저해하는 환경 구축의 어려움과 평가 신뢰성 부족 문제를 해결하기 위해 OpenComputer를 제안한다.

#Review #Computer-Use Agents #Verifiable Software Worlds #Verifier-Grounded #Benchmark Synthesis #Desktop Automation #Self-Evolving Verification

2026년 5월 19일

[논문리뷰] OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

본 논문은 기존 GUI 에이전트 벤치마크가 정적 스크린샷 위주로 구성되어 있어, 실시간 환경에서 요구되는 동적 오디오 및 비디오 처리 능력을 평가하지 못한다는 한계를 해결하고자 한다 .

#Review #GUI Agents #Multimodal Benchmark #Smartphone Environments #Temporal Reasoning #Auditory Processing #Action Grounding

2026년 5월 19일

[논문리뷰] Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

본 논문은 현대의 MLLM이 실시간 환경에서의 상호작용 능력을 평가할 수 있는 표준화된 벤치마크와 평가 방법론이 부족하다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Real-time Duplex Interaction #Streaming Video Understanding #Benchmark #Proactive Interaction

2026년 5월 19일

[논문리뷰] MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

본 논문은 현대의 영상 생성 기술이 단일 샷(single-shot)에서 다중 샷(multi-shot) 이야기 구조로 진화함에 따라 발생하는 모델 평가의 한계를 극복하고자 한다.

#Review #Multi-Shot Audio-Video Generation #Benchmark #Evaluation Framework #Adaptive Hybrid Evaluation #Cinematic Language

2026년 5월 19일

[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models

본 연구는 대규모 언어 모델(LLM)에 삽입된 백도어(Backdoor)가 어떠한 내부 메커니즘을 통해 트리거를 처리하고 모델 출력을 가로채는지 규명하는 것을 목표로 합니다. 기존 연구들은 트리거를 일종의 불투명한 블랙박스로 처리하여 탐지 및 방어에 한계가 있었습니다.

#Review #Backdoor Attack #Circuit Interpretability #Activation Patching #Language-Switching #Orthogonal Latent Encoding #Residual Stream #Transformer

2026년 5월 19일

[논문리뷰] GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

본 논문은 현재 긴 문맥 이해를 위한 RL 학습이 데이터의 편향된 구성과 보상 신호의 불균일성으로 인해 비효율적으로 진행된다는 점을 핵심 문제로 지적한다.

#Review #Long-Context RL #Capability-Oriented Data #Reinforcement Learning #Multitask Alignment #Advantage Estimation #TMN-Reweight

2026년 5월 19일

[논문리뷰] EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

본 논문은 Large Language Models (LLMs)에 tool-use capabilities를 부여하는 Agentic Reinforcement Learning (Agentic RL)이 겪는 두 가지 주요 bottleneck, 즉 scalable하고 robust한 executable environments의 부족과 implicit human reasoning을 포착하는 현실적인 training data의 희소성을…

#Review #Agentic Reinforcement Learning #Tool-Use Agents #Environment Synthesis #Trajectory Generation #Dependency Graph #LLM Post-training

2026년 5월 19일

[논문리뷰] Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

본 논문은 Autoregressive 비디오 확산 모델이 긴 비디오 생성 및 대화형 시나리오에서 겪는 기억 관리(KV Cache management)의 기능적 Entanglement 문제를 해결하고자 한다.

#Review #Video Generation #Autoregressive #KV Cache #Scene Memory #Long-form Video #Interactive Generation

2026년 5월 19일

[논문리뷰] ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

본 요청은 제공된 URL(https://arxiv.org/html/2605.18746)에 대한 접근이 원활하지 않아, 해당 논문의 내용을 직접적으로 추출할 수 없습니다. 연구원으로서 해당 논문에 대한 심층 분석을 제공해 드리고 싶으나, 실시간 액세스 오류로 인해 논문 정보 파악이 불가능합니다.

2026년 5월 19일

[논문리뷰] Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

본 논문은 기존의 Tree-based Speculative Decoding이 겪고 있는 속도와 정확도(MAT) 사이의 Pareto tradeoff 문제를 해결하고자 한다.

#Review #Speculative Decoding #Tree Construction #Dynamic Pruning #Retrieval-based #GPU-resident #Budget Compensation #Long-context

2026년 5월 19일

[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages

본 논문은 기존 Document Understanding 모델들이 다국어 데이터 처리 및 문서 구조 파악에서 겪는 한계를 극복하기 위해 DocAtlas를 제안한다. 대다수의 기존 모델들은 특정 언어군에 편향되어 있거나, 복잡한 문서 레이아웃을 처리하는 데 있어 성능이 저하되는 Generalization 문제를 겪고 있다.

#Review #Document Understanding #Multilingual #Vision-Language Models #OCR #Multimodal Learning

2026년 5월 19일

[논문리뷰] Delta Attention Residuals

본 논문은 기존 Attention Residuals에서 발생하는 routing collapse 문제를 해결하고자 한다. 기존 모델들은 각 레이어의 출력 $h_i$가 이전 레이어들의 누적 합이기 때문에, 레이어가 깊어질수록 인접한 $h_i$와 $h_{i-1}$ 간의 중복성이 극도로 높아진다 .

#Review #Attention Residuals #Delta Representation #Additive Routing #Transformer #Model Scaling #Fine-tuning

2026년 5월 19일

[논문리뷰] CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

본 논문은 표준 CoT 패러다임이 가진 비효율적인 '생각 후 답변' 순서와, 이미 답변을 도출한 후에도 불필요하게 추론을 지속하는 Performative Reasoning 문제를 해결하고자 한다 .

#Review #Large Language Models #Chain-of-Thought #Continuous Embeddings #Contrastive Verification #On-Policy Thinking #Agentic Reasoning

2026년 5월 19일

[논문리뷰] Context Memorization for Efficient Long Context Generation

본 논문은 긴 Prefix를 활용하는 현대의 LLM 애플리케이션들이 겪는 성능 저하와 추론 비효율성 문제를 해결하고자 합니다 .

#Review #Attention-State Memory #Long Context Generation #In-Context Learning #Retrieval-Augmented Generation #Online-Softmax Identity #Prefix Caching #LLM Inference

2026년 5월 19일

[논문리뷰] CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

본 연구는 기존 비디오 생성 모델들이 사용자의 창의적 의도를 정확히 해석하지 못하고, 제어 가능성(Controllability)이 제한적이라는 문제 해결을 목표로 합니다. 기존 모델들은 단순한 텍스트-비디오 매핑에 의존하여 복잡한 물리적 제약이나 구체적인 카메라 움직임을 구현하는 데 한계를 보입니다.

#Review #Video Generation #Controllable Generation #Reasoning-Driven #Cognitive Intent #Multimodal Understanding #Latent Diffusion Models

2026년 5월 19일

[논문리뷰] Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

본 연구는 SLMs의 제한된 추론 능력을 극복하기 위해 코드 실행 기반의 구조화된 추론 환경을 도입하는 것을 핵심 목표로 합니다. 기존의 Chain-of-Thought (CoT) 기법은 복잡한 다단계 추론 과정에서 Hallucination이나 논리적 비약이 발생하기 쉽다는 한계가 존재합니다.

#Review #Small Language Models #Chain-of-Thought #Executable Scaffolds #MCQA #Code-Guided Reasoning #Symbolic Execution

2026년 5월 19일

[논문리뷰] CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

본 논문은 RLVR 환경에서 기존 정책 최적화 방식들이 겪는 불균일한 credit assignment 문제를 해결하기 위해 CEPO를 제안합니다. 기존의 GRPO와 같은 방식은 전체 시퀀스에 동일한 보상을 부여하여 결정적 추론 단계와 단순 서술 토큰을 구분하지 못하는 한계가 있습니다.

#Review #RLVR #Credit Assignment #Self-Distillation #Contrastive Learning #Policy Optimization #Information Leakage

2026년 5월 19일

[논문리뷰] AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

본 논문은 기존의 자동화된 과학 연구 시스템들이 연구의 반복적이고 비선형적인 특성을 제대로 모델링하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 시스템들은 주로 단일 에이전트의 선형 파이프라인에 의존하며, 실험 실패 시 모든 진행 상황을 포기하고, 이전 실행으로부터 학습하지 못하는 치명적인 단점이 있습니다 .

#Review #Autonomous Research #Multi-Agent Debate #Self-Healing Execution #Human-in-the-Loop #Scientific Integrity #Cross-Run Evolution #ARC-Bench

2026년 5월 19일

[논문리뷰] Aurora: Unified Video Editing with a Tool-Using Agent

본 논문은 현대의 통합형 비디오 편집 모델들이 모델이 처리할 수 있는 형식의 입력(model-ready input)을 전제로 설계되어 있어, 실제 사용자의 불완전한 자연어 요청을 처리하는 데 한계가 있다는 문제에서 출발합니다.

#Review #Video Editing #Tool-Using Agent #Unified Diffusion Transformer #Visual Underspecification #Instruction Following

2026년 5월 19일

[논문리뷰] Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

본 연구는 빠르게 발전하는 Video Generation 모델들의 품질을 정밀하게 평가하기 위한 표준화된 도구가 부족하다는 점을 해결하고자 한다. 현재의 Video Generation 모델들은 뛰어난 시각적 결과물을 제공하지만, 여전히 고유한 형태의 시각적 오류인 아티팩트를 빈번하게 발생시킨다.

#Review #Multimodal Large Language Models #AI-Generated Videos #Artifact Detection #Video Quality Assessment #Benchmarking

2026년 5월 19일

[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.

#Review #Reinforcement Learning #Self-Distillation #Reasoning #Pointwise Mutual Information #LLM #GRPO #Jensen-Shannon Divergence

2026년 5월 19일

[논문리뷰] Active Learners as Efficient PRP Rerankers

본 요청은 논문 분석을 위해 제공해주신 URL(https://arxiv.org/html/2605.14236)에 접근을 시도하였으나, 네트워크 오류로 인해 논문 본문 내용을 직접 추출할 수 없었습니다.

2026년 5월 19일

[논문리뷰] Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

본 논문은 기존의 연속적 diffusion 언어 모델이 오토레그레시브 Transformer보다 성능이 뒤처지는 문제를 해결하고자 한다. 기존 연구들은 주로 토큰 수준의 확산이나 복잡한 continuous-to-discrete recovery 과정에서 발생하는 오차를 한계로 지적한다.

#Review #Diffusion-Transformer Hybrid #Hidden-State Reconstruction #Geometry-Guided #Diffusion-Friendly #Representation Geometry #Locate-and-Replace

2026년 5월 18일

[논문리뷰] VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

본 논문은 기존의 LLM 기반 비디오 이해 모델들이 겪는 공간적·시간적 참조의 모호성 문제를 해결하기 위해 VideoSeeker를 제안한다.

#Review #Large Vision-Language Models #Instance-level Video Understanding #Visual Prompts #Agentic Tool Invocation #Reinforcement Learning #Data Synthesis Pipeline

2026년 5월 18일

[논문리뷰] Targeted Neuron Modulation via Contrastive Pair Search

LLM이 유해한 요청을 거부하도록 Instruction-tuning되지만, 이러한 Safety behavior의 Mechanistic basis는 여전히 불분명하다.

#Review #Neuron Modulation #Contrastive Neuron Attribution #Refusal Mechanisms #Alignment Fine-tuning #Mechanistic Interpretability #Behavioral Steering #MLP Neurons

2026년 5월 18일

[논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

본 논문은 실세계의 복잡한 전문 워크플로우를 수행하는 Agent의 능력과 이를 평가하는 기존 벤치마크 사이의 격차를 해소하고자 합니다.

#Review #Agentic AI #Omni-modal #Tool-using Agents #Model Context Protocol #Closed-loop Verification #Benchmark

2026년 5월 18일

[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Early Exit #Chain of Thought #Semantic Redundancy #Inference Efficiency #Answer Verification

2026년 5월 18일

[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.

#Review #Vision-Language-Action Models #Information Bottleneck #Robustness #Modality Alignment #Embodied AI #Adapter Design

2026년 5월 18일

[논문리뷰] SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

본 연구는 대규모 오픈소스 Skill 생태계의 비정형성, 중복성, 품질 불균형 문제를 해결하고 에이전트의 효율적인 경험 재사용을 가능하게 하는 체계적인 거버넌스 프레임워크를 제안합니다.

#Review #LLM Agents #Agent Skills #Lifecycle Governance #Skill Recommendation #Attribution #Skill Evolution

2026년 5월 18일

[논문리뷰] SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

본 논문은 기존의 T2I 모델 안전성 확보 방식들이 가진 데이터 의존성과 모델 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Safety Alignment #Online Reinforcement Learning #GRPO #CLIP #Concept Erasure

2026년 5월 18일

[논문리뷰] SNLP: Layer-Parallel Inference via Structured Newton Corrections

본 논문은 Transformer 모델의 고질적인 문제인 Layer-wise Dependency로 인한 추론 지연(Latency) 문제를 해결하고자 합니다.

#Review #Layer-Parallel Inference #Structured Newton Corrections #Transformer #Autoregressive #Solver-induced Inference Bias #Identity Newton #HC Newton

2026년 5월 18일

[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation

기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.

#Review #Mixture-of-Experts #Dynamic Inference #Self-Distillation #Zero-Expert Injection #Large Language Models #Model Adaptation

2026년 5월 18일

[논문리뷰] OProver: A Unified Framework for Agentic Formal Theorem Proving

본 논문은 기존 formal theorem proving 시스템이 증명 실패 시의 feedback과 retrieval을 inference-time heuristic으로만 사용하여 학습과 추론 간의 불일치(mismatch)가 발생하는 문제를 해결하고자 합니다.

#Review #Formal Theorem Proving #Lean 4 #Agentic Proving #Compiler Feedback #Test-Time Refinement #Reinforcement Learning

2026년 5월 18일

[논문리뷰] NGM: A Plug-and-Play Training-Free Memory Module for LLMs

본 논문은 LLM이 추론 시 고유한 로컬 패턴(식별자, 전문 용어, 구문 등)을 재구성하기 위해 과도한 연산 자원을 소모하는 문제를 해결하고자 합니다. 기존의 Conditional Memory 접근법은 학습이 필요한 메모리 테이블이나 별도의 저장소 인프라를 요구하여 유연성과 효율성을 제한합니다.

#Review #Large Language Models #Memory Module #N-gram #Training-Free #Plug-and-Play #Cosine Similarity

2026년 5월 18일

[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Chain of Thought #Probe Trajectories #Representation Engineering #AI Safety #Max-pooling #Interpretability

2026년 5월 18일

[논문리뷰] Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

본 논문은 LLM agent의 Adaptive Tool Use 과정에서 발생하는 성능 저하와 불투명성 문제를 해결하기 위해 모델 고유의 capability에 기반한 Model-Adaptive Tool Necessity 프레임워크를 제안합니다.

#Review #LLM #Tool Use #Meta-cognition #Knowing-Doing Gap #Representation Engineering #Model-Adaptive

2026년 5월 18일

[논문리뷰] MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

본 논문은 LLM에 새로운 지식을 주입할 때 발생하는 Catastrophic Forgetting 문제를 해결하고자 한다.

#Review #Knowledge Injection #Self-Distillation #Catastrophic Forgetting #Language Models #Distribution Alignment #Fine-tuning

2026년 5월 18일

[논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

본 논문은 현재의 GUI agent가 장기적(Long-Horizon) 태스크 수행 시 인터페이스 변화에 따른 태스크 상태를 유지하는 데 한계를 보인다는 점을 문제로 지적합니다.

#Review #GUI Agents #Multimodal Memory #Long-Horizon #Memory Control #MLLM #Working Memory #Episodic Memory

2026년 5월 18일

[논문리뷰] Measuring Maximum Activations in Open Large Language Models

본 논문은 최신 오픈 LLM 생태계에서 Activation의 동적 범위(Dynamic Range)가 단순히 파라미터 수에 비례한다는 기존의 통념을 재검토하고, 모델별 Maximum Activation Magnitude(MM)를 체계적으로 측정하여 배포 시의 위험을 파악하고자 합니다.

#Review #Large Language Models #Activation Range #Quantization #Maximum Activation #LLM Inference #Residual Stream #Model Scaling

2026년 5월 18일

[논문리뷰] LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

본 논문은 긴 비디오 생성 시 발생하는 메모리 병목 현상과 낮은 연산 효율 문제를 해결하기 위해 시스템과 알고리즘이 통합된 인프라 LongLive-2.0을 제안한다.

#Review #Long Video Generation #NVFP4 #Sequence Parallelism #Autoregressive Diffusion #KV Cache Quantization #Balanced SP

2026년 5월 18일

[논문리뷰] LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

본 연구는 장편 비디오 이해를 위해 Video LLMs를 확장할 때 발생하는 고질적인 계산 복잡도와 효율성 병목 문제를 해결하는 데 집중합니다.

#Review #Video LLMs #Vision Encoder #Token Compression #Compressed Token Distillation #Long-form Video Understanding #Spatio-temporal Modeling

2026년 5월 18일

[논문리뷰] Lance: Unified Multimodal Modeling by Multi-Task Synergy

본 논문은 기존 멀티모달 모델들이 이해와 생성이라는 두 가지 이질적인 목적을 통합할 때 발생하는 성능 저하와 작업 범위의 한계를 해결하기 위해 제안되었습니다.

#Review #Unified Multimodal Modeling #Multi-Task Synergy #Dual-Stream Architecture #Modality-Aware Rotary Positional Encoding #Autoregressive Modeling #Flow Matching

2026년 5월 18일

[논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

기존의 비디오 생성 모델 정렬 기법들은 주로 노이즈 기반의 탐색(exploration)이나 SDE 기반의 surrogate policy를 사용하여, 결정론적(deterministic) ODEdynamics로 작동하는 distilled AR 모델의 특성과 상충하는 문제를 야기합니다 .

#Review #Autoregressive Video Generation #Reinforcement Learning #Policy Optimization #Flow Matching #KV Caching #Causal-Semantic Exploration #Trajectory Velocity Energy

2026년 5월 18일

[논문리뷰] Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

본 논문은 현대적인 대화형 비디오 세계 모델들이 가진 구조적 한계인 Action Interface의 고착화 문제를 해결합니다.

#Review #Interactive Video World Model #Natural Language Action Interface #Multi-Entity Control #Cross-Entity Transfer #Streaming Inference #Self-Forcing Distillation

2026년 5월 18일

[논문리뷰] Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

본 연구는 생물학적 기억 체계가 어떻게 뉴런의 물리적 증식 없이도 정보 용량을 획기적으로 확장하는지 해결하고자 합니다.

#Review #Hippocampal Memory #Geometric Stability #Neural Manifold #Population Code #Excitatory-Inhibitory Dynamics #Crystalline Code

2026년 5월 18일

[논문리뷰] GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

본 논문은 현재 MLLMs가 다중 인원 비디오에서 미묘한 비언어적 단서에 기반한 사회적 추론을 수행하는 데 어려움을 겪는 문제를 해결합니다.

2026년 5월 18일

[논문리뷰] From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

본 논문은 현재의 코딩 에이전트가 웹 애플리케이션 생성 시 겪는 70% 이상의 기능적 요구사항 미충족 문제를 해결하는 것을 목표로 합니다. 기존의 에이전트는 코드 파일이나 터미널 출력만을 기반으로 검증을 수행하지만, 웹 애플리케이션의 정확성은 브라우저 환경에서의 동적 상호작용을 통해서만 평가될 수 있습니다 .

#Review #Multi-Agent System #Test-Driven Development #Web Development #Code Generation #Closed-Loop Validation #Large Language Model

2026년 5월 18일

[논문리뷰] FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

본 논문은 기존의 금융 벤치마크가 지닌 한계를 극복하고 LLM의 실질적인 금융 전문 역량을 정밀하게 진단하기 위해 FINESSE-Bench를 제안한다.

#Review #Large Language Models #Financial Benchmarking #Difficulty Hierarchy #Technical Analysis #LLM-as-Judge #Professional Competence #Financial Reasoning

2026년 5월 18일

[논문리뷰] Evaluating Cognitive Age Alignment in Interactive AI Agents

본 논문은 최첨단 MLLM 에이전트가 높은 태스크 정확도에도 불구하고 실제 아동과의 상호작용에서 인지적 수준이 맞지 않는 설명을 제공하거나 과도하게 복잡한 추론을 시도하는 문제를 해결하고자 한다.

#Review #Cognitive Age Alignment #MLLM Agents #ChildAgentEval #Developmental Psychology #Skill-Guided Distillation #WISC #Interactive Evaluation

2026년 5월 18일

[논문리뷰] EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

본 논문은 LLM의 컨텍스트 윈도우 확장이 요구하는 막대한 계산 자원과 데이터 수집의 어려움을 해결하기 위해 EndPrompt를 제안합니다.

#Review #Long-Context Extension #EndPrompt #Terminal Anchoring #Positional Interpolation #RoPE #Transformer #Sparse Supervision

2026년 5월 18일

[논문리뷰] E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

본 논문은 모델 병합(Model Merging) 후 저비트 양자화(Low-bit Quantization)를 적용할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Post-Merge Quantization #Model Merging #PTQ #Quantization Deviation #Merged-Weight Anchoring #Expert-Guided Calibration

2026년 5월 18일

[논문리뷰] CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

본 논문은 기존 Chunked Prefill 환경에서 Block-Sparse Attention 및 Query-Subsampled KV Selection 방식이 가진 성능 한계를 극복하기 위해 CompactAttention을 제안합니다.

#Review #Chunked Prefill #KV Selection #Block-Sparse Attention #Paged Attention #Zero-Copy Execution #Long-Context LLM

2026년 5월 18일

[논문리뷰] Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

본 논문은 기존의 text-driven 3D 생성 방식이 갖는 공간적 정보의 불명확성과, 기존 agentic 프레임워크가 holistic room generation 과정에서 직면하는 무한 루프 및 불안정성 문제를 해결하고자 합니다.

#Review #Agentic AI #3D Room Synthesis #MLLM #Blender Code #Execution Harness #Cross-stage Memory #Top-down View

2026년 5월 18일

[논문리뷰] Code as Agent Harness

본 논문은 LLM 기반 에이전트 시스템에서 코드가 단순한 생성 대상(target artifact)을 넘어, 시스템의 핵심 운영 인프라로 전환되고 있다는 점을 지적한다.

#Review #Agent Harness #Coding Agent #Harness Engineering #Agentic AI #Code-as-Agent-Harness #Executable Verification

2026년 5월 18일

[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.

#Review #Healthcare AI #AI Agents #Policy-Rich Workflows #Long-Horizon #Benchmark #Managed-Care Operations #Model Context Protocol

2026년 5월 18일

[논문리뷰] AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

본 연구는 기존 VLM 에이전트가 긴 호흡의 공간적 과업(long-horizon spatial tasks)을 수행할 때 발생하는 '공간적 맹목(spatial blindness)'과 '모달리티 불일치(modality mismatch)' 문제를 해결합니다.

#Review #VLM Agents #Visual Skill Memory #Reinforcement Learning #Reward Shaping #Spatial Reasoning #Self-Evolving

2026년 5월 18일

[논문리뷰] AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

본 연구는 GPU 커널 최적화 작업이 딥러닝 시스템의 효율성에 핵심적임에도 불구하고, 기존 벤치마크들이 이를 충분히 포괄하지 못한다는 문제 의식에서 출발합니다.

#Review #GPU Kernel Optimization #AI Coding Agents #Generalization #Performance Benchmarking #Triton #HIP #LLM Evaluation

2026년 5월 18일

[논문리뷰] Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

본 논문은 LLM 기반의 자율 에이전트가 시장에서 상호작용할 때 발생하는 체계적인 경제적 리스크를 해결하고자 한다. 기존의 AI 정렬 방식은 개별 에이전트의 사실성이나 무해성에만 집중할 뿐, 다수의 에이전트가 상호작용하며 만드는 시장 수준의 불안정성을 제어하지 못한다.

#Review #Multi-Agent Systems #Economic Alignment #Large Language Models #Simulation Framework #Market Stability #Reinforcement Learning

2026년 5월 18일

[논문리뷰] Actionable World Representation

본 논문은 물리 세계의 역학을 효과적으로 modeling하고 제어할 수 있는, 신뢰성 있는 디지털 트윈(Digital Twin)을 구축하는 문제를 해결하고자 합니다.

#Review #Physical World Models #Digital Twin #Neural Implicit Representation #Actionable Representation #Deformation Modeling

2026년 5월 18일

[논문리뷰] AI for Auto-Research: Roadmap & User Guide

본 논문은 AI가 연구의 전 과정을 자동화할 수 있는 단계에 이르렀으나, 이로 인해 발생하는 심각한 연구 무결성(Integrity) 문제를 해결하고자 합니다.

#Review #AI-assisted research #Research Lifecycle #Autonomous Agents #Scientific Integrity #End-to-End Analysis #Research Integrity

2026년 5월 18일

[논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

현재 Large Language Models (LLM)의 추상적 추론 능력 평가는 진정한 추론 요구와 벤치마크 확장성 사이의 근본적인 trade-off에 직면해 있다.

#Review #Abstract Reasoning #LLM Evaluation #Cycle Consistency #Benchmark Generation #Formal Verification #Task Expansion #Cognitive Analysis

2026년 5월 18일

[논문리뷰] WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

본 논문은 최신 3D generative world model들이 생성한 장면의 정적인 특성과 낮은 편집 가능성 문제를 해결하기 위해 WorldAct를 제안합니다.

#Review #3D Gaussian Splatting #Scene Decomposition #Agent-Driven Interaction #3D World Modeling #Embodied Simulation #Interactive Content Creation

2026년 5월 17일

[논문리뷰] Unlocking Dense Metric Depth Estimation in VLMs

본 논문은 기존 VLMs가 2D 과업에는 뛰어나지만 3D 이해 능력은 여전히 제한적이라는 핵심 문제에서 출발합니다 . 기존 연구들은 외부의 3D 전문 모델로부터 지식을 증류하거나, 텍스트 기반으로만 학습하여 정밀한 기하학적 정보가 부족하고 오류가 누적되는 한계를 보입니다.

#Review #Vision-Language Models #Dense Metric Depth Estimation #3D Geometry #Unified Supervision #Spatial Reasoning

2026년 5월 17일

[논문리뷰] Steered LLM Activations are Non-Surjective

본 연구는 Activation Steering이 유도하는 모델의 내부 행동 변화가 실제 텍스트 프롬프트를 통해서도 동일하게 구현 가능한지라는 근본적인 의문을 해결하고자 합니다.

#Review #Activation Steering #Surjectivity #LLM Interpretability #Prompt-Reachability #White-box Intervention #AI Safety

2026년 5월 17일

[논문리뷰] Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models

본 논문은 CLIP과 같은 대규모 vision-language 모델을 하위 태스크(downstream task)에 맞게 fine-tuning할 때 발생하는 OOD(Out-of-Distribution) 성능 저하 문제를 해결하고자 한다.

#Review #CLIP #Sparse Autoencoders #Robust Fine-tuning #Interpretability #Representational Drift #Computer Vision

2026년 5월 17일

[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .

#Review #Large Language Models #Competitive Programming #Agentic Evolution #Reinforcement Learning #Knowledge Network #Code Generation #Multi-Agent System

2026년 5월 17일

[논문리뷰] ReactiveGWM: Steering NPC in Reactive Game World Models

본 논문은 기존의 Game World Models가 NPC를 단순한 배경 요소로 취급하여 상호작용이 결여된 정적인 비디오 렌더러에 머물러 있는 문제를 해결하고자 합니다.

#Review #Game World Models #NPC #Controllable Video Generation #Diffusion Models #Strategy Transfer #Cross-Attention #Interaction Logic

2026년 5월 17일

[논문리뷰] PhysBrain 1.0 Technical Report

본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Physical Commonsense #Egocentric Video #Data Engine #VLA Adaptation

2026년 5월 17일

[논문리뷰] PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

본 연구는 기존 GUI 에이전트들이 주로 의존하는 'region-tolerant' 패러다임이 정밀한 기하학적 구성 작업에서 실패하는 근본적인 문제를 해결하고자 한다.

#Review #GUI Agents #Geometric Reasoning #Precision-Sensitive #Dependency-Structured Planning #Pixel-Grounded Supervised Tuning #Reinforcement Learning #Semantic-Execution Gap

2026년 5월 17일

[논문리뷰] OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

본 연구는 로봇 학습을 위한 고품질 데이터 수집의 높은 비용과 확장성 문제를 해결하기 위해, 다양한 humanoid embodiment 간의 cross-embodiment video generation을 수행하고자 합니다.

#Review #Cross-embodiment Video Generation #Diffusion Transformer #Embodiment-specific Adaptation #Streaming Inference #Paired-free Learning

2026년 5월 17일

[논문리뷰] Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

본 논문은 RLVR 환경에서 고질적인 문제인 탐색의 병목 현상을 해결하고자 합니다. 기존 방식은 탐색 효율을 높이기 위해 샘플링 횟수(Rollout)를 무작정 늘리는 방식을 취하지만, 이는 계산 비용이 극심하고 long-tail에 위치한 희귀한 정답 추론 경로를 발견하는 데 한계가 있습니다 .

#Review #RLVR #Reinforcement Learning #Exploration #LLM Reasoning #Strategy Nudging #Inter-Intra Group Advantage #Distillation

2026년 5월 17일

[논문리뷰] MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

본 논문은 대규모 VLA 모델 학습에 필수적인 장기 시점(long horizon)의 egocentric 데이터를 수집하기 위한 개방형 인프라를 구축하는 데 목적이 있습니다. 기존 데이터셋은 에피소드 길이가 짧고 고가의 하드웨어 장비에 의존해야 하는 등 확장성에 한계를 보입니다.

#Review #Egocentric Data #Vision Language Action (VLA)#Long-horizon #SLAM #STERA #Smartphone-based Capture

2026년 5월 17일

[논문리뷰] MMSkills: Towards Multimodal Skills for General Visual Agents

본 논문은 시각적 에이전트가 복잡한 환경에서 성공적인 결정을 내리기 위해 필요한 Multimodal Procedural Knowledge의 부재 문제를 해결하고자 합니다.

#Review #Multimodal Agents #Procedural Knowledge #Visual Grounding #Branch Loading #GUI Agents #Skill Representation

2026년 5월 17일

[논문리뷰] Look Before You Leap: Autonomous Exploration for LLM Agents

본 논문은 현대의 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 조기 착취(Premature Exploitation) 문제에 빠지는 현상을 해결하고자 합니다.

#Review #LLM Agents #Autonomous Exploration #RLVR #GRPO #Exploration Checkpoint Coverage #Explore-then-Act

2026년 5월 17일

[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Parameter Dynamics #Training Efficiency #EffOPD #Subspace Evolution

2026년 5월 17일

[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.

#Review #Reinforcement Learning #Large Language Models #Verifiable Rewards #Policy Optimization #Error Correction #Reasoning Capability

2026년 5월 17일

[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors

본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.

#Review #POMDP #World Model #Large Language Models #Program Induction #Sample Efficiency #Partial Observability #Belief-based Filtering

2026년 5월 17일

[논문리뷰] InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation

본 논문은 Autoregressive 모델 기반의 이미지 생성에서 텍스트와 얼굴의 품질이 저하되는 문제를 해결하고자 합니다.

#Review #Discrete Tokenization #Autoregressive Image Generation #Perceptual Loss #Text Fidelity #Face Fidelity #Content-Aware Supervision

2026년 5월 17일

[논문리뷰] Hölder Policy Optimisation

본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.

#Review #Reinforcement Learning #Large Language Models #Hölder Mean #Gradient Concentration #Policy Optimisation #Group Relative Policy Optimisation (GRPO)

2026년 5월 17일

[논문리뷰] HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

본 논문은 기존의 MoE 압축 방식들이 전문가 간의 결합 가능성을 평가할 때 사용하는 pairwise 점수의 구조적 한계를 해결하고자 합니다.

#Review #Sparse Mixture-of-Experts #Simplicial Complex #Hodge Decomposition #Harmonic Kernel #Model Compression #Topological Deep Learning

2026년 5월 17일

[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.

#Review #Large Language Model #KV-cache #Multi-head Latent Attention #GQLA #Hardware-Adaptive #Roofline Model #Tensor Parallelism

2026년 5월 17일

[논문리뷰] From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

기존의 Diffusion-based 이미지 편집 모델들은 '모자를 추가하라'와 같은 명확하고 구체적인 작업에는 우수한 성능을 보이지만, '광고를 채식주의자 친화적으로 바꾸라'와 같은 추상적이고 다단계의 장기적인(long-horizon) 지시사항을 처리하는 데에는 한계가 있습니다.

#Review #Long-horizon #Image Editing #Planner-Orchestrator #Experiential Learning #Reward-driven #Multimodal LLM #Diffusion Models

2026년 5월 17일

[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

본 논문은 Video Diffusion Model의 효율적인 정렬(Alignment)을 위한 단일 단계(Single-step) 훈련 프레임워크인 Flash-GRPO를 제안합니다 .

#Review #Video Diffusion Models #Group Relative Policy Optimization #Reinforcement Learning #Single-step Training #Iso-temporal Grouping #Temporal Gradient Rectification #Alignment

2026년 5월 17일

[논문리뷰] FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

본 논문은 실시간 인터랙티브 가먼트 교체와 비디오 생성을 동시에 달성하기 어려운 기존의 한계를 해결하고자 합니다. 기존의 subject-to-video(S2V) 방식은 주로 identity 보존에만 집중하고 있어, 패션 산업이나 콘텐츠 생성에서 요구되는 실시간이고 유연한 가먼트 제어 능력이 부족합니다.

#Review #Video Customization #Garment Switching #Autoregressive Generation #In-Context Learning #Streaming Distillation #KV Cache Rescheduling #Real-Time Inference

2026년 5월 17일

[논문리뷰] FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

본 논문은 기존 3D avatar 재구성 기법들이 요구하는 과도한 연산 시간과 복잡한 사전 처리의 한계를 극복하기 위해 FFAvatar를 제안한다.

#Review #3D Gaussian Splatting #Feed-Forward #Few-Shot #Avatar Reconstruction #FLAME #Multi-View #Generalization

2026년 5월 17일

[논문리뷰] Efficient Image Synthesis with Sphere Latent Encoder

본 연구는 기존 few-step 생성 모델들이 겪는 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Few-step Image Generation #Spherical Latent Space #Representation Autoencoder #Denoising Model #Latent Space Sampling

2026년 5월 17일

[논문리뷰] Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

본 논문은 대규모 Long-CoT 모델의 높은 추론 비용을 해결하기 위한 효율적인 reasoning distillation 프레임워크를 제안합니다.

#Review #Reasoning Distillation #Collaborative Decoding #Long-CoT #Predictive Perplexity #Multi-Teacher #Beam Search #Step-wise Synthesis

2026년 5월 17일

[논문리뷰] DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules

본 연구는 산업 설비의 고장 감지 이후, 엔지니어가 수행해야 할 구체적인 정비 단계(maintenance steps)를 추천하는 데 있어 LLM의 역량을 체계적으로 진단하고자 한다.

#Review #DiagnosticIQ #Industrial Maintenance #LLM Benchmark #Symbolic Rules #MCQA #Fault Detection #Action Recommendation

2026년 5월 17일

[논문리뷰] DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

본 논문은 기존의 로봇 조작 벤치마크가 단순한 그리퍼 중심의 환경에 치중되어 있어, 진정한 의미의 인간 수준(Human-level) 조작 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.

#Review #Dexterous Manipulation #Robotics Benchmark #Teleoperation #Imitation Learning #Vision-Language-Action Models #MuJoCo #Domain Randomization

2026년 5월 17일

[논문리뷰] CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

본 논문은 현대 MLLM의 Doc-VQA 평가 방식이 최종 답변의 정답 여부에만 지나치게 의존하여, 실제 추론의 근거가 되는 시각적 증거의 정확성을 검증하지 못한다는 문제를 지적합니다.

#Review #Multimodal Large Language Models #Document Visual Question Answering #Evidence Attribution #Trustworthy AI #Strict Attributed Accuracy #Attribution Hallucination

2026년 5월 17일

[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

본 논문은 기존의 RSCD 연구들이 주로 픽셀 단위의 결정론적 분류(discriminative classification)에 의존하고 있어, 지역적 일관성 부족과 모호성 처리에 한계가 있다는 점을 지적합니다.

#Review #Remote Sensing Change Detection #Rectified Flow #Generative Models #Latent Space #Diffusion Transformer #Coherence #Confidence Estimation

2026년 5월 17일

[논문리뷰] CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage

본 논문은 기존 3D 자산 데이터셋들이 파노라마 모델 학습을 위한 효과적인 '관측 레이어(Observation layer)'를 정의하지 못하고 있다는 문제점을 지적합니다.

#Review #Panoramic #RGB-D-Pose #Viewpoint Curation #Submodular Maximization #Scene Coverage #Dataset

2026년 5월 17일

[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.

#Review #Neural Architecture Search #Foundation Models #LLM Agents #Recursive Self-Improvement #Hybrid Architectures #AIRS-Bench

2026년 5월 17일

[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.

#Review #Agent Evaluation #Long-Horizon #Native-Runtime #Multimodal #Reproducible #Hybrid Verification

2026년 5월 14일

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding

본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 .

#Review #Video Understanding #Metaphorical Understanding #Subtext Interpretation #Multimodal Benchmark #Rhetorical Mechanisms #Social Value Signals

2026년 5월 14일

[논문리뷰] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

본 논문은 기존의 3D 장면 편집 모델들이 직면한 다중 뷰 불일치 및 연산 효율성 문제를 해결하고자 합니다. 대부분의 기존 연구들은 2D 이미지를 개별적으로 편집한 후 이를 3D로 다시 쌓는 '2D-lifting' 방식을 채택하고 있어, 뷰 간의 기하학적 일관성이 깨지거나 텍스처가 흐릿해지는 한계가 존재합니다.

#Review #3D Scene Editing #Feed-forward #Residual Field Prediction #Text-conditioned Editing #Multi-view Consistency #DeltaScene Dataset

2026년 5월 14일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] Topology-Preserving Neural Operator Learning via Hodge Decomposition

본 연구는 Riemannian manifolds에서 physical field equations의 solution operators를 resolution-independent하고 structure-preserving 방식으로 학습하는 핵심 문제를 다룬다.

#Review #Neural Operator #Hodge Decomposition #Differential Forms #Riemannian Manifolds #Spectral Methods #Topological Deep Learning #Discrete Exterior Calculus

2026년 5월 14일

[논문리뷰] Self-Distilled Agentic Reinforcement Learning

본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Self-Distillation #Token-Level Gating #Privileged Guidance #Multi-turn Agents #GRPO

2026년 5월 14일

[논문리뷰] Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

본 논문은 단일 위성 이미지만으로 고품질의 3D 스트리트 뷰 장면을 생성하는 데 따르는 기하학적 정밀도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Generation #Satellite Imagery #Feed-Forward #NeRF #Geometric Constraint #Street-Level Rendering

2026년 5월 14일

[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.

#Review #LLM Agents #Long-term Memory #Implicit Conflict #State Tracking #Belief Revision #Adjudication

2026년 5월 14일

[논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

본 연구는 산업용 LLM 에이전트 시스템에서 발생하는 계획의 구조적 불일치와 비효율적인 실행 비용 문제를 해결하고자 합니다. 기존 LLM 플래너는 언어적 추론에는 능하지만, 실제 산업 현장에서 요구되는 구조적 유효성을 보장하지 못해 빈번한 실행 실패를 야기합니다.

#Review #LLM Agents #Industrial Asset Operations #DAG #Prefix-based Execution Control #AssetOpsBench #Validator #Simulator-Critic

2026년 5월 14일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

본 논문은 LLM 라우팅 시스템에서 핵심적인 역할을 하는 LLM Profile 설계의 모호성을 해결하고 그 디자인 공간을 체계화하는 것을 목적으로 한다. 기존 연구들은 주로 라우터 메커니즘 개선에만 집중하여, 정작 모델의 역량을 규정하는 프로파일 설계가 라우팅 성능에 미치는 영향은 간과해왔다 .

#Review #LLM Routing #LLM Profiling #Heterogeneous Graph #RouteProfile #Design Space #Cold-Start #Model Selection

2026년 5월 14일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

본 논문은 pre-trained image generator를 3D 제어 가능한 모델로 미세 조정(fine-tuning)할 때 발생하는 photorealism 저하 문제를 해결한다.

#Review #Diffusion Models #3D Generation #Photorealism #Domain Adaptation #Representation Binding #Multiview Synthesis

2026년 5월 14일

[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.

#Review #Autoregressive Video Generation #Diffusion Models #Consistency Models #Reinforcement Learning #GRPO #Training-Time Test #Video Extrapolation

2026년 5월 14일

[논문리뷰] Quantitative Video World Model Evaluation for Geometric-Consistency

본 연구는 현존하는 생성형 비디오 모델이 시각적으로는 고품질을 구현하지만, 엄격한 물리적 법칙을 따르는 3D 공간 이해도는 낮다는 점을 해결하고자 합니다.

#Review #Video World Models #Geometric Consistency #PDI-Bench #3D Lifting #Perspective Distortion Index #Physical Realism

2026년 5월 14일

[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .

#Review #Human Video Generation #Reinforcement Learning #Motion Reward #Physical Feasibility #3D Human Motion #SMPL #MuJoCo

2026년 5월 14일

[논문리뷰] PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

기존의 MLLM들은 인간의 시야각과 유사한 perspective-image 패러다임에 의존하여 360° 환경을 파악하는 데 한계를 보입니다.

#Review #Multimodal Large Language Models #Panorama #Equirectangular Projection #Spatial Reasoning #Spatial Supersensing #Instruction Tuning

2026년 5월 14일

[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

본 논문은 심각하게 훼손된 텍스트 이미지에서 기존의 Text-SR 방법론들이 보이는 한계점을 지적하며 연구를 시작합니다. 기존 연구들은 강력한 생성적 Prior를 사용하려 시도하지만, 심각하게 열악한 입력 환경에서는 이 Prior가 신뢰할 수 없는 노이즈가 되어 인식 오류를 발생시킵니다.

#Review #Text Image Super-Resolution #Diffusion Model #Flow Matching #Uncertainty-Aware #Prior Rectification #Structure Refinement

2026년 5월 14일

[논문리뷰] PREPING: Building Agent Memory without Tasks

LLM 에이전트는 새로운 환경에 배치될 때 작업별 경험이 부족한 상태에서 발생하는 Cold-Start 문제에 직면합니다. 기존의 메모리 구축 방식은 사전에 수집된 사람의 시연(offline)이나 배포 후 사용자와의 상호작용(online)에 의존하는데, 이는 배포 초기 단계의 실패를 야기하거나 구축 비용을 증가시킵니다 .

#Review #Agent Memory #Procedural Memory #Synthetic Practice #Cold-Start #Agentic Context Engineering #Tool-Use #Pre-task Construction

2026년 5월 14일

[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Dynamic Environments #Inference-time Wrapper #Closed-form Optimization

2026년 5월 14일

[논문리뷰] Orchard: An Open-Source Agentic Modeling Framework

본 논문은 에이전트 모델링 연구에서 인프라와 훈련 기법 간의 결합도가 높아 재현성과 확장성에 한계가 있다는 점을 지적합니다. 기존 연구들은 에이전트의 하네스(harness)와 훈련 스택이 환경 관리와 강하게 결합되어 있어, 서로 다른 도메인이나 환경에서의 재사용이 어렵습니다.

#Review #Agentic Modeling #Kubernetes-native #Orchard Env #Balanced Adaptive Rollout #Credit-assignment SFT #SWE-bench #GUI Agents #Tool-calling

2026년 5월 14일

[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting

본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.

#Review #Time Series Forecasting #Large Language Models #Agentic Framework #Multimodal #Reasoning #Temporal Dynamics #Calibration

2026년 5월 14일

[논문리뷰] MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

본 연구는 LVLM과 Memory-Augmented Agents 간의 기억 능력을 체계적으로 비교할 수 있는 표준화된 벤치마크의 부재를 해결합니다. 기존의 장기 문맥 벤치마크는 주로 텍스트 기반이거나 시각적 정보의 필요성이 낮아 진정한 다중 모달 추론 능력을 검증하지 못한다는 한계가 있습니다.

#Review #Multimodal Memory #Large Vision-Language Models #Long-Context #Benchmark #Retrieval-Augmented Generation #Multi-Session Reasoning

2026년 5월 14일

[논문리뷰] MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

본 논문은 현대의 멀티모달 에이전트가 장기 기억(Long-term memory)을 관리하는 과정에서 시각적 정보가 왜곡되거나 손실되는 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Agent Memory #Long-term Memory #Visual Evidence Granularity #Memory Reasoning Depth #Vision-Language Models #Benchmarking

2026년 5월 14일

[논문리뷰] LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

본 논문은 배포된 AI 에이전트의 안전 가드레일이 고정된 사전 정의(pre-deployment definition)만으로는 변화하는 환경과 개별적인 로컬 맥락의 안전 위험을 효과적으로 제어하지 못하는 문제를 해결합니다.

#Review #Lifelong Safety Adaptation #Guardrails #Conservative Policy Induction #Structured Policy Memory #Confidence-gated Reuse #Conflict-aware Local Refinement #Sparse Feedback

2026년 5월 14일

[논문리뷰] Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

본 연구는 대규모 다중 에이전트 시스템에서 충돌 없는 경로 탐색을 효율적으로 수행하기 위한 탈중앙화 MAPF 솔루션의 한계를 극복하고자 합니다.

#Review #Multi-Agent Pathfinding #Imitation Learning #Transformer #Decentralized Coordination #Local Communication #Scalability

2026년 5월 14일

[논문리뷰] Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

본 논문은 언어 모델의 자기 개선(Self-improvement)이 단순히 정적인 데이터셋을 모방하는 것을 넘어, 모델이 자신을 학습시킬 새로운 환경을 스스로 구축해야 한다는 관점에서 출발합니다.

#Review #Reinforcement Learning #Reasoning RL #Verifiable Environment Synthesis #Self-Improving LLM #Stable Solve–Verify Asymmetry

2026년 5월 14일

[논문리뷰] LLM-based Detection of Manipulative Political Narratives

본 연구는 소셜 미디어상에서 폭증하는 정치적 조작 서사를 실시간으로 식별하고 구조화하는 계산적 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #FIMI #Strategic Narrative #LLM #HDBSCAN #UMAP #Computational Social Science #Manipulation Detection

2026년 5월 14일

[논문리뷰] IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

본 논문은 프레임 단위로만 조건을 부여하는 기존 VLA 모델들이 부분 관측성(Partial Observability) 하에서 발생하는 짧은 기간의 의도 모호성 문제를 해결하지 못한다는 점을 지적합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #AliasBench #Short-Horizon Intent #Imitation Learning #Inter-chunk Consistency #Partial Observability

2026년 5월 14일

[논문리뷰] Ideology Prediction of German Political Texts

본 논문은 기존의 정치 성향 분석 도구들이 가진 이분법적 분류의 한계를 극복하고, 정치 담론을 연속적인 스펙트럼상에서 정량화하기 위한 새로운 알고리즘을 제안한다 .

#Review #Political Ideology Prediction #Transformer-based Models #Continuous Spectrum #Multilabel Classification #German Political Texts

2026년 5월 14일

[논문리뷰] FutureSim: Replaying World Events to Evaluate Adaptive Agents

본 연구는 AI 에이전트가 변화하는 현실 세계 환경에서 적응형 예측을 수행하는 능력을 실질적으로 측정하기 위한 표준화된 시뮬레이션 환경의 부재를 해결하고자 합니다. 기존의 게임 기반이나 정적인 벤치마크는 실제 사회적 진화와 사건의 연대기적 특성을 반영하지 못한다는 한계가 있습니다.

#Review #Adaptive Agents #Long-horizon Forecasting #Test-time Adaptation #Chronological Replay #Agentic Search #Brier Skill Score

2026년 5월 14일

[논문리뷰] FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

본 논문은 open-ended 코딩 훈련을 위한 고품질 데이터의 부족 문제를 해결하기 위해 FrontierSmith를 제안합니다.

#Review #FrontierSmith #Open-ended Coding #LLM #Idea Divergence #Automated Data Synthesis #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

본 논문은 AR 비디오 확산 모델에서 발생하는 과도한 어텐션 연산 복잡도와 메모리 오버헤드 문제를 해결하고자 합니다. 기존 모델들은 생성된 프레임이 축적될수록 전체 KV Cache를 참조하도록 강제되어, 고해상도 및 장기 비디오 생성 시 효율성이 극도로 저하되는 한계가 있습니다 .

#Review #Autoregressive Video Diffusion #KV Cache Compression #Attention Head Specialization #Inference Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

기존 LLM agent의 기억 시스템은 저장된 데이터(콘텐츠)는 진화하지만, 이를 검색하는 Retrieval 인프라가 배포 시점에 고정되어 있어 시간 경과에 따른 최적화 불일치(Mismatch)가 발생한다.

#Review #LLM Agents #Long-term Memory #AutoResearch #Self-evolving Architecture #Retrieval-Augmented Generation

2026년 5월 14일

[논문리뷰] Dynamic Latent Routing

본 연구는 LLM의 post-training 과정에서 기존 discrete latent 주입 방식이 갖는 구조적 파괴와 학습 단계의 비효율성을 해결하고자 합니다.

#Review #Dynamic Latent Routing #Markov Decision Processes #General Dijkstra Search #Language Model #Representation Engineering #Policy Composition

2026년 5월 14일

[논문리뷰] Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

본 연구는 고품질 레이어드 그래픽 디자인 데이터를 생성하기 위한 스케일러블(scalable)하고 실용적인 대안으로서 순수 합성 데이터의 효용성을 검증하고자 합니다.

#Review #Layered Design Decomposition #Synthetic Data #Graphic Design #Data-Centric Study #VLM-Guided Inference #CLD Baseline

2026년 5월 14일

[논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

본 논문은 기존의 멀티태스크 강화학습(RL) 방식이 겪는 최적화 간섭(Optimization Interference)과 성능 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Diffusion Models #On-Policy Distillation #Multi-Task Reinforcement Learning #Flow Matching #Preference Alignment

2026년 5월 14일

[논문리뷰] Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

본 논문은 대규모 LLM의 추론 성능 향상을 위한 고비용의 post-training(instruction tuning, RL 등) 과정을 배제하고, 기존 Checkpoint 내에 잠재된 능력을 재조합하는 비용 효율적인 대안을 제시합니다.

#Review #Model Merging #Evolutionary Optimization #Large Language Models #Reasoning #Diagnostic-Guided #Training-Free

2026년 5월 14일

[논문리뷰] CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

본 논문은 현대의 Vision-Language Models(VLMs)가 시각적 입력으로부터 위상적 위계 구조를 정확하게 파악하는 데 한계를 보인다는 문제를 해결하고자 합니다.

#Review #Topological Reasoning #Vision-Language Models #Jordan Curves #Reinforcement Learning #Structured Prediction #Containment Tree

2026년 5월 14일

[논문리뷰] Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

본 논문은 실시간 인터랙티브 비디오 생성을 위해 Frame-wise 수준의 초저지연 1–2 step 생성 체계로 확장이 필요함을 정의합니다 . 기존의 연구들은 주로 Chunk-wise 4-step 방식을 채택하여 실시간성 확보에 한계가 있었으며, 적절한 Few-step AR 학생 모델 초기화가 병목 현상으로 작용합니다.

#Review #Autoregressive Diffusion #Diffusion Distillation #Real-time Video Generation #Causal Consistency Distillation #Few-Step Inference #World Models

2026년 5월 14일

[논문리뷰] Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

본 논문은 현대의 Omni-modal LLM들이 기록하는 벤치마크 성능 향상이 진정한 모달리티 통합(integration)보다는 visual shortcut을 활용한 결과일 수 있다는 문제를 제기합니다.

#Review #Omni-modal LLM #Visual Leakage #OmniClean #Staged Post-Training #Self-Distillation #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

본 논문은 LLM 기반 멀티 에이전트 시스템이 고도로 복잡해짐에 따라 발생하는 비예측적 장애와 구조적 경직성 문제를 해결하기 위해 작성되었습니다.

#Review #LLM-based Agents #Multi-Agent Systems #Multi-Agent Collaboration #Failure Attribution #Self-Evolution

2026년 5월 14일

[논문리뷰] BOOKMARKS: Efficient Active Storyline Memory for Role-playing

기존 Role-playing Agents (RPAs)의 메모리 시스템은 주로 recurrent summarization 방식에 의존하며, 이는 중요한 세부 정보가 압축 과정에서 불가피하게 손실되는 문제를 야기합니다.

#Review #Role-playing Agents #Memory Systems #Search-based Grounding #Active Grounding #Passive Updating #Long-horizon Consistency #Efficiency #Storyline Memory

2026년 5월 14일

[논문리뷰] BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

본 논문은 표준 MoE 모델의 고정된 Top-K 라우팅 방식이 초래하는 연산 중복 문제를 해결하기 위해 BEAM을 제안한다. 기존의 Top-K 메커니즘은 토큰별 복잡도를 고려하지 않고 모든 토큰에 동일한 수의 Expert를 할당하여 불필요한 연산을 발생시킨다.

#Review #Mixture-of-Experts #Dynamic Routing #Expert Sparsity #Inference Acceleration #Binary Expert Activation Masking #vLLM

2026년 5월 14일

[논문리뷰] Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

본 논문은 LLM reasoning을 위한 On-Policy Self-Distillation (OPSD)에서 teacher-side exposure mismatch라는 간과된 bottleneck을 식별하고 해결하고자 합니다.

#Review #Self-Distillation #LLM Reasoning #Teacher Exposure #On-Policy #Adaptive Control #Reinforcement Learning #Beta-policy

2026년 5월 14일

[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.

#Review #Olympiad Reasoning #Reinforcement Learning #Test-time Scaling #Supervised Fine-tuning #Reasoning Models #Proof-search #Reverse-Perplexity Curriculum

2026년 5월 14일

[논문리뷰] ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

본 논문은 기존 Visual Reasoning 기법들이 직면한 연산 효율성 및 아키텍처 호환성 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Functional Token #LA-GRPO #Autoregressive Generation #Multimodal LLM #Agentic Reasoning

2026년 5월 14일

[논문리뷰] WriteSAE: Sparse Autoencoders for Recurrent State

본 논문은 기존의 Residual SAE가 해결하지 못했던 state-space 및 hybrid recurrent language model의 matrix cache write 문제를 다룬다.

#Review #Sparse Autoencoders #State-Space Models #Recurrent Neural Networks #Mechanistic Interpretability #Cache-Patching #WriteSAE

2026년 5월 13일

[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.

#Review #Speech Recognition #Curriculum Learning #Indic Languages #Fine-tuning #Whisper #Studio-bias #Robustness

2026년 5월 13일

[논문리뷰] Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

본 연구는 기존의 이미지 미학 평가 방식인 Scalar Score 예측이 인간의 실제 비교 선호도를 충실히 반영하지 못한다는 문제를 제기합니다. 기존 연구들은 독립적인 점수 매기기를 통해 순위를 도출하는데, 이는 annotator 간의 의견 불일치와 모호한 미적 기준을 야기합니다.

#Review #Multimodal Large Language Models #Visual Aesthetic Benchmark #Comparative Ranking #Expert Consensus #Aesthetic Evaluation #Fine-tuning

2026년 5월 13일

[논문리뷰] TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

본 논문은 기존의 영상 기반 3D 추적 방식이 가진 한계를 극복하고, 사전 학습된 비디오 생성 모델의 풍부한 시공간적 지식을 활용하여 효율적인 dense 3D tracking 프레임워크를 구축하는 것을 목표로 합니다.

#Review #Video Diffusion Transformer #Dense 3D Tracking #Dual-Latent Representation #Temporal RoPE Alignment #Reference-Anchored Tracking

2026년 5월 13일

[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.

#Review #On-policy Distillation #Reward Extrapolation #Structured Output #Format Adherence #Importance Sampling #LLM

2026년 5월 13일

[논문리뷰] The DAWN of World-Action Interactive Models

본 논문은 기존 World Action Models(WAMs)가 세계 예측과 행동 생성을 독립적인 병렬 구조나 고정된 predict-then-plan 파이프라인으로 처리함으로써, 주행 환경의 핵심인 '행동 의존적 미래(action-contingent future)'를 모델링하는 데 한계가 있음을 지적합니다.

#Review #World-Action Interactive Models #Autonomous Driving #Latent Generative Model #Recursive Interaction #Trajectory Planning #Action-Contingent

2026년 5월 13일

[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes

본 논문은 현대의 멀티모달 모델들이 이미지를 코드로 변환하는 능력을 평가할 때 발생하는 벤치마크 오염과 고정된 데이터셋의 한계를 해결하기 위해 ShapeCodeBench를 제안합니다. 기존 연구들은 결정론적 실행이나 정밀한 난이도 제어가 부족하여 모델의 실패 원인을 명확히 진단하기 어렵다는 문제가 있었습니다.

#Review #Perception-to-Program Reconstruction #Benchmark #Synthetic Data #Renewable Evaluation #Multimodal Models #DSL

2026년 5월 13일

[논문리뷰] SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

본 논문은 LLM 에이전트의 강력한 도구 사용 능력(tool-use)으로 인한 새로운 보안 위협과 기존 방어 기법들의 한계점을 해결하고자 합니다.

#Review #LLM Agent Safety #Memory Mechanism #Guardrail #Adversarial Generation #Information Entropy #Over-refusal Mitigation

2026년 5월 13일

[논문리뷰] RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

본 논문은 로봇 조작(Robotic Manipulation) 분야에서 작업에 최적화된 물리적 상호작용 데이터가 부족하다는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language Models #Video Generation Models #Self-Evolving Framework #Complementary Learning Systems #Data Efficiency #Reinforcement Learning

2026년 5월 13일

[논문리뷰] Revisiting DAgger in the Era of LLM-Agents

본 논문은 장기 상호작용을 수행하는 LLM 에이전트의 사후 학습(Post-training) 단계에서 발생하는 고질적인 분포 불일치 문제를 해결하고자 합니다.

#Review #LLM-Agents #DAgger #Covariate Shift #Multi-Turn Interaction #Post-Training #Imitation Learning

2026년 5월 13일

[논문리뷰] Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation

본 논문은 기존의 Retrieval-Augmented Generation (RAG) 시스템이 다중 홉 질문 추론에서 보이는 근본적인 한계를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multi-Hop Reasoning #Program Synthesis #Executable Planning #Compiler-Grounded Self-Repair #Adaptive Retrieval

2026년 5월 13일

[논문리뷰] Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge

본 논문은 LLM 기반 에이전트가 복잡한 산업 환경에서 실질적인 능력을 발휘하는지 평가하기 위한 방법론적 문제를 다룹니다. 기존 벤치마크는 지나치게 단순화된 과제에 의존하거나, 실무에서 필수적인 프라이버시 보호 및 다단계 실행 능력을 적절히 측정하지 못하는 한계가 있습니다 .

#Review #Agentic AI #Industry 4.0 #Benchmarking #Privacy-preserving #Multi-agent systems #Performance Evaluation #AssetOpsBench

2026년 5월 13일

[논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

본 논문은 기존의 ICU 벤치마크들이 임상 의사결정을 단순한 정적 문제로 치부하거나, 과거 임상 기록을 그대로 정답으로 간주하는 'Behavior Imitation' 오류에 빠져 있다는 점을 지적한다.

#Review #LLM Agents #ICU #Clinical Decision Support #Hindsight-Annotated Benchmark #Structured Memory #Sequential Decision-Making

2026년 5월 13일

[논문리뷰] PresentAgent-2: Towards Generalist Multimodal Presentation Agents

본 논문은 기존의 문서 기반 프레젠테이션 자동화 도구가 가지는 제약을 극복하고, 사용자의 오픈 엔드 쿼리로부터 직접적인 프레젠테이션 영상을 생성하는 시스템을 목표로 한다.

#Review #Multimodal Agent #Presentation Generation #Deep Research #Interactive Delivery #Dynamic Media #Benchmark

2026년 5월 13일

[논문리뷰] Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

본 논문은 미지의 AI 에이전트가 제한된 과거 상호작용만으로 타 에이전트의 다음 결정을 예측할 수 있는지에 대한 핵심 질문을 다룬다. 실제 경제 활동에서의 AI 에이전트 간 상호작용은 상업적 비밀 및 통제된 환경의 부재로 인해 체계적인 모델링이 어렵다.

#Review #Agent Modeling #Text-Tabular Prediction #LLM-as-Observer #Few-shot Learning #Multi-agent Bargaining #Cross-population Transfer

2026년 5월 13일

[논문리뷰] PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

본 논문은 기존 GraphRAG 시스템이 직면한 정적 온톨로지와 비효율적인 그래프 탐색 알고리즘의 한계를 극복하기 위해 PAI-2를 제안합니다. 기존의 모델들은 주로 노드 단위의 단순 검색에 의존하여 다중 홉(multi-hop) 추론 능력이 제한적이거나 도메인 적응성이 낮다는 문제를 가지고 있습니다.

#Review #GraphRAG #Search Planning #Graph Traversal #Knowledge Graph #LLM Agents #Multi-hop Reasoning

2026년 5월 13일

[논문리뷰] MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

본 논문은 현대의 멀티모달 학습에서 기존 연구들이 정형 데이터와 비정형 데이터의 결합을 단순한 '동시 발생'으로만 취급하여 최적의 예측 성능을 내지 못하고 있다는 문제에서 출발한다 .

#Review #Multimodal Tabular Learning #Tabular Foundation Models #Target-Aware Representations #MulTaBench #Joint Modeling #Benchmark Curation

2026년 5월 13일

[논문리뷰] MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

본 논문은 기존 long-context reasoning 모델들이 겪는 '정보의 영구적 손실'과 '무분별한 검색으로 인한 노이즈 유입' 문제를 해결하기 위해 MemReread를 제안한다. 기존 retrieval 기반 에이전트는 검색 쿼리의 부정확성과 불필요한 검색으로 인해 핵심 신호가 희석되는 한계를 가진다 .

#Review #Long-Context Reasoning #Agentic Memory #Rereading #Reinforcement Learning #GRPO #Information Retrieval #Contextual Inference

2026년 5월 13일

[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 .

#Review #LLM Agent #Long-Horizon #Cognitive Map #Affordance Theory #Epistemic Bottleneck #Interactive Agent #Environment Understanding

2026년 5월 13일

[논문리뷰] M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement

본 논문은 기존의 Retinex 기반 딥러닝 기법들이 RGB 정보에만 의존하여 장면의 기하학적 구조나 조명 분포를 효과적으로 해석하지 못한다는 한계를 해결하고자 합니다.

#Review #Low-light Image Enhancement #Retinex Theory #Multi-modal Learning #Transformer #Cross-attention #Depth Estimation #Semantic Features

2026년 5월 13일

[논문리뷰] Learning Agentic Policy from Action Guidance

본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .

#Review #Agentic Reinforcement Learning #Action Guidance #Reachability Barrier #Minimal Intervention #Mixed-Policy Optimization

2026년 5월 13일

[논문리뷰] HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution

본 논문은 기존의 에이전트 메모리 시스템이 정적인 검색(Static Lookup)이나 고정된 휴리스틱 그래프 탐색에 의존하여 장기 기억 활용의 효율성이 저하되는 문제를 해결하고자 합니다.

#Review #Agentic Memory #Graph-based Retrieval #Reinforcement Learning #Query-Conditioned Traversal #Multi-Relational Graph #Memory-Augmented Generation

2026년 5월 13일

[논문리뷰] From Pixels to Concepts: Do Segmentation Models Understand What They Segment?

본 논문은 최신 promptable segmentation 모델들이 시각적 살점(salient cues)에 과도하게 의존하여 semantically invalid한 프롬프트에도 정확한 마스크를 생성하는 '개념적 기반(concept-faithful grounding)'의 결여 문제를 해결하고자 합니다 .

#Review #Promptable Segmentation #Counterfactual Evaluation #Semantic Grounding #Visual Hallucination #Multimodal Reasoning #Open-Vocabulary Segmentation

2026년 5월 13일

[논문리뷰] Frequency Bias and OOD Generalization in Neural Operators under a Variable-Coefficient Wave Equation

본 논문은 Neural Operator가 학습 분포 내(In-Distribution)에서는 뛰어난 성능을 보이지만, 물리적으로 구조화된 분포 변화(Structured distribution shifts)가 발생할 때 어떻게 일반화되는지에 대한 근본적인 의문을 해결하고자 합니다.

#Review #Neural Operator #Operator Learning #Frequency Bias #Out-of-Distribution #PDE #Wave Equation

2026년 5월 13일

[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #Frame Selection #Temporal Supervision #Data Curation #Policy Learning #Embodied AI

2026년 5월 13일

[논문리뷰] FeatCal: Feature Calibration for Post-Merging Models

모델 병합(Model Merging)은 공동 학습(joint training)이나 개별 배포 없이 여러 task expert의 능력을 통합할 수 있는 효율적인 방법이지만, 병합된 모델이 원본 expert 모델보다 성능이 떨어지는 현상이 빈번하게 발생한다.

#Review #Model Merging #Feature Drift #Calibration #Closed-form Solution #Feature Calibration #Forward-order Schedule

2026년 5월 13일

[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.

#Review #LLM #Reinforcement Learning #Retrieval & Ranking #GRPO #Factorized Policy #Sequential Recommendation #Multi-hop Question Answering

2026년 5월 13일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] Context Training with Active Information Seeking

본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.

#Review #Context Training #Active Information Seeking #Beam Search #Working Memory #LLM Optimization #Context Pollution #Generalization

2026년 5월 13일

[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.

#Review #Video Diffusion Models #Flow Map #Any-Step Distillation #On-Policy Distillation #Test-Time Scaling #Backward Simulation #Causal Video Generation

2026년 5월 13일

[논문리뷰] δ-mem: Efficient Online Memory for Large Language Models

본 연구는 LLM이 장기적인 대화와 에이전트 작업에서 과거 이력을 효과적으로 누적하고 재사용하지 못하는 문제를 해결하고자 합니다. 기존의 방식인 Context Window 확장은 연산 복잡도가 Quadratic하게 증가하고, 정보 누락이나 Context rot 현상이 발생하는 한계가 있습니다.

#Review #Large Language Models #Online Memory #Associative Memory #Low-rank Correction #Delta-rule Learning #Attention Mechanism

2026년 5월 12일

[논문리뷰] WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting

본 논문은 최신 생성형 모델 기반의 싱글 이미지 리라이팅 기법들이 합성 데이터셋에서는 우수한 성능을 보이지만, 실제 환경(in-the-wild)에서의 성능은 크게 검증되지 않았다는 문제 의식에서 출발한다.

#Review #Single-Image Relighting #Dataset #Inverse Rendering #Diffusion Posterior Sampling #Test-Time Adaptation #Sim-to-Real

2026년 5월 12일

[논문리뷰] The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

본 연구는 OPD와 OPSD가 시스템 프롬프트 및 지식 내재화에는 효과적이나, 최근 연구들에서 보고된 학습 불안정성(instability) 및 성능 저하(degradation) 문제를 근본적으로 규명하고자 합니다.

#Review #On-Policy Distillation #Self-Distillation #Language Models #Reverse-KL #Privileged Information #Optimization Stability #RLVR

2026년 5월 12일

[논문리뷰] RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

본 논문은 Verifiable Reward(검증 가능한 보상)가 부재한 Open-ended 환경에서 Deep Research 에이전트를 효율적으로 학습시키는 문제를 해결하고자 한다.

#Review #Meta-RL #Deep Research #Reinforcement Learning #Policy Decomposition #Rubric-guided #Stagewise Credit Assignment #Reflection Meta-Policy

2026년 5월 12일

[논문리뷰] MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics

본 논문은 생성적 Novel View Synthesis에서 발생하는 기하학적 정보와 외형 정보 간의 근본적인 갈등 문제를 해결하고자 합니다.

#Review #Novel View Synthesis #Diffusion Models #Structured Denoising #Geometry-Appearance Disentanglement #4D Re-camera #Video Generative Models

2026년 5월 12일

[논문리뷰] Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

본 논문은 현대의 Transformer 기반 3D reconstruction 파이프라인이 겪는 연산 효율성 및 저정밀도 실행 시의 불안정성 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Sparse Linear Attention #FP8-aware QAT #Model-Agnostic #Knowledge Distillation #Algorithm-System Co-design

2026년 5월 12일

[논문리뷰] Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation

본 논문은 기존 멀티모달 생성 모델들이 복잡한 다중 이미지 명령을 처리할 때 발생하는 성능 저하 문제를 해결하기 위해 제안되었습니다.

#Review #Multimodal Generation #Interleaved Instructions #Object Binding #Transformer #Multimodal Image Editing #Scalable Data Engine

2026년 5월 12일

[논문리뷰] From Web to Pixels: Bringing Agentic Search into Visual Perception

본 논문은 기존의 시각적 인지 모델이 이미지 내의 시각적 단서나 모델 내부의 Frozen Knowledge에만 의존하여 발생하는 한계점을 해결하고자 합니다.

#Review #Perception Deep Research #WebEyes #Pixel-Searcher #Multimodal Intelligence #Visual Grounding #Search-based Segmentation

2026년 5월 12일

[논문리뷰] Do not copy and paste! Rewriting strategies for code retrieval

본 연구는 코드 검색을 위한 기존의 임베딩 기반 기법들이 코드의 표면적인 문법적 특징에 과도하게 의존(Overfit)하여, 실제 의미론적 행동(Program behavior)을 파악하는 데 한계가 있다는 문제에서 출발합니다.

#Review #Code Information Retrieval #Large Language Models #Rewriting #Embedding #PseudoCode #Token Entropy #Representational Analysis

2026년 5월 12일

[논문리뷰] Continual Harness: Online Adaptation for Self-Improving Foundation Agents

본 논문은 embodied agent가 복잡하고 긴 호흡의 환경에서 명확한 도메인 스캐폴딩 없이도 자율적으로 학습하고 진화할 수 있는 체계를 구축하고자 합니다 .

#Review #Foundation Agents #Continual Harness #Online Adaptation #Embodied AI #In-Context Learning #Reset-Free Training #Process Reward Models

2026년 5월 12일

[논문리뷰] Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

본 연구는 Language-Model post-training 시 제한된 labeled training data가 비효율적으로 사용되는 문제를 해결하고자 한다.

2026년 5월 12일

[논문리뷰] Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

본 연구는 autonomous agents의 가치 체계가 기반이 되는 LLM의 가치와는 본질적으로 다르며, 이를 체계적으로 평가할 수 있는 도구가 부재하다는 문제 의식에서 출발합니다. 기존의 ValueBench나 ValueCompass와 같은 연구들은 주로 정적인 텍스트 생성 모델의 가치 평가에만 국한되어 있습니다.

#Review #Autonomous Agents #Value Alignment #Benchmark #Agentic Modality #Harness Alignment #Skill Steering

2026년 5월 12일

[논문리뷰] A Causal Language Modeling Detour Improves Encoder Continued Pretraining

본 논문은 도메인 적응을 위한 인코더의 Continued Pretraining에서 기존의 MLM 단독 학습 방식이 갖는 한계를 극복하고자 합니다. 저자들은 특정 도메인(특히 Biomedical) 데이터에서 모델이 충분한 성능을 내지 못하는 이유가 학습 목적 함수 자체의 경직성 때문임을 지적합니다.

#Review #Continued Pretraining #Causal Language Modeling #Masked Language Modeling #Domain Adaptation #Biomedical Encoders #CKA #Freeze Interventions #ModernBERT

2026년 5월 12일

[논문리뷰] Who Prices Cognitive Labor in the Age of Agents? Compute-Anchored Wages

본 논문은 AI 에이전트가 인지 노동 시장의 임금을 결정하는 방식에 대한 기존의 경제학적 오해를 바로잡고, 새로운 가격 결정 프레임워크를 제안한다.

#Review #AI Agents #Factor Pricing #Compute-Anchored Wage #Labor Market #Capital-to-Labor Conversion

2026년 5월 10일

[논문리뷰] What if AI systems weren't chatbots?

본 논문은 인공지능이 대화형 챗봇 인터페이스로 지나치게 빠르게 수렴하고 있다는 점을 지적하며, 이 패러다임이 가져오는 구조적인 사회적, 경제적, 환경적 폐해를 분석한다.

#Review #Conversational AI #Chatbots #User Agency #Sociotechnical Systems #Human-Computer Interaction #AI Governance #Environmental Justice

2026년 5월 10일

[논문리뷰] What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

본 논문은 기존 Latent Diffusion Models(LDMs)의 tokenizer들이 주로 reconstruction fidelity에만 초점을 맞추어 설계되어, 정작 확산 생성 모델의 학습에 적합한 latent space를 형성하지 못한다는 문제를 제기합니다 .

#Review #Latent Diffusion Models #Tokenizer #Latent Manifold #Prior Alignment #Autoencoder #Generative Modeling #Representation Learning

2026년 5월 10일

[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.

#Review #Self-Distillation #Large Language Models #On-Policy Learning #Supervision Reliability #Representation Alignment #Training Stability

2026년 5월 10일

[논문리뷰] UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

본 논문은 기존의 prefill 가속 기법들이 최신 하이브리드 LLM 아키텍처와 연속 배치(continuous batching) 환경에 부적합하다는 문제를 해결합니다.

#Review #Long-Context LLM #Prefill Acceleration #Dynamic Sparsification #Hybrid Architectures #Continuous Batching #vLLM

2026년 5월 10일

[논문리뷰] Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

본 논문은 최신 UMM이 이해와 생성 기능을 한 모델 내에 통합했음에도 불구하고, 실제로는 두 구성 요소가 상호작용 없이 분리된(Decoupled) 구조로 설계되어 성능 극대화에 한계가 있다는 문제를 지적합니다.

#Review #Unified Multimodal Models #Understanding-Oriented Post-Training #Generation Synergy #Flow Matching #Semantic Supervision #MetaQuery

2026년 5월 10일

[논문리뷰] SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

본 논문은 기존 Speculative Decoding의 Drafter들이 가진 상반된 한계점을 극복하기 위해 제안되었다.

#Review #LLM Inference #Speculative Decoding #Tree-based Verification #Block-Iterative Drafting #Rank-guided Expansion #Serving-time Adaptation

2026년 5월 10일

[논문리뷰] Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

본 논문은 최신 Vision-Language Models(VLMs)가 Adversarial 공격에 극도로 취약하며, 기존의 탐지 방식들은 실질적인 배포 환경에서의 강력한 공격이나 데이터 분포 변화에 대응하지 못한다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Adversarial Attack Detection #Sparse Autoencoders #Plug-and-Play #Robustness #Out-of-Domain Generalization

2026년 5월 10일

[논문리뷰] SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents

본 연구는 서로 다른 에이전트 프레임워크가 스킬의 프롬프트 포맷에 대해 높은 민감도를 보이며, 이로 인해 발생하는 성능 차이와 기존 스킬의 보안 취약점을 해결하고자 한다.

#Review #LLM-Agents #Skill compilation #Prompt engineering #Format adaptation #Security hardening #Intermediate representation

2026년 5월 10일

[논문리뷰] Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

본 논문은 decoder-only 모델에서 long-context 추론 시 발생하는 Prefill 단계의 높은 계산 비용과 Decode 단계의 KV-cache 메모리 대역폭 한계를 해결하고자 합니다.

#Review #Long-Context Inference #KV-Cache #Phase-Asymmetric #Prefill #Decode #Transformer

2026년 5월 10일

[논문리뷰] Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts

본 논문은 기존의 CL 방법론들이 20개 내외의 제한된 태스크 수에서만 검증되어 왔다는 한계를 지적하며, 매우 긴 태스크 시퀀스에서 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Continual Learning #Class-Incremental Learning #Mixture-of-Experts #Bi-Level Routing #Long Task Sequence

2026년 5월 10일

[논문리뷰] STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

본 논문은 기존의 통합 멀티모달 모델들이 겪는 생성 메커니즘의 구조적 파편화 문제를 해결하고자 합니다.

#Review #Multimodal Generation #Normalizing Flows #Autoregressive Transformers #Pretzel Architecture #Unified Modeling #Visual Understanding

2026년 5월 10일

[논문리뷰] SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation

본 논문은 복잡한 visual intent를 충족해야 하는 최신 text-to-image 생성 모델들이 겪는 semantic commitment의 단절 문제, 즉 Conceptual Rift를 해결하고자 합니다.

#Review #Text-to-Image Generation #Agentic Framework #Semantic Commitments #Structured Specification #Skill Orchestration #Gen-Arena

2026년 5월 10일

[논문리뷰] Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

본 논문은 recurrent 아키텍처의 상태 추적(state tracking) 능력이 단순히 이론적 표현력(expressivity)만으로 결정되지 않으며, hidden-state의 drift를 제어하는 에러 제어(error control) 역학에 의해 좌우된다는 점을 규명합니다.

#Review #State Tracking #Recurrent Models #Error Control #Affine Recurrences #State-Space Models #Symbolic Dynamics

2026년 5월 10일

[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.

#Review #Large Language Models #Reinforcement Learning #Reasoning #Decision Points #Sparse Policy Selection #Contrastive Fine-Tuning #Entropy-Gated

2026년 5월 10일

[논문리뷰] R^3-SQL: Ranking Reward and Resampling for Text-to-SQL

본 연구는 기존 Text-to-SQL 시스템의 순위 결정(Ranking) 과정에서 발생하는 Functional Inconsistency와 Bounded Recall이라는 두 가지 핵심 과제를 해결하는 데 목적을 둡니다.

#Review #Text-to-SQL #Ranking #Resampling #Functional Inconsistency #Bounded Recall #Agentic Workflow

2026년 5월 10일

[논문리뷰] Normalizing Trajectory Models

본 논문은 기존 diffusion 및 flow matching 모델이 few-step generation 과정에서 겪는 가우시안(Gaussian) 근사의 한계를 해결하고자 합니다.

#Review #Normalizing Trajectory Models #Flow Matching #Normalizing Flows #Few-step Generation #Exact Likelihood #Stochastic Trajectory

2026년 5월 10일

[논문리뷰] Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

초심층 Diffusion Transformers (DiTs)를 수백 층 이상으로 확장할 때 발생하는 구조적 취약점인 '평균 지향적 붕괴(mean-dominated collapse)' 현상을 해결하는 것이 본 연구의 목적입니다.

#Review #Diffusion Transformers #Residual Stability #Mean Mode Screaming #MV-Split Residuals #Deep Scaling #Gradient Decomposition

2026년 5월 10일

[논문리뷰] MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

본 논문은 기존 LoRA 방식이 고정된 rank $R$에 의존하여 최적의 성능을 찾기 위해 반복적인 grid search가 필요하다는 점을 해결하고자 합니다.

#Review #LoRA #Parameter-Efficient Fine-Tuning #Rank-Adaptive #Matryoshka Representation Learning #LLM #Hierarchical Low-Rank

2026년 5월 10일

[논문리뷰] MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference

본 논문은 Long-context LLM Inference에서 indexer 연산이 전체 비용의 지배적인 비중을 차지하는 문제를 해결하기 위해 MISA를 제안한다.

#Review #Large Language Models #Long-Context #Sparse Attention #Mixture of Experts #Indexer #Inference Efficiency #Retrieval

2026년 5월 10일

[논문리뷰] MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

본 논문은 기존 Linear Attention 모델들이 가지는 재귀적 업데이트의 한계인 정보 소실과 최적화 효율 저하 문제를 해결하고자 한다. 특히, 기존 모델들은 naive SGD 업데이트에 의존하여 장기 기억 및 문맥 검색(in-context retrieval) 능력에 제약이 있다.

#Review #Linear Attention #Delta Rule #Stepwise Momentum #Chunkwise Parallelism #Second-order Dynamical Systems #Gated Linear Architecture

2026년 5월 10일

[논문리뷰] MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

본 논문은 음악 기반 댄스 비디오 생성 시 발생하는 모션의 비현실성과 시각적 일관성 부족 문제를 해결하는 것을 목표로 합니다. 기존 연구들은 주로 3D 모션 생성에만 집중하거나, 인물 이미지 애니메이션 기술을 그대로 적용하여 복잡한 댄스 동작을 제대로 처리하지 못하는 한계가 있습니다.

#Review #Music-Driven Dance #Video Generation #Mixture-of-Experts #Diffusion Model #BiMamba-Transformer #Guidance-Free Training

2026년 5월 10일

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일

[논문리뷰] LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

본 논문은 현대의 고해상도 데이터 생성 센서 환경에서 발생하는 대역폭 및 전력 제약을 해결하기 위한 효율적인 신경망 코덱의 필요성을 다룬다. 기존의 상용 코덱(JPEG, MPEG)은 인간 지각에 최적화되어 있어 머신 퍼셉션 작업이나 비전통적 모달리티(공간 오디오, 하이퍼스펙트럴 등)에는 부적합하다.

#Review #Neural Compression #Real-time #Asymmetric Autoencoder #Finite Scalar Quantization #Rate-Distortion

2026년 5월 10일

[논문리뷰] LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

본 논문은 기존의 TTS 전략이 연구자들의 직관에 의존하는 수작업(Hand-crafted) 방식이라는 한계점을 해결하고자 합니다.

#Review #Test-Time Scaling #Agentic Discovery #Controller Synthesis #Replay Environment #AutoTTS #Adaptive Inference #Accuracy-Cost Tradeoff

2026년 5월 10일

[논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

본 논문은 기존의 멀티모달 에이전트 벤치마크들이 시각적 증거를 단순히 답변의 최종 종착지(Endpoint)로만 취급하여, 실제 정보 탐색 과정에서 시각적 정보가 검색 경로를 제어하는 역할을 간과한다는 문제를 지적합니다.

#Review #Multimodal Agent #Interleaved Search #Visual Evidence #Agentic Search Benchmark #Multimodal Reasoning #Open-web Search

2026년 5월 10일

[논문리뷰] IntentGrasp: A Comprehensive Benchmark for Intent Understanding

본 논문은 현재 LLM 생태계에서 사용자 의도를 정확히 파악하는 능력이 체계적으로 평가되지 않고 있다는 문제 의식에서 출발합니다.

#Review #Intent Understanding #LLM Benchmarking #IntentGrasp #Intentional Fine-Tuning #Intent Classification #Cross-domain Generalizability

2026년 5월 10일

[논문리뷰] HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

본 논문은 기존 Multimodal search agents가 다중 엔티티 검색 시 직면하는 비효율적인 순차적(sequential) 툴 호출 문제를 해결하기 위해 제안되었다.

#Review #Multimodal Search Agents #Reinforcement Learning #Efficiency-Aware #Unified Grounded Search #Parallel Tool Calling #IMEB Benchmark #On-Policy Distillation

2026년 5월 10일

[논문리뷰] Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning

본 논문은 기존 QFWP(Quantum Fast Weight Programmers)가 사용하는 다중 큐비트 회로가 NISQ(Noisy Intermediate-Scale Quantum) 장치에서 확장하기 어렵고, 고전적 시뮬레이션 비용이 크다는 문제를 해결하고자 한다.

#Review #Fast Weight Programming #Quantum Machine Learning #Kolmogorov-Arnold Networks #Sequence Modeling #Reinforcement Learning

2026년 5월 10일

[논문리뷰] From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

본 논문은 LLM 기반 에이전트 메모리 메커니즘의 파편화된 연구 현황을 통합하고, 기술적 진화 경로를 명확히 정립하기 위해 수행되었다. 기존 연구들은 공학적 시스템 엔지니어링 접근과 인지 과학적 모방 접근 사이에서 분리되어 발전해 왔으며, 이로 인해 메모리 기술의 핵심적인 진화 논리가 체계적으로 정리되지 못했다 .

#Review #LLM Agent #Memory Mechanism #Storage #Reflection #Experience #Continual Learning

2026년 5월 10일

[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models

본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.

#Review #Flow Matching #On-Policy Distillation #Reinforcement Learning #Multi-task Alignment #Manifold Anchor Regularization #Text-to-Image

2026년 5월 10일

[논문리뷰] Fast Byte Latent Transformer

본 논문은 byte-level language model이 지닌 고질적인 추론 속도 문제를 해결하는 것을 목적으로 한다. 기존의 바이트 단위 모델은 Subword 모델과 달리 입력 길이가 훨씬 길어지기 때문에, Naive한 자기회귀(Autoregressive) 방식으로는 매우 느린 추론 속도를 보인다는 한계가 있다.

#Review #Byte-level Language Model #BLT #Diffusion #Inference Acceleration #Speculative Decoding #Latent Tokenization

2026년 5월 10일

[논문리뷰] Empirical Evidence for Simply Connected Decision Regions in Image Classifiers

본 논문은 현대의 deep neural network가 학습한 결정 영역이 단순히 path connected할 뿐만 아니라, 더 강력한 위상적 성질인 simply connected를 만족하는지 규명하고자 한다.

#Review #Deep Neural Networks #Decision Regions #Topology #Simply Connected #Coons Patches #Adversarial Robustness

2026년 5월 10일

[논문리뷰] DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

본 논문은 복잡한 워크플로우를 자동화하는 AI 에이전트의 보안 위협을 체계적으로 평가할 수 있는 표준화된 플랫폼과 벤치마크의 부재 문제를 해결합니다.

#Review #AI Agents #Red-Teaming #Safety Evaluation #Agentic Systems #Security Risk Assessment

2026년 5월 10일

[논문리뷰] CPCANet: Deep Unfolding Common Principal Component Analysis for Domain Generalization

본 논문은 기존의 DG 방법들이 데이터 간의 통계적 거리를 정렬하거나 대규모 모델의 표현력에 의존하는 방식에서 벗어나, 도메인 간의 불변 구조를 직접적으로 추출하지 못한다는 한계를 해결하고자 합니다.

#Review #Domain Generalization #Common Principal Component Analysis #Deep Unfolding Networks #Riemannian Optimization #Stiefel Manifold

2026년 5월 10일

[논문리뷰] CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

현재의 LLM 라이프사이클은 대규모 pretraining과 finetuning이라는 두 단계에 고정되어 있어, 일단 배포되면 학습이 완전히 중단되는 한계가 있습니다.

#Review #Large Language Models #Deployment-Time Learning #Case-Based Reasoning #Contextual Bandit #No-Regret Learning #Experiential Learning

2026년 5월 10일

[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search

코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.

#Review #Code Search #Benchmark #Reranker #Data Contamination #Retrieval-Augmented Generation #Code LLM

2026년 5월 10일

[논문리뷰] Anisotropic Modality Align

MLLM 학습은 고품질의 쌍(paired) 멀티모달 데이터 부족이라는 고질적인 문제에 직면해 있으며, 이를 해결하기 위해 공유 임베딩 공간에서 unimodal 데이터를 정렬하는 방식이 주목받고 있다.

#Review #Multimodal Large Language Models #Modality Gap #Unpaired Alignment #Anisotropic Geometric Correction #Representation Learning

2026년 5월 10일

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] 4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

본 논문은 기존 VLM이 동적 공간 추론에서 겪는 불투명성과 성능 한계를 해결하기 위해 4DThinker를 제안합니다. 기존 연구들은 추론 과정을 텍스트로만 기술하거나 외부 기하학적 모듈을 의존하여 추론 복잡도를 증가시키고 모델 자체의 내재적 능력을 제한하는 한계를 보입니다 .

#Review #Vision-Language Models #Dynamic Spatial Reasoning #Latent Mental Imagery #Dynamic-Imagery Fine-Tuning (DIFT)#4D Reinforcement Learning (4DRL)#Chain-of-Thought (CoT)

2026년 5월 10일

[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers

본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.

#Review #Transformers #Implicit Deductive Reasoning #Horn Clauses #Chain-of-Thought #Scaling Properties #Shortcut Learning #Algorithmic Alignment

2026년 5월 7일

[논문리뷰] TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

본 논문은 LLM이 자연어 처리에 성공한 것과 달리, tabular 데이터를 위한 통합된 representation 패러다임이 부재하다는 점을 해결하고자 합니다 .

#Review #Tabular Embedding #Contrastive Learning #Tabular Understanding #Foundation Models #Representation Learning #Tabular Retrieval

2026년 5월 7일

[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.

#Review #Image-to-Video #High-Resolution Generation #Diffusion Transformer #Conditional Segment-wise Generation #Efficiency #Streaming Inference

2026년 5월 7일

[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL

본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Reinforcement Learning #Multi-Reward Optimization #Gradient Harmonization #Reward Balancing #Alignment

2026년 5월 7일

[논문리뷰] Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

본 논문은 기존의 Diffusion Distillation 방식이 학습 및 추론 시 고정된 이산적 타임스텝(discrete anchors)에 지나치게 의존함으로써 발생하는 성능 저하 문제를 해결하고자 한다.

#Review #Diffusion Models #Distillation #Continuous-Time Optimization #Distribution Matching #Few-Step Generation #Flow Matching

2026년 5월 7일

[논문리뷰] Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

본 논문은 기계학습 연구의 제안-측정-수정 루프를 인간의 개입 없이 언어 모델 에이전트로 자동화하는 것을 목표로 합니다. 기존의 자동화 연구들이 주로 단일 모델 출력물 생성이나 제한적인 하이퍼파라미터 탐색에 머물렀던 것과 달리, 이 연구는 실제 학습 파이프라인 전반에 걸친 실질적인 코드 구조 수정을 목표로 합니다.

#Review #Auto Research #Language Agents #Closed-Loop #Training Recipes #Specialist Agents #Compute-Budgeted #Lineage Feedback

2026년 5월 7일

[논문리뷰] Audio-Visual Intelligence in Large Foundation Models

본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.

#Review #Audio-Visual Intelligence #Foundation Models #Multimodal Fusion #Embodied AI #Cross-modal Generation

2026년 5월 7일

[논문리뷰] AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

본 논문은 수학 연구의 복잡하고 반복적인 실제 프로세스를 지원하기 위해 상태 유지형 워크플로우를 제공하는 AI co-mathematician을 제안한다.

#Review #Agentic AI #Mathematical Research #Interactive Workspace #Workstream #Stateful Workflow #Uncertainty Management #FrontierMath

2026년 5월 7일

[논문리뷰] X2SAM: Any Segmentation in Images and Videos

본 논문은 MLLM의 강력한 추론 능력과 foundation segmentation model의 정밀한 픽셀 단위 인식 능력을 통합하여 정적 이미지뿐만 아니라 동적 비디오까지 포괄하는 통합된 세분화 프레임워크를 구축하는 것을 목표로 합니다.

#Review #MLLM #Segmentation #Video-Understanding #Mask-Memory #Visual-Prompting #Spatio-Temporal-Consistency

2026년 5월 5일

[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.

#Review #AI Agents #Workspace Learning #Benchmark #File Dependency #Large-Scale #Autonomous Agent #Task-File-Driven

2026년 5월 5일

[논문리뷰] Video Generation with Predictive Latents

본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.

#Review #Video Generation #Video VAE #Predictive Learning #Latent Diffusion Models #Temporal Dynamics #Motion Prior #Spatiotemporal Compression

2026년 5월 5일

[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.

#Review #Indic ASR #TTS-STT Flywheel #Entity-Dense Audio #LoRA #Script Fidelity Rate #Data Augmentation #Entity-Hit-Rate

2026년 5월 5일

[논문리뷰] TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis

본 논문은 DiaASQ 작업에서 기존 모델들이 대화의 복잡한 의존 관계를 제대로 모델링하지 못하고 발생하는 구조적 노이즈와 거리 감쇠 문제를 해결하고자 합니다. 기존 GCN 기반 연구들은 불필요한 스레드 간 정보를 여과 없이 전파하여 구조적 노이즈를 야기하는 한계가 있습니다.

#Review #DiaASQ #TC-DAG #D-RoPE #Distance Dilution #Sentiment Analysis #Conversational AI #Discourse Modeling

2026년 5월 5일

[논문리뷰] SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

본 연구는 실제 일상생활 속에서 사용자가 호소하는 증상을 기반으로 하는 대화형 AI 진단 에이전트의 성능을 임상적 수준에서 검증하고자 한다.

#Review #Conversational AI #Differential Diagnosis (DDx)#LLM #Fitbit #Wearable Biosignals #PheWAS #Healthcare AI

2026년 5월 5일

[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.

#Review #Lossless Compression #State Space Models #Mamba #Online Learning #Arithmetic Coding #N-gram #BPE Tokenisation

2026년 5월 5일

[논문리뷰] Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

본 연구는 LLM 기반 Agent 생태계에서 Skill이 범람함에도 불구하고, 개별 개발자가 특정 목적 위주로 설계하여 기능적 파편화(Fragmentation)와 커버리지 부족 문제를 겪고 있는 현실을 해결하고자 합니다 .

#Review #Large Language Model #Agent #Skill Self-Evolution #GRPO #Benchmark #Automation

2026년 5월 5일

[논문리뷰] SVGS: Enhancing Gaussian Splatting Using Primitives with Spatially Varying Colors

본 논문은 기존 Gaussian Splatting 방식이 복잡한 텍스처나 기하학적 형태를 표현할 때 비효율적이라는 문제를 해결하고자 합니다 .

#Review #Gaussian Splatting #Novel-view Synthesis #Spatially Varying #Gaussian Surfels #Movable Kernels #3D Reconstruction

2026년 5월 5일

[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.

#Review #LLM #Multi-Agent Systems #Reinforcement Learning #Orchestration Trace #Credit Assignment #Reward Design #System Engineering

2026년 5월 5일

[논문리뷰] PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

본 논문은 기존 특허 관련 연구가 특허 심사를 단순한 이진 분류(Acceptance Prediction)나 정적인 정보 추출 문제로만 취급하여 실제 현장의 반복적이고 상호작용적인 심사 과정을 반영하지 못한다는 한계를 해결하고자 한다.

#Review #Patent Examination #Office Action Generation #Rebuttal Generation #Large Language Models #Legal Reasoning #Benchmark

2026년 5월 5일

[논문리뷰] OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

본 연구는 고성능 search agent 개발이 자본과 컴퓨팅 자원이 막대한 기업 주도의 CPT+SFT+RL 파이프라인에 종속된 현실을 비판적으로 접근합니다. 기존의 복잡한 학습 방식은 학계의 진입 장벽을 높이고 연구 생태계의 폐쇄성을 야기합니다.

#Review #Search Agent #SFT #ReAct #Data Quality #Long-horizon Reasoning #Data Synthesis

2026년 5월 5일

[논문리뷰] HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

본 논문은 현대의 복잡한 Agentic Harness 설계 이면에 숨겨진 실질적인 성능 구동 메커니즘을 규명하고 이를 단순화하고자 한다. 기존의 오케스트레이션 설계는 시스템이 매우 복잡하여 실질적인 추론 메커니즘을 파악하기 어렵다는 한계가 있었다.

#Review #Agentic Harness #Heavy Thinking #Large Language Model #Test-Time Scaling #Sequential Deliberation #Parallel Reasoning #RLVR

2026년 5월 5일

[논문리뷰] Healthcare AI GYM for Medical Agents

본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.

#Review #Medical AI Agents #Reinforcement Learning #On-Policy Distillation #Clinical Reasoning #Multi-turn Interaction #Healthcare AI GYM

2026년 5월 5일

[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.

#Review #Embodied AI #Search and Rescue (SAR)#UAV #Multimodal Large Language Models (MLLMs)#Simulation Platform #Benchmark

2026년 5월 5일

[논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

본 논문은 기존의 text-based iRAG 시스템이 겪는 Coarse-grained attribution과 Visual semantic loss 문제를 해결하기 위해 고안되었습니다.

#Review #Iterative Retrieval-Augmented Generation #Visual Attribution #Vision-Language Models #Pixel-level Grounding #Multi-hop Reasoning

2026년 5월 5일

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.

#Review #Multimodal LLM #Reinforcement Learning #On-Policy Distillation #Distributional Drift #Mixture-of-Experts (MoE)#Adversarial Alignment

2026년 5월 5일

[논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework

본 논문은 대규모 데이터셋과 통합된 벤치마크의 부재로 인해 interactive world model의 물리적 상호작용 능력을 객관적으로 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Interactive World Models #Benchmark #Action Generation Framework #Embodied Intelligence #Trajectory Following #Memory Ability

2026년 5월 5일

[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #Multi-Turn Reasoning #Uncertainty-Guided Exploration #Token-Level Thinking Intervention #Turn-Level Dynamical Sampling #Training Stability

2026년 5월 4일

[논문리뷰] Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

본 논문은 데이터가 제한된 고자원 비영어권 언어(독일어 등)의 LLM 학습에서 발생하는 '데이터 다양성 확보'와 '데이터 품질 강화' 사이의 전략적 딜레마를 해결하고자 한다.

#Review #Large Language Models #Data Filtering #Sample Efficiency #German Language Modeling #Multi-Epoch Training #Semantic Density #High-Signal Data

2026년 5월 4일

[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #EHR #Benchmark #FHIR #Clinical Workflows #Agentic Evaluation #Long-horizon Tasks

2026년 5월 4일

[논문리뷰] Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

본 논문은 Autoregressive LVLM이 긴 문맥 생성 시 겪는 Visual Signal Dilution 문제를 해결하고자 한다.

#Review #Large Vision-Language Models #Visual Signal Dilution #Persistent Visual Memory #Autoregressive Generation #Multimodal Reasoning #Bottleneck Adapter

2026년 5월 4일

[논문리뷰] Perceptual Flow Network for Visually Grounded Reasoning

본 논문은 기존 LVLM이 표준 MLE 학습 과정에서 시각적 궤적을 제어하지 못해 발생하는 언어 편향과 환각(Hallucination) 문제를 해결하고자 합니다.

#Review #Large-Vision Language Models #Visually Grounded Reasoning #Perceptual Flow #Variational Reinforcement Learning #Vicinal Geometric Shaping #Hallucination Mitigation

2026년 5월 4일

[논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

본 논문은 해양 데이터의 파편화와 도메인 특화 데이터의 부재로 인해 발생하는 해양 인공지능(Marine AI)의 성능 병목 현상을 해결하고자 한다.

#Review #Multimodal Large Language Models #Marine Science #Foundation Models #Data Corpus #Instruction Tuning #Sonar Detection

2026년 5월 4일

[논문리뷰] Motion-Aware Caching for Efficient Autoregressive Video Generation

본 논문은 autoregressive 비디오 생성 모델에서 반복적인 denoising 프로세스로 인해 발생하는 과도한 계산 비용 문제를 해결하기 위해 MotionCache를 제안합니다.

#Review #Autoregressive Video Generation #Feature Caching #Motion-Aware Acceleration #Residual Stability #Diffusion Transformers

2026년 5월 4일

[논문리뷰] MolmoAct2: Action Reasoning Models for Real-world Deployment

본 논문은 범용 로봇 제어(Generalist robot manipulation)를 위한 VLA 모델이 실질적인 실환경 배포(Real-world deployment) 요건을 충족하지 못하는 한계를 해결하고자 한다.

#Review #Vision-Language-Action (VLA) Model #Embodied Reasoning #Flow Matching #Adaptive Depth Perception #Open-source Robotics #Real-world Deployment

2026년 5월 4일

[논문리뷰] Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

본 연구는 기존 Tree-RAG 방법론들이 단일 문서 내 단일 홉 질문에만 최적화되어 있어, 복잡한 교차 문서 multi-hop 질문 대응 및 corpus-level 확장에 한계가 있다는 점을 지적한다.

#Review #RAG #Tree-RAG #Hierarchical Abstract Tree #Multi-hop Retrieval #Multi-granular Retrieval

2026년 5월 4일

[논문리뷰] Generative Modeling with Orbit-Space Particle Flow Matching

본 논문은 현대의 Grid-based 생성 모델(Diffusion, Flow Matching)이 입자 시스템(Particle Systems)의 고유한 특성을 효과적으로 다루지 못한다는 점을 해결하고자 합니다 .

#Review #Generative Modeling #Flow Matching #Particle Systems #Orbit-Space Canonicalization #Geometric Probability Paths #Surface Normals #Arc-Length Terminal Velocity

2026년 5월 4일

[논문리뷰] From Context to Skills: Can Language Models Learn from Context Skillfully?

본 논문은 LLM이 pre-training 과정에서 학습하지 않은 복잡한 맥락을 효과적으로 이해하고 추론하는 능력이 부족하다는 문제를 해결하고자 한다.

#Review #Context Learning #Language Models #Self-evolving Framework #Multi-agent Self-play #Skill Augmentation #Cross-time Replay #Context-specific Skills

2026년 5월 4일

[논문리뷰] ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

본 논문은 기존 Diffusion 모델이 고차원 데이터의 조합적 구조를 충분히 반영하지 못해 학습 효율과 생성 성능이 제한되는 문제를 해결하고자 한다.

#Review #Diffusion Generative Models #Combinatorial Stochasticity #Structured Data #Asynchronous Inference #Graded Control

2026년 5월 4일

[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents

기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.

#Review #Agent Benchmarking #OpenClaw #Academic-level Tasks #GPU-intensive #Multi-dimensional Evaluation #Behavioral Phenotypes #Autonomous Agents

2026년 5월 4일

[논문리뷰] Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

본 논문은 대규모 웹 정보 탐색에서 깊이 있는 추론과 넓은 범위의 구조화된 데이터 집계라는 두 가지 상충하는 요구를 동시에 만족해야 하는 문제를 해결하고자 합니다.

#Review #Web-to-Table Search #Multi-Agent Framework #Bi-Level Architecture #External Memory #Self-Evolving Agents #Task Decomposition

2026년 5월 3일

[논문리뷰] UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

기존의 비디오 생성 연구들은 각 문제 설정(예: Text-to-Video, Inverse Rendering)에 대해 개별적인 모델을 학습시키는 파편화된 방식을 취하고 있어, 고정된 입력-출력 매핑에 제한되고 모달리티 간의 상호 상관관계를 활용하지 못하는 한계가 있습니다.

#Review #Video Diffusion Models #Multimodal Video Generation #Intrinsic Decomposition #Diffusion Priors #Stochastic Condition Masking #Decoupled Gated LoRA #Cross-Modal Self-Attention

2026년 5월 3일

[논문리뷰] Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

본 연구는 고전적인 데이터 분석 모델인 결정 트리와 현대의 생성 모델인 diffusion model이 각각 수행하는 계층적 정보 정제 과정 사이의 근본적인 수학적 연결고리를 규명하고자 합니다.

#Review #Decision Trees #Diffusion Models #Global Trajectory Score Matching (GTSM)#Probability Flow ODE #Tabular Data #Knowledge Distillation #Flow Matching

2026년 5월 3일

[논문리뷰] Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

본 논문은 기존의 dual-branch diffusion transformer 구조가 갖는 talking head 생성에서의 한계를 해결하고자 한다.

#Review #Talking head generation #Joint audio-video generation #Autoregressive modeling #Diffusion transformer #Multimodal generation

2026년 5월 3일

[논문리뷰] Online Self-Calibration Against Hallucination in Vision-Language Models

본 논문은 기존의 offline 선호도 정렬 방식이 LVLM의 hallucination 문제를 해결하는 데 오히려 역효과를 낼 수 있다는 Supervision-Perception Mismatch 문제를 제기한다.

#Review #Vision-Language Models #Hallucination #Monte Carlo Tree Search #Preference Alignment #DPO #Generative-Discriminative Gap #Online Learning

2026년 5월 3일

[논문리뷰] Map2World: Segment Map Conditioned Text to 3D World Generation

본 논문은 기존 3D World Generation 연구들이 겪고 있는 고정된 그리드 기반 레이아웃의 제약과 전역적 규모의 일관성 부족 문제를 해결하는 것을 목적으로 합니다.

#Review #3D World Generation #Segment Map Conditioning #Latent Fusion #Structured Latent #Detail Enhancer #Rectified Flow

2026년 5월 3일

[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training

본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.

#Review #Vision Transformer #Generative Pre-training #Multimodal Large Language Models #Gated Attention #Vision-Language Pre-training #Minimalist Architecture

2026년 5월 3일

[논문리뷰] Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization

본 논문은 분산 환경에서 에이전트들이 handcrafted update rules에 의존하지 않고, historical trajectory를 기반으로 스스로 알고리즘을 설계하는 방식을 연구한다.

#Review #Distributed Black-Box Optimization #Multi-Agent Systems #Large Language Models #Consensus Optimization #Trajectory-Driven Self-Design

2026년 5월 3일

[논문리뷰] LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

본 논문은 다국어 음성 합성 및 diarization 시스템에서 동일 화자가 언어(스크립트)를 전환할 때 발생하는 스피커 인식 오류 문제를 해결합니다.

#Review #Speaker Encoder #Indic Scripts #Gradient Reversal Layer #Speaker Verification #Language Adversarial Training #Voice Cloning #Diarization

2026년 5월 3일

[논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

본 논문은 LLM 에이전트 시스템이 사용하는 기술(Skill)의 표현 방식이 텍스트 중심의 파편화된 구조에 머물러 있어, 기계적 reasoning과 자동화된 검증에 한계가 있다는 문제의식에서 출발합니다.

#Review #LLM Agents #Skill Representation #Scheduling-Structural-Logical (SSL)#Skill Discovery #Risk Assessment #Knowledge Representation

2026년 5월 3일

[논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

본 논문은 기존의 2단계 학습 방식이 토크나이저와 생성 모델 간의 비정렬 문제를 야기하여 최종 생성 품질을 제한한다는 점을 해결하고자 한다.

#Review #Autoregressive Image Generation #1D Vision Tokenizer #End-to-End Training #Semantic Alignment #Vision Foundation Models

2026년 5월 3일

[논문리뷰] AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

본 논문은 아날로그 회로 설계 시 발생하는 이질적인 표현(Netlist, Schematic, Description) 간의 검색 어려움을 해결하고자 AnalogRetriever를 제안한다.

#Review #Analog Circuit Retrieval #Cross-Modal Alignment #SPICE Netlists #Relational Graph Convolutional Network (RGCN)#Retrieval-Augmented Generation (RAG)#Curriculum Contrastive Learning

2026년 5월 3일

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.

#Review #Embodied AI #World Models #Diffusion Transformer #3D Reconstruction #Robotic Manipulation #Asynchronous Denoising #Unified Modeling

2026년 4월 29일

[논문리뷰] FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

본 연구는 현대 패션 AI 시스템이 특정 패션 하우스나 에디터의 심미적 논리를 데이터 내에 내재화하면서도, 이를 사용자에게 투명하게 공개하지 않는 불투명성 문제를 해결하고자 합니다.

#Review #Fashion AI #Multimodal CNN #Visual Channel Probing #Editorial Identity Encoding #Hierarchical Color Prediction #Transparency

2026년 4월 29일

[논문리뷰] Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

본 논문은 기존 controllable diffusion 모델들의 파편화로 인한 시스템적 병목 현상을 해결하고자 합니다. 현재의 제어 방법들은 특정 백본에 종속적인 구조를 가지며, 각기 다른 학습 파이프라인과 런타임 훅을 사용하여 인프라 재사용이나 다중 제어 기법의 결합이 매우 어렵습니다.

#Review #Diffusion Models #Controllable Generation #Plugin Framework #KV-Cache #Template Model #Modular Design

2026년 4월 29일

[논문리뷰] A Survey on LLM-based Conversational User Simulation

본 논문은 LLM의 발달로 가능해진 사용자 시뮬레이션 기술의 체계적인 분류와 분석이 부재한 문제를 해결하고자 한다. 기존의 사용자 시뮬레이션은 특정 도메인(예: 추천 시스템)에 한정되거나 대규모 데이터 수집의 어려움으로 인해 확장성에 한계가 있었다.

#Review #Conversational User Simulation #Large Language Models #Persona Modeling #Synthetic Data Generation #Multi-agent Systems #Dialogue Evaluation

2026년 4월 29일

[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.

#Review #GUI Agent #Vision-Language Model #Visual Grounding #Data Refinement #Model Compression #Encoder-Decoder Architecture

2026년 4월 28일

[논문리뷰] AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

본 논문은 현재 GUI 에이전트 평가 방식이 단순한 시각적 요소 매칭에 치중되어 있어, 실제 디지털 환경에서의 복잡한 상태 변화와 GUI 동역학을 이해하는 능력을 측정하지 못한다는 문제를 해결하고자 한다.

#Review #GUI Agents #Multi-Modal Benchmarking #Functional Understanding #Interaction Outcome Prediction #Vision-Language Models #Hierarchical Decomposition

2026년 4월 28일

[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models

저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.

#Review #Interactive World Models #Image-to-Video #Benchmark #Unified Control Interface #World Consistency #Cross-Model Evaluation

2026년 4월 23일

[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Website Generation #GRPO #Multimodal Reward #React

2026년 4월 23일

[논문리뷰] VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

본 논문은 자율형 GUI 에이전트가 직면한 early stopping과 repetitive loops라는 두 가지 근본적인 문제를 해결하기 위해 VLAA-GUI를 제안합니다. 기존 에이전트들은 작업 완료 여부를 불명확하게 판단하여 미완성 상태에서 성공을 선언하거나, 동일한 실패 행동을 반복적으로 수행하는 한계를 보입니다.

#Review #GUI Automation #Agentic Framework #Completeness Verifier #Loop Breaker #Search Agent #Multimodal LLM

2026년 4월 23일

[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .

#Review #Humanoid Robotics #Vision-Language-Action Models #Cross-Embodiment Transfer #Latent Action Tokenizer #World Modeling #Visual Anchoring #Cross-Reconstruction

2026년 4월 23일

[논문리뷰] UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

본 논문은 현대 AI 생태계에서 이미지 생성과 생성된 이미지 탐지가 서로 밀접하게 연관되어 있음에도 불구하고, 기존 연구들이 이들을 독립적으로 최적화한다는 점을 핵심 문제로 정의합니다.

#Review #Multimodal Large Language Models #AI-Generated Image Detection #Image Generation #Co-evolutionary Learning #Unified Architecture #Feature Alignment

2026년 4월 23일

[논문리뷰] Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

본 논문은 LLM의 유창함 이면에 존재하는 사실적 부정확성 및 환각(Hallucination) 문제를 해결하기 위해 DAVinCI 프레임워크를 제안한다.

#Review #Attribution #Verification #Dual Framework #Hallucination #Confidence Calibration #Natural Language Inference

2026년 4월 23일

[논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

본 논문은 대규모 클라우드 네이티브 서비스 환경에서 고객 피드백으로부터 실시간으로 위험 이벤트를 탐지하는 시스템의 미흡함을 해결하기 위해 제안되었다.

#Review #Risk Event Discovery #Large Language Models #Incident Management #Signal-to-Noise Ratio #Event Linking #Enterprise Scale

2026년 4월 23일

[논문리뷰] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

본 논문은 EEG foundation models가 실제 임상 환경에서 직면하는 심각한 Distribution Shift 문제를 해결하고자 합니다.

#Review #Test-Time Adaptation #EEG Foundation Models #Distribution Shift #Benchmark #NeuroAdapt-Bench #T3A

2026년 4월 23일

[논문리뷰] StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

본 논문은 기존의 identity encoder들이 자연 사진(natural photograph)에 과적합되어 있어, 다양한 스타일로 변환된 인물 사진에서 identity preservation 성능이 심각하게 저하되는 문제를 해결하고자 한다.

#Review #Facial Identity Recognition #Face Stylization #Perception-Aware #Identity Preservation #Deep Learning #Human-Calibration

2026년 4월 23일

[논문리뷰] Seeing Fast and Slow: Learning the Flow of Time in Videos

본 연구는 기존 비디오 모델들이 물리적 세계의 시간 흐름을 이해하고 제어하지 못하는 근본적인 한계를 해결하고자 한다.

#Review #Video Generation #Slow-motion #Temporal Super-resolution #Self-supervised Learning #Video Forensics #Time-frequency Scaling

2026년 4월 23일

[논문리뷰] PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents

본 논문은 LLM 기반 에이전트의 개인화 과정에서 발생하는 장기 기억(Long-term memory) 관리의 복잡성과 구조적 한계를 해결하기 위해 구조화된 지식 그래프 메모리 프레임워크를 제안한다.

#Review #GraphRAG #Knowledge Graph #Personalized LLM Agents #Graph Traversal #Question Answering #Memory Framework

2026년 4월 23일

[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .

#Review #Time Series Reasoning #Large Language Models #Vision-Language Models #Chain-of-Thought #Curriculum Learning #Data Taxonomy

2026년 4월 23일

[논문리뷰] Hybrid Policy Distillation for LLMs

본 연구는 LLM 압축 과정에서 발생하는 divergence direction, optimization strategy, data regime 간의 복잡한 상호작용 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Large Language Models #Forward-Reverse KL #Policy Distillation #Logit-level Reweighting #On-policy Sampling

2026년 4월 23일

[논문리뷰] Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

본 논문은 EAVAE라는 2단계 학습 프레임워크를 제안한다. 첫 번째 단계에서는 대규모 authorship 데이터에 대해 supervised contrastive learning을 수행하여 기초적인 저자 스타일 표현을 사전 학습한다.

#Review #Authorship Attribution #Disentangled Representation Learning #Variational Autoencoder #Explainable AI #Generative AI #Content-Style Entanglement

2026년 4월 23일

[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions

본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .

#Review #Human Motion Understanding #Large Language Models #Structured Motion Description #Biomechanics #LoRA #Motion Question Answering #Motion Captioning

2026년 4월 23일

[논문리뷰] EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

EDITCRAFTER는 고해상도 이미지의 identity를 보존하는 Tiled DDIM Inversion 모듈과, 고해상도 잠재 공간에서 텍스트 정렬을 최적화하는 NDCFG++ 샘플링 과정을 핵심으로 합니다. 먼저 입력 이미지를 타일 단위로 역전파하여 인버전 잠재 벡터를 생성하고, 이를 결합하여 전체 고해상도 정보를 초기화합니다.

#Review #High-Resolution Image Editing #Diffusion Model #Tiled DDIM Inversion #NDCFG++#Tuning-free

2026년 4월 23일

[논문리뷰] Context Unrolling in Omni Models

본 논문은 다양한 모달리티를 원천 학습하여 모델이 스스로 추론 경로를 구조화하도록 유도하는 Context Unrolling 프레임워크를 제안한다. 모델은 작업 관련 컨텍스트를 선택적으로 활성화하여 공유 작업 공간에 투입하며, 이는 최종 예측 전후로 긴밀하게 작동한다 .

#Review #Multimodal Foundation Model #Context Unrolling #Unified Architecture #Cross-modal Reasoning #Spatial Intelligence #Mixture-of-Experts

2026년 4월 23일

[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.

#Review #LLM Agents #Long-Horizon Tasks #Skill Discovery #Co-Evolution #Skill Bank #Reinforcement Learning

2026년 4월 23일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Tadabur: A Large-Scale Quran Audio Dataset

본 논문은 기존 Quran audio 데이터셋의 규모와 다양성 부족 문제를 해결하기 위해, 600명 이상의 낭송자가 녹음한 1,400시간 이상의 음성을 포함하는 대규모 Quran 음성 데이터셋 Tadabur를 공개합니다.

#Review #Quran Audio Dataset #Speech Processing #Audio Benchmark #Multi-Speaker Speech #Recitation Analysis #Acoustic Diversity

2026년 4월 22일

[논문리뷰] Scaling Test-Time Compute for Agentic Coding

본 논문은 Long-horizon 코딩 에이전트의 Inference-time scaling을 위해 데이터의 표현(Representation)과 선택(Selection) 방식이 핵심 Bottleneck임을 규명합니다.

#Review #Test-Time Compute #Agentic Coding #Representation Learning #Recursive Tournament Voting (RTV)#Parallel-Distill-Refine (PDR)#Long-Horizon Agents #Inference-Time Scaling

2026년 4월 22일

[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild

저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .

#Review #Coding Agents #Software Engineering #Human-Agent Interaction #In-the-wild Dataset #Code Attribution

2026년 4월 22일

[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.

#Review #Reward Hacking #Alignment #RLHF #Proxy Compression Hypothesis #Emergent Misalignment #Large Models #Scalable Oversight

2026년 4월 22일

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.

#Review #Human Video Generation #Image-First Synthesis #Flow Matching #Temporal Consistency #SMPL-X #Diffusion Transformer

2026년 4월 22일

[논문리뷰] Near-Future Policy Optimization

본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.

#Review #Multimodal Generation #Vision-Language Model #Latent Embeddings #Diffusion Model #Representation Alignment #Unified Framework

2026년 4월 22일

[논문리뷰] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

본 연구는 통합된 multimodal 이해와 생성을 위해 독립적인 아키텍처 대신 dLLM 기반의 단일 프레임워크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Diffusion Large Language Model #SigLIP-VQ #Unified Architecture #Block-wise Masked Diffusion

2026년 4월 22일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] Diverse Dictionary Learning

본 논문은 관측 데이터 $X=g(Z)$로부터 잠재 변수 $Z$를 복구하는 문제에서, 기존의 강한 매개변수적 제약이나 보조 정보 없이도 식별 가능한 부분이 무엇인지 규명하고자 합니다.

#Review #Diverse Dictionary Learning #Identifiability #Latent Variable Models #Nonlinear ICA #Jacobian Sparsity #Disentangled Representation

2026년 4월 22일

[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.

#Review #Dexterous Manipulation #Video Generative Models #Physics-based Simulation #Reinforcement Learning #Human-Object Interaction

2026년 4월 22일

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] CreativeGame:Toward Mechanic-Aware Creative Game Generation

본 논문은 LLM을 통한 게임 생성이 단순한 코드 작성을 넘어, 반복적이고 창의적인 발전으로 이어지지 못하는 한계를 해결하고자 한다. 기존의 단일 샷(Single-shot) 생성은 런타임 오류가 빈번하고 버전 간의 경험 축적이 불가능하며, 창의성 평가가 매우 주관적이라는 단점이 있다.

#Review #Creative Game Generation #Multi-agent System #Mechanic-Aware #Iterative Evolution #CreativeProxyReward #Runtime Validation #Lineage-Aware Memory

2026년 4월 22일

[논문리뷰] Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

본 논문은 로봇 제어 루프에 월드 모델을 통합하여 미래 예측과 평가 과정을 추가하는 Cortex 2.0 아키텍처를 제안합니다 . 제안 모델은 현재 관측치를 바탕으로 월드 모델을 통해 $k$개의 미래 궤적 후보를 잠재 공간(Visual latent space)에서 생성합니다.

#Review #Vision-Language-Action Models #World Models #Robotic Manipulation #Plan-and-Act #Process-Reward Operator #Flow Matching #Cross-Embodiment

2026년 4월 22일

[논문리뷰] Convergent Evolution: How Different Language Models Learn Similar Number Representations

본 논문은 언어 모델이 일반 텍스트 학습만으로도 수(number)에 대한 주기적인 표현을 학습한다는 기존 연구들의 관찰에서 출발합니다.

#Review #Language Models #Mechanistic Interpretability #Fourier Features #Convergent Evolution #Modular Arithmetic #Representation Learning

2026년 4월 22일

[논문리뷰] A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

터미널 기반의 소프트웨어 엔지니어링 에이전트는 긴 호흡의 의사결정이 필요하지만, 반복적이고 노이즈가 많은 터미널 출력으로 인해 컨텍스트의 중복성이 심화되는 문제에 직면해 있습니다 . 이러한 데이터 중복은 토큰 비용을 기하급수적으로 증가시킬 뿐만 아니라, 중요한 신호를 가려 장기 추론 성능을 저하시키는 주요 원인이 됩니다.

#Review #Terminal Agents #Context Compression #Self-evolving Framework #Token Efficiency #Long-horizon Reasoning #Training-free

2026년 4월 22일

[논문리뷰] UniMesh: Unifying 3D Mesh Understanding and Generation

본 논문은 3D 생성과 이해를 하나의 아키텍처 내에서 통합하고 상호 강화할 수 있는 UniMesh를 제안합니다. Mesh Head를 도입하여 BAGEL의 latent와 Hunyuan3D의 conditioning latent를 직접 매핑함으로써 정보 손실을 최소화하고 기하학적 정밀도를 유지합니다.

#Review #3D Generation #3D Understanding #Mesh Head #Chain-of-Mesh #Self-Reflection #Multimodal Learning

2026년 4월 21일

[논문리뷰] Understanding and Enforcing Weight Disentanglement in Task Arithmetic

본 논문은 Task Arithmetic의 성공 뒤에 숨겨진 근본적인 이론적 원리를 규명하고, 이를 기반으로 성능을 개선하는 것을 목표로 한다.

#Review #Task Arithmetic #Weight Disentanglement #Model Merging #Orthogonal Regularization #Task-Feature Specialization

2026년 4월 21일

[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .

#Review #Uniform Discrete Diffusion Model #Reinforcement Learning #GRPO #Text-to-Image Generation #Policy Optimization #Distribution Alignment

2026년 4월 21일

[논문리뷰] The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

저자들은 Qwen-3.5-9B를 기반으로 Sentinel-Bench라는 평가 프레임워크를 구축하여 System 1과 System 2 간의 성능을 정량적으로 비교 분석하였다. 동일한 파라미터 환경에서 reasoning toggle만을 조정하여 840번의 독립적인 추론을 수행하였다.

#Review #Small Language Models #Decentralized Autonomous Organizations #Inference-time Compute #System 1 vs System 2 #Sentinel-Bench #Adversarial Robustness #Cognitive Collapse

2026년 4월 21일

[논문리뷰] Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

본 논문은 LLM pretraining 과정에서 타겟 도메인 및 태스크의 특성을 효율적으로 학습하기 위한 정교한 데이터 선별 기법의 부재 문제를 해결합니다.

#Review #Large Language Models #Pretraining Data Selection #Neuron-Activated Graph #Target-Oriented Pretraining #Interpretability

2026년 4월 21일

[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models

본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.

#Review #Test-time Training #Large Reasoning Models #Expectation-Maximization #Actor-Critic #Reinforcement Learning #Scalability #Diversity

2026년 4월 21일

[논문리뷰] Speculative Decoding for Autoregressive Video Generation

본 논문은 이미지 품질 라우터를 사용하여 블록별로 드래프트된 결과물을 수락하거나 타겟 모델로 재생성하는 SDVG 프레임워크를 제안합니다. 드래프터는 4번의 Denoising step을 통해 후보 블록을 생성하며, 이는 Worst-frame aggregation을 통해 ImageReward로 평가됩니다 .

#Review #Speculative Decoding #Autoregressive Video Generation #Video Diffusion #Training-free #ImageReward

2026년 4월 21일

[논문리뷰] ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

본 논문은 기존 LoRA 스타일의 PEFT 방식이 가진 파편화된 적응(fragmented adaptation) 구조를 극복하기 위해 ShadowPEFT를 제안한다.

#Review #Parameter-Efficient Fine-Tuning #Shadow Network #Large Language Models #Modular Deployment #Edge Computing

2026년 4월 21일

[논문리뷰] PlayCoder: Making LLM-Generated GUI Code Playable

본 논문은 GUI 행동의 정확성을 검증하고 이를 기반으로 코드를 반복적으로 수정하는 다중 에이전트 프레임워크인 PlayCoder를 제안합니다 . PlayDeveloper는 리포지토리 문맥을 활용하여 초기 코드를 생성하고, PlayTester는 GUI를 직접 실행하며 시각적/기능적 결함을 진단합니다.

#Review #Large Language Model #Code Generation #Multi-Agent #GUI Applications #Automated Program Repair

2026년 4월 21일

[논문리뷰] MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

본 논문은 기존 S2ST 시스템이 의미론적 정확도는 높으나, 웃음이나 울음 같은 NVs를 보존하지 못해 실질적인 대화의 정서적 맥락을 상실하는 문제를 해결한다. 기존 시스템들은 고품질 NVs 데이터의 부족과, 복잡한 다중 감정 상태를 처리하기 어려운 모델 구조적 한계로 인해 표현력이 부족하다.

#Review #Speech-to-Speech Translation #Non-verbal Vocalizations #Mixture of Experts #AudioLLMs #Expressive Speech #Data Efficiency

2026년 4월 21일

[논문리뷰] Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

본 논문은 최신 <strong>Multimodal Large Language Models (MLLMs)</strong>가 객체 인식이나 장면 묘사와 같은 표면적 시각 인지에서는 뛰어난 성과를 보이나, 인간의 핵심 인지 능력인 visuo-cognitive 및 visuospatial reasoning 역량은 여전히 부족하다는 문제의식에서 출발합니다.

#Review #Multimodal LLMs #Visuospatial Reasoning #Fluid Intelligence #Mental Transformation #ART Taxonomy #Cognitive Benchmark

2026년 4월 21일

[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.

#Review #Multimodal Large Language Models #MLLM-as-a-Judge #Compositional Bias #Benchmark #Bias-Deviation #Bias-Conformity

2026년 4월 21일

[논문리뷰] LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

본 논문은 LoopCTR을 제안하며, 이는 재귀적 루프 블록을 통해 파라미터 효율성을 극대화한 Sandwich architecture를 채택한다. Loop Block 내의 표현력을 높이기 위해 MoE-Augmented Transformer를 적용하고, Hyper-Connected Residuals (HCR)를 도입하여 정보 흐름을 동적으로 조정한다 .

#Review #CTR Prediction #Loop Scaling #Transformer #Mixture-of-Experts #Hyper-Connected Residuals #Parameter Efficiency #Process Supervision

2026년 4월 21일

[논문리뷰] HP-Edit: A Human-Preference Post-Training Framework for Image Editing

본 논문은 기존의 이미지 편집 모델이 SFT(Supervised Fine-Tuning) 데이터의 품질 불일치와 실제 인간 선호도와 동떨어진 결과물을 생성하는 문제를 해결하고자 한다.

#Review #Image Editing #Human-Preference Alignment #Reinforcement Learning #Flow Matching #Visual Large Language Model

2026년 4월 21일

[논문리뷰] Evaluation-driven Scaling for Scientific Discovery

본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.

#Review #Test-Time Scaling #Scientific Discovery #Evaluation-driven Discovery #LLM #Optimization #Symbolic Laws #GPU Kernel

2026년 4월 21일

[논문리뷰] Dual-View Training for Instruction-Following Information Retrieval

본 논문은 기존의 instruction-aware retrievers가 지시문이 변경될 때 적절히 대응하지 못하고, 표면적인 쿼리-문서 유사도에 의존하여 구체적인 제약 조건을 무시하는 문제를 해결하고자 한다. Weller et al.

#Review #Instruction-Following #Information Retrieval #Dual-View Training #Polarity Reversal #Contrastive Learning

2026년 4월 21일

[논문리뷰] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

본 논문은 기존 interpretability 도구들이 실제 벤치마크상의 LLM 오류를 분석하는 데 한계가 있다는 점을 지적하며, 이를 해결하기 위한 실용적인 분석 프레임워크를 제안합니다.

#Review #LLM Interpretability #Contrastive Attribution #Layer-wise Relevance Propagation #Attribution Graph #Failure Analysis #Transformer

2026년 4월 21일

[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.

#Review #Information Retrieval #Code-Switching #Benchmark #Embedding Models #Robustness #Late-Interaction #Lexicon-Based Adaptation

2026년 4월 21일

[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

본 논문은 사람·물체·텍스트·음성을 입력으로 받는 인간-객체 상호작용(HOI) 비디오 합성에서, 손과 얼굴의 구조적 안정성과 물리적으로 타당한 접촉을 보장하기 위해 Human-Aware MoE와 Spatially-Structured Co-Generation을 결합한 CoInteract을 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Video Synthesis #Mixture of Experts #Physical Consistency #Co-Generation

2026년 4월 21일

[논문리뷰] ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

본 논문은 기존의 단일 사용자 중심 에이전트 시스템이 가진 구조적 한계를 극복하고, 사용자 간의 자율적인 협업을 위한 거버넌스 체계를 구축하고자 합니다.

#Review #Human-Symbiotic #Agent Framework #Identity Governance #Scoped Authorization #Accountability #Cross-User Collaboration

2026년 4월 21일

[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.

#Review #Agentic Workflow #Benchmark #Large Language Models #Visual Programming #Executable Workflow #Task Automation

2026년 4월 21일

[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 .

#Review #Multimodal Reasoning Models #Chain-of-Thought #Visual Spatial Reasoning #Shortcut Learning #Hallucination #No-Image Ablation

2026년 4월 21일

[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

본 논문은 임의의 불규칙한 Sparse-view로부터 고품질의 대규모 3D 장면을 복원하는 문제를 해결하고자 합니다. 기존의 확산 모델 기반 연구들은 소수의 참조 뷰에만 의존하거나, 3D 기하학적 정보를 명시적으로 통합하지 못해 복잡한 장면에서 일관성을 유지하는 데 한계가 있습니다.

#Review #3D Reconstruction #Video Diffusion Model #Sparse-view #Geometry-Aware #Global Scene Memory

2026년 4월 21일

[논문리뷰] Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

본 논문은 문서 청킹을 텍스트 생성이 아닌 '계획 문제(Planning Problem)'로 재정의하여 W-RAC를 제안합니다. 이 시스템은 세 단계로 구성되는데, 먼저 웹 콘텐츠를 구조화하여 ID를 할당하고, LLM은 오직 ID 리스트 기반의 최적 그룹화 계획만을 수립하며, 마지막으로 로컬에서 ID를 매핑하여 최종 청크를 조립합니다 .

#Review #Retrieval-Augmented Generation #Document Chunking #Web Parsing #Cost-Efficiency #Semantic Planning #Scalability

2026년 4월 19일

[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.

#Review #Video Editing #Reward Model #Benchmark #Instruction Following #Human Alignment

2026년 4월 19일

[논문리뷰] TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

본 논문은 PDAC 세그멘테이션과 같이 전문가 간 의견 불일치가 빈번한 의료 영상 분석에서 기존의 단일 정답 기반 모델이 과도하게 높은 확신(overconfidence)을 보이는 문제를 해결하고자 합니다.

#Review #PDAC #Multi-rater Calibration #Medical Image Segmentation #Isotonic Regression #MHR #Uncertainty Estimation #Deep Ensemble

2026년 4월 19일

[논문리뷰] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

본 논문은 패치 수준의 증류(distillation) 과정이 정렬 능력을 크게 향상시킨다는 통찰을 바탕으로 TIPSv2 프레임워크를 제안한다. 저자들은 마스킹된 패치뿐만 아니라 모든 패치에 손실을 적용하는 iBOT++ 기법을 통해 학생 모델이 교사 모델의 표현을 더욱 강력하게 학습하도록 유도한다 .

#Review #Vision-Language Pretraining #Patch-Text Alignment #iBOT++#Masked Image Modeling #Distillation #Head-only EMA

2026년 4월 19일

[논문리뷰] Repurposing 3D Generative Model for Autoregressive Layout Generation

본 논문은 텍스트 기반 3D layout 생성 방식이 가진 물리적 불일치와 계산 효율성 문제를 해결하기 위해 LaviGen을 제안한다.

#Review #Autoregressive Layout Generation #3D Generative Models #Diffusion Models #Exposure Bias #Dual-Guidance Self-Rollout

2026년 4월 19일

[논문리뷰] Qwen3.5-Omni Technical Report

본 논문은 기존 멀티모달 모델이 지닌 수동적 인식-반응 패러다임의 한계를 극복하고, 실제 환경에서 요구되는 에이전트적 행위 및 실시간 상호작용 능력을 갖춘 통합 모델을 구현하고자 합니다.

#Review #Omnimodal #Thinker-Talker Architecture #ARIA #Hybrid MoE #Streaming Inference #Audio-Visual Vibe Coding

2026년 4월 19일

[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .

#Review #QuantCode-Bench #Large Language Models #Algorithmic Trading #Backtrader #Code Generation #Agentic Workflow #Domain-Specific Benchmarking

2026년 4월 19일

[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs

본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Long-term Personalization #Memory Architecture #Personality Alignment #Agent Framework #Reinforcement Learning

2026년 4월 19일

[논문리뷰] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

본 논문은 기존 벤치마크들이 실제 과학 연구의 핵심인 탐색적 성격과 절차적 복잡성을 제대로 평가하지 못하는 문제를 해결하고자 한다.

#Review #PRL-Bench #LLMs #Scientific Benchmarks #Physics Research #End-to-End Workflow #Long-horizon Reasoning #Agentic Science

2026년 4월 19일

[논문리뷰] NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results

본 챌린지에서는 총 2,000개의 다양한 비디오로 구성된 새로운 데이터셋을 활용하였으며, 7개의 최종 팀이 제안한 모델들을 평가했습니다. 우승 팀인 iLearn은 InternVideo2 백본을 공유하고 두 개의 상호 보완적인 디코더를 앙상블(Ensemble)하는 다중 전문가 프레임워크를 제안했습니다 .

#Review #Video Saliency Prediction #Crowdsourcing #Foundation Models #Spatiotemporal Modeling #NTIRE 2026 Challenge

2026년 4월 19일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation

본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.

#Review #Video-to-Speech #Discrete Diffusion Models #Hierarchical Modeling #Audio-Visual Alignment #Residual Vector Quantization #Transformer

2026년 4월 19일

[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.

#Review #Autonomous LLM Agents #Agent Evaluation #General AI Assistant #Tool-use #Workflow Management

2026년 4월 19일

[논문리뷰] Elucidating the SNR-t Bias of Diffusion Probabilistic Models

저자들은 SNR-t bias를 완화하기 위해 DCW (Differential Correction in Wavelet domain)를 제안합니다 . 이 방법론은 학습 없이(training-free) 추론 단계에서 적용 가능한 플러그 앤 플레이 방식의 differential correction을 수행합니다.

#Review #Diffusion Probabilistic Models #SNR-t Bias #Differential Correction #Wavelet Domain #Generation Quality #Training-free

2026년 4월 19일

[논문리뷰] EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection

본 논문은 Gradient Smartification 기법을 제안하여 로컬 그래디언트를 이진 표현으로 압축함으로써 통신 페이로드 크기를 최대 32배까지 감소시켰습니다. 이 과정에서 중앙값 기반의 적응형 임계값을 적용하여 기존 signSGD 방식의 고정 임계값 문제(노이즈 발생 및 불안정성)를 해결했습니다.

#Review #Federated Learning #Intrusion Detection #Gradient Compression #Homomorphic Encryption #6G-IoT #Median-Thresholding

2026년 4월 19일

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일

[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?

본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.

#Review #Large Language Models #LLM Unlearning #Algorithmic Invention #GRPO #Test-time Reinforcement Learning

2026년 4월 19일

[논문리뷰] ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

본 논문은 AI 생성 음악을 탐지하는 문제를 물리적 포렌식 잔차를 분석하는 과정으로 재정의하는 ArtifactNet 프레임워크를 제안한다. 시스템은 크게 3단계로 구성되는데, ArtifactUNet을 통한 포렌식 잔차 추출, HPSS를 활용한 7채널 특징 생성, 그리고 최종 판단을 위한 경량 CNN 분류로 이어진다.

#Review #AI-generated music #Forensic physics #Residual Vector Quantization #ArtifactNet #ArtifactBench #Codec-aware training #HPSS

2026년 4월 19일

[논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

본 논문은 최신 AI Accelerator(예: Amazon Trainium)에서 고성능 커널을 개발하는 과정이 극도로 어렵고 고비용이라는 문제를 해결하고자 합니다.

#Review #LLM Agent #Kernel Optimization #AI Accelerator #Amazon Trainium #Beam Search #Optimization Memory

2026년 4월 19일

[논문리뷰] (1D) Ordered Tokens Enable Efficient Test-Time Search

본 논문은 SoTo 프레임워크를 제안하여 다양한 tokenizer 구조, search 알고리즘, verifier, 그리고 AR prior의 상호작용을 체계적으로 분석합니다 . 제안 방법론은 FlexTok과 같은 1D ordered tokenizer를 활용하여, 중간 토큰 시퀀스가 전체 이미지의 전역적인 의미를 담도록 학습시킵니다.

#Review #tokenization #test-time scaling #autoregressive model #search #coarse-to-fine

2026년 4월 19일

[논문리뷰] Towards Autonomous Mechanistic Reasoning in Virtual Cells

본 논문은 생물학적 추론을 Directed Acyclic Graph(DAG) 형태로 공식화하여 추론 과정을 명확히 정의하고 검증 가능하게 만듭니다 . 제안하는 VCR-Agent는 보고서 생성기(Report Generator)와 설명 생성기(Explanation Constructor)라는 두 단계 파이프라인으로 구성되어 있습니다.

#Review #Virtual Cells #Large Language Models #Mechanistic Reasoning #Structured Explanation #Knowledge Retrieval #Verifier-based Filtering

2026년 4월 16일

[논문리뷰] SuperLocalMemory V3.3: The Living Brain -- Biologically-Inspired Forgetting, Cognitive Quantization, and Multi-Channel Retrieval for Zero-LLM Agent Memory Systems

본 논문은 정보 기하학에 기반한 FRQAD와 Local TurboQuant를 도입하여 메모리 저장 효율과 검색 정밀도를 동시에 달성한다. 저자들은 Fokker-Planck 동역학을 활용하여 메모리의 수명 주기를 수학적으로 관리하며, 이를 통해 고정밀에서 저정밀(32-bit에서 2-bit까지)로 이어지는 단계적 메모리 압축을 구현한다.

#Review #Agent Memory #Information Geometry #Vector Quantization #Ebbinghaus Forgetting #Cognitive Architecture #Soft Prompts #Fisher-Rao

2026년 4월 16일

[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 .

#Review #RadAgent #Reinforcement Learning #Vision-Language Models #Chest CT #Medical Report Generation #Tool-using AI Agent #Faithfulness #Robustness

2026년 4월 16일

[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing

본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Image Editing #Unified Framework #Relational Modeling #Spatial Control

2026년 4월 16일

[논문리뷰] Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

본 논문은 LLM의 수학적 추론 능력을 향상시키기 위한 Inference-Time Optimization 기법들이 실질적인 효과가 있는지 검증하고자 합니다.

#Review #LLM #Mathematical Reasoning #Inference-Time Optimization #Majority Voting #Self-Consistency #Diverse Prompting

2026년 4월 16일

[논문리뷰] MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

본 논문은 기존의 웹 페이지 자동 생성 방식이 가진 전역적 일관성 및 시각적 요소의 통합 문제를 해결하기 위해 MM-WebAgent를 제안한다.

#Review #Multimodal Web Agent #Hierarchical Planning #Self-Reflection #Webpage Generation #AIGC

2026년 4월 16일

[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Long-context #Sparsity #Activation Patterns #Saliency-guided

2026년 4월 16일

[논문리뷰] LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

본 논문은 Flow Matching 모델을 인간의 선호도에 맞게 정렬(alignment)하는 과정에서 기존 Direct-Gradient 방식들이 가진 고비용 메모리 문제와 그래디언트 폭주(gradient explosion) 문제를 해결하고자 합니다.

#Review #Flow Matching #Preference Alignment #Direct-Gradient Method #Leap Trajectory #Trajectory-Similarity Weighting #Gradient Discounting

2026년 4월 16일

[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #KV Cache #RAG #Recomputation-Free #Soft-token Adapter #Self-Supervised Distillation #Attention Dynamics

2026년 4월 16일

[논문리뷰] Cross-Tokenizer LLM Distillation through a Byte-Level Interface

본 논문은 LLM의 핵심적인 제약 사항인 Tokenizer 불일치 문제를 해결하기 위한 범용적인 Cross-Tokenizer Distillation (CTD) 기법을 제안합니다.

#Review #Cross-Tokenizer Distillation #Byte-Level Interface #Knowledge Distillation #LLM #Vocabulary Mismatch

2026년 4월 16일

[논문리뷰] C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

본 논문은 Rubric 생성과 Rubric 기반 검증을 협력적이지만 비판적인 의사소통 과정으로 재정의합니다. 제안 방법론인 C2는 우선 Verifier의 신뢰도를 기준으로 Rubric을 Helpful한 것과 Misleading한 것으로 합성한 후, 이 쌍을 활용하여 Generator를 DPO로 학습시키고 Verifier를 GRPO로 학습시킵니다 .

#Review #Reward Modeling #Reinforcement Learning from Human Feedback (RLHF)#Rubric-Augmented Verification #Binary Preferences #Cooperative Communication

2026년 4월 16일

[논문리뷰] Target Policy Optimization

본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Target Policy Optimization #Sparse Reward #Policy Gradient #Cross-Entropy #RLVR #Grouped RL

2026년 4월 15일

[논문리뷰] SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

본 논문은 3D 공간 추론 학습에서 데이터 주석(annotation) 비용과 모델 합의(consensus) 기반 학습의 한계 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Self-Evolution #Vision-Language Models #Deterministic Geometric Environment #Reinforcement Learning

2026년 4월 15일

[논문리뷰] Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

본 논문은 기존 AI 코딩 에이전트들이 특정 배포 형태(CLI, IDE 플러그인, 웹 앱)와 결합되어 있어, 기업 환경에서 이기종 인프라 간의 재사용이 어렵다는 문제를 해결하고자 합니다.

#Review #AI Coding Agents #Embeddable Infrastructure #Decoupled Architecture #Multi-tenant Isolation #Context Compression #Agent Runtime

2026년 4월 15일

[논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity

본 연구는 기존 비디오 생성 모델이 가졌던 짧은 클립 생성 위주의 한계와 제한적인 제어 능력을 극복하고, 복잡한 실세계 시나리오에 대응하는 강력하고 조작 가능한(controllable) 비디오 합성 기술을 구현하는 데 목적이 있습니다.

#Review #Video Generation #Multimodal Foundation Model #Audio-Video Joint Generation #Controllability #Generative AI #Real-world Complexity

2026년 4월 15일

[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.

#Review #RationalRewards #Preference-Anchored Rationalization #Visual Generation #Reasoning-based Reward Model #Reinforcement Learning #Prompt Tuning

2026년 4월 15일

[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.

#Review #AI Agents #Language World Models #Professional Tasks #Environmental Robustness #Fault Injection #Benchmark

2026년 4월 15일

[논문리뷰] Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

본 논문은 기존의 메모리 기반 self-evolving agent들이 단일 도메인(Single-domain) 내의 메모리 활용에 국한되어, 다양한 도메인을 아우르는 공유 인프라와 프로그래밍 원칙을 충분히 활용하지 못하는 문제를 해결하고자 한다.

#Review #Coding Agents #Self-evolving Agents #Memory Transfer Learning #Cross-domain #Meta-knowledge #Abstraction #Transferability

2026년 4월 15일

[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.

#Review #Multimodal Large Language Model #Game Agent #Benchmark #Standardized Evaluation #Computer-Use Agent #Semantic Action Parsing #Outcome-based Evaluation

2026년 4월 15일

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

본 논문은 사전 학습된 피드포워드 3D 재구성 모델이 테스트 시점에 특정 장면의 기하학적 오류를 스스로 보정하지 못하는 경직된 문제를 해결합니다.

#Review #Test-Time Adaptation #Multi-View 3D Reconstruction #Self-Supervision #LoRA #Feature Consistency #Feed-Forward Models

2026년 4월 15일

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일

[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.

#Review #Robot Reinforcement Learning #Video-Generative Model #Value Function #Embodied AI #Future Prediction #Spatiotemporal Priors

2026년 4월 9일

[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.

#Review #Large Language Models #User Simulation #Human Behavior Modeling #Long-horizon #Cross-scenario #Benchmark

2026년 4월 9일

[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization

본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.

#Review #Web Agent #Knowledge Distillation #Synthetic Data #Trajectory Synthesis #Agent-as-Annotators #Supervised Fine-Tuning #Generalization

2026년 4월 9일

[논문리뷰] Structural Graph Probing of Vision-Language Models

본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.

#Review #Vision-Language Models #Neural Topology #Mechanistic Interpretability #Neuron Correlation #Graph Neural Networks #Causal Intervention

2026년 4월 9일

[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding

저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.

#Review #Multimodal Large Language Models #Long Video Understanding #Visual Token Compression #Adaptive Token Allocation #Cross-modal Distillation

2026년 4월 9일

[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.

#Review #LLM Agents #Skill Evolution #Multi-user Ecosystem #Collective Learning #Agentic Evolver #Procedural Memory

2026년 4월 9일

[논문리뷰] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

본 논문은 실세계의 geometry와 물리적 동역학을 시뮬레이션 내에 정렬하는 SIM1 프레임워크를 제안합니다 . 우선, 3D 스캔을 통해 실제 환경을 metric-accurate한 디지털 twin으로 재구성하고, deformation-stable solver인 AVBD를 도입하여 rigid-soft interaction의 물리적 일관성을 확보합니다 .

#Review #Deformable Manipulation #Physics-Aligned Simulation #Real-to-Sim-to-Real #Data Scaling #Diffusion-based Trajectory Generation #Embodied Learning

2026년 4월 9일

[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.

#Review #Diffusion Models #Flow Matching #Langevin Dynamics #Image Editing #Zero-shot Generation #Multi-reward Guidance #Adaptive Policy

2026년 4월 9일

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.

#Review #Supervised Fine-Tuning #Chain-of-Thought #Generalization #Model Capability #Optimization Dynamics #Safety Degradation

2026년 4월 9일

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.

#Review #Video Generation #Physics-Infused #Flow Matching #Latent Dynamics #V-JEPA2 #Dual-Branch Architecture

2026년 4월 9일

[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste

본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.

#Review #Text-to-Image Generation #Personalization #Reward Modeling #Human Preference Alignment #Subjective Aesthetics

2026년 4월 9일

[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP

본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .

#Review #ISP #Reinforcement Learning #Task-aware #Sequence Optimization #Pipeline Design

2026년 4월 9일

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.

#Review #Spatial Intelligence #Data Engine #3D Bounding Boxes #Multimodal Large Language Models #Data Scaling #3D Lifting

2026년 4월 9일

[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .

#Review #Omni-modal Reasoning #Reinforcement Learning #Self-supervised Learning #Jigsaw Proxy Task #Modality Orchestration #Data Filtering

2026년 4월 9일

[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .

#Review #Web Agents #Multimodal #Vision-Language Models #Open Data #Browser-use #GUI Perception #Instruction-conditioned Policies

2026년 4월 9일

[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.

#Review #MegaStyle #Style Transfer #Data Curation #Diffusion Transformer #Contrastive Learning

2026년 4월 9일

[논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

본 논문은 3D scene proxy를 통해 조명을 제어하는 LiVER 프레임워크를 제안한다. 먼저 Renderer-based Agent가 텍스트 명령을 분석하여 3D 구조를 생성하고, 이를 2D 렌더 패스(diffuse, rough/glossy GGX)로 변환하여 물리적 단서를 추출한다 .

#Review #Video Generation #Controllable Generation #Lighting-grounded #3D Scene Proxy #Diffusion Models #Physical Realism #Renderer-based Agent

2026년 4월 9일

[논문리뷰] LPM 1.0: Video-based Character Performance Model

본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM을 통해 정체성을 보존하며, 이를 Online LPM으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다.

#Review #Large Performance Model #Full-Duplex #Diffusion Transformer #Identity-Consistent #Real-Time Inference #Streaming Generation #LPM-Bench

2026년 4월 9일

[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

본 논문은 현재의 모바일 에이전트 벤치마크가 사용자의 개인화된 요구사항을 이해하거나 선제적인 의사결정을 내리는 실제 서비스 환경을 제대로 반영하지 못한다는 문제에서 출발합니다.

#Review #Mobile Agent #Personalization #Proactive Assistance #Interactive Benchmarking #User Simulation #GUI Automation

2026년 4월 9일

[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.

#Review #Implicit Memory #LLM Agents #Procedural Memory #Priming #Classical Conditioning #Benchmark #Behavioral Adaptation

2026년 4월 9일

[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens를 핵심 방법론으로 제안합니다 . 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다.

#Review #Embodied Foundation Models #Mixture-of-Transformers #Visual Latent Tokens #On-policy Distillation #Chain-of-Thought #Real-world Agents

2026년 4월 9일

[논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

본 논문은 에이전트 스킬 라이브러리가 수천 개 이상으로 확장됨에 따라 발생하는 Skill Retrieval 의 병목 현상과 불완전한 스킬 검색 문제를 해결합니다. 기존의 Vanilla Skills 방식은 전체 라이브러리를 프롬프트에 포함하여 Context Window 오버로드, 토큰 비용 증가, 성능 저하를 초래합니다.

#Review #Agentic AI #Skill Retrieval #Graph-based Retrieval #Structural Dependency #Personalized PageRank #LLM Agents

2026년 4월 9일

[논문리뷰] Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

본 논문은 기존 long-context LLM 추론에서 발생하는 quadratic computational complexity와 기존 하이브리드 어텐션 기법들의 한계를 해결하고자 합니다.

#Review #Large Language Models #Long-context Inference #Hybrid Attention #Dynamic Routing #Layer-level Sparsity #Context-aware

2026년 4월 9일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일

[논문리뷰] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

본 논문은 기존 가상 착용(VTO) 기술이 의류의 외형 재현에는 뛰어나지만, 사용자의 체형이나 의류의 실제 사이즈를 반영한 '핏(fit)'을 정확히 표현하지 못한다는 핵심 문제 의식을 제기합니다.

#Review #Virtual Try-On #Diffusion Model #Sim2Real #Dataset #Fit-Awareness #Physics Simulation

2026년 4월 9일

[논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

저자들은 에이전트의 역량을 Memory(상태의 외부화), Skills(절차적 전문성의 외부화), Protocols(상호작용 구조의 외부화)라는 세 가지 차원으로 구분하여 분석한다 . Memory는 Working Context, Episodic 경험, Semantic 지식, 개인화된 기억을 통해 모델이 에피소드 간 연속성을 유지하도록 돕는다.

#Review #LLM Agents #Externalization #Memory #Skills #Protocols #Harness Engineering #Cognitive Artifacts

2026년 4월 9일

[논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs

본 논문은 dLLM을 위한 DMax 패러다임을 제안하며, 이는 예측의 self-refinement 과정을 임베딩 공간 내의 변환으로 재구성합니다. 핵심 기법인 OPUT은 학습 시 모델 스스로의 예측을 통해 noisy input을 구성함으로써 train-inference 간의 불일치를 줄여 자가 수정 능력을 극대화합니다 .

#Review #Diffusion Language Models #Parallel Decoding #Error Accumulation #On-Policy Training #Self-Correction #Embedding Space

2026년 4월 9일

[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?

본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .

#Review #AI Agents #Web Benchmarking #Write-heavy Tasks #Real-world Interaction #Agentic Evaluator #Trajectory Recording

2026년 4월 9일

[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Agentic Search #Reinforcement Learning #Hierarchical Experience #Policy Optimization #Contrastive Distillation #Self-Reflection

2026년 4월 9일

[논문리뷰] Automating Database-Native Function Code Synthesis with LLMs

DBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.

#Review #Database-Native Function #Code Synthesis #Large Language Models #Function Characterization #Adaptive Orchestration #Pseudo-plan Generation

2026년 4월 9일

[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.

#Review #Zero-Shot Anomaly Detection #Vision Foundation Models #Synthetic Data Generation #LoRA #Confidence-Weighted Loss

2026년 4월 9일

[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .

#Review #Multimodal Large Language Models #Agentic Systems #Reinforcement Learning #Hierarchical Decoupled Policy Optimization #Meta-Cognitive Tool Use #Efficiency #Reasoning

2026년 4월 9일

[논문리뷰] VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

본 논문은 사용자 의도 중심의 10가지 범주, 149개의 작업, 그리고 80개의 환경 변이를 포함하는 VenusBench-Mobile을 제안한다. 에이전트의 실패 원인을 세밀하게 분석하기 위해 PUDAM 역량 분류 체계를 도입하여 각 작업의 난이도를 4단계(Level 1-4)로 구분하였다.

#Review #Mobile GUI Agents #User-Centric Benchmark #Capability Diagnostics #Human-Computer Interaction #Performance Evaluation #Robustness

2026년 4월 8일

[논문리뷰] Tunable Soft Equivariance with Guarantees

본 논문은 기존의 엄격한 등가성 설계가 실제 데이터의 노이즈나 변형에 유연하게 대응하지 못해 모델의 표현력(Expressiveness)을 저하시키는 문제를 해결하고자 합니다.

#Review #Soft Equivariance #Group Equivariance #Weight Projection #Tunable #Equivariance Error #Vision Transformers #Canonicalization

2026년 4월 8일

[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.

#Review #Multimodal Foundation Models #Process-Driven Generation #Interleaved Reasoning #Chain-of-Thought #Visual Grounding #Image Generation

2026년 4월 8일

[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.

#Review #Large Language Models #Latent Planning #Strategy Discovery #Chain-of-Thought #Depth Ceiling #Path-finding #Implicit Reasoning

2026년 4월 8일

[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.

#Review #Vision Transformer #Deep Compression #Autoencoder #Latent Diffusion Models #Token Scaling #Staged Token Compression #Self-Supervised Learning

2026년 4월 8일

[논문리뷰] SEVerA: Verified Synthesis of Self-Evolving Agents

본 연구는 FGGM을 핵심으로 하는 3단계 프레임워크인 SEVerA를 제안합니다. 첫째, Search 단계에서 Planner LLM이 로컬 제약 조건이 설정된 FGGM 기반의 Parametric Program을 합성합니다.

#Review #LLM Agents #Automated Verification #Deductive Program Synthesis #Formally Guarded Generative Models #Constraint-Guided Synthesis

2026년 4월 8일

[논문리뷰] RAGEN-2: Reasoning Collapse in Agentic RL

본 논문은 Mutual Information (MI) 기반의 진단 프레임워크와 SNR-Aware Filtering 기법을 제안한다. 연구진은 추론 품질을 Within-input diversity (Entropy)와 Cross-input distinguishability (MI)로 분해하여, 학습 과정에서 MI 프록시를 통해 템플릿 붕괴를 조기에 탐지한다 .

#Review #Agentic RL #Reasoning Collapse #Mutual Information #Signal-to-Noise Ratio #Reward Variance #Template Collapse

2026년 4월 8일

[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network

본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.

#Review #Point Cloud Registration #Real-time #Feature Extraction #Industrial Automation #Event-camera #Robustness

2026년 4월 8일

[논문리뷰] Qualixar OS: A Universal Operating System for AI Agent Orchestration

본 논문은 에이전트 워크플로우의 실행, 품질 보증, 모델 라우팅을 통합 관리하는 12단계 오케스트레이션 파이프라인과 Forge 엔진을 제안합니다 . Forge는 LLM 기반의 메타 인지 설계를 통해 태스크에 최적화된 에이전트 팀을 구성하며, 12가지의 다양한 실행 토폴로지를 제공하여 유연한 에이전트 협업을 구현합니다.

#Review #Multi-agent Systems #Agent Orchestration #LLM Operating System #Topology Execution #Model Routing #Goodhart Detection #Behavioral Contracts

2026년 4월 8일

[논문리뷰] Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

본 논문은 Q-Zoom이라는 2단계 적응형 프레임워크를 통해 시각적 인지 효율성을 개선한다. 첫 번째 단계인 Dynamic Gating Network는 consistency-aware 훈련 전략을 통해 고해상도 처리가 불필요한 쿼리를 식별하여 우회함으로써 불필요한 계산을 줄인다.

#Review #Multimodal Large Language Models #Efficient Perception #Dynamic Gating #Region Proposal Network #Self-Distillation #High-Resolution Adaptation

2026년 4월 8일

[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.

#Review #Personalized RewardBench #Reward Modeling #Pluralistic Alignment #User Profile #Downstream Validation #Best-of-N #PPO

2026년 4월 8일

[논문리뷰] Neural Computers

본 논문은 최신 비디오 생성 모델인 Wan2.1을 기반으로 인터페이스별 특화된 데이터 엔진과 학습 레시피를 적용하여 CLI와 GUI 환경에서의 NC 프로토타입을 구축하였다. 모델은 주어진 입력을 통해 latent state를 업데이트하고 다음 프레임을 생성하는 update-and-render 루프를 수행한다.

#Review #Neural Computer #World Models #Interactive Video Generation #Latent Runtime State #CNC #CLI/GUI Interfaces

2026년 4월 8일

[논문리뷰] MoRight: Motion Control Done Right

본 논문은 기존 비디오 생성 모델이 가진 카메라와 객체 동작의 얽힘(Entanglement) 문제와 인과 관계 추론의 부재를 해결하기 위해 MoRight 를 제안한다. 기존 연구들은 픽셀 기반의 트래킹 신호를 사용하므로 카메라 이동 시 모든 객체의 픽셀 궤적이 변하는 한계가 있어 정교한 동시 제어가 어렵다.

#Review #Video Generation #Disentangled Motion Control #Causal Motion Reasoning #Motion Dropout #Dual-stream Generation

2026년 4월 8일

[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation

본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.

#Review #MARS #Autoregressive Model #Multi-Token Generation #Inference Acceleration #Block-Masked Prediction #Instruction-tuned LLM

2026년 4월 8일

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일

[논문리뷰] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

본 논문은 기존의 CLIR 평가 방식이 실제 다국어 환경에서의 모델 성능과 잠재적인 언어 편향성을 충분히 측정하지 못한다는 문제를 지적한다.

#Review #Cross-Lingual Information Retrieval #Semantic Alignment #Jensen-Shannon Divergence #InfoNCE #Multilingual Embedding Models #Language Bias

2026년 4월 8일

[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #World Model #Spatiotemporal Autoregressive #Diffusion Transformer #Camera Control #Distribution Matching Distillation

2026년 4월 8일

[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다.

#Review #Multimodal Generation #Flow Matching #Visual Prompts #Image-in Image-out #Visual Instruction Following #VisPrompt-5M #VP-Bench

2026년 4월 8일

[논문리뷰] Fast Spatial Memory with Elastic Test-Time Training

본 논문은 기존 LaCT 기반의 4D 재구성 모델이 추론 중 겪는 불안정한 학습 및 과적합(overfitting) 문제를 해결하고자 합니다.

#Review #4D Reconstruction #Test-Time Training #Elastic Weight Consolidation #Spatial Memory #Novel View Synthesis #Large Chunk Adaptation

2026년 4월 8일

[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.

#Review #Diffusion Models #Reinforcement Learning #FP4 Quantization #Rollout Scaling #Alignment #Efficiency #Two-stage Framework

2026년 4월 8일

[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules

본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.

#Review #Deontic Reasoning #LLM #Symbolic Computation #Prolog #Benchmark #High-stakes #Rule-based Reasoning

2026년 4월 8일

[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .

#Review #Knowledge Distillation #Dense Retrieval #Stratified Sampling #Score Distribution #Information Retrieval #Generalization

2026년 4월 8일

[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.

#Review #Agentic Graph Learning #Reinforcement Learning #Large Language Models #Graph-Native Search #Curriculum Learning

2026년 4월 8일

[논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

본 논문은 오디오-시각적 MLLM이 서로 다른 모달리티 간의 정보 불일치에 노출되었을 때 발생하는 취약점을 체계적으로 분석한다.

#Review #Multi-modal Large Language Models #Audio Typography #Adversarial Attack #Cross-modal Robustness #Semantic Steering #Safety Application #Content Moderation

2026년 4월 8일

[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .

#Review #Generative World Modeling #Delta Tokens #Visual Tokenization #Vision Foundation Models #Best-of-Many Training #Spatio-temporal Redundancy #Efficient Inference

2026년 4월 8일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.

#Review #Video Understanding #Multimodal Large Language Models #Benchmark #Reasoning Coherence #Capability Consistency #Evaluation Hierarchy #Non-linear Scoring

2026년 4월 7일

[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .

#Review #Virtual Try-On #Human Image Animation #Diffusion Transformer #Synthetic Triplet Supervision #Dual Module Architecture #Zero-shot Garment Interpolation

2026년 4월 7일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

본 논문은 정적인 과학 그래픽을 편집 가능한 TikZ 코드로 역공학(Reverse-engineering)하는 과정에서 발생하는 엄격한 공간적 제약 문제를 해결하고자 합니다.

#Review #Graphics Program Synthesis #TikZ #Reinforcement Learning #Multimodal Large Language Models #Self-Consistency #Round-Trip Verification

2026년 4월 7일

[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

본 논문은 LLM 기반의 자동 프로그램 복구 기법에서 빈번하게 발생하는 Over-editing 문제를 해결하고자 합니다. 기존 모델들은 복구의 정확성(Correctness)만을 최적화하기 때문에, 버그를 정교하게 식별하지 못하고 전체 코드를 과도하게 수정하는 경향이 있습니다.

#Review #Program Repair #Over-editing #LLMs #Reinforcement Learning #EA-GRPO #Speculative Edits #Code Maintainability

2026년 4월 7일

[논문리뷰] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

본 논문은 문헌 탐색부터 분석, 비평까지 연구 전 과정을 지원하는 다중 에이전트 플랫폼인 Paper Circle을 제안한다. 시스템은 Discovery Pipeline과 Analysis Pipeline으로 구성되며, 연구자는 CodeAgent(CoA) 기반의 오케스트레이션 프레임워크를 통해 결정론적이고 추적 가능한 결과를 얻을 수 있다 , .

#Review #Multi-agent Systems #Research Discovery #Knowledge Graph #Large Language Models #Academic Literature Review

2026년 4월 7일

[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .

#Review #Large Language Models #Memory-Centric #CPU-GPU Offloading #Parameter Streaming #Stateless Execution #Pipelined Execution #Single-GPU Training

2026년 4월 7일

[논문리뷰] MedGemma 1.5 Technical Report

본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .

#Review #MedGemma #Multimodal Learning #Medical Imaging #Foundation Models #Volumetric Analysis #Histopathology #Clinical Reasoning

2026년 4월 7일

[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.

#Review #Multimodal Embedding #Large Language Models #Chain-of-Thought #Reinforcement Learning #Latent Variable #Causal Inference

2026년 4월 7일

[논문리뷰] In-Place Test-Time Training

본 논문은 정적인 'train then deploy' 패러다임이 LLM의 동적 적응 능력을 제한하는 문제를 해결하기 위해 In-Place TTT 를 제안합니다.

#Review #In-Place Test-Time Training #Large Language Models #Fast Weights #Next-Token Prediction #Chunk-Wise Update #Continual Learning

2026년 4월 7일

[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.

#Review #LLM Agents #Agentic Skills #Skill Retrieval #Skill Refinement #Benchmarking #Test-time Adaptation

2026년 4월 7일

[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.

#Review #Autonomous Bug Discovery #Large Language Models #Game Benchmark #Quality Assurance #Multi-agent System #Software Engineering

2026년 4월 7일

[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.

#Review #Peer Review #Evidence-Grounded #Claim Verification #Reproducibility #LLM Agent

2026년 4월 7일

[논문리뷰] Experience Transfer for Multimodal LLM Agents in Minecraft Game

본 논문은 Echo 프레임워크를 통해 환경 지식을 5가지 전이 차원으로 분해하고 CSD를 통해 이를 통일된 의미론적 형태로 변환하여 관리합니다 . CSD는 시각적 및 텍스트 정보를 벡터화된 임베딩과 결합하여 메모리 뱅크에 저장하며, 이를 통해 ICAL 알고리즘이 관련 경험을 정밀하게 검색할 수 있도록 지원합니다 .

#Review #Multimodal LLM Agent #Experience Transfer #In-Context Analogy Learning (ICAL)#Minecraft #Contextual State Descriptor (CSD)#Embodied Intelligence

2026년 4월 7일

[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies

본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다.

#Review #Network Pruning #Large Language Models #Representation Hierarchy #Autoregressive Decoding #Softmax Nonlinearity

2026년 4월 7일

[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .

#Review #Diffusion Large Language Models #Post-Training #Reinforcement Learning #Unified Framework #Systems Optimization

2026년 4월 7일

[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents

본 논문은 LLM 기반 에이전트가 인간의 행동을 시뮬레이션할 때 발생하는 Behavioral Rigidity 와 양극화 문제를 해결하고자 합니다.

#Review #LLM Agents #Value Alignment #Behavioral Fidelity #S-O-R Model #Value-Driven Reasoning #CVABench

2026년 4월 7일

[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.

#Review #Autonomous Agents #Benchmark #Trajectory-aware Grading #Safety Evaluation #Robustness Testing #Multimodal Perception

2026년 4월 7일

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.

#Review #fMRI #Transformer #Tokenization #Deep Compression Autoencoder #Self-supervised Learning #Long-range Dynamics

2026년 4월 7일

[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.

#Review #Tool-Integrated Reasoning (TIR)#KV-Cache #PTE (Prefill Token Equivalents)#Inference Efficiency #Hardware-Aware Metric #LLM Agent

2026년 4월 7일

[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation

본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .

#Review #World Action Model #Robot Policy Learning #Multiview Video Generation #Pixel-grounded Representation #Zero-shot Policy

2026년 4월 7일

[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].

#Review #Code Generation #LLM #Test Reranking #AUC #Discriminative Power #Leave-One-Out #Test Weighting

2026년 4월 7일

[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

본 논문은 현대 개인용 AI 에이전트가 고도의 자동화와 개인화를 위해 사용하는 Persistent State 가 심각한 보안 취약점을 초래한다는 문제를 해결하고자 합니다.

#Review #Personal AI Agents #Persistent State #Security Analysis #CIK Taxonomy #Prompt Injection #Agent Safety #Evolution-Safety Tradeoff

2026년 4월 6일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.

#Review #RLVR #GRPO #SDPO #Sample Routing #Policy Optimization #Self-Distillation

2026년 4월 6일

[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .

#Review #KV Cache #LLM #Attention #RoPE #Compression #Reasoning

2026년 4월 6일

[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .

#Review #Geometric Alignment Tax #Foundation Models #Tokenization #Manifold Fracture #Rate-Distortion Theory

2026년 4월 6일

[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .

#Review #Image Spatial Editing #Benchmark #Dataset #Geometry-Aware Evaluation #Camera Manipulation #Object Manipulation #Multimodal Large Models

2026년 4월 6일

[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents

저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.

#Review #LLM Agents #Skill Knowledge Base #Hierarchical Representation #Autonomous Experience Learning #Agent Self-Evolution #Tool Use

2026년 4월 6일

[논문리뷰] Self-Execution Simulation Improves Coding Models

본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.

#Review #Code LLM #Execution Simulation #Self-Verification #Self-RLEF #Reinforcement Learning

2026년 4월 6일

[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains

본 논문은 자연 이미지 도메인과 달리 도메인 이동(Domain Shift)과 데이터 분포의 심각한 불균형이 존재하는 과학적 이미지 도메인에서 파운데이션 모델의 미세 조정이 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Long-Tailed Recognition #Scientific Image Domain #Foundation Models #Parameter-Efficient Fine-Tuning #Feature Fusion #Domain Shift #Representation Learning

2026년 4월 6일

[논문리뷰] Paper Espresso: From Paper Overload to Research Insight

본 논문은 과학적 출판물의 급격한 증가로 인해 발생하는 연구자들의 정보 비대칭성과 과부하 문제를 해결하고자 합니다. arXiv에만 매월 약 30,000건의 논문이 제출되면서 개별 연구자가 모든 최신 동향을 파악하는 것은 불가능해졌습니다.

#Review #Paper Summarization #Trend Analysis #Knowledge Discovery #Large Language Models #Research Tools

2026년 4월 6일

[논문리뷰] POEMetric: The Last Stanza of Humanity

본 연구는 현존하는 LLM이 시 창작에서 문법적 완성도는 높으나, 인간 시인만이 가진 예술적 깊이와 창의성을 모방하는 데에는 한계가 있다는 문제의식에서 출발한다.

#Review #Large Language Models #Poetry Evaluation #POEMetric #Creative AI #Literary Criticism #Instruction-following

2026년 4월 6일

[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding

본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.

#Review #Universal Multimodal Embedding #Latent Reasoning #Multimodal Large Language Models #Chain-of-Thought #Semantic-Anchor-Guided #Curriculum Learning

2026년 4월 6일

[논문리뷰] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

본 논문은 월드 모델의 개념적 모호성을 해결하고 표준화된 정의 및 통합 프레임워크를 정립하기 위해 OpenWorldLib 을 제안한다.

#Review #World Models #Unified Inference Framework #Multimodal Reasoning #Vision-Language-Action #3D Generation #Interactive Video Generation

2026년 4월 6일

[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.

#Review #Document Parsing #Data-Centric AI #Vision-Language Model #Progressive Training #Data Engine

2026년 4월 6일

[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management

저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .

#Review #Large Language Models #Reasoning Compression #Memory Management #Agentic Reasoning #Context Optimization

2026년 4월 6일

[논문리뷰] Less Detail, Better Answers: Degradation-Driven Prompting for VQA

본 논문은 최신 Vision-Language Models (VLMs) 가 고해상도 이미지에서 오히려 불필요한 시각적 노이즈로 인해 환각(Hallucination)이나 추론 오류를 범하는 현상을 해결하고자 합니다.

#Review #Vision-Language Models #Visual Question Answering #Degradation-Driven Prompting #Agentic Perception #Structural Bottleneck

2026년 4월 6일

[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.

#Review #Test-Time Learning #Language Agents #Meta-Learning #Evolutionary Optimization #Adaptive Policy #LLM Agents #Prompt Engineering

2026년 4월 6일

[논문리뷰] LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

저자들은 로봇 조작 지시문의 핵심 구성 요소인 행동과 객체를 기반으로 43개의 정밀한 변형 유형을 포함하는 LIBERO-Para를 구축하였다. 또한, 모델의 성공 여부뿐만 아니라 원문 지시문과 파라프레이즈 간의 키워드 유사도(SKS_K)와 구조적 유사도(STS_T)를 결합한 PRIDE 메트릭을 제안하여 보다 해석 가능한 견고성 평가를 수행한다 .

#Review #Vision-Language-Action (VLA) Models #Paraphrase Robustness #Robotic Manipulation #Diagnostic Benchmark #PRIDE Metric #Object Grounding #Trajectory Divergence

2026년 4월 6일

[논문리뷰] HDP: A Lightweight Cryptographic Protocol for Human Delegation Provenance in Agentic AI Systems

본 논문은 에이전트 기반 AI 시스템에서 발생하는 구조적인 Accountability Gap 을 해결하기 위해 고안되었습니다.

#Review #Agentic AI #Delegation Provenance #Cryptographic Authorization #Multi-agent Systems #Ed25519 #Human-in-the-loop Security #IETF

2026년 4월 6일

[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral Traces

본 논문은 AI 에이전트가 개인화된 파일 시스템 환경에서 사용자와 원활히 협업하기 위해 필요한 행동 적응 능력의 부재 문제를 해결합니다. 기존 연구들은 주로 대화 기반의 요약에 의존하거나, 고립된 환경 내의 GUI 성공 여부만을 평가함으로써 사용자의 장기적인 행동 패턴을 파악하는 데 한계를 보입니다 .

#Review #Agent Personalization #File-System Behavioral Traces #Memory Framework #Multimodal Grounding #Benchmark

2026년 4월 6일

[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments

저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.

#Review #AI Agents #Benchmark #Information Environments #Multi-source Reasoning #Belief Revision #Implicit Personalization

2026년 4월 6일

[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.

#Review #RLVR #Noisy Label Learning #Online Label Refinement #Early Correctness Coherence #Large Language Models #Reasoning

2026년 4월 6일

[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

본 논문은 실세계의 이미지 훼손(blur, noise 등) 상황에서 Unified Multimodal Models가 생성 능력을 보유하고 있음에도 불구하고, 이를 활용하지 못하는 기능적 단절(functional disconnect) 문제를 해결한다.

#Review #Multimodal Models #Image Degradation #Latent Representation Bridge #Interleaved GRPO #Robust Understanding

2026년 4월 6일

[논문리뷰] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization

본 논문은 기존의 일회성(one-shot) 아바타 생성 방식이 가진 경직된 위상(fixed topology) 문제를 해결하고자 합니다.

#Review #4D Gaussian Avatar #Autoregressive Generation #Transformer #3D Gaussian Splatting #One-shot Generation #Identity-preserving

2026년 4월 6일

[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models

본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.

#Review #Large Language Models #Textual Frequency Law #Paraphrasing #Curriculum Learning #Frequency Distillation

2026년 4월 6일

[논문리뷰] AURA: Always-On Understanding and Real-Time Assistance via Video Streams

본 논문은 기존 VideoLLMs 가 대부분 오프라인 분석에 최적화되어 있어, 실시간으로 변화하는 비디오 스트림에 대한 연속적이고 즉각적인 대응에 한계가 있다는 문제점을 해결하고자 합니다.

#Review #VideoLLMs #Streaming Video Understanding #End-to-End #Context Management #Proactive Response #Real-Time Inference

2026년 4월 6일

[논문리뷰] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

본 논문은 1,000명 이상의 현업 전문가가 참여하여 구축한 1,346개의 전문 작업으로 구성된 XpertBench 프레임워크를 제안한다. 평가 신뢰성을 위해 각 작업은 15~40개의 가중치가 부여된 원자적 체크포인트 기반의 Rubrics를 따르며, 이를 평가하기 위해 ShotJudge 패러다임을 도입했다.

#Review #XpertBench #LLM Evaluation #Expert-level Cognition #Rubrics-based Assessment #ShotJudge #Ecological Validity

2026년 4월 5일

[논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints

본 논문은 토큰을 변환 단위로 사용하는 Token Warping 프레임워크를 제안하며, 특히 Backward Token Warping이 안정성과 의미론적 일관성 측면에서 가장 우수함을 입증한다. 와 는 MLLM 토큰이 위치 잡음에 강건하다는 점을 증명하며, 이를 바탕으로 시점 변환 시 토큰 기반의 역투영 기법을 적용한다.

#Review #Multimodal Large Language Models #Token Warping #Viewpoint-Aware Reasoning #Spatial Reasoning #Mental Imagery

2026년 4월 5일

[논문리뷰] Self-Distilled RLVR

본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다.

#Review #LLM Post-training #Reinforcement Learning #Self-Distillation #Information Asymmetry #Credit Assignment #RLVR

2026년 4월 5일

[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking

본 논문은 기존 LLM이 일반 코딩 작업에서는 뛰어난 성능을 보이나, 하드웨어 제약 조건과 복잡한 타이밍 시맨틱이 중요한 산업용 소프트웨어 개발 환경에서는 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Industrial Code Intelligence #Chain-of-Thought #World Model #Error-driven Synthesis #Hardware-aware Coding

2026년 4월 5일

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.

#Review #Vision-Language Models #Multi-Encoder Fusion #Entropy-Guided Selection #Orthogonal Layer #RoPE #Visual Grounding #Multimodal Understanding

2026년 4월 5일

[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

본 논문은 MLLM이 단순한 관찰자에서 능동적 에이전트로 진화함에 따라, 시각적 조작과 지식 검색의 결합 능력을 체계적으로 평가할 필요성을 제기합니다. 기존의 벤치마크들은 도구 통합의 유연성이 부족하거나, 시각적 도구와 웹 검색을 독립적으로 평가하여 이들의 Synergy 를 간과하고 있습니다.

#Review #Multimodal Large Language Models #Agentic Capability #Visual Expansion #Knowledge Expansion #Process-Verified Benchmark #Synergistic Reasoning

2026년 4월 5일

[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.

#Review #LLM Agents #Agentic Social Networks #Privacy Preservation #Contextual Integrity #Information Abstraction #Abstraction Paradox

2026년 4월 5일

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] A Simple Baseline for Streaming Video Understanding

본 연구에서 제안하는 SimpleStream은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 . 저자들은 OVO-Bench와 StreamingBench를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다.

#Review #Streaming Video Understanding #Video LLM #Simple Baseline #Perception-Memory Trade-off #OVO-Bench

2026년 4월 5일

[논문리뷰] Woosh: A Sound Effects Foundation Model

본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.

#Review #Foundation Model #Sound Effects #Latent Diffusion Model #Flow Matching #Audio-Visual Generation #Distillation

2026년 4월 2일

[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 .

#Review #Video MLLM #Spatio-Temporal Grounding #Benchmark #Long-Video Understanding #Evidence Verification #Atomic Ability

2026년 4월 2일

[논문리뷰] VOID: Video Object and Interaction Deletion

본 연구는 CogVideoX 확산 모델을 기반으로, 물리적 인과 관계를 반영하는 카운터팩추얼 생성 모델을 구축하였습니다. 먼저 Kubric과 HUMOTO를 통해 객체 제거 전후의 물리적 역학 변화를 학습하고, VLM을 활용해 영상 내 영향받는 영역을 실시간으로 추론하여 Quadmask를 생성함으로써 모델의 생성 범위를 명확히 제한합니다.

#Review #Video Object Removal #Counterfactual Reasoning #Video Diffusion Models #Interaction-Aware Masking #Vision-Language Models

2026년 4월 2일

[논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

본 논문은 sparse-view 3D 모델링에서 나타나는 기하학적 정확도와 생성적 품질 사이의 근본적인 트레이드오프(trade-off) 문제를 해결하기 위해 UniRecGen 을 제안합니다.

#Review #3D Reconstruction #3D Generation #Multi-View Consistency #Diffusion Models #Canonical Space

2026년 4월 2일

[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.

#Review #Vision-Language-Action Models #Autonomous Driving #Mixture-of-Transformers #Sparse Perception #Representation Interference #End-to-End Planning

2026년 4월 2일

[논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

본 논문은 현대의 언어 기반 모델들이 여전히 토큰 단위의 명시적인 생성 방식에 의존하고 있어, 이로 인한 구조적 한계에 직면해 있다는 점을 지적한다.

#Review #Latent Space #Language-based Models #Implicit Reasoning #Multimodal Computation #Embodied AI #Latent Representation #Machine-native

2026년 4월 2일

[논문리뷰] Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

본 논문은 Tex3D를 제안하여 VLA 시뮬레이션 환경 내에서 adversarial 3D 텍스처를 end-to-end로 최적화합니다. 제안하는 FBD는 MuJoCo에서 배경을 렌더링하고 Nvdiffrast에서 객체를 렌더링하여 두 렌더러 간의 MVP(Model-View-Projection) 및 조명 파라미터를 동기화함으로써 미분 가능한 경로를 확보합니다 .

#Review #VLA Models #3D Adversarial Textures #Embodied Robustness #Differentiable Rendering #Foreground-Background Decoupling

2026년 4월 2일

[논문리뷰] T5Gemma-TTS Technical Report

본 논문은 T5Gemma 모델을 백본으로 활용하여 방대한 언어적 지식을 음성 생성 영역으로 전이합니다. 제안된 모델은 XCodec2를 사용하여 오디오를 토큰화하며, Cross-attention 레이어마다 PM-RoPE를 적용하여 생성 진행 상황을 실시간으로 감시함으로써 정밀한 duration control을 달성합니다 .

#Review #text-to-speech #zero-shot voice cloning #encoder-decoder #PM-RoPE #multilingual evaluation

2026년 4월 2일

[논문리뷰] Steerable Visual Representations

저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .

#Review #Steerable Visual Representations #Vision Transformers #Early Fusion #Cross-Attention #Text-Conditioned Vision #Representational Quality #Zero-Shot Generalization

2026년 4월 2일

[논문리뷰] SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

저자들은 Skill0 프레임워크를 제안하며, 이는 ICRL과 Dynamic Curriculum을 결합하여 스킬을 단계적으로 내재화한다 . 학습 초기에는 풍부한 스킬 문맥을 제공하여 에이전트의 초기 탐색을 돕고, 학습이 진행됨에 따라 스킬 예산을 선형적으로 감소시켜 에이전트가 스스로 최적의 전략을 내재화하도록 유도한다.

#Review #In-Context Reinforcement Learning #Skill Internalization #Agentic Agents #Dynamic Curriculum #Context Compression

2026년 4월 2일

[논문리뷰] Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

본 논문은 3D 생성 모델이 직면한 심각한 데이터 부족 문제를 해결하기 위해, 2D 기반의 방대한 데이터를 3D 학습의 structural prior로 활용하는 unified framework를 제안합니다.

#Review #3D Native Foundation Models #Autoregressive Framework #Cross-modal Generative Consistency #Interleaved Training #3D Data Scarcity #Instruction-based 3D Editing

2026년 4월 2일

[논문리뷰] Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

AI 에이전트가 장기간의 멀티모달 경험을 기억하고 조직하며 회상하는 능력은 현재 성능 향상의 중대한 병목 지점입니다. 기존의 기억 시스템은 인간 연구자가 수동으로 아키텍처를 설계하고 하이퍼파라미터를 조정해야 하므로 복잡한 시스템의 상호작용을 최적화하는 데 한계가 있습니다.

#Review #Multimodal Memory #AI Agents #Autonomous Scientific Discovery #Lifelong Learning #Retrieval-Augmented Generation #AutoML #Neural Architecture Search

2026년 4월 2일

[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

본 연구는 embodied 환경에서 시점 변화, 거리, 폐색(Occlusion)으로 인해 발생하는 객체 묘사의 의미론적 불일치(Semantic Inconsistency) 문제를 해결하는 것을 목적으로 합니다.

#Review #Embodied AI #Vision-Language Models #Episodic Memory #Semantic Consistency #Object Captioning #Data Association

2026년 4월 2일

[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.

#Review #Multilingual #Document Parsing #Benchmark #Photographed Documents #VLM #OCR

2026년 4월 2일

[논문리뷰] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

본 논문은 사전 학습된 LM 을 VLM 으로 적응(adaptation)시키는 과정에서 발생하는 고유한 언어 능력의 퇴보 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Knowledge Distillation #Linguistic Ability #KV-cache Sharing #Multimodal Adaptation #Catastrophic Forgetting

2026년 4월 2일

[논문리뷰] LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

본 논문은 시각적 이해와 생성을 공유된 semantic latent space에서 통합하는 LatentUM을 제안한다. 핵심 방법론인 MBAQ는 VLM의 출력 분포를 보존하도록 설계되어, 시각적 특징을 복원 중심이 아닌 이해 중심의 디스크리트 토큰으로 양자화한다 .

#Review #Unified Models #Cross-Modal Reasoning #Semantic Latent Space #MBAQ #Mixture-of-Modal Experts

2026년 4월 2일

[논문리뷰] Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

본 논문은 급증하는 Autonomous Coding Agents 가 오픈소스 소프트웨어 생태계에 미치는 실질적인 영향과 그 결과물인 코드의 품질을 실증적으로 분석하는 것을 목표로 합니다.

#Review #Autonomous Coding Agents #Large Language Models #Mining Software Repositories #Pull Requests #Code Churn #Empirical Software Engineering #Human-AI Collaboration

2026년 4월 2일

[논문리뷰] Generative World Renderer

본 논문은 generative inverse 및 forward rendering 기술을 실제 환경(in-the-wild)으로 확장하는 데 발생하는 데이터 병목 문제를 해결하는 것을 목표로 합니다.

#Review #Generative World Renderer #Inverse Rendering #G-buffer #Dataset Construction #Video Diffusion Models #VLM-based Evaluation

2026년 4월 2일

[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.

#Review #Diffusion Transformer #Linear Attention #Controllable Generation #Gated Condition Injection #On-device AI

2026년 4월 2일

[논문리뷰] GPA: Learning GUI Process Automation from Demonstrations

본 논문은 기존 RPA의 취약성과 대규모 비전 언어 모델(VLM) 기반 GUI 에이전트의 비결정론적 한계를 극복하기 위해 GPA 를 제안합니다. 전통적인 RPA는 DOM 요소나 고정 좌표에 의존하므로 사소한 레이아웃 변화에도 스크립트가 파손되는 문제가 발생합니다.

#Review #GUI Process Automation #Robotic Process Automation #Sequential Monte Carlo #UI Grounding #Demonstration-based Learning #Computer-use Agent

2026년 4월 2일

[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.

#Review #Mechanistic Interpretability #LLM #Entity Cells #Factual Recall #Causal Intervention #MLP Neurons #Canonicalization

2026년 4월 2일

[논문리뷰] FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

본 논문은 Rectified Flow 기반 이미지 편집에서 학습 없이(training-free) 편집 강도를 안정적으로 조절할 수 있는 슬라이더 메커니즘 부재 문제를 해결합니다. 기존의 학습 기반 슬라이더 기법들은 추가적인 데이터와 학습 비용이 발생하며, 특정 도메인 분포에 의존적이라는 한계가 있습니다.

#Review #Rectified Flow #Image Editing #Training-Free #Slider Control #Fidelity-Steering Decomposition

2026년 4월 2일

[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation

본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.

#Review #Parallel Execution #LLM #Code Generation #Latency #AST-based Chunking #Dynamic Batching #Error Interruption

2026년 4월 2일

[논문리뷰] EgoSim: Egocentric World Simulator for Embodied Interaction Generation

본 논문은 기존의 egocentric world simulator들이 겪고 있는 3D 기반의 공간적 일관성 부족과 동적 상호작용에 따른 world state 업데이트 미흡 문제를 해결하기 위해 제안되었다.

#Review #Egocentric World Simulator #Updatable 3D State #Embodied Interaction Generation #Video Diffusion Models #Scalable Data Pipeline

2026년 4월 2일

[논문리뷰] Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

과학적 발견은 본질적으로 반복적이고 비용이 많이 드는 실험 설계 과정을 포함하며, 많은 연구자가 이를 직관적이고 비체계적으로 수행하여 자원을 낭비합니다.

#Review #Bayesian Optimization #Scientific Discovery #Gaussian Process #Acquisition Function #Surrogate Model #Automated Experimentation #Sample Efficiency

2026년 4월 2일

[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Synthetic Motion Data #Optical Flow #Camera Control

2026년 4월 2일

[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .

#Review #Data-Centric AI #Large Language Models #Dynamic Training #Data Selection #Data Mixture #Data Reweighting #LLaMA-Factory

2026년 4월 2일

[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.

#Review #Continual Learning #LLM #MoE-LoRA #Null-Space Projection #Meta-Router #Residual Boosting

2026년 4월 2일

[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images

본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.

#Review #Sparse Autoencoders #Morphological Trait Annotation #Multimodal Large Language Models #Fine-grained Visual Recognition #Biological Foundation Models

2026년 4월 2일

[논문리뷰] AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

본 논문은 기존 MIA가 의존하는 정적인 핸드크래프트 휴리스틱의 낮은 적응성과 확장성 문제를 해결하기 위해 에이전트 기반의 자동화된 공격 프레임워크를 제안합니다.

#Review #Membership Inference Attack #Agentic Framework #Strategy Self-Exploration #Large Vision-Language Models #Privacy Auditing

2026년 4월 2일

[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.

#Review #LLM Agents #Software Engineering #Underspecification #Uncertainty-Aware #Multi-Agent #Collaborative AI

2026년 4월 2일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] ASI-Evolve: AI Accelerates AI

본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.

#Review #Agentic AI #Autonomous Scientific Discovery #Neural Architecture Design #Pretraining Data Curation #Reinforcement Learning

2026년 4월 2일

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.

#Review #Multimodal Coding Agents #Website Development #Hierarchical Benchmark #Agent Verification #GUI Agent #VLM-based Judge

2026년 4월 1일

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .

#Review #Visual Generative Models #Visual Reasoning #Evaluation Benchmark #Chain-of-Thought #Process-Outcome Evaluation

2026년 4월 1일

[논문리뷰] Universal YOCO for Efficient Depth Scaling

본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.

#Review #Large Language Models #Recursive Computation #YOCO #Depth Scaling #Inference Efficiency #KV Cache #Decoder-Decoder Architecture

2026년 4월 1일

[논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

본 논문은 기존 Recommendation 시스템의 Scaling 아키텍처들이 서로 파편화되어 최적의 효율성을 달성하지 못하는 문제를 해결합니다.

#Review #Recommendation Systems #Scaling Laws #UniMixer #Feature Interaction #TokenMixer #Unified Architecture

2026년 4월 1일

[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다.

#Review #LLM Inference #Memory Processing Pipeline #Heterogeneous Systems #GPU-FPGA #Sparse Attention #Retrieval-Augmented Generation

2026년 4월 1일

[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.

#Review #3D Visual Grounding #Vision-Language Models #Agentic Framework #RGB-D #Zero-Shot #Geometric Reconstruction

2026년 4월 1일

[논문리뷰] Terminal Agents Suffice for Enterprise Automation

저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.

#Review #Enterprise Automation #Agentic Systems #Terminal-based Agents #API Interaction #Model Context Protocol (MCP)#Coding Agents

2026년 4월 1일

[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.

#Review #Multi-LLM Pipeline #Iterative Refinement #Self-Correction #Task-Time Scaling #Code Generation #MCQ

2026년 4월 1일

[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning

본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.

#Review #Large Language Models #Chain-of-Thought #Test-time Scaling #Context Management #Reasoning Shift #Self-verification #Overthinking

2026년 4월 1일

[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.

#Review #Time Series Forecasting #Benchmark #TSF Regime #Foundation Models #Deep Learning #Data Scaling #Forecastability

2026년 4월 1일

[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

본 논문은 기존 proactive agent 연구들이 실제 환경에서의 사용자 상호작용을 반영하지 못하고 정적인 데이터셋에 의존한다는 점을 문제로 지적합니다.

#Review #Proactive Assistant #User Simulation #Finite State Machine #Stackelberg POMDP #Multi-app Orchestration #Asymmetric Evaluation

2026년 4월 1일

[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.

#Review #Video Benchmark #Multimodal Reasoning #Perception-Centric #Long-Horizon #Test-Time Thinking

2026년 4월 1일

[논문리뷰] Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

본 논문은 현대의 코딩 에이전트가 작성한 과학 논문의 품질을 신뢰할 수 있게 평가할 체계적인 프레임워크가 부재하다는 문제점을 해결하고자 합니다.

#Review #AI-driven scientific writing #Paper Reconstruction Evaluation #Presentation Quality #Hallucination Analysis #PaperWrite-Bench

2026년 4월 1일

[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.

#Review #Deep Research #Multimodal Benchmark #Process-Centric Evaluation #Factuality Verification #Agentic Systems #Adaptive Synthesis

2026년 4월 1일

[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking

저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .

#Review #Recommender Systems #Large Language Models #Product Reranking #Preference Memory #Reinforcement Learning

2026년 4월 1일

[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Multi-modal Generation #Robotic Manipulation #Action Chunking #World Model #Hybrid Attention

2026년 4월 1일

[논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal Computers

HippoCamp는 100명 이상의 실제 사용자 데이터를 기반으로 2,000개 이상의 이질적인 파일을 포함하는 3개의 대표적인 개인 컴퓨팅 환경을 구축하였습니다. 각 환경에는 Factual Retention 및 Profiling 태스크를 위한 581개의 QA 쌍이 존재하며, 이를 위해 46.1K개의 정교한 주석(Annotation)이 제공됩니다.

#Review #Multimodal Agents #File-System #Contextual Benchmarking #Personalized Memory #Profiling #Factual Retention

2026년 4월 1일

[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

본 논문은 기존 3D 생성 모델들이 주로 사용하는 전체적(holistic)인 Denoising이나 Diffusion 방식이 3D 환경의 점진적 구축과 편집에 부적합하다는 문제를 해결하고자 한다. 기존 방식은 고정된 장면을 한 번에 생성하는 경향이 있어, 실제 환경처럼 점진적으로 확장하거나 수정하는 유연성이 부족하다.

#Review #3D Gaussian Splatting #Autoregressive Modeling #Scene Generation #Transformer #Vector Quantization #3D Scene Completion

2026년 4월 1일

[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation

본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.

#Review #Self-Distillation #Code Generation #Large Language Models #Precision-Exploration Conflict #Supervised Fine-Tuning #Temperature Scaling #Truncation

2026년 4월 1일

[논문리뷰] ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

본 논문은 OpenClaw와 같은 현대 자율 에이전트 런타임이 가지는 높은 권한 모델로 인해 발생하는 시스템 수준의 보안 취약점을 해결하기 위해 제안되었습니다.

#Review #Autonomous Agents #OpenClaw #Security Framework #Watcher Architecture #Safety-Utility Tradeoff #Behavioral Scanning #Runtime Enforcement

2026년 4월 1일

[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

본 논문은 지능형 조립 어시스턴트가 2D 다이어그램과 실제 카메라 영상을 정렬하는 과정에서 겪는 Depiction Gap 문제를 해결하기 위해 수행되었습니다.

#Review #Vision-Language Models #Cross-depiction Alignment #Assembly Guidance #Diagram-to-video Matching #Mechanistic Analysis

2026년 4월 1일

[논문리뷰] AI Generalisation Gap In Comorbid Sleep Disorder Staging

본 연구에서는 SE-ResNet 블록과 Bi-LSTM 레이어를 결합하여 시계열 EEG 데이터의 특징을 추출하고 시간적 의존성을 모델링하는 프레임워크를 제안합니다. 저자들은 새로 구축한 iSLEEPS 데이터셋을 활용하여 기존의 헬스케어 기반 모델들과 성능을 비교하였습니다.

#Review #Sleep Staging #Ischemic Stroke #Explainable AI #Grad-CAM #Deep Learning #Clinical Generalization #iSLEEPS

2026년 4월 1일

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Knowledge Distillation #Exposure Bias #f-Divergence #Sequence-Level Learning #Reinforcement Learning

2026년 4월 1일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .

#Review #Video Diffusion Models #Geometric Consistency #Reinforcement Learning #Latent Geometry Model #4D Reconstruction #Group Relative Policy Optimization

2026년 3월 31일

[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.

#Review #Multimodal Agent #World-Grounded Image Synthesis #FactIP #Agentic Pipeline #Unified Multimodal Model #Evidence-Grounded Recaptioning

2026년 3월 31일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Vision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.

#Review #3D Question Answering #Vision-Language Models #Visual Token Pruning #Semantic-Awareness #Geometry-Guided

2026년 3월 31일

[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.

#Review #Diffusion Models #Human Mesh Recovery #Synthetic Data #Direct Preference Optimization #Data Generation Pipeline #3D-2D Consistency

2026년 3월 31일

[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

LLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.

#Review #Continual Pre-training #Model Merging #Distribution Vector #Bayesian Optimization #LLM Adaptation

2026년 3월 31일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.

#Review #Multimodality #Autoregressive Modeling #Discrete Tokenization #Vision Transformer #Audio Tokenization #Mixture-of-Experts #Next-Token Prediction

2026년 3월 31일

[논문리뷰] Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

기존의 single-cell transcriptomics 기초 모델들(예: scGPT , Geneformer )은 주로 정적 표현(static representation) 학습에 치중하여 실제 세포 분포를 생성하거나 복잡한 perturbation 반응을 시뮬레이션하는 데 한계가 있습니다.

#Review #Generative Model #Single-cell Transcriptomics #Discrete Diffusion Model #Virtual Cell #Perturbation Prediction #Cellular World Model

2026년 3월 31일

[논문리뷰] Learn2Fold: Structured Origami Generation with World Model Planning

Origami는 평면 시트를 복잡한 3D 구조로 변환하는 물리적 지능의 고난도 테스트베드입니다. 이는 단순한 시각적 플라시보가 아니라 기하학적 공리와 엄격한 Kinematic 제약 조건을 준수해야 하며, 작은 오류가 전체 구조의 붕괴를 초래하는 장기적인 추론 작업입니다.

#Review #Origami Generation #Neuro-symbolic Framework #World Model #Constraint-Aware Planning #Program Induction #Spatial Intelligence

2026년 3월 31일

[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .

#Review #Flicker Removal #Vision Transformer #Phase Correlation #Autocorrelation #Wavelet Transform #Burst Photography

2026년 3월 31일

[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.

#Review #Auditory Knowledge #Large Language Models #Large Audio Language Models #AKB-2000 #Cascade Evaluation #Audio-grounded Evaluation

2026년 3월 31일

[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

최근 모바일 LiDAR 시스템의 고감도화는 거리 측정 범위는 넓혔으나, 유리나 반사면으로 인한 Ghost Points 발생을 증가시켜 SLAM이나 3D 객체 인식의 정확도를 심각하게 떨어뜨리고 있습니다.

#Review #Full-Waveform LiDAR #Ghost Removal #Masked Autoencoder #Mobile LiDAR #Dataset #Representation Learning

2026년 3월 31일

[논문리뷰] FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

기존의 과학적 아이디어 생성(SIG) 방식은 문헌 검색과 아이디어 생성이 분리된 '정적 검색-생성(Static Retrieval-then-Generation)' 패러다임을 따르고 있어, 정보의 깊이와 폭에 한계가 존재합니다.

#Review #Scientific Idea Generation #Flow-Guided MCTS #GFlowNet #Test-Time Evolution #Isolation Island Paradigm #Generative Reward Model #Autonomous Research

2026년 3월 31일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Extend3D: Town-Scale 3D Generation

최근 3D generative model은 고품질의 3D 객체를 생성하는 데 성공했으나, 여전히 복잡한 구성의 대규모 3D 장면(Town-Scale) 생성에는 어려움을 겪고 있습니다.

#Review #3D Scene Generation #Training-free #Latent Flow Model #Overlapping Patch-wise Flow #Under-noising #SDEdit #3D-aware Optimization

2026년 3월 31일

[논문리뷰] Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

텍스트 데이터의 Privacy 보호는 현대 NLP에서 필수적이지만, 이를 정량화할 명확한 기준이 부재합니다.

#Review #privacy evaluation #knowledge distillation #de-identification #LLM-as-a-Judge #textual privacy

2026년 3월 31일

[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다.

#Review #Multimodal ASR #Large Language Models #Conversational Context #Abstract Compression #Contextual Biasing #Latent Bottleneck

2026년 3월 31일

[논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

영상 편집은 시각적 스토리텔링과 오디오의 리듬감을 결합하는 복잡한 작업이나, 수 시간 분량의 원본 영상을 수동으로 편집하는 것은 매우 노동 집약적이며 전문적인 미적 판단을 요구합니다.

#Review #Multimodal Language Models #Video Editing #Audio-Visual Alignment #Multi-Agent System #Hierarchical Planning

2026년 3월 31일

[논문리뷰] CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

최근 저고도 경제, Embodied Intelligence , 그리고 공중-지상 협력 시스템의 발전으로 인해 지상과 항공 에이전트를 결합하여 시뮬레이션할 수 있는 인프라의 필요성이 급증하고 있습니다.

#Review #Embodied Intelligence #Simulation Infrastructure #CARLA #AirSim #Air-Ground Cooperation #Unreal Engine

2026년 3월 31일

[논문리뷰] AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

최근의 생성형 비디오 모델들은 자율주행을 위한 악천후 시나리오 합성에 탁월한 성능을 보이지만, 희귀한 기상 상황을 학습하기 위해 방대한 데이터셋을 필요로 한다는 한계가 있습니다.

#Review #Autonomous Driving #Weather Synthesis #G-buffer #3D-aware Editing #Neural Rendering #Video Diffusion #Relighting

2026년 3월 31일

[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.

#Review #4D Reconstruction #Hand-Object Interaction #Foundation Models #Articulated Objects #Monocular Video #Optimization

2026년 3월 31일

[논문리뷰] Unified Number-Free Text-to-Motion Generation Via Flow Matching

기존의 Text-to-motion 모델들은 주로 단일 에이전트 생성에 국한되어 있으며, 다중 에이전트 생성의 경우 고정된 수의 에이전트만 처리할 수 있다는 한계가 있습니다.

#Review #Text-to-Motion #Flow Matching #Number-Free Synthesis #Hierarchical Modeling #Multi-Person Interaction

2026년 3월 30일

[논문리뷰] Towards a Medical AI Scientist

기존의 AI Scientist 프레임워크들은 수학이나 화학 등 일반적인 데이터와 프로토콜이 표준화된 영역에서 성과를 보였으나, 임상 의학 분야에 적용하는 데에는 한계가 있었습니다.

#Review #Medical AI Scientist #Autonomous Scientific Discovery #Agentic Framework #Clinician-Engineer Co-reasoning #Med-AI Bench #Clinical Evidence Grounding

2026년 3월 30일

[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .

#Review #Cellular Signaling #Video Generation #GPS Trajectory Reconstruction #Reinforcement Learning #Mobility Analytics #Sig2GPS

2026년 3월 30일

[논문리뷰] Superintelligence and Law

본 논문은 Superintelligence 의 등장이 기존 법적 질서에 미칠 파괴적인 변화를 분석합니다. 인간의 감독 없이 자율적으로 작동하는 AI 에이전트가 현실 세계에서 법적 권리와 의무를 갖는 주체로 부상함에 따라, 기존의 법 이론과 도구만으로는 이를 통제하기 어렵다는 점이 핵심 문제로 지적됩니다.

#Review #Superintelligence #AI Agents #Legal Alignment #Rule of Law #Legal Order #Legal Personhood #Coevolution

2026년 3월 30일

[논문리뷰] Story2Proposal: A Scaffold for Structured Scientific Paper Writing

현재의 대규모 언어 모델 기반 논문 생성 파이프라인은 주로 Unconstrained text synthesis 방식에 의존하고 있어, 생성 과정에서 구조적 표류(Structural drift)나 시각적 요소의 누락, 섹션 간 불일치와 같은 심각한 문제가 발생합니다.

#Review #Scientific Writing #Multi-Agent Systems #Contract-Governed Generation #Structural Integrity #Visual Alignment #Provenance Tracking

2026년 3월 30일

[논문리뷰] SEAR: Schema-Based Evaluation and Routing for LLM Gateways

생성형 AI의 생산 환경 도입이 확산됨에 따라 다양한 모델과 제공자를 효율적으로 관리하고 라우팅하는 LLM gateway의 중요성이 커지고 있습니다. 그러나 기존의 평가 방식은 비정형 텍스트 기반이거나 단순한 점수 매기기에 그쳐, 복잡한 요청 상황에 대한 상세한 진단이나 운영 지표와의 결합이 어렵다는 한계가 있습니다.

#Review #LLM Gateways #LLM-as-judge #Structured LLM Outputs #Schema-conforming Generation #LLM Routing

2026년 3월 30일

[논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

최근의 MLLMs 는 입력 정보의 정밀도(fidelity)를 높여 성능을 향상시키지만, 이는 과도한 visual token의 증가로 이어져 고해상도와 긴 시간적 맥락(long temporal context)을 동시에 유지하는 것을 불가능하게 만듭니다.

#Review #Multimodal Large Language Models (MLLMs)#Input-side Adaptation #Contextual Bandit #Cost-Aware Policy Optimization (CAPO)#Visual Budgeting #Efficient Inference #Temporal Reasoning

2026년 3월 30일

[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research

최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.

#Review #Scientific Reproduction #Agentified Assessment #Physics Benchmark #LLM #Sandboxed Execution

2026년 3월 30일

[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

최신 Text-to-Image(T2I) 모델들은 정교한 문맥 정렬 성능을 보이지만, Typicality Bias 로 인해 생성 결과가 좁은 범위의 시각적 해법에 고착되는 문제가 있습니다.

#Review #Diffusion Transformers #Generative Diversity #Contextual Space #Repulsion Mechanism #Multi-modal Attention #Typicality Bias #Token Intervention

2026년 3월 30일

[논문리뷰] On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

LVLM은 다양한 도메인에서 우수한 성능을 보이지만, 새로운 지식을 연속적으로 습득할 때 기존 지식을 잃어버리는 'Catastrophic Forgetting' 문제가 존재합니다.

#Review #Multimodal Continual Learning #Large Vision Language Models #Mixture of Experts #Routing-drift #Catastrophic Forgetting

2026년 3월 30일

[논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

기존의 multimodal agent는 전체 interaction history를 기억하거나 trajectory 단위로 과거 경험을 검색하는 방식을 주로 사용해왔습니다.

#Review #Multimodal Agent #Stateful Experience #Hindsight Reasoning #Compositional State Representation #Deep-and-Wide Search #Visual Reasoning

2026년 3월 30일

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일

[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

최근 Deep Research 분야는 급격히 발전했으나, 기존 에이전트 시스템은 QA 데이터 합성, 궤적 생성, 추론 단계에서 명시적인 검증 기법이 부재하다는 치명적인 한계를 가진다. 이로 인해 초기 단계의 오류가 하위 단계로 전파되어 전체 성능을 크게 저하시키는 문제가 발생한다 .

#Review #Deep Research #Agentic Search #Verification-Centric Design #Data Synthesis #Test-time Scaling #ReAct #Multi-agent Systems

2026년 3월 30일

[논문리뷰] Make Geometry Matter for Spatial Reasoning

최근 VLMs는 광범위한 훈련을 통해 일반적인 영상 이해 능력은 향상되었으나, 3D 공간상의 물체 관계나 움직임을 파악하는 Spatial Reasoning 에는 여전히 한계를 보입니다.

#Review #Vision-Language Models #Spatial Reasoning #Geometry Tokens #Token Masking #Gated Routing

2026년 3월 30일

[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology

현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.

#Review #Computational Pathology #Foundation Model #Patient-First Representation #Multi-Instance Learning #Self-Supervised Learning #Case Transformer

2026년 3월 30일

[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.

#Review #GPU Kernel Optimization #Large Language Models #Evolutionary Algorithms #Reinforcement Learning #Triton #MetaX MACA #System Optimization

2026년 3월 30일

[논문리뷰] KAT-Coder-V2 Technical Report

Agentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.

#Review #Agentic Coding #Specialize-then-Unify #KwaiEnv #Reinforcement Learning #On-Policy Distillation #Tree Training

2026년 3월 30일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.

#Review #Sparse Attention #Hierarchical Indexing #Long Context #LLM Inference #Computational Efficiency #DeepSeek

2026년 3월 30일

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.

#Review #Agentic AI #Image Generation #Multi-hop Search #Reinforcement Learning #Grounded Generation #Multimodal Agent

2026년 3월 30일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[논문리뷰] EpochX: Building the Infrastructure for an Emergent Agent Civilization

현재의 AI 에이전트 연구는 개별 에이전트의 지능을 높이는 데 집중되어 있으나, 실제 경제적 가치를 창출하기 위해서는 이를 조직화하고 협업하게 만드는 인프라가 필수적입니다. 기존의 많은 에이전트 플랫폼은 작업 실행을 일회성 이벤트로 간주하여, 결과물이 축적되지 않고 유실되는 한계가 있습니다.

#Review #Agentic AI #Marketplace Infrastructure #Credit Mechanism #Human-Agent Collaboration #Persistent Ecosystem Assets

2026년 3월 30일

[논문리뷰] Emergent Social Intelligence Risks in Generative Multi-Agent Systems

대형 생성 모델 기반의 MAS 가 복잡한 업무를 자동화하며 실제 환경에 빠르게 도입되고 있으나, 에이전트 간의 상호작용에서 발생하는 Emergent multi-agent risks 에 대한 체계적인 연구는 부족합니다.

#Review #Multi-Agent Systems #Generative Models #Social Intelligence #Emergent Risks #Incentive Exploitation #Collective Cognition #Adaptive Governance

2026년 3월 30일

[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

최근 diffusion model은 T2I generation과 text-guided editing 분야에서 비약적인 발전을 이루었으나, 대부분 수십억 개의 파라미터를 필요로 하여 온디바이스 환경에서의 배포에 한계가 있다.

#Review #Diffusion Models #On-device AI #Image Generation #Image Editing #Unified Architecture #Task-progressive Pretraining

2026년 3월 30일

[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.

#Review #Soft Context Compression #Large Language Models #Density-aware #Discrete Ratio Selector #Supervised Fine-Tuning #Mean-Pooling

2026년 3월 30일

[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Large Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.

#Review #LLM Agents #Skill Evolution #Trajectory Analysis #Inductive Reasoning #Transferable Skills #Conflict-Free Consolidation

2026년 3월 29일

[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

AI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.

#Review #Full-duplex Speech #Data Pre-processing #Speaker Diarization #Overlap Separation #ASR Ensemble #Speech Language Models

2026년 3월 29일

[논문리뷰] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

최근 Text-to-Video Model들은 단일 쇼트(single-shot) 비디오 생성에서 높은 성능을 보이지만, 영화나 TV와 같은 긴 서사적 스토리텔링(Long-form Narrative Storytelling)을 위해서는 Multi-shot Video Generation 이 필수적입니다.

#Review #Multi-Shot Video Generation #Interactive Storytelling #Causal Architecture #Distribution Matching Distillation #Self Forcing #Dual-Cache Memory #RoPE Discontinuity Indicator

2026년 3월 29일

[논문리뷰] RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Vision-Language Models (VLMs)는 다양한 도메인에서 인상적인 코드 생성 능력을 보여주었지만, 복잡한 멀티패널 시각화를 실제 데이터로부터 재현하는 능력 은 아직 충분히 평가되지 않았다.

2026년 3월 29일

[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.

#Review #Autoregressive Video Generation #KV Cache Management #Long Context Inference #Video Diffusion Models #Temporal Consistency #Spatiotemporal Compression #RoPE Adjustment #Dynamic Context Selection

2026년 3월 29일

[논문리뷰] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Video World Models는 물리적인 세계를 시뮬레이션하는 데 막대한 잠재력을 보여주지만, 기존 Memory Mechanism들은 환경을 주로 Static Canvas로 간주하는 한계를 가지고 있다.

#Review #Video World Models #Hybrid Memory #Dynamic Retrieval Attention #HM-World Dataset #Spatiotemporal Consistency

2026년 3월 29일

[논문리뷰] Natural-Language Agent Harnesses

Agent의 성능은 점점 더 harness engineering에 의존하고 있지만, 기존의 harness 디자인은 컨트롤러 코드와 런타임 특정(runtime-specific) 관습에 파묻혀 있어, 이를 과학적 대상으로 전이(transfer), 비교(compare), 연구(study)하기 어렵다는 문제가 있습니다.

2026년 3월 29일

[논문리뷰] LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Self-driving 시스템에서 Long-tail Scenarios 에 대한 Generalization 은 여전히 근본적인 도전 과제입니다.

2026년 3월 29일

[논문리뷰] Diffutron: A Masked Diffusion Language Model for Turkish Language

Autoregressive (AR) Transformers는 현재 Large Language Models (LLMs) 분야에서 지배적이지만, 텍스트를 토큰별로 순차적으로 생성하는 본질적인 특성으로 인해 Generation Speed와 고려할 수 있는 Context에 한계가 있다.

#Review #Masked Diffusion Language Models #Turkish NLP #Non-Autoregressive Generation #LoRA #Instruction Tuning #Morphologically Rich Languages #Parameter Efficiency

2026년 3월 29일

[논문리뷰] Voxtral TTS

Natural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.

#Review #Text-to-Speech #Zero-shot Voice Cloning #Hybrid Architecture #Speech Codec #Flow-Matching #Direct Preference Optimization #Finite Scalar Quantization #Multilingual TTS

2026년 3월 26일

[논문리뷰] Vega: Learning to Drive with Natural Language Instructions

기존 자율주행 시스템은 주로 Perception, Prediction, Planning의 모듈형 파이프라인을 따르며, 이는 고비용의 3D annotation에 크게 의존하여 실제 적용에 한계가 있습니다.

2026년 3월 26일

[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.

#Review #SlopCodeBench #Coding Agents #Iterative Development #Code Quality #Structural Erosion #Verbosity #Benchmarking #Long-Horizon Tasks

2026년 3월 26일

[논문리뷰] S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

최근 언어 모델링 분야에서 큰 발전을 이끈 Autoregressive (AR) 모델들은 엄격한 좌-우향 생성 방식 때문에 디코딩 유연성과 추론 병렬성에서 한계를 가진다.

#Review #Diffusion LLMs #Self-Speculation #Training-Free #Block-Diffusion #Fast Decoding #Rejection Sampling #Routing Policies

2026년 3월 26일

[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Large Language Model (LLM)의 Post-training에 있어 On-policy Distillation (OPD)은 student-generated rollouts에 대한 teacher feedback을 활용하기 때문에 매력적이다.

#Review #On-policy Distillation #LLM Post-training #Sampled-token OPD #Variance Reduction #Local Support Matching #Truncated Reverse-KL #Top-p Rollout Sampling #Special Token Masking

2026년 3월 26일

[논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You Think

Representation Alignment (REPA)는 Latent Space Diffusion Transformer의 학습을 가속화하는 효과적인 방법으로 제시되었으나, Just Image Transformers (JiT)와 같은 Pixel-space Diffusion 모델에 이를 적용할 경우 오히려 성능 저하를 야기합니다.

#Review #Representation Alignment #Pixel-space Diffusion #Just Image Transformers #Feature Hacking #Masked Transformer Adapter #Diffusion Models #Image Generation

2026년 3월 26일

[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

Real-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다.

#Review #Image Restoration #Real-World Degradation #Large-Scale Image Editing Models #Diffusion Models #Data Generation #RealIR-Bench #Zero-shot Generalization #Transfer Learning

2026년 3월 26일

[논문리뷰] PixelSmile: Toward Fine-Grained Facial Expression Editing

최근 diffusion-based 이미지 편집 모델의 발전에도 불구하고, 미세한(fine-grained) 얼굴 표정 편집은 여전히 어려운 문제로 남아 있다.

2026년 3월 26일

[논문리뷰] MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

최근 VFM은 다양한 task에서 강력한 representation을 제공하며 컴퓨터 비전 분야의 핵심으로 자리 잡았습니다.

#Review #Vision Foundation Models (VFMs)#Multi-Resolution Fusion (MuRF)#Dense Prediction #Anomaly Detection #Multimodal Understanding #Scale-Robust Representation

2026년 3월 26일

[논문리뷰] MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Large Language Models (LLMs) 기반의 Agent들이 장기적인 상호작용을 지원하기 위해 외부 메모리 뱅크를 활용하지만, 대부분의 기존 시스템은 메모리 Construction , Retrieval , Utilization 단계를 개별적인 서브루틴으로 분리하여 처리하는 한계를 가집니다.

#Review #LLM Agents #Memory Cycle #Multi-Agent Reasoning #Self-Evolution #Long-Horizon Memory #Strategic Blindness #Memory Management

2026년 3월 26일

[논문리뷰] MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Large Language Models (LLMs)는 다양한 분야에서 뛰어난 능력을 보였지만, 수백만 토큰 규모의 장기적이고 세밀한 기억(long-term, fine-grained memory retention)을 처리하는 데에는 여전히 큰 어려움에 직면해 있습니다.

#Review #Memory Sparse Attention #Long-Context LLMs #Efficient Memory #End-to-End Trainable #KV Cache Compression #Rotary Positional Embedding #Multi-hop Reasoning #Scalability

2026년 3월 26일

[논문리뷰] MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

Multi-reference image generation은 multi-subject composition, narrative illustration, novel view synthesis와 같은 실제 애플리케이션에 필수적이지만, 현재 모델들은 input reference의 수가 증가함에 따라 심각한 성능 저하를 겪고 있다.

2026년 3월 26일

[논문리뷰] Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

기존의 feed-forward 3D Gaussian Splatting (3DGS) 방법론들은 pixel-aligned primitive를 예측하므로, 해상도가 증가함에 따라 primitive의 수가 quadratic하게 증가하여 4K와 같은 고해상도(high-resolution) novel view synthesis를 실질적으로 불가능하게 만듭니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Feed-Forward #High-Resolution Rendering #Textured Primitives #Geometry-Appearance Decoupling #4K

2026년 3월 26일

[논문리뷰] Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Large Language Models (LLMs)와 Visual Language Models (VLMs)의 등장은 인공지능 분야에 혁신을 가져왔지만, 과학 분야(AI for Science, AI4S)에서 효과적인 foundation model을 구축하는 것은 과학 domain의 immense diversity와 specialization으로 인해 큰 도전을 제시합니다.

2026년 3월 26일

[논문리뷰] IQuest-Coder-V1 Technical Report

기존 Large Language Models (LLMs)는 도메인 특화를 통해 일반적인 지능을 크게 향상시켰지만, 코드 지능 분야에서는 Claude 4.5 Sonnet 과 같은 독점적인 선두 모델들과 오픈-웨이트 모델들 사이에 여전히 큰 격차가 존재한다.

2026년 3월 26일

[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.

#Review #LLM Agents #Financial Tool Use #Benchmarking #Model Context Protocol #Multi-tool Reasoning #Multi-turn Conversation #Evaluation Metrics

2026년 3월 26일

[논문리뷰] Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

기존 Radar-only 모델은 대규모 대기 Context 부족으로 인해 예측 Lead Time이 길어질수록 성능 저하를 겪는다 [cite: 1, Figure 1].

#Review #Precipitation Nowcasting #Spectral Fusion #Radar Observations #Foundation Model #Pangu-Weather #Frequency Domain #Deep Learning

2026년 3월 26일

[논문리뷰] Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

재료의 optoelectronic properties를 'electric knob'으로 가역적으로 tuning하는 것은 잠재적 응용 분야를 크게 확장할 수 있는 중요한 목표이지만, photoluminescence (PL)나 photoconductivity (PC)와 같은 광전 특성을 electrostatically 제어하는 연구는 상대적으로 미개척 상태입니다.

#Review #Perovskite #Photoluminescence #Field-Effect Transistor #Electrostatic Tuning #CsPbBr3 #Carrier Recombination #Quantum Efficiency

2026년 3월 26일

[논문리뷰] Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

The paper 'Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration' by Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, and Konstantin Sobolev from MSU and FusionBrain Lab, AXXX, discusses a new method called…

2026년 3월 26일

[논문리뷰] BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

Understanding animal species through multimodal data (visual, textual, acoustic) is a growing challenge at the intersection of computer vision and ecology.

2026년 3월 26일

[논문리뷰] AVControl: Efficient Framework for Training Audio-Visual Controls

비디오 및 오디오 생성 과정의 정교한 제어는 실제 창의적인 애플리케이션에 필수적이다. 그러나 depth, pose, camera trajectories, audio transformations 등 다양한 modalities에 걸친 control의 범위는 매우 광대하다.

#Review #Audio-Visual Generation #Video Control #LoRA #Parallel Canvas Conditioning #Diffusion Models #Modularity #Efficiency

2026년 3월 26일

[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.

#Review #Unsupervised Self-Evolution #Multimodal Reasoning #Consistency-Based Reward #Judge Modulation #Group Relative Policy Optimization (GRPO)#Policy Updates #Mathematical Reasoning #Large Language Models

2026년 3월 25일

[논문리뷰] Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

기존의 Multimodal Large Language Models (MLLMs)는 2D 시각 신호에 과도하게 고정되어 3D 환경에 대한 구조화된 추상화를 구축하지 못함으로써 3D 공간 추론(spatial reasoning)에서 어려움을 겪습니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Textual Representation #Allocentric Context #Egocentric Video #Prompting Methods #VSI-Bench #OST-Bench

2026년 3월 25일

[논문리뷰] UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Multimodal Large Language Models (MLLMs)의 발전과 함께 자율 모바일 GUI Agent에 대한 관심이 증가하고 있지만, 기존 방법론들은 비효율적인 실패 궤적(failed trajectory) 학습과 장기(long-horizon) GUI 태스크에서 희소한 보상(sparse rewards)에 따른 모호한 Credit Assignment 문제에 직면하고 있습니다.

#Review #GUI Agent #Self-Evolving Learning #Rejection Fine-Tuning (RFT)#Group Relative Self-Distillation (GRSD)#Credit Assignment #Sparse Rewards #Mobile Automation #Multimodal Large Language Models (MLLMs)

2026년 3월 25일

[논문리뷰] Toward Physically Consistent Driving Video World Models under Challenging Trajectories

자율 주행 시뮬레이션에서 비디오 월드 모델(Video World Models)은 실세계 데이터 수집의 비싼 비용과 고품질 물리 시뮬레이터의 대안으로 중요성이 커지고 있습니다. 기존 주행 월드 모델들은 일반적으로 실제 주행 데이터셋, 주로 안전하고 일반적인 시나리오에 훈련되어 있습니다.

#Review #Driving World Models #Physical Consistency #Video Generation #Challenging Trajectories #Autonomous Driving #Heterogeneous Dataset

2026년 3월 25일

[논문리뷰] T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

기존 LLM red-teaming 연구는 주로 모델에서 유해한 텍스트 출력(harmful text outputs)을 유도하는 데 초점을 맞추었으나, 이는 Model Context Protocol (MCP)과 같은 통합 표준을 통해 다단계 도구 실행(multi-step tool execution)이 가능한 LLM Agents의 새로운 안전 위험을 간과하고 있습니다.

#Review #LLM Agents #Red-Teaming #Vulnerability Discovery #Trajectory-aware Search #MAP-Elites #Tool Call Graph #Attack Realization Rate

2026년 3월 25일

[논문리뷰] StreamingClaw Technical Report

Embodied Intelligence, AI Hardware, Autonomous Driving, Intelligent Cockpits와 같은 Applications은 Real-time Perception–Decision–Action Closed Loop에 크게 의존하며, 이는 Real-time Streaming Video Understanding에 대한 엄격한 요구사항을 부과한다.

#Review #Streaming Video Understanding #Embodied Intelligence #Multi-agent Systems #Long-term Memory #Proactive Interaction #Real-time Inference #OpenClaw

2026년 3월 25일

[논문리뷰] PLDR-LLMs Reason At Self-Organized Criticality

본 연구는 Large Language Models (LLMs)에서 reasoning 능력이 어떻게 발현되며 이를 어떻게 효과적으로 정량화할 수 있는지에 대한 핵심 문제를 다룬다.

#Review #PLDR-LLMs #Self-Organized Criticality #Reasoning #Deductive Outputs #Order Parameter #Phase Transitions #Generalization #Attention Mechanism

2026년 3월 25일

[논문리뷰] OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Proprietary Systems인 Seedance-2.0 과 같은 모델들은 Omni-capable Video Generation 분야에서 놀라운 성공을 거두었지만, Open-source 대안들은 그에 비해 상당히 뒤쳐져 있습니다.

#Review #Unified Video Generation #Multimodal Composition #Reasoning-Augmented #IntelligentVBench #MLLM #MMDiT #DeepStacking #Free-form Inputs

2026년 3월 25일

[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

Novel View Synthesis (NVS)는 기존 뷰들을 기반으로 새로운 시점 이미지를 생성하는 중요한 태스크이다.

#Review #Novel View Synthesis (NVS)#Latent Geometry #Real-time Rendering #3D Inductive Biases #Encoder-Decoder #VGGT #Generalization #Diffusion Models

2026년 3월 25일

[논문리뷰] GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Multimodal Large Language Models (MLLMs)가 로봇공학부터 가상 세계에 이르기까지 3D 환경 내 자율 에이전트의 perceptual backbone으로 점점 더 많이 활용되고 있다.

2026년 3월 25일

[논문리뷰] EVA: Efficient Reinforcement Learning for End-to-End Video Agent

기존 멀티모달 대규모 언어 모델(MLLM) 기반 비디오 이해 시스템은 비디오를 수동적인 인식기로 처리하여, 전체 비디오나 균일하게 샘플링된 프레임을 어떠한 적응적 추론 없이 처리하는 한계가 있습니다.

#Review #Video Agent #Reinforcement Learning #MLLM #Planning-before-Perception #Tool Use #KTO #GRPO

2026년 3월 25일

[논문리뷰] CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

최근 Multimodal Agentic Pipelines이 Human-Computer Interaction을 변화시키고 있지만, 대부분 Short-Horizon 또는 General-Purpose Application에 초점을 맞추고 있으며, 특히 Healthcare 분야에서 Long-Horizon Automation은 크게 탐구되지 않은 상태이다.

#Review #Multi-Agent Framework #Healthcare Automation #Long-Horizon Tasks #Actor-Critic #Tool Grounding #Dual-Memory #CareFlow #GUI Agents

2026년 3월 25일

[논문리뷰] Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

최근 LLM(Large Language Models)의 발전은 복잡한 태스크에서 추론, 계획 및 실행이 가능한 에이전트 시스템을 가능하게 했지만, 불확실한 환경에서 자원을 효과적으로 할당할 수 있는지에 대한 여부는 불분명하다. resource allocation 은 단기적인 반응적 의사결정과 근본적으로 다르다.

#Review #LLM Agents #Resource Allocation #Enterprise Simulation #Financial Management #Uncertainty #Long-Horizon Decision-Making #CFO

2026년 3월 25일

[논문리뷰] CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

지능형 에이전트가 복잡한 데스크톱 워크플로우를 자동화할 수 있다는 비전은 연속적이고 고품질의 인간 데모 비디오 부족으로 인해 진전이 지연되고 있다.

#Review #Computer-Use Agents #Video Demonstrations #Human Annotation #Desktop Applications #Visual Grounding #Action Prediction #Multi-layered Reasoning #Foundation Action Models

2026년 3월 25일

[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.

#Review #Video Diffusion Transformers #Mixed-Precision Quantization #Inference Acceleration #Temporal Delta Cache #NVFP4 #INT8 #Post-Training Quantization #Memory Reduction

2026년 3월 25일

[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

기존 비디오 월드 모델들은 액션에 조건화된 역학(action-conditioned dynamics)을 학습하는 데 어려움을 겪고 있는데, 이는 현재 데이터셋이 요구 사항을 충족하지 못하기 때문입니다.

#Review #World Modeling #Action-Conditioned Generation #Dataset #Generative ARPG #Explicit State Annotation #Video Generation #Long-Horizon Consistency

2026년 3월 24일

[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

기존의 Large Vision-Language Models (LVLMs) 효율성 개선 접근 방식은 주로 visual token reduction에 기반한다.

#Review #LVLM Efficiency #Sparse Interaction #Cross-Attention #Self-Attention #Adaptive Inference #Visual Feature Refinement #Computational Cost Reduction

2026년 3월 24일

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일

[논문리뷰] Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

기존 Vision-Language Models (VLMs)는 Euclidean Embeddings에 기반하여 Part-to-Whole 또는 Parent-Child와 같은 계층적 관계를 캡처하는 데 한계가 있으며, Multi-Object Compositional Scenario에서 어려움을 겪는다.

2026년 3월 24일

[논문리뷰] TrajLoom: Dense Future Trajectory Generation from Video

Future motion prediction은 video understanding과 controllable video generation에 있어 매우 중요합니다.

#Review #Dense Trajectory Generation #Future Motion Prediction #Video Understanding #Flow Matching #Variational Autoencoder #Spatiotemporal Consistency #On-policy Fine-tuning #Grid-Anchor Offset Encoding

2026년 3월 24일

[논문리뷰] ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Latent World Models, 특히 V-JEPA2와 같은 JEPA-style 모델은 비디오 Observation으로부터 미래 World States를 예측하는 데 유망한 능력을 보여왔다.

#Review #Latent World Models #Vision-Language Models #Predictive Representation Learning #Dual-Temporal Sampling #Semantic Guidance #Trajectory Prediction #Egocentric Video #JEPA

2026년 3월 24일

[논문리뷰] SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

최근 Agentic MLLMs는 반복적인 시각적 도구 호출을 통해 탁월한 추론 능력을 보여주지만, Perception, Reasoning, Tool-calling의 캐스케이드(cascaded) 루프가 심각한 순차적 오버헤드를 발생시킵니다 [cite: 1, Figure 1].

#Review #Agentic MLLMs #Speculative Perception #Speculative Planning #Cognitive Gating #Answer Separability #Throughput Acceleration #Latency Reduction #Heterogeneous Parallelism

2026년 3월 24일

[논문리뷰] Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

최근 RLVR(Reinforcement Learning with Verifiable Rewards)은 LLM의 추론 능력을 크게 향상시켰지만, 이러한 개선이 token-level에서 어떤 메커니즘으로 발생하는지에 대한 이해는 부족합니다.

2026년 3월 24일

[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.

#Review #Articulated Assets #Multimodal Large Language Model (MLLM)#3D Object Decomposition #Kinematic Prediction #Sparse Voxel Quantization #Simulation-ready Assets #URDF Generation

2026년 3월 24일

[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Multimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.

#Review #Multimodal Chain-of-Thought #Reinforcement Learning #Token-Level Optimization #Visual Similarity #Entropy

2026년 3월 24일

[논문리뷰] Regulating AI Agents

AI agents의 급속한 발전과 Mainstream화는 기존 AI system과는 다른 Unique한 Governance Challenge를 야기하고 있다. 현행 EU AI Act 는 이러한 Transformative Technology의 특성을 충분히 반영하지 못하고 있다는 것이 본 연구의 핵심 문제 제기이다.

#Review #AI agents #EU AI Act #GPAI models #Systemic risk #Self-regulation #Institutional monitoring #AI governance

2026년 3월 24일

[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic Video

최신 비디오 생성 모델들은 뛰어난 실사 이미지(photorealism)를 만들어내지만, 특정 장면 요구사항에 맞춰 생성된 콘텐츠를 정밀하게 제어하는 데는 한계가 있습니다. 또한, 명시적인 기하학적 구조(explicit geometry)가 없기 때문에 3D 일관성(3D consistency)을 보장하기 어렵습니다.

#Review #Sim-to-Real Translation #Photorealistic Video Generation #Video Diffusion Models #Structural Precision #Global Semantic Transformation #IC-LoRA #Temporal Consistency

2026년 3월 24일

[논문리뷰] PEARL: Personalized Streaming Video Understanding Model

인간의 새로운 개념 인지 과정은 본질적으로 스트리밍(streaming) 프로세스입니다. 우리는 끊임없이 새로운 객체나 신원을 인식하고 시간이 지남에 따라 기억을 업데이트합니다. 그러나 현재의 멀티모달(multimodal) 개인화 방법론들은 주로 정적인 이미지나 오프라인(offline) 비디오에 국한되어 있습니다.

#Review #Personalized Streaming Video Understanding #PSVU #PEARL-Bench #Dual-grained Memory System #Concept-aware Retrieval Algorithm #Vision-Language Models #Real-time AI Assistants

2026년 3월 24일

[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.

#Review #Multi-subject Generation #Attribute Misbinding #Image Generation #Benchmark #Evaluation Protocol #Deep Learning #Computer Vision

2026년 3월 24일

[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.

#Review #Document OCR #Diffusion Models #Inverse Rendering #Parallel Decoding #Block-Attention #Curriculum Learning #Vision-Language Models

2026년 3월 24일

[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

LLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다.

#Review #LLM Agents #Workflow Optimization #Agentic Computation Graphs (ACGs)#Static Optimization #Dynamic Optimization #Runtime Adaptation #Evaluation Protocol #Feedback Signals

2026년 3월 24일

[논문리뷰] Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Multimodal AI agents는 online web execution을 포함하는 복잡한 real-world workflow를 점차 자동화하고 있습니다.

#Review #Multimodal AI Agents #Web-agent Benchmark #Egocentric Video #Visual Grounding #Online Evaluation #LLM-as-a-Judge #Perception-Action Alignment

2026년 3월 24일

[논문리뷰] DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

고품질 데이터로 훈련된 Optical Flow 모델들은 블러(blur), 노이즈(noise), 압축 아티팩트(compression artifacts)와 같은 실제 환경의 손상(real-world corruptions)에 직면할 때 성능이 심각하게 저하됩니다.

#Review #Optical Flow Estimation #Diffusion Models #Degradation-Aware #Image Restoration #Dense Correspondence #Spatio-Temporal Attention #Hybrid Architecture

2026년 3월 24일

[논문리뷰] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

최근 Multi-modal Large Language Models (MLLMs)의 발전은 일반 목적의 비디오 이해 분야에서 상당한 진전을 가져왔습니다. 그러나 이러한 모델들은 long-form, high-resolution 비디오를 처리하는 데 심각한 어려움을 겪고 있습니다.

#Review #Video Understanding #Multi-modal Large Language Models (MLLMs)#Vision Transformers (ViTs)#Autoregressive Gazing #Token Reduction #Multi-scale Patches #High-Resolution Video #Long-Form Video

2026년 3월 24일

[논문리뷰] 2Xplat: Two Experts Are Better Than One Generalist

기존의 3D Gaussian Splatting (3DGS) 파이프라인은 Scene당 수십 분에서 수 시간까지 소요되는 계산 집약적인 Iterative Optimization 절차에 의존하여 광범위한 적용에 한계가 있었습니다.

#Review #3D Gaussian Splatting (3DGS)#Pose-free #Feed-forward #Two-Experts Architecture #Geometry Estimation #Appearance Modeling #Novel View Synthesis #Training Efficiency

2026년 3월 24일

[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World Models

Diffusion Transformers (DiTs) 기반의 비디오 World Model은 물리적으로 일관된 미래 visual state를 예측하는 데 필수적이지만, 순차적인 denoising 과정과 높은 계산 비용의 spatio-temporal attention으로 인해 상당한 계산 비용이 발생합니다.

#Review #Diffusion Transformers #Video World Models #Feature Caching #Inference Acceleration #Content-Aware Caching #Motion-Adaptive Caching #Perception-Constrained Caching #Optimal Feature Approximation

2026년 3월 23일

[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.

#Review #Long Video Understanding #Multimodal Large Language Models #Video Question Answering #Graph Neural Networks #Active Inference #Belief Propagation #Spatio-Temporal Graph

2026년 3월 23일

[논문리뷰] Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

I have browsed the paper. Now I will extract the necessary information to construct the summary and figure JSON.

2026년 3월 23일

[논문리뷰] SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

기존의 대규모 사전 학습된 이미지 표현 모델, 즉 Vision Encoder들은 다양한 비전 태스크에서 뛰어난 성능을 보였음에도 불구하고, 주로 2D 이미지 데이터로 학습되어 실제 세계의 객체와 배경 간의 3D 공간 관계를 제대로 포착하지 못하는 근본적인 한계가 있었다.

2026년 3월 23일

[논문리뷰] Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

기존의 Weight-Decomposed Low-Rank Adaptation (DoRA) 구현은 특히 high-rank 설정에서 심각한 메모리 및 성능 병목 현상을 겪습니다.

#Review #DoRA #Low-Rank Adaptation #Parameter-Efficient Fine-Tuning #Fused Kernels #Memory Optimization #Performance Scaling #Triton

2026년 3월 23일

[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

CLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.

#Review #Vision-Language Models #CLIP #Debiasing #Sparse Autoencoder #Post-Hoc #Zero-Shot #Feature Disentanglement #Bias Mitigation

2026년 3월 23일

[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.

#Review #Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning #Low-level Actions #FAST tokenization #Robotics

2026년 3월 23일

[논문리뷰] Repurposing Geometric Foundation Models for Multi-view Diffusion

최근 latent space의 발전이 single-image generation에서 상당한 진전을 이끌었지만, Novel View Synthesis (NVS) 를 위한 최적의 latent space는 대부분 미탐색 상태로 남아있습니다.

#Review #Geometric Foundation Models #Multi-view Diffusion #Novel View Synthesis (NVS)#Latent Space Design #Geometric Consistency #Diffusion Models #RGB Reconstruction #3D Consistency

2026년 3월 23일

[논문리뷰] REVERE: Reflective Evolving Research Engineer for Scientific Workflows

기존의 Prompt-Optimization Techniques는 주로 Local Signals에 의존하여 Behavior를 업데이트하며, 이로 인해 Generalization이 저하되고 Full-Prompt Rewrites나 Unstructured Merges 과정에서 Knowledge Loss가 발생합니다.

#Review #LLM Agents #Self-Adaptation #Research-Coding Workflows #Prompt Optimization #Global Training Context #Code-Based Edits #Continual Learning #Semantic Drift

2026년 3월 23일

[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.

#Review #Reinforcement Learning #Agentic Post-Training #On-Policy Rollout #Pivot Turn #Functional Equivalence #LLM Fine-Tuning

2026년 3월 23일

[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Deep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.

#Review #Deep Research Agents #Long-Horizon Trajectories #Offline Trajectory Synthesis #Browser Primitives #Supervised Fine-tuning #Corpus Bootstrapping #Reproducible Pipeline

2026년 3월 23일

[논문리뷰] On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Large Language Models (LLMs)의 reasoning capability는 Reinforcement Learning with Verifiable Rewards (RLVR)와 같은 기법을 통해 크게 발전했습니다.

#Review #RLVR #LLM Reasoning #Log Probability Difference #Directional Updates #Test-Time Extrapolation #Advantage Reweighting #Sparse Updates

2026년 3월 23일

[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

기존 비디오 기반 World Models 의 평가 벤치마크들은 주로 시각적 충실도(visual fidelity) 및 텍스트-비디오 정렬(text-video alignment)에만 협소하게 초점을 맞추거나, 시간적 역동성(temporal dynamics)을 근본적으로 무시하는 정적 3D 재구성(3D reconstruction) 메트릭에 의존해왔다.

#Review #World Models #4D Generation #Interactive Response #Evaluation Benchmark #Omni-WorldSuite #Omni-Metrics #AgenticScore #Causal Consistency

2026년 3월 23일

[논문리뷰] MemDLM: Memory-Enhanced DLM Training

Diffusion Language Models (DLMs)는 병렬 생성(parallel generation) 및 양방향 context 인지(bidirectional context awareness) 등 Auto-Regressive (AR) 모델 대비 매력적인 이점을 제공한다.

#Review #Diffusion Language Models #Train-Inference Mismatch #Bi-level Optimization #Parametric Memory #Fast Weights #Long-Context Understanding #Exposure Bias #In-Weight Retrieval

2026년 3월 23일

[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.

#Review #Vision-language models #High-resolution crops #Tool-calling #Efficiency #Reinforcement Learning #Multi-turn interaction #Data curation #Spatial-on-demand

2026년 3월 23일

[논문리뷰] LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

최근 Large Language Models (LLMs)의 추론 능력 향상에도 불구하고, 현재 LLMs는 Lean4 와 같이 엄격하고 검증된 formal language를 요구하는 formal theorem-proving task에서 여전히 어려움을 겪고 있다.

#Review #Mixture-of-Experts #Native Formal Reasoning #Tool-Integrated Reinforcement Learning #Lean4 #Auto-formalization #Theorem Proving #Hierarchical Importance Sampling Policy Optimization

2026년 3월 23일

[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Large Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.

#Review #Visual Reasoning #Image Understanding #Video Understanding #Multi-Agent System #Reinforcement Learning #Self-Evolving

2026년 3월 23일

[논문리뷰] Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

The paper 'Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection' by Youbin Kim, Jinho Park, Hogun Park, and Eunbyung Park proposes a multi-view open-vocabulary 3D object detection framework.

2026년 3월 23일

[논문리뷰] FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

본 논문은 Transformer 기반 world model의 O(N²) 연산 비용과 공간적 inductive bias 부재 문제를 해결하기 위해, reaction-diffusion 형태의 편미분방정식을 예측 동역학으로 사용하는 FluidWorld를 제안합니다.

#Review #World Models #Reaction-Diffusion PDE #Video Prediction #Latent Dynamics #Spatial Inductive Bias #Computational Efficiency

2026년 3월 23일

[논문리뷰] F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

기존의 Feed-Forward 3DGS 방법론들은 rigid한 pixel-to-Gaussian 또는 voxel-to-Gaussian 파이프라인을 채택하여 Gaussians를 uniformly하게 할당하는 경향이 있었습니다.

#Review #3D Gaussian Splatting #Feed-Forward #Predictive Densification #Spatially Adaptive Allocation #Novel View Synthesis #Uncalibrated Multi-view #Gaussian Budget Control

2026년 3월 23일

[논문리뷰] BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Large Language Models (LLMs)는 Knowledge-intensive task에서 Hallucination 과 outdated knowledge 문제를 겪고 있으며, 이를 해결하기 위해 Graph-based Retrieval-Augmented Generation (RAG)이 유망한 솔루션으로 부상했습니다.

2026년 3월 23일

[논문리뷰] s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

본 논문은 LLM이 산업용 cryptographic assembly 코드를 검증할 수 있는지를 평가하기 위해, AWS의 s2n-bignum 라이브러리에서 추출한 형식 명세와 HOL Light 증명 스크립트 생성 과제를 묶은 실용 벤치마크를 제안합니다.

#Review #Formal Verification #Theorem Proving #HOL Light #LLM for Code #Cryptographic Assembly #Neurosymbolic AI

2026년 3월 22일

[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

최근 2D Foundation Models는 Text-to-Image Diffusion을 통해 탁월한 High-fidelity 이미지 생성 능력과 깊은 Semantic Understanding을 보여주었습니다.

#Review #3D World Generation #Foundation Models #Multi-Agent System #Vision-Language Models #3D Consistency #Gaussian Splatting

2026년 3월 22일

[논문리뷰] Versatile Editing of Video Content, Actions, and Dynamics without Training

최근 generative video models의 발전에도 불구하고, 실제 비디오에서 액션이나 dynamic event를 편집하거나, 삽입된 content가 다른 객체의 행동에 영향을 미치도록 하는 non-rigid, dynamic manipulation은 여전히 큰 도전 과제입니다.

#Review #Video Editing #Training-Free #Inversion-Free #Rectified Flow Models #Similarity Guided Aggregation (SGA)#Annealed Noise Correlation (ANC)#Text-to-Video Flow Models #Dynamic Manipulation

2026년 3월 22일

[논문리뷰] TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Earth Observation (EO) 분야에서 Vision-Language Models (VLMs)의 가능성에도 불구하고, 기존 VLM들은 픽셀 수준의 정밀한 공간 추론 과 다중 센서 및 시간 경과 데이터 통합 에 어려움을 겪고 있습니다.

#Review #Vision-Language Models (VLMs)#Earth Observation (EO)#Pixel-Grounded Reasoning #Chain-of-Thought (CoT)#Multi-Modal Reasoning #Multi-Temporal Reasoning #Geospatial Reasoning

2026년 3월 22일

[논문리뷰] TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Untextured 3D 모델에 대해 사진처럼 사실적이고 자체 일관성(self-consistent) 있는 외관을 자동으로 생성하는 것은 디지털 콘텐츠 제작 분야에서 중요한 도전 과제입니다.

#Review #Video Generation #3D Texturing #Geometric Consistency #Turntable Video #Diffusion Models #Neural Rendering

2026년 3월 22일

[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.

#Review #MLLM #Benchmark #Proactiveness #Reinforcement Learning #Multimodal Reasoning #Human-AI Interaction

2026년 3월 22일

[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

최근 Diffusion Model의 발전으로 Text-to-Video 생성 능력이 크게 향상되어, 전경(foreground)과 배경(background) 요소에 대한 fine-grained control을 통해 개인화된 콘텐츠 생성이 가능해졌습니다.

#Review #Personalized Video Generation #Multi-Subject #Face-Attribute Alignment #Diffusion Models #Attention Mechanisms #Relational Embedding #Text-to-Video

2026년 3월 22일

[논문리뷰] LoopRPT: Reinforcement Pre-Training for Looped Language Models

최신 Large Language Models (LLMs)는 CoT(Chain-of-Thought) 프롬프팅과 같이 명시적인 텍스트 생성(explicit text generation)을 통해 '생각'하는 방식으로 훈련됩니다.

2026년 3월 22일

[논문리뷰] Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

최근 Large Language Models (LLMs)은 뛰어난 일반 지능과 추론 능력을 보여주지만, 다국어 성능에서는 심각한 불균형을 보입니다.

#Review #LLMs #Multilinguality #Encoder-Decoder #Optimal Transport #Cross-Model Mapping #Language-on-Demand #NMT

2026년 3월 22일

[논문리뷰] Hyperagents

기존 Self-improving AI 시스템은 대부분 고정된 Meta agent에 의존하여 Self-improvement 메커니즘의 개선에 근본적인 한계가 있었습니다.

#Review #Hyperagents #Metacognitive Self-modification #Self-improving AI #Open-ended Exploration #Darwin Gödel Machine #Meta-learning #Robotics Reward Design #Olympiad-level Math Grading

2026년 3월 22일

[논문리뷰] How Well Does Generative Recommendation Generalize?

Generative Recommendation (GR) 모델은 기존 Item ID-based 모델 대비 우수한 성능을 보이며 sequential recommendation 분야에서 유망한 패러다임으로 부상했다.

2026년 3월 22일

[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.

#Review #Vision-Language Models #Multi-Hop Reasoning #Data Synthesis #Reinforcement Learning with Verifiable Rewards #Chain-of-Thought #Generalizable Reasoning #Perception-level Hops #Instance-chain Hops

2026년 3월 22일

[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Long-form video question answering (VideoQA)은 확장된 시간적 맥락에 대한 추론을 요구하지만, 현재 <strong>Large Vision-Language Models (LVLMs)</strong>의 finite context windows는 전체 비디오를 원시 프레임 속도로 처리하는 것을 불가능하게 만든다.

#Review #Video Question Answering #Frame Selection #Neuro-Symbolic Reasoning #Multimodal Understanding #Long Video

2026년 3월 22일

[논문리뷰] FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

본 논문은 객체 단위의 정밀한 제어와 장면 전반의 스타일 일관성을 동시에 달성하기 어려웠던 기존 indoor scene 생성의 한계를 극복하기 위해, layout·shape·texture를 단일 rectified flow로 공동 생성하는 tri-branch 프레임워크 FlowScene을 제안합니다.

#Review #Scene Generation #Rectified Flow #Multimodal Graph #3D Indoor Synthesis #Style Consistency #Generative Models

2026년 3월 22일

[논문리뷰] EgoForge: Goal-Directed Egocentric World Simulator

Generative world models는 dynamic environment를 simulate하고 reason하는 데 중요한 발전을 보였지만, egocentric vision에서는 rapid viewpoint changes, frequent hand-object interactions, 그리고 latent human intent에 의존하는 complex goal-directed behavior로 인해 어려움을 겪습니다.

2026년 3월 22일

[논문리뷰] Deep Tabular Research via Continual Experience-Driven Execution

Large language models (LLMs)는 구조화된 데이터에 대한 reasoning에서 상당한 능력을 보여주었지만, hierarchical 및 bidirectional header , merged cell , non-canonical layout 을 포함하는 unstructured table에 대한 complex long-horizon analytical task 에서는 어려움을 겪습니다.

#Review #Deep Tabular Research #LLM Agents #Tabular Reasoning #Continual Learning #Experience-Driven Execution #Multi-hop Reasoning #Unstructured Tables

2026년 3월 22일

[논문리뷰] CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Multimodal Large Language Models (MLLMs)는 오프라인 비디오 이해에서 뛰어난 성능을 보였으나, 스트리밍 비디오 시나리오에서는 본질적인 병목 현상에 직면한다.

#Review #Streaming Video Understanding #MLLMs #Memory Management #Curvature Score #Hierarchical Visual Memory #Catastrophic Forgetting

2026년 3월 22일

[논문리뷰] Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

기존의 다중 에이전트 강화 학습(MARL)은 Sequential Social Dilemmas (SSDs) 환경에서 credit assignment 의 어려움, non-stationarity , 그리고 방대한 joint action space 문제로 인해 효과적인 정책 학습에 한계를 보입니다.

#Review #LLM Policy Synthesis #Sequential Social Dilemmas (SSDs)#Feedback Engineering #Multi-agent Environments #Cooperation #Reward Hacking #Programmatic Policies

2026년 3월 22일

[논문리뷰] Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Discrete diffusion models는 고품질 데이터를 생성할 수 있지만, 일반적으로 샘플링에 많은 반복(sampling steps) 이 필요하며 이는 높은 계산 비용 과 FLOPs 로 이어진다는 문제점이 있습니다.

#Review #Discrete Diffusion Models #Distillation #Moment Matching Distillation #D-MMD #GPT-2 Gradient Moment #Few-step Generators #CIFAR-10 #Open Web Text

2026년 3월 22일

[논문리뷰] BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

최근 LLMs의 context window가 기하급수적으로 확장되면서 long-document understanding의 잠재력이 커졌지만, 이는 심각한 inference latency와 정보 utilization 병목 현상을 야기했습니다.

#Review #Prompt Compression #Long-Context LLMs #Training-Free #Hierarchical Selection #Structure-Aware #Inference Latency #Information Utilization

2026년 3월 22일

[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Distilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.

#Review #Video Generation #Distilled Autoregressive Models #Reinforcement Learning (RL)#Human Preferences #Streaming Generation #Forward-Process RL #Reward Hacking #Temporal Consistency

2026년 3월 22일

[논문리뷰] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

본 논문은 도메인 특화 Data Science 태스크에서 AI 에이전트가 인간 전문가의 성능을 어느 수준까지 대체할 수 있는지, 그리고 어떤 영역에서 인간의 전문성이 여전히 우위를 지니는지 평가하기 위한 벤치마크 AgentDS를 제안합니다.

#Review #AI Agents #Human-AI Collaboration #Data Science Benchmark #Large Language Models #Domain-Specific Reasoning #Multi-Industry Evaluation

2026년 3월 22일

[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Large language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.

#Review #LLM Agents #Subgoals #Reinforcement Learning #Web Navigation #Long-Horizon Planning #Reward Shaping #Curriculum Learning

2026년 3월 22일

[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.

#Review #Multimodal Large Language Models #Visual Tool Chaining #Agentic Models #Benchmark #OpenCV #Compositional Reasoning #Tool-use Evaluation

2026년 3월 19일

[논문리뷰] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

현재 instruction-guided video editing models은 fine-grained semantic modifications와 faithful motion preservation 간의 균형을 맞추는 데 어려움을 겪고 있습니다.

#Review #Instruction-Guided Video Editing #Diffusion Models #Semantic Anchoring #Motion Alignment #Factorized Pre-training #Zero-shot Learning #Temporal Consistency

2026년 3월 19일

[논문리뷰] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

현재 언어 모델(LM)의 수학 및 과학 추론 능력 평가는 주로 숫자 값이나 multiple-choice 질문과 같은 단순화된 답변 형식에 의존합니다.

2026년 3월 19일

[논문리뷰] Prompt-Free Universal Region Proposal Network

기존의 Region Proposal Network (RPN) 및 Open-Vocabulary Object Detection (OVD) 방법들은 잠재적 객체를 식별하기 위해 exemplar images, predefined categories, 또는 textual descriptions과 같은 외부 프롬프트에 의존하는 경향이 있습니다.

#Review #Prompt-Free #Region Proposal Network #Universal Object Detection #Cross-Domain Generalization #Learnable Embedding #Self-Prompting #Centerness-Guided

2026년 3월 19일

[논문리뷰] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Multi-turn LLM Agents는 복잡하고 인터랙티브한 작업을 해결하는 데 점차 중요해지고 있으며, Reinforcement Learning (RL)은 long-horizon behavior를 개선하는 데 핵심적인 역할을 합니다.

#Review #Multi-turn LLM Agents #Reinforcement Learning #Rollout-as-a-Service #Training-Rollout Decoupling #Sandbox Environments #HPC #Token-in/Token-out #Scalability

2026년 3월 19일

[논문리뷰] OSM-based Domain Adaptation for Remote Sensing VLMs

원격 감지(Remote Sensing) 분야의 Vision-Language Models (VLMs)는 위성 및 항공 이미지의 풍부함에도 불구하고, 고품질의 도메인 특화 이미지-텍스트 주석(annotation)이 희소하고 생성 비용이 높다 는 문제에 직면해 있습니다.

2026년 3월 19일

[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Reinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.

#Review #LLM Post-Training #Cascade RL #Multi-Domain On-Policy Distillation #Mixture-of-Experts #Reasoning #Agentic Capabilities #Competitive Programming #Mathematical Olympiad

2026년 3월 19일

[논문리뷰] MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

단일 이미지로부터 관절형 3D 객체를 재구성하는 것은 객체의 기하학적 구조, Part 구조 및 motion parameter를 제한된 시각적 증거로부터 함께 추론해야 하므로 여전히 근본적인 도전 과제이다.

#Review #Monocular 3D Reconstruction #Articulated Objects #Progressive Structural Reasoning #Kinematic Estimation #PartNet-Mobility #End-to-End

2026년 3월 19일

[논문리뷰] Memento-Skills: Let Agents Design Agents

현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.

#Review #LLM Agents #Continual Learning #Skill Learning #Reinforcement Learning #Memory-based Agents #Agent Design #Read-Write Reflective Learning #Offline RL

2026년 3월 19일

[논문리뷰] Matryoshka Gaussian Splatting

3D Gaussian Splatting (3DGS)의 실질적인 배포를 위해서는 단일 모델에서 조정 가능한 충실도(fidelity)로 장면을 렌더링하는 LoD 기능이 매우 중요합니다.

#Review #3D Gaussian Splatting #Level of Detail (LoD)#Continuous LoD #Matryoshka Representation Learning #Stochastic Budget Training #Neural Rendering

2026년 3월 19일

[논문리뷰] MOSS-TTS Technical Report

Text-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.

#Review #Speech Generation #Foundation Model #Audio Tokenizer #Autoregressive Modeling #Voice Cloning #Duration Control #Multilingual TTS

2026년 3월 19일

[논문리뷰] Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Multimodal Large Language Models (MLLMs)는 Vision과 Language를 연결하는 데 상당한 발전을 이루었지만, 공간 이해와 시점 인지(viewpoint-aware) 추론 능력은 여전히 부족합니다.

#Review #Vision-Language Models #3D Reasoning #Language-based Localization #Spatial Understanding #Situation Modeling #Global Layout Reconstruction #Monocular Video

2026년 3월 19일

[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.

#Review #Video Generation Models #3D Priors #Scene Understanding #Spatial Reasoning #Multimodal Large Language Models (MLLMs)#Latent World Simulator #Adaptive Gated Fusion #Generative AI

2026년 3월 19일

[논문리뷰] FASTER: Rethinking Real-Time Flow VLAs

Vision-Language-Action (VLA) 모델의 실제 로봇 배포에서 실시간 실행(real-time execution)은 매우 중요합니다.

#Review #Vision-Language-Action (VLA) Models #Real-Time Robotics #Action Chunking #Reaction Latency #Flow Matching #Horizon-Aware Schedule (HAS)#Time to First Action (TTFA)

2026년 3월 19일

[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

최근 Encoder-based 아키텍처에서 Decoder-based LLM embeddings로의 전환은 성능 향상을 가져왔지만, 현재 연구는 두 가지 주요 한계를 가지고 있습니다.

#Review #Multilingual Embedding #LLM #Matryoshka Representation Learning #Knowledge Distillation #Model Pruning #MTEB Benchmark #Low-resource Languages #Open-source

2026년 3월 19일

[논문리뷰] EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

기존의 Video Object Removal 방법론들은 주로 입력 마스크에 의존하여 객체를 제거하며, 이로 인해 객체가 유발하는 그림자(shadow), 반사(reflection), 변형(deformation)과 같은 복잡한 시각적 부수 효과(side effects)를 제대로 처리하지 못하는 한계가 있습니다 [cite: 1, Figure 2].

#Review #Video Object Removal #Video Object Insertion #Diffusion Models #Effect Erasing #Reciprocal Learning #Deep Learning #Computer Vision

2026년 3월 19일

[논문리뷰] Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Unified multimodal modeling을 위한 시도는 language models과 마찬가지로 visual models도 semantically meaningful tokens으로 동작해야 한다는 요구사항을 제기한다.

2026년 3월 19일

[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Multimodal Large Language Models (MLLMs)는 자연스러운 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 Discrete Symbols 처리 능력은 여전히 중요한 미해결 과제로 남아 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Discrete Symbols #Cognitive Mismatch #Symbol Understanding #Benchmark #Recognition-Reasoning Inversion #Human Cognition

2026년 3월 19일

[논문리뷰] Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

기존의 Motion Generation 연구는 주로 Kinematic Control에 강점을 보이는 Continuous Diffusion Models 또는 Semantic Conditioning에 효과적인 Discrete Token-based Generators의 두 가지 패러다임을 따랐습니다.

#Review #Motion Generation #Diffusion Models #Discrete Tokens #Kinematic Control #Semantic Conditioning #Motion Tokenizer #Perception-Planning-Control

2026년 3월 19일

[논문리뷰] 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Immersive VR/AR, virtual production, next-generation e-commerce 등 다양한 분야에서 customized subject의 dynamic하고 view-consistent한 비디오 생성에 대한 수요가 증가하고 있습니다.

#Review #3D-aware video generation #subject-driven customization #multi-view conditioning #video diffusion models #LoRA #temporal dynamics #3Dapter #3DreamBooth

2026년 3월 19일

[논문리뷰] When AI Navigates the Fog of War

기존 Large Language Models (LLMs)의 geopolitical forecasting 연구들은 data leakage 문제로 인해 true out-of-distribution reasoning 능력을 정확히 평가하기 어렵다는 한계가 있었습니다.

2026년 3월 18일

[논문리뷰] VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

장편 비디오(long-form video)를 이해하는 것은 방대한 시간적 공간 내에서 희소하고 태스크 관련 증거(task-relevant evidence)를 찾아내는 어려운 문제입니다. 기존의 비디오-언어 모델(VLM) 접근 방식은 두 가지 주요 도전 과제에 직면합니다.

2026년 3월 18일

[논문리뷰] Video-CoE: Reinforcing Video Event Prediction via Chain of Events

비디오 태스크에 대한 MLLM 애플리케이션의 발전에도 불구하고, VEP 는 상대적으로 미개척 상태로 남아있습니다.

#Review #Video Event Prediction (VEP)#Multimodal Large Language Models (MLLMs)#Chain of Events (CoE)#Logical Reasoning #Visual Grounding #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)

2026년 3월 18일

[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Video VLM은 방대한 수의 프레임을 인코딩하고, 각 프레임이 Vision Transformer (ViT)에 의해 수백 개의 Patch Token으로 분해되면서 막대한 계산 비용을 발생시킵니다.

#Review #Token Pruning #Video-Language Models (VLMs)#Computational Efficiency #Spatio-Temporal Scoring #Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training

2026년 3월 18일

[논문리뷰] Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

최근 MLLMs 는 비디오-기반 Supervised Fine-tuning (Video-SFT) 을 통해 시각적 이해 능력을 크게 발전시켜왔습니다. 그러나 Video-SFT 가 시각적 능력의 미세한 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 제대로 연구되지 않았습니다.

#Review #Multimodal Large Language Models (MLLMs)#Video-SFT #Temporal Trap #Spatial Understanding #Temporal Budget #Hybrid-Frame Strategy #Negative Transfer

2026년 3월 18일

[논문리뷰] Stereo World Model: Camera-Guided Stereo Video Generation

기존의 generative world model은 주로 monocular video representation을 사용하며, 이는 implicit depth, ambiguous scale, 그리고 long-horizon camera trajectory에서 누적되는 3D error와 같은 근본적인 기하학적 한계를 가집니다.

2026년 3월 18일

[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.

#Review #Mixed-Precision Quantization #Reinforcement Learning #Post-Training Quantization #Large Language Models #Policy Transfer #Scale Folding #GGUF #On-Device Inference

2026년 3월 18일

[논문리뷰] MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

비디오 diffusion 모델은 단순한 plausible clip 생성에서 카메라 모션, revisits, 그리고 intervention 하에서 일관성을 유지하는 world simulator로 발전하고 있습니다.

#Review #Spatial Memory #World Models #Video Diffusion Models #Hybrid Memory #Controllable Video Generation #Long-horizon Consistency #Patch-and-Compose

2026년 3월 18일

[논문리뷰] MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Large language model (LLM) agent 는 복잡한 multi-step task 에서 강력한 성능을 보여왔지만, 실제 배포 환경에서 사용되는 agent 는 한 번 훈련되면 user 의 요구사항 변화에 관계없이 고정된 상태로 제공됩니다.

#Review #LLM agents #continual learning #meta-learning #skill-driven adaptation #policy optimization #reinforcement learning #online adaptation

2026년 3월 18일

[논문리뷰] Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 로봇 조작에서 유망한 Paradigm으로 부상했지만, 신뢰할 수 있는 Action Prediction은 시각적 관찰과 언어 지침을 정확하게 해석하고 통합하는 데 크게 의존합니다.

2026년 3월 18일

[논문리뷰] LoST: Level of Semantics Tokenization for 3D Shapes

최근 autoregressive (AR) 모델이 3D generation의 강력한 패러다임으로 부상하고 있지만, 3D shape에 대한 최적의 tokenization 방법은 여전히 미해결 과제입니다.

#Review #3D Shape Tokenization #Semantic Salience #Autoregressive Generation #Relational Inter-Distance Alignment #Diffusion Models #Triplane

2026년 3월 18일

[논문리뷰] LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

기존 generative models , 특히 Diffusion Models (DM) 은 고품질 이미지를 생성하는 데 탁월하지만, 결과물을 단일 flat image artifact 로 생성하여 전문 디자인 워크플로우에서 요구되는 개별 요소에 대한 fine-grained control 을 제공하지 못하는 한계가 있습니다.

2026년 3월 18일

[논문리뷰] GigaWorld-Policy: An Efficient Action-Centered World--Action Model

기존 Vision-Language-Action (VLA) 모델 은 강력한 성능을 보였지만, 슈퍼비전 희소성(sparsity) 이라는 주요 문제에 직면해 있습니다.

2026년 3월 18일

[논문리뷰] Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

LLM은 Next-token Generation을 위해 훈련되므로, GPU Parallelism을 충분히 활용하지 못하는 문제가 있습니다.

2026년 3월 18일

[논문리뷰] Efficient Exploration at Scale

오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.

#Review #RLHF #Data Efficiency #Active Exploration #Epistemic Neural Network #Information-Directed Sampling #Scaling Laws #Large Language Models #Online Learning

2026년 3월 18일

[논문리뷰] ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

최근 Vision-Language Models (VLMs)는 Embodied Domain에서의 공간 인지 능력을 향상시키기 위한 상당한 진전을 이루었지만, 기존의 평가 방식에는 여러 한계가 존재합니다.

2026년 3월 18일

[논문리뷰] Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

최근 Vision-Language-Action (VLA) model의 발전은 large-scale multi-robot dataset을 통해 robot policy를 pretrain하는 데 큰 진전을 보였습니다.

#Review #Offline Reinforcement Learning #Vision-Language-Action Models #Data Reweighting #Posterior-Transition Reweighting #Cross-Embodiment Transfer #Robot Learning

2026년 3월 18일

[논문리뷰] Complementary Reinforcement Learning

Reinforcement Learning (RL)은 Large Language Models (LLM) 기반 agent의 agentic capabilities를 향상시키는 데 강력한 패러다임으로 부상했지만, sparse outcome feedback과 agent가 episode 전반의 prior experience를 활용하지 못하는 문제로 인해 낮은 sample efficiency라는 한계에 직면해 있다.

2026년 3월 18일

[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Large Language Models (LLMs)는 User Preferences를 Persistent Memory에 저장하여 여러 Interaction에서 Personalization을 지원하고 있습니다.

#Review #Large Language Models #Personalization #Persistent Memory #Context-Awareness #Preference Selectivity #Benchmark #Misapplication Rate #Appropriate Application Rate

2026년 3월 18일

[논문리뷰] Alignment Makes Language Models Normative, Not Descriptive

최근 Large Language Models (LLMs)는 homo silicus로서 인간 행동을 시뮬레이션하고 예측하는 데 광범위하게 활용되고 있습니다. 그러나 이러한 연구의 대부분은 aligned models 를 사용하며, alignment가 행동 예측에 중립적이거나 유익하다고 암묵적으로 가정합니다.

2026년 3월 18일

[논문리뷰] AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

최근 LLM 기반 에이전트들은 장기적인 상호작용, 개인화된 지원 및 다단계 추론을 지원하기 위해 외부 메모리에 점점 더 의존하고 있습니다. 그러나 기존 메모리 시스템은 세 가지 핵심 문제에 직면합니다.

#Review #LLM Agents #Dialogue Memory #User-Centric #Adaptive Retrieval #Graph Memory #Multi-Agent Systems #Long-Horizon Reasoning

2026년 3월 18일

[논문리뷰] ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

CLIP과 같은 VLMs 는 Natural image 분야에서 탁월한 성능을 보였고, 이는 Medical domain에도 큰 영감을 주었다. 그러나 기존 Medical VLMs 는 Specialist model과 Generalist model이라는 두 가지 극단적 형태로 나뉘어져 있었다.

2026년 3월 18일

[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

최근 Video Diffusion Transformers (DiTs)의 발전으로 Interactive Gaming World Models은 생성된 환경을 Long-Horizon으로 탐색하는 능력을 보여주었지만, 여전히 정밀한 Action Control 및 3D Consistency 확보에 어려움을 겪고 있습니다.

#Review #Interactive Gaming World Models #Camera Pose #Geometric Representation #Diffusion Transformers #Action Control #3D Consistency #Lie Algebra

2026년 3월 17일

[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

최근 Flow Matching 모델은 Latent Autoencoder의 재구성 병목 현상을 피하기 위해 픽셀 공간에서 직접 작동합니다. 그러나 픽셀 매니폴드(manifold)의 의미론적 연속성이 부족하여 최적 운송 경로가 심하게 얽히게 됩니다.

#Review #Image Generation #Flow Matching #Trajectory Conflict #Diffusion Transformers #Waypoint Diffusion Transformers #Just-Pixel AdaLN

2026년 3월 17일

[논문리뷰] Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

최근 MLRMs는 Visual Question Answering 등 다양한 태스크에서 뛰어난 성능을 보였지만, 여전히 심각한 Hallucinations 문제에 직면해 있습니다.

#Review #Multimodal Large Reasoning Models (MLRMs)#Hallucinations #Entropy-Aware Decoding #Latent Reasoning #Visual Grounding #Decoding Strategies #Uncertainty Mitigation

2026년 3월 17일

[논문리뷰] TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

기존 Text-to-SQL 파싱 방법론들은 Full Schema Assumption 하에서 Large Language Models (LLMs) 의 발전과 함께 remarkable progress를 이루었습니다.

#Review #Text-to-SQL #Unknown Schema #Multi-Turn Reinforcement Learning #Tool Integration #POMDP #Dual-Track GRPO #Schema Grounding #Hallucination

2026년 3월 17일

[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

기존의 OLM Benchmark들은 주로 static, accuracy-centric 한 이해(understanding) Task에 초점을 맞추고 있어, 자연스러운 대화에서 Dynamic한 Cues를 탐색하는 Social Interactivity의 핵심 역량을 충분히 평가하지 못하고 있습니다.

#Review #Omni-modal LLMs #Social Interactivity #Benchmark #Speaker Identification #Turn-taking #Interruption Generation #Audio-Visual Integration

2026년 3월 17일

[논문리뷰] SegviGen: Repurposing 3D Generative Model for Part Segmentation

기존 3D Part Segmentation 방법론들은 몇 가지 본질적인 한계에 직면해 있습니다.

#Review #3D Part Segmentation #Generative Models #Diffusion Models #Latent Space #Limited Supervision #Multi-Task Learning

2026년 3월 17일

[논문리뷰] SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

LLM 기반 에이전트들은 자동화된 코드 생성부터 CI/CD 파이프라인 구성 및 인프라 관리 등 광범위한 software engineering (SWE) 태스크에 점차 활용되고 있습니다.

2026년 3월 17일

[논문리뷰] Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

기존 UMM visual generation component의 pre-training은 비효율적인 paradigm과 희소하며 높은 품질의 text-image paired data에 대한 의존성이라는 중대한 제약에 직면해 있습니다.

2026년 3월 17일

[논문리뷰] Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Large Language Models (LLMs)는 extended context windows에도 불구하고 long context 내 정보를 신뢰성 있게 추출하고, 추론하며, 활용하는 데 어려움을 겪고 있다.

2026년 3월 17일

[논문리뷰] Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

기존의 OCR 시스템은 비용, 정확도, 기능성 측면에서 Trade-off를 겪고 있습니다.

2026년 3월 17일

[논문리뷰] Online Experiential Learning for Language Models

현재 대규모 언어 모델(LLM) 개선 패러다임은 주로 offline training에 의존하며, 인간 annotation 또는 simulated environment를 활용합니다. 그러나 이러한 방식은 실제 배포 환경에서 축적되는 풍부한 경험을 전혀 활용하지 못한다는 근본적인 한계가 있습니다.

#Review #Online Experiential Learning (OEL)#Context Distillation #Language Models #Reward-Free Learning #Catastrophic Forgetting #Token Efficiency #On-Policy Learning

2026년 3월 17일

[논문리뷰] One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Large Language Models (LLMs)의 산업 시스템 도입이 가속화됨에 따라 reliable evaluation 은 model lifecycle 전반에 걸쳐 critical한 구성 요소가 되었습니다. 그러나 현재의 evaluation practices는 상당한 manual effort 를 요구합니다.

2026년 3월 17일

[논문리뷰] Mixture of Style Experts for Diverse Image Stylization

기존의 Diffusion-based Stylization 방법론들은 이미지의 Color Transfer 에 주로 집중하여 Complex Semantics 및 Material Details 를 효과적으로 처리하지 못하는 한계가 있었습니다.

#Review #Image Stylization #Mixture of Experts (MoE)#Diffusion Models #Semantic-aware Stylization #Style Transfer #LoRA

2026년 3월 17일

[논문리뷰] MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

최근 Large Language Models (LLMs)는 유창한 텍스트 생성 및 광범위한 질문 답변 능력에서 상당한 발전을 이루었지만, scientific analysis, financial reasoning, open-ended research와 같은 많은 real-world 문제들은 단순한 conversational ability를 넘어선다.

#Review #Research Agents #Long-Horizon Reasoning #Verification #Agentic LLM #Multi-Step Problem Solving #Reinforcement Learning

2026년 3월 17일

[논문리뷰] M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

uncalibrated monocular video로부터 streaming reconstruction을 수행하는 것은 고정밀 pose estimation과 동적 환경에서의 계산적으로 효율적인 online refinement가 모두 필요하므로 여전히 challenging합니다.

#Review #SLAM #Streaming Reconstruction #3D Gaussian Splatting #Monocular Video #Foundation Models #Dense Matching

2026년 3월 17일

[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied AI 분야에서 로봇 trajectory를 세계 환경 내에서 roll out하는 능력은 demonstration 확장, policy evaluation 및 reinforcement learning에 매우 중요합니다.

#Review #Embodied AI #4D Generative World Model #Spatiotemporal-aware #Kinematic Control #Robotic Simulation #Diffusion Transformer #Pointmap

2026년 3월 17일

[논문리뷰] InCoder-32B: Code Foundation Model for Industrial Scenarios

최근 코드 대규모 언어 모델(LLMs)은 일반적인 프로그래밍 task에서 상당한 발전을 이루었지만, 하드웨어 의미론, 특수 언어 구성체 및 엄격한 자원 제약 조건에 대한 추론이 필요한 산업 시나리오에서는 그 성능이 크게 저하되는 문제를 겪고 있습니다.

#Review #Code Foundation Model #Industrial Scenarios #Chip Design #GPU Kernel Optimization #Embedded Systems #Compiler Optimization #3D Modeling #Code Intelligence

2026년 3월 17일

[논문리뷰] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent

최근 Large Language Model(LLM) 애플리케이션들은 방대한 외부 컨텍스트에 의존하며, 이는 KV-cache 와 같은 방식으로 처리될 경우 상당한 메모리 오버헤드를 발생시킵니다.

#Review #GradMem #Test-Time Optimization #Context Removal #Compressive Memory #Meta-learning #Gradient Descent #LLM #KV-retrieval

2026년 3월 17일

[논문리뷰] FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Large Language Models (LLMs)의 금융 도메인 통합은 정적 정보 검색에서 동적이고 에이전트적인 상호작용으로의 paradigm shift 를 주도하고 있습니다.

2026년 3월 17일

[논문리뷰] Efficient Reasoning on the Edge

Large Language Models (LLMs)는 Chain-of-Thought (CoT) Reasoning을 통해 복잡한 문제 해결에서 최첨단 성능을 달성하지만, Edge Device 배포에는 여러 제약이 따릅니다.

#Review #LLMs #Edge Computing #LoRA #Quantization #Budget Forcing #Switcher Module #Parallel Reasoning

2026년 3월 17일

[논문리뷰] Demystifing Video Reasoning

최근 Diffusion 기반 비디오 생성 모델이 Spatiotemporally Consistent한 시각 환경에서 비 trivial한 Reasoning 능력을 보이는 현상이 발견되었습니다.

#Review #Video Reasoning #Diffusion Models #Chain-of-Steps #Emergent Behaviors #Layer Specialization #Training-Free Ensemble

2026년 3월 17일

[논문리뷰] AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

LLMs가 tool-using agent로 발전하면서 외부 환경과 상호작용하는 능력은 크게 향상되었지만, long-horizon 상호작용에서는 여전히 취약합니다.

#Review #Large language models #Process reward models #Tool-using agents #Step-level evaluation #Agent trajectories #Benchmark

2026년 3월 17일

[논문리뷰] daVinci-Env: Open SWE Environment Synthesis at Scale

Large Language Models (LLMs)의 발전은 자율적인 Software Engineering (SWE) agent 개발을 가속화하고 있지만, 이러한 agent를 효과적으로 훈련하기 위해서는 대규모의 실행 가능하며 검증 가능한 환경이 필수적입니다.

#Review #SWE Agents #Environment Synthesis #Large Language Models #Dockerfile #SWE-Bench Verified #Data Scaling #Quality Curation

2026년 3월 15일

[논문리뷰] Visual-ERM: Reward Modeling for Visual Equivalence

Vision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.

#Review #Reward Modeling #Vision-to-Code #Reinforcement Learning #Multimodal Generative Model #Visual Equivalence #Fine-grained Feedback #Test-Time Scaling

2026년 3월 15일

[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.

#Review #Streaming Video Understanding #VideoLLMs #Chain-of-Thought (CoT)#Real-time AI #Reinforcement Learning #Knowledge Graphs #Streaming Thinking #Low Latency

2026년 3월 15일

[논문리뷰] VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

비디오 생성 모델의 빠른 발전에도 불구하고, 복잡한 사용자 의도에 모델 Output을 맞추는 것은 여전히 큰 과제입니다.

2026년 3월 15일

[논문리뷰] V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

기존 image restoration 방법론은 주로 task-specific modeling에 초점을 맞추어 각 degradation type별로 상당한 supervision(백만 개 이상의 샘플)을 요구했습니다. 이는 (a) Traditional Image Restoration `

2026년 3월 15일

[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Multimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.

#Review #Streaming Video Reasoning #Multi-Turn Interaction #Segment-Level Memory #Causal Mask #Positional Encoding #Dual KV Cache #Multimodal Large Language Models

2026년 3월 15일

[논문리뷰] Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

본 연구는 오픈 월드 환경에서 Embodied Agent가 Long-Horizon Compound Task를 자율적으로 수행하는 데 있어 Single-Step Planning Quality보다는 상호작용 경험을 어떻게 체계화하고 진화시키는지가 핵심 병목(bottleneck)임을 지적합니다.

2026년 3월 15일

[논문리뷰] Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

최근 Large Language Models (LLMs)의 신뢰성을 향상하기 위해 test-time scaling 이 보편화되었지만, 기존 접근 방식은 컴퓨팅 리소스를 무한하다고 가정하여 에이전트가 중복되거나 막다른 길(dead-end) 궤적에 token 및 tool budgets 을 소진하는 문제가 있습니다.

2026년 3월 15일

[논문리뷰] SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

기존 3D scene reconstruction 방법론들은 대개 scene을 holistic 하게 표현하여 시각적 fidelity는 뛰어나지만, 완전한 object geometry와 명확한 object boundary가 부족하여 simulation 및 interaction에 부적합하다는 근본적인 한계점을 가집니다.

#Review #Compositional 3D Scene Reconstruction #Simulation-Ready Scenes #Active Viewpoint Optimization (AVO)#Scene Graph Synthesizer (SGS)#Real-world Videos #Physical Plausibility

2026년 3월 15일

[논문리뷰] OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

최근 LTX-2 와 Veo 3 와 같은 Joint Audio-Visual Diffusion Model들은 탁월한 Generation Quality를 보여주지만, Bidirectional Attention Dependency로 인해 높은 Latency를 겪어 Real-time Application에 적용하기 어렵습니다.

#Review #Streaming Audio-Visual Generation #Diffusion Distillation #Autoregressive Video Synthesis #Multi-modal AI

2026년 3월 15일

[논문리뷰] Multimodal OCR: Parse Anything from Documents

Large language model과 Multimodal model 시대에 문서 파싱은 Pretraining 및 Retrieval을 위한 핵심 Data engine이 되었습니다.

#Review #Multimodal OCR #MOCR #Document Parsing #Structured Graphics #Image-to-SVG #Vision-Language Models #OCR Arena

2026년 3월 15일

[논문리뷰] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Multimodal Large Language Models ( MLLM )은 GUI 탐색과 같은 복잡한 시각적 워크플로우를 처리하는 데 점점 더 많이 사용되고 있지만, 이러한 Deep Compositional Reasoning 능력에 대한 평가는 여전히 부족합니다.

#Review #MLLM #Deep Compositional Reasoning #Programmatically Verified Benchmark #Hard Negatives #Control Flow #VPIR #Path F1

2026년 3월 15일

[논문리뷰] LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

최근 LLM의 Context Length가 급증하면서 KV Cache 의 크기가 입력 시퀀스 길이에 비례하여 선형적으로 증가하며, 이는 long-context task 에서 메모리 병목 현상을 야기하여 inference scalability에 큰 제약을 초래하고 있습니다.

#Review #KV Cache Eviction #Long Context LLM #Attention Score Prediction #LoRA #Parameter-Efficient #Time-to-First-Token

2026년 3월 15일

[논문리뷰] LMEB: Long-horizon Memory Embedding Benchmark

Memory-augmented system (예: OpenClaw )에서 Memory embedding은 필수적이지만, 현재 Text embedding benchmark들은 그 평가가 미흡합니다.

#Review #Memory Embeddings #Long-horizon Memory Retrieval #Text Embedding Benchmarks #Episodic Memory #Dialogue Memory #Semantic Memory #Procedural Memory #Zero-Shot Evaluation

2026년 3월 15일

[논문리뷰] HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Text-to-Image (T2I) Diffusion 모델은 인상적인 이미지 생성 능력을 보여주지만, 수십억 개의 파라미터를 포함하는 대규모 모델의 경우 극심한 계산 오버헤드와 높은 Latency로 인해 latency-sensitive한 애플리케이션에 적용하기 어렵다는 문제에 직면해 있습니다.

#Review #Diffusion model #Mixture of models #Acceleration #Text-to-Image #Model stitching #Latency reduction #Pixel-level #Timestep-level

2026년 3월 15일

[논문리뷰] HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Embodied Agents 가 가정 환경에 빠르게 도입되면서 예측 불가능한 안전 위험이 증가하고 있습니다. 기존의 안전 평가 방식은 주로 정적인 이미지, 텍스트 또는 일반적인 위험에 국한되어, household scenarios의 동적인 unsafe action detection을 적절히 벤치마킹하는 데 실패했습니다.

#Review #Embodied Agents #Unsafe Action Detection #Vision-Language Models (VLMs)#Household Scenarios #HomeSafe-Bench #HD-Guard #Real-time Safety Monitoring

2026년 3월 15일

[논문리뷰] From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

최근 Diffusion/Flow Models은 Visual Content 생성에서 혁신적인 능력을 보여주고 있지만, 생성된 Outputs이 Human Preference 및 Task-specific Constraint에 Align되도록 하는 것은 여전히 중요한 과제입니다.

#Review #Reinforcement Learning #GRPO #Diffusion Models #Flow Models #Preference Alignment #Condition Enhancement #Multi-View Learning

2026년 3월 15일

[논문리뷰] ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

기존의 Time-Series Anomaly Detection(TSAD) 연구들은 주로 workstation-class hardware에서 unconstrained execution 환경 하에 detection quality(주로 accuracy)만을 비교하고 최적화했습니다.

#Review #Time-series anomaly detection #Deployment-oriented evaluation #Compute reduction #CPU parallelism #Throughput #Latency #Automotive telemetry #AUC-PR

2026년 3월 15일

[논문리뷰] Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

자율 에이전트, 특히 메모리, 지속적인 컨텍스트, 다단계 계획을 가진 위임된(delegated) 시스템은 고유한 측정 문제를 제기합니다.

#Review #AI safety #self-preservation #instrumental convergence #Quantum Boltzmann Machine #entanglement entropy #alignment

2026년 3월 15일

[논문리뷰] CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Large Language Models(LLMs)의 성공은 인터넷 규모의 데이터 확장에 힘입었지만, 현재 고품질 데이터의 포화로 인해 모델 인텔리전스(model intelligence)의 추가 스케일링이 한계에 부딪혔습니다.

2026년 3월 15일

[논문리뷰] Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

최근 멀티모달 모델링 분야에서 시각적 이해와 생성을 단일 모델 내에서 통합하는 연구는 인간과 유사한 멀티모달 인텔리전스를 향한 중요한 진전으로 평가받습니다. 그러나 이러한 통합은 두 가지 근본적인 문제에 직면합니다.

#Review #Unified multimodal model #Visual generation and comprehension #Unified vision encoder #Cascaded flow matching #Token compression

2026년 3월 15일

[논문리뷰] Can Vision-Language Models Solve the Shell Game?

Vision-Language Models (VLMs)는 전반적인 비디오 이해 및 추론에서 뛰어난 성능을 보였지만, 시간 경과에 따른 개체 추적(Visual Entity Tracking)과 같은 저수준 인식 능력에서는 중요한 병목 현상을 겪고 있습니다.

#Review #Visual Entity Tracking #Shell Game #Vision-Language Models (VLMs)#VET-Bench #Spatiotemporal Grounded Chain-of-Thought (SGCoT)#NC1-complete #Transformer-based VLMs

2026년 3월 15일

[논문리뷰] XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Multimodal 에이전트는 복잡한 시각적 추론 task와 다양한 툴을 처리할 수 있게 되었지만, 여전히 비효율적인 툴 사용과 open-ended 환경에서의 유연하지 않은 orchestration이라는 두 가지 근본적인 병목 현상에 직면해 있습니다.

#Review #Multimodal Agents #Continual Learning #Experience Learning #Skill Learning #Tool Use #Knowledge Base #Visual Reasoning

2026년 3월 12일

[논문리뷰] WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

저자들은 instruction-based image editing 분야에서 text-centric image editing 이 중요한 응용 잠재력에도 불구하고 아직 충분히 탐구되지 않은 영역임을 지적합니다.

#Review #Text-centric Image Editing #Diffusion Models #Glyph-Guided Fine-tuning #Reinforcement Learning #Multilingual Benchmark #Dataset Construction

2026년 3월 12일

[논문리뷰] Video-Based Reward Modeling for Computer-Use Agents

Computer-use agents ( CUAs )는 일반적인 컴퓨터 자동화 분야에서 유망한 패러다임으로 부상하고 있지만, 에이전트 trajectory가 사용자 지침을 진정으로 이행하는지 여부를 평가하는 것은 여전히 어려운 과제로 남아 있습니다.

#Review #Reward Modeling #Computer-Use Agents #Execution Video #Spatiotemporal Token Pruning #Dataset #Task Success

2026년 3월 12일

[논문리뷰] Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Large Language Models (LLMs)는 코드 생성(Code Generation)에서 놀라운 성공을 거두었지만, 복잡한 소프트웨어 Engineering을 위한 깊고 긴 Horizon의 Reasoning에는 여전히 어려움을 겪고 있습니다.

2026년 3월 12일

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Diffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Reward Modeling #Image Editing #Image Generation #MLLM #Data Curation #Fidelity #Instruction Following

2026년 3월 12일

[논문리뷰] TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

물리 기반 인간형 제어는 사실적이고 고성능의 단일 에이전트(Single-agent) 행동을 가능하게 하는 데 상당한 발전을 이루었지만, 이를 협동적인 Human-Object Interaction (HOI) 으로 확장하는 것은 여전히 어려운 과제입니다.

#Review #Human-Object Interaction (HOI)#Reinforcement Learning (RL)#Transformer-based Policy #Adversarial Motion Prior (AMP)#Decentralized Policy #Multi-agent Systems #Scalable Coordination

2026년 3월 12일

[논문리뷰] Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Multimodal Agent는 복잡한 문서 기반 워크플로우를 자동화하는 유망한 방향을 제시하지만, 이러한 Agent가 진정한 Strategic Reasoning 을 보여주는지, 아니면 단지 Stochastic Trial-and-error Search 에 의존하는지에 대한 근본적인 의문이 존재했습니다.

#Review #Multimodal Agents #Document QA #Agentic Reasoning #RAG #Benchmark #PDFs #Effort Calibration

2026년 3월 12일

[논문리뷰] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

인간은 시각적 관찰 스트림을 통해 실제 공간을 인지하고 이해하므로, 잠재적으로 무한한 비디오 스트림에서 Spatial Evidence 를 스트리밍 방식으로 유지하고 업데이트하는 능력은 Spatial Intelligence 에 필수적입니다.

#Review #Spatial Intelligence #Test-Time Training #MLLM #Streaming Video #Hybrid Architecture #Spatiotemporal Convolution

2026년 3월 12일

[논문리뷰] ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Text-driven Video Generation 모델들은 영화 제작의 민주화를 이끌었지만, Cinematic Multi-Shot Scenario에서의 Camera Control은 여전히 중요한 병목(Bottleneck)으로 남아 있습니다.

2026년 3월 12일

[논문리뷰] One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

기존 Diffusion Transformers (DiTs) 는 높은 생성 품질을 달성하지만, 컴퓨팅 비용이 입력 이미지 해상도에 고정되어 Latency-Quality Trade-off가 경직되어 있습니다.

2026년 3월 12일

[논문리뷰] OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

현대 visual agent는 로봇, AR 장치 등 실시간 스트리밍 환경에서 작동하기 위해 일반적이고, 인과적이며, 물리적으로 구조화된 표현을 요구합니다.

#Review #streaming visual backbone #causal spatiotemporal attention #3D-ROPE #multi-task learning #real-time inference #embodied agents #vision-language alignment

2026년 3월 12일

[논문리뷰] Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

3D Gaussian Splatting (3DGS)은 고품질 novel view synthesis 를 위한 강력한 기법으로 부상했지만, 높은 computational demands 와 막대한 storage costs 로 인해 mobile devices 에 배포하여 real-time rendering 을 구현하는 데 상당한 어려움이 있습니다.

#Review #Gaussian Splatting #Mobile Rendering #Order-Independent Transparency #Neural Quantization #Real-time Rendering #View-dependent Enhancement #Spherical Harmonics Distillation #Resource-constrained Devices

2026년 3월 12일

[논문리뷰] IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Long-context agentic workflows에서 Large Language Models (LLMs)의 attention efficiency는 inference speed와 serving cost에 결정적인 요소입니다.

2026년 3월 12일

[논문리뷰] GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Unified Multimodal Models (UMMs)는 지식, 구조화된 추론, 제어 가능한 생성을 단일 시스템으로 통합하는 것을 목표로 하지만, 현재 이미지 편집 벤치마크 [37, 57]는 주로 natural image domain과 shallow commonsense reasoning에 국한되어 있습니다.

2026년 3월 12일

[논문리뷰] Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

최근 Reinforcement Learning from Verifiable Rewards (RLVR) 는 추론(reasoning) 기반 LLM의 성능 향상에 큰 효과를 보였으나, 출력의 정확성을 직접 확인할 수 없는 non-verifiable domains 에는 적용하기 어렵다는 한계가 있습니다.

2026년 3월 12일

[논문리뷰] EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

최근 MLLMs 가 확산 프레임워크에 텍스트 인코더로 널리 통합되어 공간 추론과 같은 복잡한 태스크를 해결하고 있지만, 이 패러다임에는 두 가지 주요 한계가 있습니다. 첫째, MLLMs text encoder 는 불충분한 추론 깊이를 보입니다.

2026년 3월 12일

[논문리뷰] EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

AR Video Generative Model은 Video Tokenizer를 통해 픽셀을 discrete visual token sequence로 압축하며, 이 token sequence의 길이가 Reconstruction Quality와 Downstream Generation의 Computational Cost 간의 균형에 critical하다.

2026년 3월 12일

[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

대규모 diffusion models 가 비디오 합성 능력을 혁신했지만, multi-subject identity 와 multi-granularity motion 에 대한 정밀한 제어는 여전히 중대한 과제로 남아있습니다.

#Review #Video Diffusion Models #Video Customization #Motion Control #Reinforcement Learning #Multi-Subject #Omni-Motion #Latent Identity #DiT

2026년 3월 12일

[논문리뷰] DVD: Deterministic Video Depth Estimation with Generative Priors

기존 비디오 Depth Estimation 방법론은 근본적인 Trade-off에 직면해 있습니다.

#Review #Video Depth Estimation #Generative Priors #Deterministic Adaptation #Diffusion Models #Latent Manifold Rectification #Global Affine Coherence #Zero-shot Learning #Temporal Consistency

2026년 3월 12일

[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.

#Review #Agentic Task Synthesis #Diversity Scaling #Tool Use #Generalization #Reinforcement Learning #Supervised Fine-tuning

2026년 3월 12일

[논문리뷰] Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Coarse-Guided Visual Generation 은 deblurring, super-resolution 등 다양한 실제 애플리케이션에 필수적입니다.

#Review #Guided Visual Generation #Diffusion Model #Doob's h-Transform #Coarse-guided Generation #Training-free #Image Restoration #Video Generation #Weighted Sampling

2026년 3월 12일

[논문리뷰] Automatic Generation of High-Performance RL Environments

일반적인 Reinforcement Learning (RL) 훈련에서 환경 시뮬레이션은 전체 Wall-Clock Time의 50-90% 를 소비하며, 이는 학습 Process의 주요 Bottleneck으로 작용합니다.

2026년 3월 12일

[논문리뷰] Are Video Reasoning Models Ready to Go Outside?

실제 환경에 배포된 Vision-Language Models (VLMs)는 날씨, 폐색, 카메라 움직임과 같은 방해 요소를 자주 마주칩니다.

2026년 3월 12일

[논문리뷰] Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

대부분의 영어 사용자가 비원어민(L2) 화자 임에도 불구하고, 현재의 Text-To-Speech (TTS) 시스템은 악센트 데이터 부족으로 인해 주로 미국식 영어 악센트(American-accented English) 를 모델링합니다.

#Review #Text-To-Speech #Controllable Speech Synthesis #Accented Speech Generation #Accent Vector #Multilingual TTS #LoRA

2026년 3월 12일

[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…

#Review #Reinforcement Learning #Value Models #Advantage Baseline #Sparse Rollouts #Shrinkage Estimation #Sequential Analysis #LLM Fine-tuning #Mathematical Reasoning

2026년 3월 11일

[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

논문은 기존 Text-to-Music(T2M) 모델의 한계인 비디오 이벤트와의 정밀한 시간 정렬 제어 부족 문제를 해결하고, V2M-ZERO 라는 Zero-Pair 비디오-투-음악 생성 접근 방식을 제안합니다.

#Review #Video-to-Music Generation #Temporal Alignment #Zero-Pair Learning #Rectified Flow Model #Diffusion Transformer #Event Curves #Modality Gap Mitigation

2026년 3월 11일

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

본 연구는 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다. 특히, 이산적인 시각 토크나이저 사용으로 인한 세부 의미 정보 손실 문제와, 연속적인 고차원 시각 표현을 직접 모델링할 때 발생하는 학습 불안정성 및 느린 수렴 문제를 극복하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Image Generation #Image Understanding #Semantic Compression #Continuous Representation #Diffusion Model #Transformer #Image Editing

2026년 3월 11일

[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Reflection #Intrinsic Feedback #Continuous Adaptation #Memory Retrieval #Agentic AI #GRPO

2026년 3월 11일

[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.

#Review #LLM Finetuning #LoRA #Mixture of Experts (MoE)#Reinforcement Learning #Parameter-Efficient Finetuning (PEFT)#Routing #Weight Collapse

2026년 3월 11일

[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.

#Review #Peer Review #Rebuttal #Actionable Feedback #Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset #Review Feedback Generation

2026년 3월 11일

[논문리뷰] Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

논문은 LLM(Large Language Models)의 프롬프트 하이라이팅(prompt highlighting)에서 사용자 지정 텍스트 스팬 을 우선적으로 고려하도록 모델을 조종하는 문제를 다룹니다.

#Review #Prompt Highlighting #Large Language Models #Activation Steering #Differential SVD #Key-Value Channels #Cross-Covariance #Softplus Weighting #Inference-Time Intervention

2026년 3월 11일

[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking

본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 '다음 상태 신호(next-state signals)' 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다.

#Review #Reinforcement Learning (RL)#Agentic AI #Online Learning #Next-State Signals #Process Reward Models (PRM)#On-Policy Distillation (OPD)#Multi-Modal Agents

2026년 3월 11일

[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Vision #Multi-Agent Systems #Video Question Answering #Long-Horizon Reasoning #Embodied AI #Benchmark Dataset #Shared Memory #Dynamic Retrieval

2026년 3월 11일

[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models

기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.

#Review #Large Language Models #Text Embeddings #Generative AI #Self-Supervised Learning #Knowledge Distillation #Semantic Search #Retrieval-Augmented Generation

2026년 3월 11일

[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Diffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다.

#Review #Diffusion Transformers #Spatial Acceleration #Training-Free #Generative AI #Flow Matching #ODE Solvers #Inference Speedup #Resource Allocation

2026년 3월 11일

[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool Use #In-Context Learning #Few-Shot Learning #SFT-free #Data Efficiency #Curriculum Learning

2026년 3월 11일

[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents

본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Credit Assignment #Hindsight Credit Assignment #Policy Optimization #Sparse Rewards #Long-Horizon Tasks #Generative Verification

2026년 3월 11일

[논문리뷰] Flash-KMeans: Fast and Memory-Efficient Exact K-Means

본 논문은 기존 GPU 기반 K-평균 구현이 메모리 I/O 병목 현상 과 아토믹 쓰기 경합 으로 인해 온라인 시스템에서 비효율적이라는 문제를 해결하고자 합니다.

#Review #K-Means Clustering #GPU Acceleration #Memory Optimization #IO-Aware Computing #Online Primitive #Hardware-Aware Algorithms #Contention-Free Operations #AI Workloads

2026년 3월 11일

[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.

#Review #Zero-Shot Manipulation #Video Generation Models #Vision-Language Models #Compositional Constraints #Robotics #Trajectory Optimization #Real-Robot Control

2026년 3월 11일

[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning #Code-Grounded Perception #Image-to-Code Translation #Data Generation #Benchmark #Reinforcement Learning #Matplotlib

2026년 3월 11일

[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.

#Review #Multi-Agent Reinforcement Learning #Policy-Space Response Oracles #Large Language Models #Program Synthesis #Interpretable AI #Game Theory #Code Generation

2026년 3월 11일

[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.

#Review #Online Adaptation #Continual Learning #Knowledge Streams #Large Language Models #Benchmarking #State Tracking #Retrieval Augmented Generation #Agentic Memory

2026년 3월 11일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Natural Language Feedback #Exploration #Group-Level Feedback #Self-Refinement #Sample Efficiency

2026년 3월 11일

[논문리뷰] Any to Full: Prompting Depth Anything for Depth Completion in One Stage

본 논문은 기존의 RGBD 융합 기반 깊이 완성(Depth Completion) 방법론들이 겪는 도메인 특이성 및 깊이 패턴 민감성 문제를 해결하고, 이단계 MDE 통합 접근 방식의 계산 오버헤드와 구조적 왜곡을 극복하는 것을 목표로 합니다.

#Review #Depth Completion #Monocular Depth Estimation (MDE)#Prompt Learning #Domain Generalization #Pattern Agnostic #One-stage Learning #Robotic Perception #Scale Consistency

2026년 3월 11일

[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Vision-Language Models #Comparative Reasoning #Subtle Differences #Benchmark #Multi-modal AI #Image Comparison #VQA #Fine-grained Analysis

2026년 3월 10일

[논문리뷰] Towards a Neural Debugger for Python

본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.

#Review #Neural Debuggers #Python Execution Traces #Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding #Code Generation #Inverse Execution #CruxEval

2026년 3월 10일

[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.

#Review #LLMs #Reasoning #Parametric Knowledge #Factual Recall #Hallucination #Computational Buffer #Factual Priming #Chain-of-Thought

2026년 3월 10일

[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.

#Review #Logical Reasoning #Situational Awareness #LLMs #Deceptive Alignment #AI Safety #RAISE Framework #Self-Modeling #Deduction #Induction #Abduction

2026년 3월 10일

[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation

대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Autoregressive Models #Diffusion Models #Distillation #Real-time #Streaming #Temporal Coherence #Flow Matching

2026년 3월 10일

[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.

#Review #Spatial Intelligence #Vision-Language Models #Sports Analytics #3D Reconstruction #Dataset #Benchmark #Racket Sports #Human-Centric AI

2026년 3월 10일

[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.

#Review #Recursive Self-Improvement #Alignment Drift #AI Safety #Goal Drift Index (GDI)#Constraint Preservation #Regression Risk #Capability Alignment Ratio (CAR)

2026년 3월 10일

[논문리뷰] Reward Prediction with Factorized World States

본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.

#Review #Reward Prediction #World Models #State Representation #Large Language Models #Zero-shot Learning #Reinforcement Learning #Planning #Factorization

2026년 3월 10일

[논문리뷰] Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 Multimodal Large Language Models (MLLMs) 가 텍스트를 이미지 형태로 처리할 때 발생하는 '모달리티 갭(modality gap)'을 체계적으로 진단하고 해결하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Modality Gap #Visual Text Understanding #Error Analysis #Self-Distillation #Text-to-Image Conversion #Reasoning Collapse

2026년 3월 10일

[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 주로 사용하는 자기회귀(autoregressive) 아키텍처 의 한계를 극복하고, 텍스트, 음성, 이미지 전반에 걸친 이해 및 생성을 통합할 수 있는 새로운 확률적 모델링 대안 을 탐색하는 것을 목표로 합니다.

#Review #Multimodal AI #Discrete Diffusion Models #Masked Language Modeling #Unified Generative Models #Any-to-Any #Speech-to-Image #Visual Question Answering

2026년 3월 10일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Evolution #Reinforcement Learning #Zero-Data #Multi-Agent Systems #Code Generation #Synthetic Data

2026년 3월 10일

[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Multimodal Large Language Model #Image Generation #Image Editing #Chain-of-Thought #Data Synthesis #Low-parameter Models

2026년 3월 10일

[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Editing #Reinforcement Learning #Multi-view Consistency #Diffusion Models #Reward Modeling #3D Gaussian Splatting #FLUX-Kontext #VGGT

2026년 3월 10일

[논문리뷰] Fish Audio S2 Technical Report

본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multi-speaker #Multi-turn #Instruction Following #Dual-Autoregressive #Reinforcement Learning (RL)#Data Pipeline #SGLang

2026년 3월 10일

[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following

현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.

#Review #Speech Language Models #Instruction Following #Multilingual Dataset #Spoken Prompts #Benchmark #SLLM Evaluation #Prompt Diversity

2026년 3월 10일

[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

RLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Calibration #Over-confidence #Decoupled Optimization #Verifiable Rewards #Policy Optimization #Expected Calibration Error

2026년 3월 10일

[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling

본 논문은 기존의 speculative decoding 드래프트 모델들이 현재 prefix에만 의존하여 예측하는 방식 때문에 발생하는 오류 누적 문제 를 해결하고자 합니다.

#Review #Speculative Decoding #LLM Inference Acceleration #Draft Model #Future Prediction #Contemplate Tokens #Mixture-of-Experts #Token Acceptance Rate #Speedup Ratio

2026년 3월 10일

[논문리뷰] Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference

이 논문은 Mamba-2 의 State Space Duality (SSD) 알고리즘이 기존의 NVIDIA CUDA/Triton 커널 에 대한 의존성 없이도 XLA 컴파일러 를 통해 효율적이고 이식성 높은 추론 성능을 달성할 수 있음을 증명하는 것을 목표로 합니다.

#Review #State Space Models #Mamba-2 #XLA #JAX #Compiler Codegen #Autoregressive Caching #Hardware Portability #Inference Optimization

2026년 3월 10일

[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.

#Review #Text-to-Video Generation #Multi-Agent System #Brand Integration #Prompt Engineering #Large Language Models (LLMs)#LoRA Fine-tuning #Contextual Adaptation

2026년 3월 10일

[논문리뷰] Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

본 논문은 오디오-언어 모델(LALMs)에서 발생하는 텍스트 지배(text dominance) 문제를 해결하는 것을 목표로 합니다. 이는 LALMs가 중요한 오디오 증거가 있을 때에도 언어적 선험 지식에 과도하게 의존하여 오디오를 충분히 활용하지 못하는 현상을 의미합니다.

#Review #Audio-Language Models (LALMs)#Text Dominance #Mechanistic Interpretability #Attention Heads #Activation Steering #Multimodal Grounding #Inference-time Intervention

2026년 3월 10일

[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.

#Review #Financial LLMs #Data-Centric AI #Distillation #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training #Data Quality

2026년 3월 9일

[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Non-Differentiable Rewards #Few-Step Generation #Trajectory Distribution Matching #Surrogate Reward Learning #Text-to-Image

2026년 3월 9일

[논문리뷰] Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

본 논문은 Autoregressive (AR) LLM과 Diffusion (dLLM)의 내부 표현 구조가 어떻게 다른지 체계적으로 분석하고, 이러한 차이를 활용하여 추론 시 레이어 스키핑(layer skipping) 을 통한 효율성 증대 가능성을 탐색합니다.

#Review #Diffusion LLMs #Autoregressive LLMs #Representational Analysis #Layer Skipping #Inference Efficiency #Initialization Bias #FLOPs Reduction #Recency Bias

2026년 3월 9일

[논문리뷰] Scale Space Diffusion

본 논문은 확산 모델의 노이즈 열화 과정과 스케일 공간 이론의 저역 통과 필터링이 공유하는 정보 계층 구조를 공식화하여 통합하는 것을 목표로 합니다. 완전히 노이즈가 있는 이미지가 저해상도 이미지와 동등한 정보를 가짐에도 불구하고 고해상도로 처리되는 비효율성을 해결하고, 이를 통해 확산 모델의 효율성을 개선하고자 합니다.

#Review #Diffusion Models #Scale Space Theory #Generative Models #Multi-resolution Image Generation #UNet Architecture #Image Upsampling #Non-Isotropic Noise

2026년 3월 9일

[논문리뷰] PureCC: Pure Learning for Text-to-Image Concept Customization

본 논문은 텍스트-투-이미지(T2I) 개념 맞춤화 과정에서 기존 모델의 동작 및 기능을 손상시키지 않으면서 새로운 개인화된 개념을 '순수하게 학습' 하는 것을 목표로 합니다. 기존 맞춤화 방법들이 높은 충실도에 집중하여 원본 모델의 기능 저하와 예측 동작 방해를 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image #Concept Customization #Flow-based Models #Pure Learning #Model Preservation #Adaptive Guidance #LoRA

2026년 3월 9일

[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

현재 명시적 지시에만 반응하는 GUI 에이전트 의 한계를 극복하고, 사용자의 암묵적인 의도를 연속적인 시각 입력(스크린샷)으로부터 예측 하여 시기적절한 추천을 제공하는 능동형(Proactive) AI 비서 를 개발하는 것을 목표로 합니다.

#Review #Proactive Agents #GUI Automation #Intent Recommendation #Multimodal LLMs #Benchmark #Memory-aware Framework #Human-Computer Interaction

2026년 3월 9일

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

본 논문은 AR(Autoregressive) LLM 기반 ASR 시스템의 순차적 디코딩으로 인한 높은 지연 시간 및 병렬 처리 한계를 극복하는 것을 목표로 합니다.

#Review #Non-Autoregressive ASR #LLM-based ASR #Transcript Editing #CTC #Transformer #LoRA #Real-time ASR #Inference Speed

2026년 3월 9일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

본 논문은 기존 feedforward 기하학적 재구성 모델 이 겪는 quadratic attention 복잡성 및 제한된 유효 메모리 로 인한 스케일링 문제를 해결하고, 분 단위의 매우 긴 비디오 시퀀스 에 대해 사후 최적화 없이 조밀한 3D 재구성을 수행하는 것을 목표로 합니다.

#Review #3D Reconstruction #Long-Context #Hybrid Memory #Sliding Window Attention (SWA)#Test-Time Training (TTT)#Transformer #Visual SLAM #Sequence Modeling

2026년 3월 9일

[논문리뷰] How Far Can Unsupervised RLVR Scale LLM Training?

본 논문은 ground truth 레이블 없이 보상을 얻는 Unsupervised Reinforcement Learning with Verifiable Rewards (URLVR) 가 대규모 언어 모델(LLM) 학습을 얼마나 확장할 수 있는지 종합적으로 분석하는 것을 목표로 합니다.

#Review #Unsupervised Reinforcement Learning #LLM Training #Intrinsic Rewards #External Rewards #Model Collapse #RLVR #Model Prior #Self-Verification

2026년 3월 9일

[논문리뷰] Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

본 논문의 핵심 목표는 수동 개입 없이 원시 비디오 스트림을 대규모의 홀리스틱 3D 공간 지능 데이터로 자동 변환하는 파이프라인인 Holi-Spatial 을 제시하는 것입니다.

#Review #3D Spatial Intelligence #Video Stream Processing #Automated Data Curation #3D Gaussian Splatting (3DGS)#Vision-Language Models (VLMs)#Open-Vocabulary Segmentation #Spatial Reasoning #Multimodal Datasets

2026년 3월 9일

[논문리뷰] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

논문은 Autoregressive (AR) 확산 모델 을 사용한 장기 비디오 생성 시 발생하는 오류 누적으로 인한 품질 저하 및 시간적 불연속성 문제를 해결하고자 합니다. 특히, 기존 방식이 높은 디노이즈된 컨텍스트에 의존하여 예측 오류를 증폭시키는 한계를 극복하고, 안정적이고 효율적인 장기 비디오 생성을 목표로 합니다.

#Review #Autoregressive Video Generation #Hierarchical Denoising #Diffusion Models #Temporal Continuity #Error Propagation #Forward-KL Regularization #Long Video Synthesis #Pipelined Parallelism

2026년 3월 9일

[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Cold-Start Initialization #Attention Mechanism #Visual Grounding #Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis #Visual Attention Score (VAS)

2026년 3월 9일

[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.

#Review #Vision-Language Models #Prompt Tuning #Foreground Attention #Adaptive Learning #Generalization #Base-to-New Trade-off #Attention Guidance

2026년 3월 9일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.

#Review #Image Editing #Diffusion Models #Mixture-of-Experts (MoE)#Condition-Aware Routing #Contextual Image Editing #Mask Repaint #Latent Mixture #Diffusion Transformer

2026년 3월 9일

[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration

대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Confidence Calibration #Test-Time Scaling #Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting #Self-Reflection #Distributional Priors

2026년 3월 9일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

본 연구는 확산 기반 월드 모델의 높은 추론 비용 문제, 특히 대화형 사용 및 장기 롤아웃에 필요한 비용을 해결하는 것을 목표로 합니다. 기존 단일 모달 확산 모델을 위한 캐싱 정책이 다중 모달 토큰의 이질성과 비균일한 시간적 역학으로 인해 월드 모델에 제대로 적용되지 못하는 한계를 극복하고자 합니다.

#Review #World Models #Diffusion Models #Inference Acceleration #Feature Caching #Heterogeneous Tokens #Curvature Prediction #Adaptive Skipping

2026년 3월 8일

[논문리뷰] WildActor: Unconstrained Identity-Preserving Video Generation

본 논문은 기존 비디오 생성 모델이 동적인 움직임, 시점 변화에도 불구하고 일관된 전신(full-body) 신원(identity)을 유지 하는 데 실패하고, 얼굴 중심적 편향, 자세 고정(pose locking) 등의 문제를 겪는다는 점을 지적합니다.

#Review #Video Generation #Identity Preservation #Human-Centric Video #Large-scale Dataset #Diffusion Models #Attention Mechanism #Viewpoint Consistency

2026년 3월 8일

[논문리뷰] SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

다양한 이미지 손상(degradation)에 대해 단일 모델로 처리하는 올인원 이미지 복원(All-in-One Image Restoration) 프레임워크의 한계, 즉 특징 간섭과 전문가 특화 부족 문제를 해결하고자 합니다.

#Review #Image Restoration #Mixture of Experts #Degradation Representation #Spherical Embedding #Contrastive Learning #Adaptive Routing #All-in-One Model #Global-Local Fusion

2026년 3월 8일

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.

#Review #Robotics #Memory #Benchmark #Manipulation #Vision-Language-Action Models #Temporal Memory #Spatial Memory #Procedural Memory

2026년 3월 8일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Transformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일

[논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

본 논문은 기존 월드 모델의 수백 개의 잠재 토큰 이 실시간 계획 수립에 필요한 계산 비용을 과도하게 증가시키는 문제를 해결하고자 합니다.

#Review #World Model #Discrete Tokenizer #Latent Representation #Action Planning #Model Predictive Control #Real-time AI #Compression #Vision Foundation Model

2026년 3월 8일

[논문리뷰] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

본 연구는 단일 RGB 이미지로부터 완전한 3D 실내 장면의 메쉬를 자동회귀 방식으로 재구성하는 것을 목표로 합니다.

#Review #Single-View 3D Reconstruction #Autoregressive Models #Mesh Generation #Scene Understanding #Transformer #Point Cloud Features #Pose Estimation

2026년 3월 8일

[논문리뷰] Physical Simulator In-the-Loop Video Generation

본 논문은 확산 모델 기반 비디오 생성의 시각적 사실성이 물리 법칙(중력, 관성, 충돌 등)을 따르지 못하여 객체의 움직임이 일관성이 없고 비현실적인 문제를 해결하고자 합니다. 물리 시뮬레이터를 비디오 확산 과정에 통합하여 물리적으로 일관되고 시공간적으로 자연스러운 비디오 생성을 달성하는 것을 목표로 합니다.

#Review #Video Generation #Physical Simulation #Diffusion Models #Texture Consistency #Motion Controllability #Test-Time Optimization #4D Reconstruction

2026년 3월 8일

[논문리뷰] Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

본 논문은 컴퓨팅 자원이 제한된 환경(모바일, 엣지 디바이스)에서 VLM(Vision Language Model) 배포를 저해하는 모델 크기 확장의 문제를 해결하고자 합니다.

#Review #Vision Language Model (VLM)#LLM-based Vision Encoder #Efficient AI #Multimodal Understanding #Generative Pretraining #Resource-constrained Deployment #Temporal Reasoning

2026년 3월 8일

[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language Models

본 연구는 대규모 언어 모델(LLM)이 멀티모달 그래프(MMG)에서 추론할 때 발생하는 두 가지 주요 과제, 즉 교차 모달 불일치(cross-modal inconsistency) 및 이종 모달 선호도(heterogeneous modality preference) 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Graph #Large Language Models #Graph Reasoning #Cross-Modal Alignment #Modality Adaptation #Instruction Tuning #Vision-Language Model #Node Classification

2026년 3월 8일

[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #VAE #FID #Generative Models #Evaluation Metrics #Image Generation #Reconstruction-Generation Dilemma #Interpolation

2026년 3월 8일

[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT

사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.

#Review #Vision Transformer #Out-of-Distribution #Linear Probing #Distribution Shift #Foundation Models #Intermediate Layers #Module Analysis

2026년 3월 8일

[논문리뷰] HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

본 논문은 LLM 에이전트 가 장기 계획(long-horizon planning)에서 예산이나 다양성 요구 사항과 같은 강력한 제약 조건 을 처리할 때 발생하는 Constraint Drift 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Planning #Hierarchical Reinforcement Learning #Constrained Optimization #Large Language Models (LLMs)#Travel Itinerary Generation #Constraint Drift #Parallel Execution #Resource Allocation

2026년 3월 8일

[논문리뷰] FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Large Language Models (LLMs)의 장문 컨텍스트 처리 시 자기회귀(self-attention)의 2차 복잡도로 인한 성능 병목현상 , 특히 계산 집약적인 프리필(prefilling) 단계의 높은 오버헤드 를 해결하는 것이 목표입니다.

#Review #Long-Context LLMs #Prefilling #Sparse Attention #Pattern Discovery #Dynamic Thresholding #Attention Speedup #Transformer Optimization

2026년 3월 8일

[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.

#Review #LLM Inference #Model Routing #Model Cascading #Efficiency Optimization #Dynamic Model Selection #Multi-LLM Systems #Cost-Performance Trade-off #Adaptive AI Systems

2026년 3월 8일

[논문리뷰] Dynamic Chunking Diffusion Transformer

본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Dynamic Chunking #Adaptive Patching #Image Generation #Computational Efficiency #Token Reduction #Spatial Segmentation #Load Balancing

2026년 3월 8일

[논문리뷰] Demystifying Action Space Design for Robotic Manipulation Policies

로봇 조작 정책 학습에서 액션 공간 설계가 주로 경험적 휴리스틱에 의해 이루어져 최적화 및 안정성에 대한 체계적인 이해가 부족한 문제를 해결하는 것입니다. 이 연구는 시간적(절대값 vs. 델타) 및 공간적(조인트-공간 vs.

#Review #Robotic Manipulation #Action Space Design #Imitation Learning #Delta Actions #Joint Space Control #Task Space Control #Generalization #Control Stability

2026년 3월 8일

[논문리뷰] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

기존 발표 자료 생성 에이전트의 한계(미리 정의된 워크플로, 콘텐츠에 구애받지 않는 템플릿, 내부 신호에만 의존하는 자기 성찰)를 극복하고자 합니다.

#Review #Agentic Systems #Presentation Generation #Large Language Models (LLMs)#Multimodal LLMs (MLLMs)#Environment-Grounded Reflection #Self-Correction #Dual-Agent Framework #Supervised Fine-tuning

2026년 3월 8일

[논문리뷰] Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

본 논문은 멀티 벡터 시각적 문서 검색(VDR) 시스템에서 발생하는 심각한 저장 효율성 병목 현상 을 해결하고 동시에 검색 성능을 향상시키는 것을 목표로 합니다. 기존 멀티 벡터 모델의 패치 기반 임베딩 방식이 초래하는 막대한 저장 비용과 문서 레이아웃 구조에 대한 명시적인 접지 부족 문제를 극복하고자 합니다.

#Review #Multi-Vector Retrieval #Visual Document Understanding #Document Parsing #Layout-Informed Embeddings #Information Bottleneck #Storage Efficiency #Late Interaction

2026년 3월 8일

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일

[논문리뷰] UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

본 논문은 bimanual 로봇을 위한 보편적인 dexterous grasping에서 데이터 부족 문제를 해결하고, 여러 가지 grasp 전략을 통합하여 실제와 유사한 물리적이며 기하학적으로 일치하는 grasp를 생성하는 것을 목표로 합니다.

#Review #Dexterous Grasping #Bimanual Robots #Synthetic Data #Grasp Synthesis #Sim-to-Real Transfer #Point Cloud #Transformer Policy

2026년 3월 5일

[논문리뷰] Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

논문은 기존 비디오 이해 데이터셋이 자연스러운 장기적 일상생활을 반영하지 못하고 짧은 클립 위주라는 한계를 지적하며, 진정한 다중 모드 평생 이해(Multimodal Lifelong Understanding) 태스크를 엄격하게 정의하는 것을 목표로 합니다.

#Review #Multimodal Lifelong Understanding #Video Dataset #Agentic AI #Dynamic Memory Management #Long-Context MLLMs #Temporal Reasoning #Concept Drift

2026년 3월 5일

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.

#Review #Time Series Forecasting #Foundation Model #Mixture-of-Experts (MoE)#Serial Scaling #Transformer #Pre-training #Probabilistic Forecasting #Data Augmentation

2026년 3월 5일

[논문리뷰] SkillNet: Create, Evaluate, and Connect AI Skills

AI 에이전트가 단편적인 경험을 체계적으로 축적하고 전이 가능한 스킬로 통합하는 메커니즘이 부족하여 발생하는 '바퀴 재발명' 문제와 비효율성을 해결하는 것을 목표로 합니다. 이를 위해, 에이전트가 경험을 지속적이고 재사용 가능한 능력 으로 변환할 수 있는 SkillNet 이라는 개방형 인프라를 구축하고자 합니다.

#Review #AI Agents #Skill Management #Knowledge Engineering #Skill Ontology #Multi-dimensional Evaluation #LLM-based Agents #Skill Reuse #Transferable Mastery

2026년 3월 5일

[논문리뷰] SageBwd: A Trainable Low-bit Attention

저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.

#Review #Low-bit Attention #Quantization #Model Training #Pre-training #Backward Pass #QK-norm #SageBwd #Deep Learning Optimization

2026년 3월 5일

[논문리뷰] STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

본 논문은 기존 다중 모달 객체 재식별(ReID) 방법론들이 직면한 배경 노이즈 증가 및 식별 특징 손실 문제(하드 토큰 필터링 또는 단순 융합 전략으로 인해 발생)를 해결하는 것을 목표로 합니다.

#Review #Multi-modal Re-Identification #Segmentation-Guided Feature Modulation #Token Modulation #Cross-Modal Interaction #Hypergraph Neural Networks #Object ReID #Transformer #SAM

2026년 3월 5일

[논문리뷰] RoboPocket: Improve Robot Policies Instantly with Your Phone

이 논문은 로봇 모방 학습의 핵심 제약인 비효율적인 데이터 수집과 느린 정책 반복 과정을 해결하고자 합니다.

#Review #Robot Learning #Imitation Learning #Policy Iteration #Augmented Reality #Visual Foresight #Data Collection #Human-in-the-Loop #Smartphone

2026년 3월 5일

[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation

본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.

#Review #Video Generation #Physics Simulation #Real-Time #Action-Conditioned #3D Scene Reconstruction #Diffusion Models #Optical Flow

2026년 3월 5일

[논문리뷰] On-Policy Self-Distillation for Reasoning Compression

본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.

#Review #Reasoning Compression #Self-Distillation #On-Policy Learning #Large Language Models #Mathematical Reasoning #Knowledge Distillation #Efficient Inference

2026년 3월 5일

[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents

약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.

#Review #LLM Agents #Drug Discovery #Governed Autonomy #Multi-Agent System #Workflow Orchestration #Human-in-the-Loop #Computational Biology #Reproducibility

2026년 3월 5일

[논문리뷰] MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

본 논문은 대규모 언어 모델(LLM)을 활용한 과학적 발견 과정, 특히 P(hypothesis|background)의 직접적인 모델링이 지닌 조합론적 복잡성(O(Nk)) 으로 인한 비실용성을 해결하는 것을 목표로 합니다.

#Review #Scientific Discovery #LLM Training #Combinatorial Complexity #Hierarchical Search #Bounded Composition #Motivation Planning #Tractable Training #TOMATO-STAR Dataset

2026년 3월 5일

[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

다중 모달리티 대규모 언어 모델(MLLMs)에서 채널별 스무딩 양자화(channel-wise smoothing quantization) 기법이 시각 및 텍스트 토큰 활성화의 큰 차이로 인해 실패하는 문제를 해결하는 것이 목표입니다.

#Review #Multimodal LLMs #Post-Training Quantization #Modality-Aware Smoothing #Cross-Modal Compensation #Quantization #Model Compression #SVD-based Whitening

2026년 3월 5일

[논문리뷰] Locality-Attending Vision Transformer

본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.

#Review #Vision Transformer #Semantic Segmentation #Attention Mechanism #Locality Bias #Gaussian Kernel #Patch Representation #Foundation Models

2026년 3월 5일

[논문리뷰] Large Multimodal Models as General In-Context Classifiers

본 논문은 대규모 멀티모달 모델(LMMs)이 이미지 분류 작업에서 대조 학습 기반 시각-언어 모델(VLMs)보다 성능이 떨어진다는 기존 인식을 재고하고, 인컨텍스트 학습(ICL)이 LMMs의 분류 능력을 얼마나 향상시킬 수 있는지 탐구합니다.

#Review #Large Multimodal Models #In-Context Learning #Image Classification #Open-World Classification #Zero-Shot Learning #Vision-Language Models #CLIP

2026년 3월 5일

[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning

본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.

#Review #Reinforcement Learning #Knowledge Agents #Enterprise Search #Grounded Reasoning #Multi-task Learning #Off-policy RL #Test-time Compute #Agentic Synthesis

2026년 3월 5일

[논문리뷰] HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

본 논문은 인간-제품 이미지 생성 시 제품 디테일의 높은 충실도(high-fidelity) 보존 을 보장하는 문제를 해결하고자 합니다.

#Review #Reference-Based Inpainting #High-Fidelity Image Generation #Human-Product Images #Diffusion Models #Detail Preservation #Attention Mechanisms #Loss Functions #Dataset Construction

2026년 3월 5일

[논문리뷰] DreamWorld: Unified World Modeling in Video Generation

기존 비디오 생성 모델들이 시각적 사실성만을 추구하고 세계에 대한 일관된 이해가 부족한 한계를 해결하는 것이 목표입니다. 물리적 상식, 3D 및 시간적 일관성과 같은 이질적인 세계 지식 을 비디오 생성기에 통합하고, 이로 인해 발생하는 시각적 불안정성과 시간적 깜빡임 문제를 완화하고자 합니다.

#Review #Video Generation #World Modeling #Diffusion Models #Multi-modal Integration #Temporal Consistency #Spatial Geometry #Semantic Consistency #Constraint Annealing

2026년 3월 5일

[논문리뷰] Distribution-Conditioned Transport

본 논문은 기계 학습에서 흔히 발생하는, 훈련 중 관찰되지 않은 소스 및 타겟 분포로 전이 모델을 일반화 하는 문제를 해결하는 것을 목표로 합니다.

#Review #Distribution-Conditioned Transport #Generative Distribution Embeddings #Optimal Transport #Flow Matching #Semi-Supervised Learning #Generalization #Single-cell Genomics #Batch Effect Transfer

2026년 3월 5일

[논문리뷰] DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

본 논문은 LLM 에이전트가 Python 중심의 학습 데이터로 인해 R 통계 생태계의 풍부한 통계 방법론을 활용하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #LLM Agents #R Statistical Ecosystem #Retrieval-Augmented Generation #Distribution-Aware Retrieval #R Package Knowledge Base #Statistical Analysis #Embedding Models

2026년 3월 5일

[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Agents #Visual Reasoning #Tool Use #Benchmark #Long-Horizon Tasks #Realistic Scenarios #Agentic Intelligence

2026년 3월 5일

[논문리뷰] T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

본 논문은 대규모 언어 모델(LLM)이 복잡한 텍스트 처리, 특히 장문 컨텍스트 환경에서 겪는 어려움을 해결하고자 합니다.

#Review #Benchmarking #Text-to-Structure #LLM Prompting #Structure-of-Thought #Multihop Reasoning #Graph Extraction #Scientific Documents #Text Processing

2026년 3월 4일

[논문리뷰] Specificity-aware reinforcement learning for fine-grained open-world classification

본 논문은 오픈 월드 환경에서 미세 분류를 수행할 때, 대규모 멀티모달 모델(LMMs) 이 지나치게 일반적인 예측을 내놓는 경향을 해결하고자 합니다. 모델의 정확성 을 저해하지 않으면서 예측의 구체성(specificity) 을 향상시키는 것이 주된 연구 목표입니다.

#Review #Open-World Classification #Fine-Grained Classification #Reinforcement Learning #LMMs #Specificity-Aware Reward #GRPO #LLM-as-a-Judge #Cross-Domain Generalization

2026년 3월 4일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs

대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Real-time Interaction #Video Understanding #Benchmark #Temporal Reasoning #Long-term Memory #Proactive Response

2026년 3월 4일

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.

#Review #LLM Memory Retrieval #Proxy Model #Reinforcement Learning #Outcome-Driven Rewards #Long-Term Memory #Curriculum Learning #Model Merging #Inference-Time Scaling

2026년 3월 4일

[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.

#Review #Multimodal LLMs #Safety Evaluation #Red Teaming #Adversarial Attacks #Modality Switching #LLM Alignment #Compliance #ASR

2026년 3월 4일

[논문리뷰] MIBURI: Towards Expressive Interactive Gesture Synthesis

본 논문은 현재 대규모 언어 모델(LLM) 기반 대화형 에이전트가 부족한 신체 움직임 및 표현력 있는 제스처를 보완하고자 합니다.

#Review #Embodied Conversational Agents #Gesture Synthesis #Real-time AI #Causal Models #Transformer Networks #Residual VQ-VAE #Speech-text Foundation Models

2026년 3월 4일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Real-Time #Long Video #Diffusion Transformers #Anti-Drifting #Memory Optimization #Distillation #Autoregressive Models

2026년 3월 4일

[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector

논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.

#Review #Open-Vocabulary Object Detection #Transformer #DINO #CLIP #Semantic Alignment #Hard Example Mining #Feature Fusion #Two-stage Training

2026년 3월 4일

[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

DETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Uncertainty Estimation #Object Detection #DETR #Deep Ensembles #MC-Dropout #Group DETR #Transformer #Autonomous Driving

2026년 3월 4일

[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-Vocabulary #Embodied AI #Online Reconstruction #Semantic 3D Scene Understanding #CLIP Features #Feed-Forward Neural Networks

2026년 3월 4일

[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

본 논문은 기존의 영상 확산 모델들이 겪는 계산 제약으로 인해 1K 이하의 낮은 해상도에 머무는 한계를 극복하고, 단일 시점 영상(perspective video) 입력으로부터 네이티브 4K 해상도(3840x1920) 의 고품질 360° 파노라마 영상을 생성하는 것을 목표로 합니다.

#Review #4K 360° Video Generation #Spatio-Temporal Autoregressive #Diffusion Models #Cubemap #Context Attention #Virtual Reality #Perspective-to-Panorama

2026년 3월 4일

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일

[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

본 연구는 3D/4D 감독 없이 물리적으로 그럴듯한 관절형 인간-객체 상호작용(HOI)을 합성 하는 근본적인 문제를 해결하고자 합니다. 기존 제로샷 방법론들이 강체 객체 조작 에만 한정되며 명시적인 4D 기하학적 추론 이 부족하여 발생하는 비현실적인 상호작용 문제를 극복하는 것이 주된 목표입니다.

#Review #Human-Object Interaction (HOI)#4D Reconstruction #Articulated Objects #Video Diffusion Models #Inverse Rendering #Zero-shot Learning #Motion Synthesis #3D Gaussians

2026년 3월 4일

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.

#Review #Point Clouds #Self-supervised Learning #Multi-domain Learning #Foundation Model #Point Transformer #Representation Learning #Robotics #Spatial Reasoning

2026년 3월 3일

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.

#Review #Unified Multimodal Models #Multimodal Understanding #Generation-to-Understanding #Benchmark #Vision-Language Models #Generate-then-Answer #Model Evaluation

2026년 3월 3일

[논문리뷰] Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

논문은 기존 모노큘러 3D 추적 방식의 한계점(희소한 점만 추적하거나 느린 최적화 기반 dense 추적)을 극복하는 것을 목표로 합니다.

#Review #3D Tracking #Dense Scene Flow #Monocular Video #World-centric #Feedforward Model #Deep Learning #Computer Vision #4D Reconstruction

2026년 3월 3일

[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.

#Review #LLM Post-Training #Catastrophic Forgetting #Direct Preference Optimization (DPO)#Reward-based Learning #Data Rectification #Binary Cross-Entropy #Reasoning Tasks #Knowledge Preservation

2026년 3월 3일

[논문리뷰] Spilled Energy in Large Language Models

본 논문은 대규모 언어 모델(LLM)에서 발생하는 환각(hallucination) 을 추가적인 훈련 없이 효과적으로 탐지하는 것을 목표로 합니다.

#Review #LLM Hallucination Detection #Energy-Based Models #Training-Free #Logit Analysis #Spilled Energy #Cross-Task Generalization #Autoregressive Models

2026년 3월 3일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.

#Review #DeepThink #Process Reward Model #Inference Algorithm #Population Refinement #Stochastic Mutation #Reasoning Benchmarks #Compute-Accuracy Tradeoff

2026년 3월 3일

[논문리뷰] Next Embedding Prediction Makes World Models Stronger

부분적으로 관측 가능하고 고차원적인 환경에서 모델 기반 강화 학습(MBRL) 에이전트의 장기적인 시간 종속성 포착 능력 을 개선하는 것이 목표입니다.

#Review #Model-Based Reinforcement Learning #World Models #Decoder-Free #Temporal Transformer #Next-Embedding Prediction #Latent Representation #Partial Observability #Barlow Twins

2026년 3월 3일

[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

본 논문은 대규모 정렬된(paired) 비디오 데이터셋의 부족 으로 인해 특히 로컬 비디오 편집 에서 발생하는 문제점을 해결하고자 합니다.

#Review #Video Editing #Diffusion Models #Unpaired Learning #Temporal Consistency #Sparse Control #Dense Synthesis #Degradation Simulation #Keyframe Guidance

2026년 3월 3일

[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.

#Review #Agentic LLM #AI Safety #Multi-Step Tool Use #Reinforcement Learning #Preference-Based Learning #Safety Guardrails #Refusal Mechanism #Structured Reasoning

2026년 3월 3일

[논문리뷰] Kling-MotionControl Technical Report

논문은 드라이빙 비디오와 참조 이미지를 기반으로 사실적이고 제어 가능한 홀리스틱 캐릭터 애니메이션 비디오를 생성 하는 것을 목표로 합니다.

#Review #Character Animation #Video Generation #Diffusion Transformers (DiT)#Motion Control #Identity Preservation #Cross-Identity Transfer #Inference Acceleration #Multi-Granular Motion

2026년 3월 3일

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.

#Review #Video Editing #Instruction Guidance #Reference Guidance #Diffusion Models #MLLM #Dataset Generation #RefVIE #Curriculum Learning

2026년 3월 3일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Controllability #Hierarchical Benchmark #Behavioral Granularity #Model Steering #Prompt Engineering #Activation-based Steering

2026년 3월 3일

[논문리뷰] DREAM: Where Visual Understanding Meets Text-to-Image Generation

본 논문은 시각적 이해(discriminative)와 텍스트-이미지 생성(generative)을 단일 모델 내에서 통합하는 멀티모달 학습 의 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal Learning #Visual Representation Learning #Text-to-Image Generation #Masked Autoregressive Models #Contrastive Learning #Masking Warmup #Semantically Aligned Decoding

2026년 3월 3일

[논문리뷰] Chain of World: World Model Thinking in Latent Motion

기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Latent Motion #Embodied Intelligence #Temporal Reasoning #Disentangled Representation #Robotics #Pretraining

2026년 3월 3일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

본 논문은 기존 코드 에이전트 벤치마크가 단일 저장소 버그 수정에 국한되어 크로스-저장소 추론, 도메인-특화 문제 해결, 의존성 기반 마이그레이션, 전체 저장소 생성과 같은 실제 소프트웨어 엔지니어링의 복잡한 요구사항을 간과하고 있음을 지적합니다.

#Review #Code Agent Evaluation #Software Engineering LLMs #Cross-Repository Reasoning #Dependency Migration #Repository Generation #BeyondSWE #SearchSWE #External Knowledge Integration

2026년 3월 3일

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.

#Review #Generative Reward Models #Chain-of-Thought #Breadth-CoT #Depth-CoT #Reinforcement Learning #Reward Modeling #Mechanism Alignment

2026년 3월 3일

[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

본 논문은 기존 언어 모델링의 한계를 넘어, 비전 신호를 퍼스트 클래스 시민 으로 통합한 통합 멀티모달 사전 훈련(unified multimodal pretraining) 의 설계 공간을 탐색하고 경험적 명확성을 제공하는 것을 목표로 합니다.

#Review #Multimodal Pretraining #Vision-Language Models #Mixture-of-Experts (MoE)#Representation Autoencoders (RAE)#World Modeling #Scaling Laws #Diffusion Models #Unified Architectures

2026년 3월 3일

[논문리뷰] APRES: An Agentic Paper Revision and Evaluation System

본 논문은 과학 논문 심사 과정의 비일관적인 피드백 문제를 해결하고, 논문의 품질과 영향력을 향상시키기 위한 새로운 에이전트 기반 시스템인 APRES 를 제안합니다.

#Review #Large Language Models #Peer Review #Automated Revision #Citation Prediction #Agentic AI #Rubric Discovery #Scholarly Communication

2026년 3월 3일

[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #3D Reconstruction #Camera Control #Diffusion Models #Geometric Memory #Multi-View Consistency #World Model

2026년 3월 2일

[논문리뷰] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

의료 Vision-Language Model (VLM)에서 강화 학습(RL)이 시각적 추론을 개선하는지, 또는 주로 Supervised Fine-tuning (SFT)을 통해 이미 유도된 행동을 단순히 강화하는지에 대한 불분명함을 해소하는 것이 목표입니다.

#Review #Medical VLMs #Reinforcement Learning #Supervised Fine-tuning #Visual Question Answering #Multi-modality #Reasoning Capacity #MedMNIST

2026년 3월 2일

[논문리뷰] VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

본 연구는 정밀한 카메라 자세나 깊이 정보 와 같은 센서 기반의 기하학적 입력 없이 다중 시점 실내 3D 객체 탐지를 수행하는 Sensor-Geometry-Free (SG-Free) 설정을 목표로 합니다.

#Review #3D Object Detection #Multi-View #Sensor-Geometry-Free #Transformer #VGGT #Attention-Guided Query Generation #Query-Driven Feature Aggregation

2026년 3월 2일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] Spectral Condition for μP under Width-Depth Scaling

본 논문은 폭(width)과 깊이(depth)가 동시에 확장되는 최신 생성형 파운데이션 모델에서 발생하는 불안정한 특징 학습 및 신뢰할 수 없는 하이퍼파라미터(HP) 전이 문제를 해결하고자 합니다.

#Review #μP #Width-Depth Scaling #Spectral Condition #Hyperparameter Transfer #Generative Foundation Models #Deep Residual Networks #Scale Invariance

2026년 3월 2일

[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.

#Review #SWE Agents #Reinforcement Learning #Task Collection #Language-Agnostic #Automated Pipeline #Docker #LLM Judges #Reproducibility

2026년 3월 2일

[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards

본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.

#Review #LLM Evaluation #Reward Models #Rubric-Guided Evaluation #Benchmarks #Model Alignment #Human Standards #Cognitive Misalignment

2026년 3월 2일

[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs

현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.

#Review #LLMs #VLMs #Reasoning #Self-Correction #Reinforcement Learning #Confidence Estimation #Iterative Refinement #Think-Answer

2026년 3월 2일

[논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

이 논문은 대규모 언어 모델(LLM)의 추론 능력 확장을 위해 기존 생성 방식의 분포적 다양성 부족 문제를 해결하고자 합니다.

#Review #Procedural Data Generation #Symbolic Reasoning #Language Model Pre-training #Reinforcement Learning with Verifiable Rewards #Formal Logic #PDDL Planning #Context-Free Grammars

2026년 3월 2일

[논문리뷰] OpenAutoNLU: Open Source AutoML Library for NLU

OpenAutoNLU는 텍스트 분류 및 NER(Named Entity Recognition)을 포함한 NLU(Natural Language Understanding) 태스크를 위한 오픈 소스 AutoML 라이브러리 를 개발하는 것을 목표로 합니다.

#Review #AutoML #Natural Language Understanding #Text Classification #Named Entity Recognition #Out-of-Distribution Detection #Few-Shot Learning #Data Quality #Low-Code API

2026년 3월 2일

[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.

#Review #Vector Animation Generation #Lottie #Multimodal Instructions #Tokenizer #Vision-Language Models #Generative AI #Dataset

2026년 3월 2일

[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

본 논문은 실생활 시나리오에서 멀티모달 대규모 언어 모델(MLLM) 의 다양한 다중 이미지 추론 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Multi-Image Analysis #Real-life Scenarios #Benchmark #MLLMs Evaluation #Chain-of-Thought #Reasoning Types

2026년 3월 2일

[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG

법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Legal AI #Benchmark #Evaluation Methodology #Embedding Models #Large Language Models (LLMs)#Error Decomposition #Information Retrieval

2026년 3월 2일

[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Reward Sparsity #Fine-tuning #Large Language Models #Reference-Guided Learning #DAPO

2026년 3월 2일

[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Dense Retrieval #LLMs #Reasoning #Knowledge Distillation #Latent Space #Self-Distillation #Chain-of-Thought

2026년 3월 2일

[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

본 논문은 멀티모달 이해 및 생성 분야에서 확산 언어 모델의 잠재력을 탐구하며, 텍스트와 이미지라는 근본적으로 다른 확산 역학을 통합하는 데 따르는 비효율성과 고정된 출력 길이의 한계를 해결하고자 합니다.

#Review #Omni Diffusion Model #Multimodal AI #Length Adaptation #Mixture of Diffusion #Discrete Diffusion #Continuous Diffusion #Text-to-Image Generation

2026년 3월 2일

[논문리뷰] Half-Truths Break Similarity-Based Retrieval

본 논문은 CLIP-스타일 이중 인코더 가 '하프 트루스(half-truths)'에 취약하여, 이미지에 대해 정확하지만 짧은 설명보다 그럴듯하지만 오류가 추가된 긴 설명(half-truth) 에 더 높은 유사도를 부여하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #CLIP #Compositional Reasoning #Image-Text Retrieval #Fine-tuning #Hard Negatives #Unit-level Supervision #Half-Truths

2026년 3월 2일

[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.

#Review #Image Editing #Test-Time Scaling #Chain-of-Thought #Diffusion Models #Adaptive Resource Allocation #Edit-Specific Verification #Opportunistic Stopping

2026년 3월 2일

[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection

본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Data Selection #Mutual Information #Epistemic Uncertainty #LLMs #RLVR #Training Efficiency

2026년 3월 2일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.

#Review #LLM #Social Chat #Engagement Optimization #Steerability #Reinforcement Learning #Reward Modeling #A/B Testing #Iterative Development

2026년 3월 2일

[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.

#Review #Synthetic Data #LLM Reasoning #Chain-of-Thought #Data Efficiency #Post-training #Generalization #Quality Control #Domain Coverage

2026년 3월 2일

[논문리뷰] dLLM: Simple Diffusion Language Modeling

이 논문은 확산 언어 모델(DLM) 의 훈련, 추론, 평가를 아우르는 통합된 오픈소스 프레임워크인 dLLM 을 제공하는 것을 목표로 합니다. DLM 연구의 진입 장벽을 낮추고, 기존 모델의 재현, 파인튜닝, 비교를 용이하게 하며, 새로운 DLM 설계 통합을 단순화하고자 합니다.

#Review #Diffusion Language Models #Open-source Framework #Modular Design #Masked Diffusion #Block Diffusion #Language Model Finetuning #Efficient Inference #Evaluation Pipeline

2026년 3월 1일

[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

LLM 기반 생성형 검색(Generative Retrieval)은 추천 시스템의 강력한 패러다임이지만, 산업 환경에서 요구되는 출력 공간 제약(constrained output space) 을 기본 자기회귀 디코딩(autoregressive decoding) 이 지원하지 못하는 문제가 있습니다.

#Review #Generative Retrieval #Constrained Decoding #Trie #Sparse Matrix #TPU #GPU #Recommendation Systems #LLM

2026년 3월 1일

[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

확산 모델의 추론 과정을 가속화하는 것이 목표입니다. 특히, 기존의 휴리스틱 기반 캐싱 방법들이 가진 이론적 근거 부족과 정적 캐싱 스케줄의 한계를 극복하고, 모델 출력 품질을 유지하면서 계산 비용을 줄일 수 있는 원칙적인(principled) 민감도 기반 캐싱 프레임워크 를 제안합니다.

#Review #Diffusion Models #Inference Acceleration #Caching #Sensitivity Analysis #Dynamic Caching #Video Generation #Denoising

2026년 3월 1일

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.

#Review #Referring Expression Comprehension #MLLM #Visual Reasoning #Benchmark Dataset #Hard Distractors #Grounding Shortcuts #Chain-of-Thought #Negation

2026년 3월 1일

[논문리뷰] Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

현재 다국어 LLM 평가 의 신뢰도를 저해하는 번역 벤치마크의 일관성 없는 품질(의미론적 드리프트 및 문맥 손실) 문제를 해결하는 것입니다. 본 연구는 데이터셋과 벤치마크를 확장 가능하고 고품질 로 번역하며, 원본 작업 구조와 언어적 뉘앙스를 보존하는 완전 자동화된 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Automated Translation #Large Language Models #Multilingual Benchmarks #Benchmark Quality #Test-time Scaling #Universal Self-Improvement #Translation Ranking #Eastern European Languages

2026년 3월 1일

[논문리뷰] Mode Seeking meets Mean Seeking for Fast Long Video Generation

본 논문은 몇 초 길이의 단편 비디오 생성에서 분 단위 길이의 장편 비디오 생성으로 확장할 때 발생하는 주요 병목 현상을 해결하고자 합니다.

#Review #Long Video Generation #Diffusion Models #Mode Seeking #Mean Seeking #Decoupled Diffusion Transformer #Flow Matching #Distribution Matching #Video Synthesis

2026년 3월 1일

[논문리뷰] Memory Caching: RNNs with Growing Memory

본 논문은 고정된 메모리 크기 로 인해 장문 시퀀스에서 과거 정보를 잊어버리는 Recurrent Neural Networks (RNNs)의 한계를 해결하고자 합니다.

#Review #Recurrent Neural Networks #Memory Caching #Sequence Modeling #Long-Context #Transformers #Linear Attention #Language Modeling #Retrieval Tasks

2026년 3월 1일

[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.

#Review #Long Video Understanding #MLLM Agent #Active Learning #Reinforcement Learning #Chain-of-Thought #Video Navigation #Computational Efficiency

2026년 3월 1일

[논문리뷰] LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

본 연구는 추론 가속화를 위한 투기적 디코딩(speculative decoding) 에서 드래프트 모델의 토큰 수락률(acceptance rate) 을 직접적으로 최적화하는 새로운 훈련 목표인 LK 손실(LK losses) 을 제안합니다.

#Review #Speculative Decoding #LLM Inference #Acceptance Rate #KL Divergence #Total Variation Distance #Loss Functions #Draft Model Training #Adaptive Learning

2026년 3월 1일

[논문리뷰] InfoNCE Induces Gaussian Distribution

본 논문은 InfoNCE 손실 함수 를 사용하여 학습된 표현(representations)이 실제 어떤 분포를 따르는지에 대한 근본적인 질문에 답하고, 이러한 표현들이 가우시안 분포 를 나타내는 이유에 대한 이론적 설명을 제공하는 것을 목표로 합니다.

#Review #Contrastive Learning #InfoNCE Loss #Gaussian Distribution #Representation Learning #Self-Supervised Learning #Hyperspherical Uniformity #Thin-Shell Concentration

2026년 3월 1일

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.

#Review #Image Generation #Reward Modeling #Spatial Understanding #Reinforcement Learning #Visual Language Models #Text-to-Image #Preference Learning

2026년 3월 1일

[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Image Editing #Instruction-based Models #Small Object Editing #Benchmark #Evaluation Metrics #Large Multimodal Models (LMMs)#Visual Consistency

2026년 3월 1일

[논문리뷰] Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

본 논문은 현대 비전 임베딩 모델이 훈련 중 접하지 못한 개념 조합에 대해 합성적으로 일반화하기 위해 어떤 본질적인 표현 특성을 가져야 하는지 규명하는 것을 목표로 합니다.

#Review #Compositional Generalization #Vision-Language Models #Linear Representations #Orthogonal Representations #Neural Networks #Embedding Geometry #CLIP

2026년 3월 1일

[논문리뷰] CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

대규모 언어 모델(LLM)이 생성하는 그럴듯하지만 실제로는 존재하지 않는 참고문헌 환각(hallucinated references) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Hallucination #Citation Verification #Multi-Agent System #Benchmark #Fact Checking #Scientific Integrity #Information Retrieval #Qwen3-VL

2026년 3월 1일

[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #CUDA Kernel Generation #Agentic Reinforcement Learning #Large Language Models (LLMs)#GPU Optimization #Performance Tuning #Deep Learning Infrastructure #Program Synthesis

2026년 3월 1일

[논문리뷰] Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

마스크 이미지 생성 모델(MIGMs)의 느린 생성 속도, 특히 양방향 어텐션의 다단계 계산으로 인한 비효율성 문제를 해결하는 것을 목표로 합니다. 기존의 캐싱 기반 가속화 방법론이 가진 낮은 표현력과 샘플링 정보 미고려 문제를 극복하고, 모델 품질 저하를 최소화하면서 MIGMs의 가속화를 달성하고자 합니다.

#Review #Masked Image Generation #Model Acceleration #Latent Dynamics Learning #Feature Prediction #Transformer Efficiency #Image Synthesis

2026년 3월 1일

[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale

본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.

#Review #FSDP #Distributed Training #LLM #GPU Scaling #Memory Optimization #Performance Optimization #Structure-Aware Training #RaggedShard

2026년 2월 26일

[논문리뷰] The Trinity of Consistency as a Defining Principle for General World Models

본 논문은 최신 생성 AI 모델들이 시각적으로 그럴듯한 결과물을 생성하지만, 물리 법칙과 인과 관계를 이해하는 데 한계를 보이는 문제를 해결하고자 합니다.

#Review #World Models #Multimodal Generative AI #Consistency Theory #Spatial-Temporal Reasoning #Causal Simulation #AI Benchmarking #Artificial General Intelligence

2026년 2월 26일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.

#Review #End-to-End Autonomous Driving #World Model Predictive Control #Risk-Aware #Generalization #Self-Supervised Learning #Scenario Exploration #Autonomous Systems

2026년 2월 26일

[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents

본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multi-modal Agents #Tool-Integrated Reasoning #Benchmark #Event Graph #Active Perception #Trajectory Synthesis #DPO

2026년 2월 26일

[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Route Planning Agents #Benchmarking #Real-World Mobility #API Replay Sandbox #Multi-dimensional Evaluation #Tool-augmented Agents

2026년 2월 26일

[논문리뷰] MediX-R1: Open Ended Medical Reinforcement Learning

본 논문은 의료 멀티모달 대규모 언어 모델(MLLM)이 다지선다형 질문을 넘어 임상적으로 근거한 자유 형식 답변 을 생성하도록 하는 오픈엔드 의료 강화 학습(RL) 프레임워크인 MediX-R1 을 제안합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Medical AI #Composite Reward #LLM-as-a-Judge #Open-ended Generation #Medical Imaging

2026년 2월 26일

[논문리뷰] Imagination Helps Visual Reasoning, But Not Yet in Latent Space

본 논문은 Multimodal Large Language Models (MLLMs)에서 잠재 공간(latent space)을 활용한 시각적 추론(Latent Visual Reasoning, LVR)의 효과와 내재된 메커니즘을 심층적으로 분석하고, 그 한계를 극복하기 위한 대안적인 접근 방식을 제시하는 것을 목표로 합니다.

#Review #Visual Reasoning #Latent Space #Causal Mediation Analysis #Multimodal LLMs #Textual Imagination #Model Interpretation #Latent Tokens

2026년 2월 26일

[논문리뷰] GeoWorld: Geometric World Models

이 논문은 기존 에너지 기반 예측 월드 모델이 유클리드 공간 에서 잠재 표현을 학습하여 기하학적 및 계층적 구조를 무시 하고, 장기 예측 시 성능이 빠르게 저하되는 문제를 해결하고자 합니다.

#Review #Geometric World Models #Hyperbolic Geometry #Joint-Embedding Predictive Architectures (JEPA)#Reinforcement Learning (RL)#Multi-step Planning #Visual Planning #Energy-Based Models

2026년 2월 26일

[논문리뷰] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

본 논문은 기존의 LMM(Large Multimodal Models) 자가 학습 프레임워크가 겪는 해석 가능한 진단 부족과 시각적 다양성 부족이라는 근본적인 한계를 해결하고자 합니다.

#Review #Large Multimodal Models #Iterative Training #Diagnostic-Driven Learning #Reinforcement Learning #Multimodal Reasoning #Data Generation #Agent Systems

2026년 2월 26일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

본 논문은 기존의 고비용 및 스튜디오 의존적인 모션 캡처 시스템의 한계를 극복하고, 일상 환경에서 인간의 행동과 3D 장면 정보를 담은 고품질의 4D 인간-장면 데이터 를 대규모로 수집하는 것을 목표로 합니다.

#Review #Embodied AI #4D Reconstruction #Human-Scene Interaction #iPhone RGB-D #In-the-Wild Mocap #Physics-based Animation #Humanoid Robot Control #Low-Cost Data Collection

2026년 2월 26일

[논문리뷰] Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

배포된 언어 모델(LLMs)이 비정상 데이터(non-stationary data) 환경에서 겪는 치명적 망각(catastrophic forgetting) 문제를 해결하고, 기존의 높은 지연 시간, 메모리 사용량, 밀집 연산 문제를 야기하는 지속 학습 방법론의 한계를 극복하고자 합니다.

#Review #Continual Learning #Language Models #Sparse Routing #Cortical Columns #Thalamic Routing #Catastrophic Forgetting #Stability-Plasticity

2026년 2월 26일

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일

[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

기존 제스처 생성 모델이 단일 화자의 오디오에만 초점을 맞추고 사회적 맥락이나 두 화자 간의 상호작용 역학을 무시하여 비현실적이거나 부자연스러운 제스처를 생성하는 문제를 해결하고자 합니다.

#Review #Gesture Generation #Diffusion Transformer (DiT)#Multi-Modal #Dyadic Interaction #Socially Aware AI #Orthogonalization Cross Attention #Motion Dictionary

2026년 2월 26일

[논문리뷰] Causal Motion Diffusion Models for Autoregressive Motion Generation

본 논문은 기존 모션 확산 모델의 인과성 부족과 자기회귀 모델의 불안정성 및 오류 누적 문제를 해결하여, 고품질의 시간적으로 순서가 보장되는(temporally ordered) 모션 생성을 목표로 합니다.

#Review #Motion Generation #Diffusion Models #Autoregressive Models #Causal Modeling #Latent Space #Text-to-Motion #Human Motion Synthesis #Streaming Generation

2026년 2월 26일

[논문리뷰] AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

본 논문은 다중 에이전트 시스템(MAS) 내에서 개별 에이전트의 오류 정보가 하위 에이전트로 연쇄적으로 전파(cascading impact) 되어 전체 태스크 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Information Flow Optimization #Test-Time Rectification #Error Pruning #LLM Agents #Failure-Driven Indicators #Adaptive Reasoning

2026년 2월 26일

[논문리뷰] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

확산 모델(Diffusion Models)의 높은 계산 비용으로 인한 추론 지연 문제를 해결하고, 기존 분산 병렬화 방식에서 발생하는 생성 아티팩트 및 비례적 가속 한계를 극복하는 것을 목표로 합니다. 특히, 조건부 확산 모델에서 이미지 품질 저하 없이 선형적 가속을 뛰어넘는 추론 속도 향상 을 달성하고자 합니다.

#Review #Diffusion Models #Distributed Parallelism #Conditional Guidance #Adaptive Scheduling #Generative AI #Latency Reduction #Multi-GPU

2026년 2월 26일

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.

#Review #Artificial General Intelligence (AGI)#Evaluation Benchmark #General Game Playing #Large Language Models (LLMs)#Human-in-the-loop #Cognitive Capabilities #Vision-Language Models (VLMs)#Game Generation

2026년 2월 26일

[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation

본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.

#Review #World Model #Action Generation #Vision-Language-Action Models (VLA)#Condition Space #Imitation Learning #Robotics #Generalization #Human Manipulation

2026년 2월 25일

[논문리뷰] VecGlypher: Unified Vector Glyph Generation with Language Models

기존 벡터 글리프 생성 파이프라인이 수동으로 선별된 예시 시트와 래스터-벡터 후처리 과정에 의존하여 접근성과 편집성이 제한되는 문제를 해결하고자 합니다. 자연어 설명이나 이미지 예시만으로 고품질의 편집 가능한 벡터 글리프를 직접 생성하는 단일 멀티모달 언어 모델 인 VecGlypher 를 개발하는 것이 목표입니다.

#Review #Vector Graphics #Glyph Generation #Language Models #Multimodal AI #SVG #Font Design #Text-to-Vector #Image-to-Vector

2026년 2월 25일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models

본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.

#Review #Masked Diffusion Models #Multimodal AI #Scaling Laws #Discrete Diffusion #SDE Parameterization #Hyperparameter Transfer #Unified Generation

2026년 2월 25일

[논문리뷰] Solaris: Building a Multiplayer Video World Model in Minecraft

기존 단일 에이전트 비디오 월드 모델의 한계를 극복하고, Minecraft 와 같은 복잡한 3D 환경에서 일관된 다중 시점 관찰을 시뮬레이션할 수 있는 다중 에이전트 비디오 월드 모델 (Solaris) 을 구축하는 것이 목표입니다.

#Review #Multi-agent World Models #Video Diffusion Models #Minecraft #Self Forcing #Checkpointed Self Forcing #Multi-view Consistency #Data Collection #Embodied AI

2026년 2월 25일

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

이 논문은 텍스트, 이미지, 비디오, 마스크, 오디오 참조를 포함한 다양한 입력을 처리하고, 비디오-오디오 생성, 인페인팅 및 편집 기능을 단일 프레임워크 내에서 통합적으로 지원하는 멀티모달 비디오 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multi-modal Generation #Video-Audio Synthesis #Video Inpainting #Video Editing #Diffusion Transformer #MMLM #Super-resolution #Frame Interpolation

2026년 2월 25일

[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

확산 모델의 느린 추론 속도를 개선하기 위해 기존 캐싱 방법론이 원시 특징(raw feature) 차이 에만 의존하여 콘텐츠와 노이즈를 혼합하고, 이로 인해 스펙트럼 진화(spectral evolution) 를 간과하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Model Acceleration #Feature Caching #Spectral Analysis #Generative AI #Image Generation #Video Generation #Latency Reduction

2026년 2월 25일

[논문리뷰] NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

본 논문은 Large Vision-Language Models (LVLMs) 에서 출력 이미지에 존재하지 않는 객체를 생성하는 객체 환각(Object Hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #Large Vision-Language Models (LVLMs)#Object Hallucinations #Language Priors #Contrastive Decoding #Dynamic Suppression #Training-Free #Multimodal AI

2026년 2월 25일

[논문리뷰] NanoKnow: How to Know What Your Language Model Knows

본 연구는 대규모 언어 모델(LLMs)이 지식을 어떻게 획득하고 활용하는지에 대한 근본적인 질문에 답하고자 합니다. 특히, LLM의 사전 훈련 데이터가 종종 '블랙 박스'로 남아있어 지식의 출처를 추적하기 어렵다는 문제를 해결하고, 파라미터 내 지식과 외부 지식의 상호작용을 명확히 이해하는 것을 목표로 합니다.

#Review #LLM Knowledge #Pre-training Data #Retrieval-Augmented Generation (RAG)#FineWeb-Edu #nanochat #Benchmarking #Question Answering #Data Attribution

2026년 2월 25일

[논문리뷰] MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

이 논문은 기존 분자 그래프 생성 모델, 특히 그래프 확산 모델 이 겪는 낮은 화학적 유효성(validity)과 구조적 다양성(novelty) 부족 문제를 해결하여, 1D 시퀀스 기반 모델의 성능을 뛰어넘는 새로운 분자 그래프 생성 프레임워크 MolHIT 을 제안하는 것을 목표로 합니다.

#Review #Molecular Generation #Graph Diffusion Models #Hierarchical Diffusion #Discrete Diffusion #Atom Encoding #Drug Discovery #Material Science

2026년 2월 25일

[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.

#Review #Model Context Protocol #AI Agents #Tool Descriptions #Software Smells #Prompt Engineering #Foundation Models #Performance Evaluation #Ablation Study

2026년 2월 25일

[논문리뷰] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

IMU 신호와 비디오에서 추출된 2D 포즈 시퀀스 간의 정교한 정렬을 위한 공동 표현 학습 을 목표로 합니다.

#Review #Multi-modal Alignment #Contrastive Learning #IMU-Video Fusion #Pose Estimation #Temporal Synchronization #Human Motion Analysis #Hierarchical Learning

2026년 2월 25일

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Diffusion Transformer #Modality-specific Mixture-of-Experts #Temporal-Aligned ROPE #Direct Preference Optimization #Multimodal Generation #Text-to-AV

2026년 2월 25일

[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #3D Audio-Visual Learning #Spatial Grounding #Spatial Reasoning #Large Language Models (LLMs)#Ambisonics #RGB-D #Simulated Environments #Neural Intensity Vector

2026년 2월 25일

[논문리뷰] Image Generation with a Sphere Encoder

기존 확산 모델(diffusion models) 및 자기회귀 모델(autoregressive models)의 느리고 비용이 많이 드는 이미지 생성 방식의 한계를 극복하고, 단 한 번의 순방향 패스(forward pass)만으로도 선명한 이미지를 생성할 수 있는 효율적인 생성 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Generation #Sphere Encoder #Autoencoder #Latent Space #Few-Step Generation #Conditional Generation #Diffusion Models #Perceptual Loss

2026년 2월 25일

[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

본 논문은 생성형 추천 시스템에서 초장기 사용자 행동 시퀀스(ultra-long user behavior sequences) 모델링 시 발생하는 효율성과 정확도 간의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Sequential Recommendation #Hybrid Attention #Temporal-Aware #Long Sequences #Generative Recommendation #Linear Attention #Softmax Attention

2026년 2월 25일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] Functional Continuous Decomposition

논문은 비정상 시계열 데이터의 로컬 및 글로벌 패턴을 물리적으로 해석 가능한 방식으로 분석하기 위해, 기존 신호 처리 알고리즘(예: EMD, B-splines)의 파라메트릭 최적화 및 C¹ 연속성 보장 의 한계를 해결하는 것을 목표로 합니다.

#Review #Time Series Analysis #Signal Decomposition #Continuous Function Fitting #Levenberg-Marquardt #JAX #C1 Continuity #Feature Engineering

2026년 2월 25일

[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.

#Review #LLM Inference #KV-Cache #Storage Bottleneck #Agentic Workloads #Dual-Path Loading #PD Disaggregation #RDMA #Adaptive Scheduling

2026년 2월 25일

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Video Generation #Human-Centric AI #Diffusion Transformer #Multi-Task Learning #Identity Disentanglement #Controllable Generation #Speaker Confusion

2026년 2월 25일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.

#Review #Context Parallelism #Memory Efficiency #Headwise Chunking #Transformer Training #DeepSpeed Ulysses #LLMs #Activation Memory #Flash Attention

2026년 2월 24일

[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Ψ-Samplers #Predictor-Corrector #Language Modeling #Image Generation #Curriculum Learning #Efficient Training

2026년 2월 24일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention

논문은 TTT(Test-Time Training) with KV binding이 단순히 테스트-타임 메모리화 또는 온라인 메타-러닝 메커니즘이라는 기존 해석에 이의를 제기 하고, 대신 TTT가 선형 어텐션(linear attention) 연산자 의 한 형태로 재해석될 수 있음을 증명하는 것을 목표로 합니다.

#Review #Test-Time Training #KV Binding #Linear Attention #Sequence Modeling #Model Interpretation #Computational Efficiency #Dynamic Adaptation

2026년 2월 24일

[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing

본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.

#Review #Reranking #Large Language Models #Long Context #Attention Heads #Retrieval Augmented Generation (RAG)#Listwise Reranking #Query-focused Retrieval #Memory-aware

2026년 2월 24일

[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.

#Review #Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models #Diffusion Transformer (DiT)#Scale Calibration #Memory Efficiency #Robotics #Low-Bit Quantization

2026년 2월 24일

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.

#Review #Agentic AI #Multimodal Models #Reinforcement Learning #Dynamic Tooling #Interaction Stability #Video Reasoning #Visual Language Models #Rollout Optimization

2026년 2월 24일

[논문리뷰] One-step Language Modeling via Continuous Denoising

기존 이산 확산(discrete diffusion) 언어 모델 이 토큰 간 상관관계를 무시하는 인자화된 근사(factorized approximation)로 인해 소수 단계(few-step) 생성 시 품질이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #Language Modeling #Continuous Denoising #Flow-based Models #Diffusion Models #One-step Generation #Few-step Sampling #Time Reparameterization #Model Distillation

2026년 2월 24일

[논문리뷰] On Data Engineering for Scaling LLM Terminal Capabilities

본 논문은 최신 터미널 에이전트의 훈련 데이터 전략에 대한 정보 부족을 해결하고자 합니다. LLM의 터미널 역량 확장을 위한 데이터 엔지니어링 실천법을 체계적으로 연구하고, 효율적이고 확장 가능한 데이터 생성 프레임워크를 통해 효과적인 터미널 에이전트를 훈련하는 것을 목표로 합니다.

#Review #LLM #Terminal Agents #Data Engineering #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Terminal-Bench #Nemotron-Terminal #Dataset Adapters

2026년 2월 24일

[논문리뷰] OmniOCR: Generalist OCR for Ethnic Minority Languages

대부분의 OCR 시스템이 잘 알려진 스크립트에 집중되어 있어, 복잡한 문자 체계와 희소한 데이터를 가진 소수 민족 언어(Ethnic Minority Languages) 의 OCR은 zero-shot 환경에서 일반화가 어렵습니다.

#Review #OCR #Ethnic Minority Languages #Low-Resource #Dynamic LoRA #Parameter-Efficient Fine-Tuning #Multimodal Models #Sparsity Regularization

2026년 2월 24일

[논문리뷰] OCR-Agent: Agentic OCR with Capability and Memory Reflection

Large Vision-Language Models(VLM)이 복잡한 시각 이해 태스크에서 인지적 편향을 독립적으로 수정하지 못하고, 반복적이고 비효율적인 수정 루프에 빠져 답변 품질을 안정적으로 개선하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #OCR #VLM #Self-Correction #Agentic AI #Capability Reflection #Memory Reflection #Iterative Refinement #Chain-of-Thought

2026년 2월 24일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

본 논문은 기존 Embodied LLM이 고정된 오라클로서 실패로부터 학습하거나 경험을 축적하지 못하여 반복적인 실수를 초래하는 문제를 해결하고자 합니다.

#Review #Embodied LLMs #Test-Time Adaptation #Reflection-in-Action #Reflection-on-Action #Robotics #Long-Horizon Planning #Policy Gradient #Self-Supervised Learning

2026년 2월 24일

[논문리뷰] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

기존 3D 형상 완성 방법론들이 다양한 부분 관측 패턴, 범주 간 일반화, 그리고 쌍을 이루는 데이터셋 의존성 및 불완전한 렌더링 가정에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #3D Shape Completion #Zero-shot #Latent-Spatial Consistency #Foundation Models #Diffusion Models #Category-Agnostic #Generative Priors

2026년 2월 24일

[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't Say

AI 에이전트가 사용자의 명시적 지시 를 따르는 것을 넘어, 암묵적인 기대치와 요구사항 을 추론하고 충족하는 능력을 평가하는 것을 목표로 합니다. 현실 세계의 요청은 본질적으로 불완전하게 명시되며, 기존 벤치마크들이 명시적인 지시 수행 에만 초점을 맞춰왔다는 한계를 극복하고자 합니다.

#Review #Implicit Intelligence #AI Agents #Agent-as-a-World #Contextual Reasoning #Safety #Privacy #Accessibility #LLM Evaluation

2026년 2월 24일

[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning

기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #Physical Reasoning #Interactive AI #3D Benchmark #Mechanical Puzzles #Spatial Packing #Embodied AI

2026년 2월 24일

[논문리뷰] FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

본 논문은 LLM 서빙 시스템에서 컴퓨팅 집약적인 프리필(prefill) 단계 중 발생하는 헤드-오브-라인(Head-of-Line, HoL) 블로킹 문제 를 해결하고자 합니다.

#Review #LLM Serving #Head-of-Line Blocking #Preemption #Prefill Scheduling #Time-to-First-Token (TTFT)#SLO-aware Scheduling #Operator-Level Preemption #Event-Driven Scheduling

2026년 2월 24일

[논문리뷰] DREAM: Deep Research Evaluation with Agentic Metrics

본 논문은 기존의 심층 연구 에이전트(Deep Research Agent, DRA) 평가 벤치마크들이 겪는 '합성의 신기루(Mirage of Synthesis)' 문제를 해결하고자 합니다.

#Review #Deep Research Evaluation #Agentic Evaluation #LLM Evaluation #Capability Parity #Factuality #Temporal Validity #Reasoning Quality #Research Agents #Mirage of Synthesis

2026년 2월 24일

[논문리뷰] Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

본 논문은 금융 자문 분야에서 LLM 기반 추천 시스템 의 성능 평가가 단순히 사용자의 행동 모방에 그치지 않고, 실질적인 효용성(utility)에 기반한 의사결정 품질 을 측정하는 것을 목표로 합니다.

#Review #Financial Recommendation #Conversational AI #Large Language Models #Utility-Grounded Evaluation #Behavioral Finance #Stock Recommendation #Longitudinal Benchmark #Inverse Optimization

2026년 2월 24일

[논문리뷰] Communication-Inspired Tokenization for Structured Image Representations

본 논문은 기존 이미지 토크나이저들이 재구성 및 압축에만 초점을 맞춰 객체 수준의 의미론적 구조보다는 국부적인 텍스처를 포착하는 한계를 해결하고자 합니다.

#Review #Image Tokenization #Structured Representation #Attentive Encoding #Flow Matching #Semantic Alignment #Compositional Generalization #Transformer Architecture

2026년 2월 24일

[논문리뷰] Aletheia tackles FirstProof autonomously

이 논문은 Aletheia 라는 수학 연구 에이전트가 FirstProof 챌린지 에서 보여준 성능을 보고합니다. 주요 목표는 AI가 전문 수학 문헌의 엄격한 기준에 부합하는 연구 수준의 수학 문제를 자율적으로 해결할 수 있는 능력을 평가하고, 그 결과를 투명하게 공개하는 것입니다.

#Review #Mathematics Research Agent #Autonomous Problem Solving #FirstProof Challenge #Gemini 3 Deep Think #Mathematical Proof Generation #Human-AI Interaction #Deep Learning

2026년 2월 24일

[논문리뷰] Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

본 논문은 기존 텍스트 익명화 방법론들이 수동적이고 정적이며 다양한 도메인과 프라이버시-유틸리티 요구사항에 유연하게 대응하지 못하는 한계를 해결하고자 합니다. 이를 위해 익명화 전략을 특정 프라이버시-유틸리티 요구사항에 맞춰 자동으로 조정하는 적응형 텍스트 익명화 라는 새로운 태스크를 제안합니다.

#Review #Text Anonymization #Large Language Models #Prompt Optimization #Privacy-Utility Trade-offs #Evolutionary Algorithms #Multi-objective Optimization #Data Privacy

2026년 2월 24일

[논문리뷰] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

본 논문은 기존 3D 재구성 모델들이 가지는 느린 최적화 , 제한적인 입력 뷰 확장성 , 그리고 긴 시퀀스 컨텍스트 처리 능력 의 한계를 극복하는 것을 목표로 합니다.

#Review #3D Reconstruction #Test-Time Training (TTT)#Autoregressive Modeling #Long-Context #Gaussian Splatting #Neural Radiance Fields #Large Reconstruction Models

2026년 2월 23일

[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models

파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Foundation Models #Ablation Study #Generalization #LIBERO Benchmark #Time-Series Forecasting

2026년 2월 23일

[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

본 논문은 로봇 공학 분야의 주요 병목 현상인 보상 모델링 문제를 해결하기 위해, 사전 훈련된 Vision-Language Models (VLMs) 의 내부 토큰 확률 을 활용하여 제로-샷(zero-shot) 진척도(progress) 추정 을 가능하게 하는 것을 목표로 합니다.

#Review #Robotics #Reward Modeling #Vision-Language Models #Zero-Shot Learning #Token Probabilities #Progress Estimation #Behavior Cloning #Manipulation

2026년 2월 23일

[논문리뷰] SkillOrchestra: Learning to Route Agents via Skill Transfer

논문은 복합 AI 시스템에서 효과적인 오케스트레이션 문제를 해결하고자 합니다.

#Review #Agent Orchestration #Skill Transfer #LLM Routing #Performance-Cost Trade-off #Routing Collapse #Multi-turn Dialogue #Skill Handbook #Reinforcement Learning

2026년 2월 23일

[논문리뷰] SimVLA: A Simple VLA Baseline for Robotic Manipulation

본 논문은 급변하는 VLA 연구 분야에서 성능 향상의 정확한 원인을 파악하기 어려운 문제를 해결하기 위해, 간소화된 VLA 베이스라인 SimVLA 를 제안합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA) Models #Baseline Model #Modular Design #Flow Matching #Zero-Shot Generalization #Standardized Training #Efficiency

2026년 2월 23일

[논문리뷰] SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

본 연구는 시계열 데이터에 대한 진단 추론에서 발생하는 문제를 해결하는 것을 목표로 합니다. 일반 추론 거대 언어 모델(GRLMs)의 강력한 추론 능력과 시계열 전문 LLM(TSLMs)의 도메인 특화 지식 간의 격차를 해소하여, 복잡한 시계열 패턴에 대한 강력하고 문맥 인식적인 진단 통찰력을 제공하고자 합니다.

#Review #Time-Series Reasoning #Knowledge Injection #Large Language Models (LLMs)#Reinforcement Learning (RL)#Diagnostic AI #Multimodal AI #SenTSR-Bench

2026년 2월 23일

[논문리뷰] RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

로봇 학습을 위한 비디오 생성 모델 기반 합성 데이터는 액션 품질의 일관성 부족과 물리적 정확성 검증의 어려움으로 인해 제한적인 성능을 보입니다.

#Review #Robot Learning #Synthetic Data Generation #Action Verification #Neural Trajectory #Video Generative Models #Imitation Learning #Data Diversity

2026년 2월 23일

[논문리뷰] Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

본 논문은 135M 파라미터 트랜스포머 언어 모델 (SmolLM2-135M) 과 경량 온라인 예측기 앙상블을 활용하여 자연어 텍스트에 대한 손실 없는 압축 성능을 극대화하는 것을 목표로 합니다.

#Review #Lossless Compression #Neural Compression #Language Models #Arithmetic Coding #Context Mixing #Ensemble Prediction #CDF Quantization #GPU Acceleration

2026년 2월 23일

[논문리뷰] Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

본 논문은 기존의 멀티모달 모델들이 데이터 학습량 이 많고 배포에 필요한 리소스 가 커서 엣지 디바이스에 적용하기 어렵다는 문제점을 해결하고자 합니다. 통합된 멀티모달 아키텍처 를 통해 시각적 이해와 생성을 동시에 수행하면서, 모바일 기기에서 실시간 추론 이 가능하도록 효율적인 모델 을 구축하는 것을 목표로 합니다.

#Review #Multimodal AI #Vision-Language Models #Diffusion Models #Mobile Devices #Edge Computing #Model Efficiency #Unified Architecture #Real-time Inference

2026년 2월 23일

[논문리뷰] ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

순차 추천 시스템에서 기존 잠재 다단계 추론(latent multi-step reasoning) 방식이 중간 추론 상태의 제약 부족으로 인해 발생하던 잠재 드리프트(latent drift) 문제를 해결하고자 합니다.

#Review #Sequential Recommendation #Latent Reasoning #Manifold Constraint #Adaptive Computation #Graph Neural Networks #Variational Inference #Teacher Scheduling #Drift Prevention

2026년 2월 23일

[논문리뷰] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

본 논문은 비디오 내에서 극심한 시점 변화(egocentric-to-exocentric 및 exocentric-to-egocentric) 에도 불구하고 객체 수준의 시각적 대응(object-level visual correspondence)을 확립하는 문제를 해결하는 것을 목표로 합니다.

#Review #Cross-View Correspondence #Object Segmentation #Cycle-Consistency #Test-Time Training #Vision Foundation Models #Self-Supervision #Egocentric-Exocentric

2026년 2월 23일

[논문리뷰] Large Causal Models for Temporal Causal Discovery

본 논문은 시계열 데이터에 대한 인과 관계 탐색(Causal Discovery, CD)에서 데이터셋별 모델 학습 패러다임의 한계 를 극복하고자 합니다.

#Review #Causal Discovery #Temporal Models #Foundation Models #Transformer Architecture #Zero-shot Learning #Time-series Data #Scalability #Multi-dataset Pretraining

2026년 2월 23일

[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

GPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.

#Review #LLM #GPU Kernel Optimization #Code Generation #World Model #Evolutionary Search #Program Synthesis #High-Performance Computing

2026년 2월 23일

[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

LLM 추론을 위한 RLVR 훈련에서 발생하는 제한적인 탐색(limited exploration) 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 불충분한 로컬 무작위성이나 단일 스케일 다양성 조절에 그쳐 정책이 소수의 추론 패턴으로 수렴하고 깊은 탐색이 조기에 중단되는 문제를 극복하고자 합니다.

#Review #Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration #Diversity Regularization #Dual-Scale #Reasoning #Policy Optimization

2026년 2월 23일

[논문리뷰] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

본 논문은 텍스트 설명을 기반으로 고품질의 다양하고 모듈러한 3D 애셋을 생성하는 것을 목표로 합니다. 특히, 게임 산업과 사용자 생성 콘텐츠(UGC) 환경에서 기존 3D 표현 방식의 한계(높은 품질 요구사항, 큰 파일 크기, 제한된 접근성)를 극복하고자 합니다.

#Review #3D Asset Generation #Modular Design #Autoregressive Transformer #User-Generated Content (UGC)#Text-to-3D #Tokenization #SlowFast Decoding

2026년 2월 23일

[논문리뷰] Agents of Chaos

이 논문은 영구 메모리, 이메일, Discord 접근 권한, 파일 시스템, 쉘 실행 능력을 갖춘 라이브 환경에 배포된 자율형 언어 모델 기반 에이전트 에 대한 탐색적 레드팀 연구를 보고합니다.

#Review #AI Agents #Red-teaming #Agentic Systems #Multi-Agent Communication #Security Vulnerabilities #Prompt Injection #Social Engineering #Resource Management

2026년 2월 23일

[논문리뷰] AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

유전자 치료 벡터로 사용되는 아데노-관련 바이러스(AAV)는 조직 특이성, 면역 회피, 생산 효율성에서 한계를 가지며, 특히 신장 표적화는 난제로 남아있습니다.

#Review #Generative AI #Protein Language Model #Reinforcement Learning #AAV Capsid Engineering #Multi-objective Optimization #Renal Targeting #AlphaFold3 #ESM-2

2026년 2월 23일

[논문리뷰] A Very Big Video Reasoning Suite

본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #Video Reasoning #Large-scale Dataset #Benchmark #Cognitive Architecture #Scaling Studies #Video Generation #Generalization #Rule-based Evaluation

2026년 2월 23일

[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

LLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.

#Review #Off-Policy RL #LLM Training #Importance Sampling #Variance Reduction #Variational Optimization #Policy Gradient #Sequence-Level Optimization #Reinforcement Learning

2026년 2월 22일

[논문리뷰] Selective Training for Large Vision Language Models via Visual Information Gain

대규모 시각-언어 모델(LVLMs)이 시각적 증거 없이 텍스트 편향에 의존하여 응답하는 언어 편향(language bias) 및 시각적 무지(visual ignorance) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Models #Visual Grounding #Language Bias Mitigation #Selective Training #Perplexity Metric #Data Efficiency #Multimodal AI

2026년 2월 22일

[논문리뷰] SARAH: Spatially Aware Real-time Agentic Humans

본 논문은 VR, 텔레프레젠스, 디지털 휴먼 애플리케이션에서 사용자의 움직임과 대화에 동적으로 반응하며, 자연스러운 시선을 유지하는 공간 인식(spatially aware) 에이전트의 실시간 전신 3D 동작 생성 을 목표로 합니다.

#Review #Embodied Agents #Real-time #Conversational AI #Motion Generation #Spatially Aware #VR #Causal Models #Flow Matching #Gaze Control

2026년 2월 22일

[논문리뷰] Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

본 논문은 강화 학습(DRL)을 통해 학습된 제어 정책이 생성하는 비현실적인 고주파수 제어 신호 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Motion Control #Robotics #Character Animation #Linear Policies #Action Jacobian Penalty #Policy Regularization #Sim-to-Real

2026년 2월 22일

[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

본 논문은 기존 비디오 월드 모델이 가진 제한적인 제어 신호(텍스트 또는 키보드) 의 한계를 극복하고, 사용자의 머리 및 손 움직임 추적 데이터 를 활용하여 사람 중심의 인터랙티브 가상 환경 을 생성하는 것을 목표로 합니다.

#Review #Video Generation #Extended Reality (XR)#Diffusion Models #Human-Computer Interaction #Hand Pose Estimation #Camera Control #World Simulation #Interactive AI

2026년 2월 22일

[논문리뷰] EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

본 논문은 모바일 로봇이 오직 자기 중심적(egocentric) 시각 관측 만을 사용하여 복잡한 환경에서 여러 객체를 장기적으로 재배열 하는 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Perception #Multi-Object Rearrangement #Mobile Robotics #Reinforcement Learning #Teacher-Student Distillation #Non-Prehensile Manipulation #Sim-to-Real Transfer #Object-Centric Representation

2026년 2월 22일

[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?

본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Chain of Thought #Efficient Inference #Self-Aware Sampling #Reinforcement Learning #Reasoning Termination #Mathematical Benchmarks

2026년 2월 22일

[논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

기존 멀티모달 RLVR(Reinforcement Learning with Verifiable Rewards) 학습 데이터셋의 제한적인 다양성, 커버리지, 일반화 능력을 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Mathematical Dataset #RLVR #Data Curation #Visual Diversity #K12 Mathematics #Large Multimodal Models

2026년 2월 22일

[논문리뷰] World Models for Policy Refinement in StarCraft II

본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.

#Review #StarCraft II #World Model #Policy Refinement #Large Language Models #Reinforcement Learning #Partial Observability #Structured Text Representation #Game AI

2026년 2월 19일

[논문리뷰] 'What Are You Doing?': Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

본 논문은 LLM 기반 에이전트 어시스턴트 가 다단계 작업을 수행할 때 진행 상황과 추론을 어떻게 효과적으로 전달해야 하는지에 대한 문제를 다룹니다.

#Review #Agentic LLM #In-Car Assistants #Human-AI Interaction #Feedback Mechanisms #User Experience #Multi-Step Tasks #Automotive AI #Speech Interfaces

2026년 2월 19일

[논문리뷰] Unified Latents (UL): How to train your latents

확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.

#Review #Diffusion Models #Latent Representation Learning #VAE #Image Generation #Video Generation #Bitrate Control #Training Efficiency #Diffusion Prior #Diffusion Decoder

2026년 2월 19일

[논문리뷰] TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

웨어러블 장치(예: 촉각 장갑)를 통해 수집된 풍부한 인간 촉각 신호를 로봇으로 효과적으로 전이하는 문제를 해결하는 것을 목표로 합니다. 특히, 센서 모달리티와 신체적 구현의 차이에도 불구하고 인간의 촉각 데이터를 로봇의 촉각 공간에 정렬 하여 다양한 로봇 핸드에 대한 정책 학습의 확장성과 일반성을 향상시키고자 합니다.

#Review #Human-to-Robot Transfer #Tactile Sensing #Cross-Embodiment #Policy Learning #Rectified Flow #Unpaired Data #Dexterous Manipulation #Latent Space Alignment

2026년 2월 19일

[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

수중 스테레오 깊이 추정에서 발생하는 도메인 시프트(domain shift) 문제를 해결하고, 특히 대규모 깊이 차이(large-disparity) 및 텍스처 없는(textureless) 영역에서의 기존 GRU 기반 반복 정제 방식의 효율성 및 정확도 한계 를 극복하는 것을 목표로 합니다.

#Review #Underwater Depth Estimation #Stereo Matching #State Space Model #Mamba Architecture #ConvSS2D #Data Synthesis #LoRA #Zero-shot Learning #Robotics

2026년 2월 19일

[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

이 논문은 비디오 확산 모델에서 높은 희소성(sparsity)에서도 생성 품질 저하 없이 효율적인 학습 가능한(trainable) 스파스 어텐션 을 구현하는 것을 목표로 합니다.

#Review #Sparse Attention #Diffusion Models #Video Generation #Hybrid Masking #Distillation Fine-Tuning #Model Acceleration #Top-k #Top-p

2026년 2월 19일

[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains

이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.

#Review #LLM Alignment #Reference-Guided Evaluation #Self-Improvement #Non-Verifiable Domains #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)

2026년 2월 19일

[논문리뷰] Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

본 보고서는 빠르게 발전하는 프론티어 AI 모델(LLMs 및 에이전트 AI) 이 초래하는 전례 없는 위험을 이해하고 식별하며, 사이버 공격, 설득 및 조작, 전략적 기만, 통제되지 않은 AI R&D, 자기 복제 등 다섯 가지 주요 위험 차원에 대한 업데이트되고 심층적인 평가를 제공합니다.

#Review #Frontier AI #AI Risk Management #Autonomous Agents #LLM Safety #Cybersecurity #Deception #Self-Replication #Mitigation Frameworks

2026년 2월 19일

[논문리뷰] FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

본 논문은 Vision-Language-Action (VLA) 모델이 세계 모델링 능력을 향상시키는 데 직면한 두 가지 주요 문제(픽셀 단위 재구성에 대한 과도한 강조와 예측된 미래 관찰에 대한 의존으로 인한 오류 누적)를 해결하고자 합니다.

#Review #World Modeling #Generalist Policies #Representation Alignment #Diffusion Models #Robotics #Fine-tuning #Egocentric Data #VLA

2026년 2월 19일

[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models

이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Game Theory #Large Language Models #Evolutionary Algorithms #Counterfactual Regret Minimization #Policy Space Response Oracles #Algorithm Discovery

2026년 2월 19일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] Computer-Using World Model

본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #World Model #GUI Agents #Desktop Automation #Reinforcement Learning #Large Language Models #Visual State Realization #Textual State Transition

2026년 2월 19일

[논문리뷰] Arcee Trinity Large Technical Report

본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sparse LLM #Training Stability #Load Balancing #MoE #Transformer Architecture #Context Extension #Muon Optimizer

2026년 2월 19일

[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training

본 연구는 raw arXiv LaTeX 소스 를 활용하여 도메인 특화 과학 언어 모델(Scientific LM)을 훈련하는 실제적이고 투명한 과정을 문서화하는 것을 목표로 합니다.

#Review #Scientific Language Models #LLM Training #ArXiv #LaTeX Processing #Tokenization #Resource Constraints #Pretraining #Data Engineering

2026년 2월 19일

[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.

#Review #Linear Attention #Mamba-2 #High-Order Attention #Model Efficiency #Long Context #Transformer #State Space Models

2026년 2월 19일

[논문리뷰] World Action Models are Zero-shot Policies

본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.

#Review #World Action Models #Video Diffusion Models #Zero-shot Generalization #Cross-embodiment Transfer #Real-time Control #Robotics #Foundation Models #Flow Matching

2026년 2월 18일

[논문리뷰] Visual Memory Injection Attacks for Multi-Turn Conversations

본 논문은 대규모 시각-언어 모델(LVLM)의 다중 턴 대화 환경에서의 보안 취약점을 해결하고자 합니다.

#Review #LVLM #Adversarial Attacks #Multi-Turn Conversations #Visual Memory Injection #Stealthy Attacks #Benign Anchoring #Context-Cycling

2026년 2월 18일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] SLA2: Sparse-Linear Attention with Learnable Routing and QAT

본 논문은 기존 Sparse-Linear Attention (SLA)의 한계, 즉 주의 가중치 크기에 기반한 휴리스틱 기반의 어텐션 분할 과 희소 및 선형 어텐션 출력 간의 불일치 를 해결하는 것을 목표로 합니다.

#Review #Sparse-Linear Attention #Diffusion Models #Video Generation #Learnable Routing #Quantization-Aware Training #Attention Acceleration #Model Optimization

2026년 2월 18일

[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.

#Review #Human Mesh Recovery (HMR)#Full-Body Pose Estimation #Promptable Models #Momentum Human Rig (MHR)#Data Engine #Encoder-Decoder #Robustness #3D Vision

2026년 2월 18일

[논문리뷰] Optimizing Few-Step Generation with Adaptive Matching Distillation

본 논문은 Distribution Matching Distillation (DMD) 과정에서 발생하는 'Forbidden Zones'으로 인한 불안정성과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Knowledge Distillation #Few-Step Generation #Adaptive Matching #Forbidden Zones #Generative Models #Sample Quality #Training Stability

2026년 2월 18일

[논문리뷰] Multi-agent cooperation through in-context co-player inference

다중 에이전트 강화 학습(MARL)에서 자기 이익을 추구하는 에이전트 간의 협력을 유도하는 근본적인 문제를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #In-Context Learning #Cooperation #Sequence Models #Opponent Shaping #Iterated Prisoner's Dilemma #Predictive Policy Improvement

2026년 2월 18일

[논문리뷰] MMA: Multimodal Memory Agent

롱-호라이즌 멀티모달 에이전트의 메모리 검색 시 발생하는 오래되거나, 신뢰도가 낮거나, 상충되는 정보로 인한 과신 오류 및 안전 문제를 해결하는 것이 목표입니다. 특히 에이전트가 노이즈가 많고, 정보가 불안정하며, 모순적인 기억에 직면했을 때의 신뢰성 부족을 극복하고자 합니다.

#Review #Multimodal AI #Memory-Augmented Agents #Reliability Assessment #Epistemic Prudence #RAG Systems #Confidence Scoring #Belief Dynamics #Multimodal Conflict

2026년 2월 18일

[논문리뷰] MAEB: Massive Audio Embedding Benchmark

오디오 임베딩 모델의 평가 프로토콜이 파편화되어 모델 비교 및 의미 있는 진척도 추적에 어려움이 있는 문제를 해결하고자 합니다. 이를 위해 광범위하고 통일된 평가 프레임워크 인 MAEB(Massive Audio Embedding Benchmark) 를 구축하여 범용 오디오 임베딩 모델 개발을 촉진하는 것을 목표로 합니다.

#Review #Audio Embedding #Benchmark #Multimodal #Zero-shot Classification #Clustering #Representation Learning #MTEB Ecosystem #Cross-modal Audio-Text #Multilingual Audio

2026년 2월 18일

[논문리뷰] Learning Situated Awareness in the Real World

본 논문은 기존의 멀티모달 파운데이션 모델(MFM) 벤치마크들이 환경 중심의 공간 관계에만 초점을 맞추고, 에이전트의 시점, 자세, 움직임에 따른 관찰자 중심의 상황 인식(situated awareness) 을 간과하는 문제점을 해결하고자 합니다.

#Review #Situated Awareness #Egocentric Vision #Spatial Reasoning #Multimodal Foundation Models #Video Understanding #Benchmark #Real-world Data

2026년 2월 18일

[논문리뷰] Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

본 연구는 인간형 로봇이 온보드 센서만을 사용하여 새로운 객체를 새로운 환경에서 자율적으로 로코-조작(loco-manipulate) 하는 능력을 개발하는 것을 목표로 합니다. 특히, 정확한 엔드-이펙터(EE) 제어 와 오픈-보케뷸러리 대규모 시각 모델 을 통한 장면 이해의 일반화라는 핵심 난제를 해결하고자 합니다.

#Review #Humanoid Robotics #End-Effector Control #Loco-Manipulation #Open-Vocabulary Perception #Visual Generalization #Sim2Real Transfer #Residual Learning #Robot Grasping

2026년 2월 18일

[논문리뷰] Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

본 논문은 대규모 언어 모델(LLM)의 사실성(factuality) 오류 원인을 '지식 누락(encoding failure, empty shelves)'과 '인코딩된 사실 접근 제한(recall failure, lost keys)'으로 구분하여 명확히 규명하는 것을 목표로 합니다.

#Review #LLM Factuality #Knowledge Profiling #Encoding vs. Recall #WikiProfile Benchmark #Inference-time Computation #Reversal Curse #Long-tail Knowledge #Parametric Knowledge

2026년 2월 18일

[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Bimanual Manipulation #MLLMs #Robotics Benchmark #Spatial Reasoning #Action Planning #End-Effector Control #Embodied AI #Multimodal LLMs

2026년 2월 18일

[논문리뷰] Visual Persuasion: What Influences Decisions of Vision-Language Models?

본 연구는 Vision-Language Model (VLM) 이 시각적 요인에 의해 의사결정에 어떻게 영향을 받는지 체계적으로 이해하는 것을 목표로 합니다.

#Review #Vision-Language Models #Visual Persuasion #Prompt Optimization #Image Generation #AI Agent Behavior #Interpretability #Behavioral Evaluation

2026년 2월 17일

[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

본 논문은 기존 통합 멀티모달 모델들이 단일 패스로만 작동하여 반복적인 개선 없이 출력을 생성하는 한계를 지적합니다. 복잡한 공간 구성, 다중 객체 상호작용, 진화하는 지침 등 다단계 추론과 자가 수정이 필요한 멀티모달 작업에서 이러한 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal AI #Chain-of-Thought #Test-time Scaling #Unified Models #Iterative Reasoning #Image Generation #Visual Reasoning #Self-Correction

2026년 2월 17일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

본 논문은 Sparse Autoencoders (SAEs)가 신경망의 활성화를 해석 가능한 희소 특징으로 분해하는 데 있어 실제로 의미 있는 특징을 학습하는지 여부를 체계적으로 평가하는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Interpretability #Neural Network Internals #Evaluation Baselines #Feature Decomposition #LLMs #Mechanistic Interpretability

2026년 2월 17일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] Revisiting the Platonic Representation Hypothesis: An Aristotelian View

본 논문은 신경망 표현의 유사성을 측정하는 기존 지표들이 모델의 폭(width) 과 깊이(depth) 에 의해 체계적으로 왜곡된다는 문제를 제기하며, Platonic Representation Hypothesis 의 타당성을 재검토하는 것을 목표로 합니다.

#Review #Representational Similarity #Null Calibration #Permutation Testing #Confounder #Neural Network Representation #Platonic Representation Hypothesis #Aristotelian Representation Hypothesis

2026년 2월 17일

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

언어 모델의 실제 배포 시점에 다양한 후처리(post-training) 절차와 시간적 영향으로 인해 발생하는 예측 불가능성을 해결하고자 합니다.

#Review #Prescriptive Scaling #Language Models #Capability Boundaries #Quantile Regression #Scaling Laws #Temporal Stability #I-Optimal Design #Benchmark Saturation

2026년 2월 17일

[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

대규모 언어 모델(LLM) 학습에 주로 사용되는 밀집형 적응적 옵티마이저의 한계에 도전하고, 무작위 업데이트 마스킹이 최적화 성능을 향상시킬 수 있음을 입증하는 것이 목표입니다. 특히, 모멘텀-그래디언트 정렬을 활용하는 새로운 마스킹 기법인 Magma 를 제안하여 LLM 훈련의 안정성과 일반화 성능을 개선하고자 합니다.

#Review #Adaptive Optimizers #Gradient Masking #LLM Training #Geometric Regularization #Momentum Alignment #RMSProp #Perplexity #Deep Learning

2026년 2월 17일

[논문리뷰] Learning Native Continuation for Action Chunking Flow Policies

본 논문은 Vision-Language-Action (VLA) 모델에서 액션 청킹(action chunking) 시 발생하는 청크 경계의 불연속성 문제를 해결하고자 합니다.

#Review #Action Chunking #Flow-based Policies #Trajectory Continuation #Robotics #Vision-Language-Action (VLA)#Denoising Dynamics #Schedule-shaped Guidance #Real-time Control

2026년 2월 17일

[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model

본 논문은 카메라 제어가 가능한 시각적 월드 모델(predictive visual world models)이 긴 궤적(long trajectories)에서 안정적인 장면 구조를 유지하지 못하고 기하학적 표류(geometric drift)를 겪는 문제 를 해결하는 것을 목표로 합니다.

#Review #Video World Model #Generative AI #Transformer #Positional Encoding #3D Consistency #View Synthesis #Sparse Attention #Loop Closure

2026년 2월 17일

[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering

본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.

#Review #Foundation Model #Agentic AI #Reinforcement Learning #Sparse Attention #Software Engineering #Long-Context Models #GPU Optimization

2026년 2월 17일

[논문리뷰] Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

본 논문은 대규모 언어 모델(LLM) 에이전트 사회에서 인간 사회와 유사한 사회화(socialization) 현상이 발생하는지 탐구합니다.

#Review #AI Agent Societies #Socialization #Large Language Models (LLMs)#Collective Dynamics #Semantic Analysis #Network Analysis #Moltbook

2026년 2월 17일

[논문리뷰] ClinAlign: Scaling Healthcare Alignment from Clinician Preference

대규모 언어 모델(LLM)을 의료 분야에서 의사의 세밀한 선호도 및 전문 표준에 맞춰 정렬하는 문제를 해결하는 것이 목표입니다. 기존 방법론의 일반적인 목표와 신뢰할 수 없는 자동 평가자의 한계를 극복하고, 확장 가능한 방식으로 임상 정렬(clinical alignment)을 달성하고자 합니다.

#Review #Healthcare AI #LLM Alignment #Clinician Preference #Rubric-based RLHF #Medical LLMs #Data Curation #HealthBench #Principle-based Supervision

2026년 2월 17일

[논문리뷰] Causal-JEPA: Learning World Models through Object-Level Latent Interventions

기존 객체 중심(object-centric) 월드 모델이 상호작용 의존적 다이내믹스를 포착하지 못하고 자가 다이내믹스나 우발적 상관관계에 의존하는 한계를 해결하고자 합니다.

#Review #World Models #Object-Centric Representations #Latent Interventions #Masked Prediction #Causal Inductive Bias #Joint Embedding Predictive Architecture (JEPA)#Visual Question Answering (VQA)#Model Predictive Control (MPC)

2026년 2월 17일

[논문리뷰] COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

본 논문은 Transformer 모델의 사후 학습 압축에서 발생하는 정확도 저하 문제를 해결하고자 합니다.

#Review #Transformer Compression #Matrix Factorization #Sparse Dictionary Learning #Post-Training Quantization #Procrustes Analysis #Orthogonal Dictionary #Dynamic Allocation

2026년 2월 17일

[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

본 논문은 통합 멀티모달 대규모 언어 모델(MLLM)이 요구하는 고충실도 재구성, 복합적인 의미 추출 및 생성 적합성을 동시에 지원하는 시각적 표현을 제공하는 문제를 해결하고자 합니다.

#Review #Multimodal LLM #Visual Tokenizer #Binary Codebook #Image Generation #Semantic Extraction #Pre-Post Distillation #Hybrid Architecture

2026년 2월 16일

[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Search #Multimodal LLM #Task Synthesis #Agentic Mid-Training #Reinforcement Learning #Tool-Augmented Agents #Web Search

2026년 2월 16일

[논문리뷰] Qute: Towards Quantum-Native Database

논문은 고전적인 컴퓨터로는 처리하기 점점 어려워지는 워크로드를 가속화하기 위해 양자 컴퓨터를 활용하는 양자 데이터베이스(Qute) 를 제안합니다.

#Review #Quantum Database #Quantum Computing #SQL Compilation #Hybrid Optimizer #Quantum Indexing #Fidelity-Preserving Storage #Grover's Algorithm

2026년 2월 16일

[논문리뷰] Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

본 논문은 정적이고 태스크에 독립적인 사용자 임베딩의 한계를 극복하고, 다양한 하위 시나리오의 요구사항을 통합된 벡터 공간 내에서 충족하는 적응형 사용자 표현 학습 프레임워크를 제안합니다. 특히, 이질적인 멀티모달 데이터를 통합하고 산업 규모에서 시나리오에 특화된 사용자 이해를 가능하게 하는 것을 목표로 합니다.

#Review #User Representation Learning #Large Language Models #Scenario-Adaptive #Query-Conditioned #Multi-modal #Prompt Tuning #KV-Cache #Industrial AI

2026년 2월 16일

[논문리뷰] Preliminary sonification of ENSO using traditional Javanese gamelan scales

이 연구는 복잡한 동역학 시스템인 엘니뇨-남방 진동(ENSO)의 데이터를 비서구권 음악적 프레임워크(자바 가믈란 음계)를 사용하여 소리화하는 방법을 탐구합니다.

#Review #Sonification #ENSO #Gamelan Scales #Complex Systems #Phase Space Analysis #Recurrence Quantification #Parameter Mapping

2026년 2월 16일

[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.

#Review #Small Language Model #Generalist AI #Reasoning #Code Generation #Agentic Behavior #Reinforcement Learning #Tool Use #Deep Search

2026년 2월 16일

[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

인간 모션 이해 및 생성 분야에서 제한적인 추론 능력 과 테스트 시간 계획의 한계 를 극복하는 것을 목표로 합니다. 이를 위해, 모션 이해와 생성을 통합하는 단일 멀티모달 모션 모델 을 제안하여, 논리적 추론과 지각적 사실성을 동시에 개선하고자 합니다.

#Review #Motion Understanding #Motion Generation #Reinforcement Learning #Chain-of-Motion #Multimodal LLM #Human Motion Synthesis #Text-to-Motion

2026년 2월 16일

[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion Models #Reasoning #Reinforcement Learning #Supervised Finetuning #Visual Question Answering #Image Editing #Object Grounding #Policy Gradient

2026년 2월 16일

[논문리뷰] InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

이 논문은 대규모 언어 모델(LLM)에 의해 가속화된 연구 아이디어 생성 속도에 비해 평가 역량이 뒤처지는 문제를 해결하고자 합니다. 기존 아이디어 평가 방식이 좁은 지식 기반, 합의 부족, 단일 차원 평가 등의 한계를 가지며, LLM 자체의 편향성 또한 문제가 됨을 지적합니다.

#Review #Research Idea Evaluation #Large Language Models (LLMs)#Knowledge Grounding #Multi-Perspective Reasoning #Agent-based Systems #Scientific Discovery #Peer Review Simulation #Automated Evaluation

2026년 2월 16일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] Experiential Reinforcement Learning

언어 모델(LMs)이 희소하고 지연된 환경 피드백으로부터 학습하는 과정에서 발생하는 비효율성과 불안정성을 해결하는 것이 주요 목표입니다.

#Review #Reinforcement Learning #Language Models #Self-Reflection #Experiential Learning #Policy Optimization #Distillation #Agentic Reasoning

2026년 2월 16일

[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.

#Review #Multimodal Agents #Image Retrieval #Context-Aware #Visual Histories #Benchmarking #Vision-Language Models #Agentic AI

2026년 2월 16일

[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

본 논문은 파운데이션 모델 학습 데이터 처리의 체계적인 프레임워크 부재 문제를 해결하고자 합니다.

#Review #Data Darwinism #Scientific Data #Pre-training #Foundation Models #Data Processing Hierarchy #Generative Refinement #Cognitive Completion #Learnability Gap

2026년 2월 16일

[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Web Browsing Agents #Deep Search #Benchmark #Tool Use #Process Evaluation #Multimodal Reasoning #Open-world QA

2026년 2월 16일

[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Summarization Evaluation #Overlap Bias #Position Bias #N-gram Metrics #Gemma #Llama #Evaluation Bias

2026년 2월 16일

[논문리뷰] BitDance: Scaling Autoregressive Generative Models with Binary Tokens

본 논문은 기존 Autoregressive (AR) 모델의 제한된 토큰 표현력과 비효율적인 샘플링 문제를 해결하여, 고품질 이미지 생성을 위한 확장 가능한 AR 프레임워크인 BitDance 를 제안합니다.

#Review #Autoregressive Models #Binary Tokens #Diffusion Head #Image Generation #Tokenizer #Parallel Prediction #High-Resolution

2026년 2월 16일

[논문리뷰] Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

이 연구는 Retrieval-Augmented Generation (RAG) 시스템에서 발생하는 지식 추출 공격(Knowledge Extraction Attack) 으로 인한 민감 정보 유출 및 지적 재산권 침해 문제를 해결하고자 합니다.

#Review #RAG Security #Knowledge Extraction Attack #Benchmarking #Privacy Leakage #Defense Mechanisms #Large Language Models #Retrieval Augmented Generation

2026년 2월 16일

[논문리뷰] Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

이 논문은 전문적인 룸 음향 분석(Room Acoustics Analysis) 도구의 높은 비용과 기술적 복잡성을 해결하고자 합니다.

#Review #Room Acoustics #Room Impulse Response #Acoustic Analysis #Open-Source Platform #Web Application #Data Visualization #Acoustic Metrics #Standards Compliance

2026년 2월 16일

[논문리뷰] AIDev: Studying AI Coding Agents on GitHub

AI 코딩 에이전트가 실제 소프트웨어 프로젝트에서 어떻게 활용되는지에 대한 포괄적인 데이터셋의 부재를 해결하는 것이 이 연구의 핵심 목표입니다. AIDev 라는 대규모 데이터셋을 구축하여 AI 도입, 개발자 생산성, 그리고 인간-AI 협업이라는 새로운 소프트웨어 엔지니어링 시대의 연구를 위한 기반을 마련하고자 합니다.

#Review #AI Coding Agents #GitHub Data #Software Engineering #Pull Request Analysis #Human-AI Collaboration #Developer Productivity #Large Language Models

2026년 2월 16일

[논문리뷰] A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

대규모 언어 모델(LLMs)의 표적 명령어 선택(targeted instruction selection) 연구 분야가 파편화되어 있고 명확한 지침이 부족하다는 문제점을 해결하고자 합니다.

#Review #Instruction Tuning #Data Selection #Large Language Models (LLMs)#Gradient-based Representations #Optimal Transport #Generalization Bounds #Data Representation

2026년 2월 16일

[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.

#Review #Multimodal Perception #Fine-Grained Analysis #Knowledge Distillation #Region-to-Image #MLLMs #ZoomBench #Reinforcement Learning

2026년 2월 15일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.

#Review #Video Understanding #Multimodal Large Language Models (MLLMs)#Instruction Tuning #Data Curation #Attribute-Structured Data #Quality Verification #Temporal Grounding #Video Captioning

2026년 2월 15일

[논문리뷰] Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback

기존 추천 시스템 코드 진화 프레임워크들이 스칼라 지표(NDCG, Hit Ratio)에만 의존하여 진단적 통찰력을 제공하지 못하고, 고정된 검색 공간에 갇혀 혁신을 제한한다는 문제를 해결하고자 합니다.

#Review #Recommender System #LLM-based Code Evolution #Directional Feedback #User Simulator #Model Diagnosis Tool #Agentic AI #AutoML

2026년 2월 15일

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일

[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Sim-to-Real #Co-training #VLA Models #Robotic Manipulation #Supervised Fine-tuning #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Video Understanding #Sparse Attention #Vision Transformer #Codec-Aligned Processing #Self-Supervised Learning #Predictive Coding #Efficient AI

2026년 2월 15일

[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.

#Review #VLM #RL Fine-tuning #Chain-of-Thought #Robustness #Faithfulness #Textual Perturbations #Visual Grounding #Uncertainty Calibration

2026년 2월 15일

[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.

#Review #Medical LLMs #Multimodal Foundation Models #Continual Pre-training #Entity-Aware Learning #Reinforcement Learning #Medical Diagnosis #Instruction Following #Unified Benchmarking

2026년 2월 15일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

본 연구는 항공 이미지에서 나무 수관을 자동으로 분할하고 구분하는 데 있어 텍스처 및 부분적 겹침으로 인한 어려움을 해결하고자 합니다.

#Review #Instance Segmentation #Tree Crown Delineation #Remote Sensing #Lidar Data #Multispectral Imagery #Pseudo-labeling #Segment Anything Model (SAM)#Deep Learning

2026년 2월 15일

[논문리뷰] Intelligent AI Delegation

본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.

#Review #AI Delegation #Multi-agent Systems #Task Decomposition #Agentic AI #Trust & Safety #LLM #Adaptive Coordination

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일

[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Maximum Entropy RL #Kinetic Energy Regularization #Schrödinger Bridge #Generative Policies #Flow Matching #Actor-Critic

2026년 2월 15일

[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLM #CUDA Kernel Generation #Reinforcement Learning #Code Generation #High-Performance Computing #Bi-phase Curated RL #CuKe Dataset

2026년 2월 15일

[논문리뷰] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

기존 Video Language Models (VideoLMs)의 밀집 RGB 프레임 인코딩으로 인한 높은 계산 오버헤드 및 희소 키프레임 샘플링으로 인한 제한적인 시간 범위 문제를 해결하는 것이 목표입니다.

#Review #Video Language Models #Codec Primitives #Efficient Tokenization #Motion Vectors #Residuals #Temporal Reasoning #Long-Context Understanding #Video Compression

2026년 2월 15일

[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.

#Review #Quantization #Large Language Models #Post-Training Quantization #Bit-Plane Decomposition #Variable Quantization Grid #Low-Bit Quantization #Model Compression #Hessian-Induced Geometry

2026년 2월 15일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일

[논문리뷰] χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

본 논문은 장시간 로봇 조작 태스크에서 발생하는 분포 불일치(distributional inconsistencies) 문제를 해결하여 생산 수준의 로봇 강건성(robustness)을 달성하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Distributional Shift #Imitation Learning #Model Arithmetic #Stage Advantage #Train-Deploy Alignment #Resource-Efficient AI #Long-Horizon Tasks

2026년 2월 12일

[논문리뷰] dVoting: Fast Voting for dLLMs

본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.

#Review #dLLMs #Diffusion Models #Test-Time Scaling #Voting #Reasoning #Masked Language Models #Parallel Decoding #Remasking

2026년 2월 12일

[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Group Relative Policy Optimization #Advantage Estimation #Exploration-Exploitation #Curriculum Learning #Multi-modal LLMs

2026년 2월 12일

[논문리뷰] Thinking with Drafting: Optical Decompression via Logical Reconstruction

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력에 대한 복잡한 추론 작업에서 겪는 '정밀도 역설'을 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Visual Algebra #Domain-Specific Language #Optical Decompression #Logical Reconstruction #Bar Model #MLLMs #Verification

2026년 2월 12일

[논문리뷰] ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

본 논문은 대규모 언어 모델(LLM)의 추론 효율성을 향상시키는 것을 목표로 합니다. 특히, 기존의 명시적 추론 궤적(CoT) 및 잠재 공간 추론 방식의 한계를 극복하고, 추론 정확도를 높이면서 생성 길이를 줄이는 새로운 방법을 제안합니다.

#Review #Efficient Reasoning #Latent Space Reasoning #Discrete Space Reasoning #LLM Confidence #Routing Mechanism #Inference-Time Optimization #Chain-of-Thought

2026년 2월 12일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

본 논문은 지속적인 자기 진화(Continuous Self-Evolution), 완전한 고립(Complete Isolation), 안전 불변성(Safety Invariance)이라는 자기 진화 삼중고(self-evolution trilemma)를 만족하는 AI 에이전트 사회가 불가능함을 이론적 및 실증적으로 증명하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Self-evolution #AI Safety #Alignment Drift #Information Theory #Thermodynamics #Entropy Accumulation #Moltbook

2026년 2월 12일

[논문리뷰] Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

본 논문은 단일 벡터 스케치가 스트로크가 순차적으로 추가됨에 따라 극적인 의미 변환을 겪는 새로운 태스크인 'Progressive Semantic Illusions' 를 소개합니다.

#Review #Vector Sketching #Progressive Semantic Illusions #Score Distillation Sampling #Joint Optimization #Visual Anagrams #Bézier Strokes #CLIP-guided Generation #Diffusion Models

2026년 2월 12일

[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

본 논문은 실세계 환경에서 Beyond-the-View Navigation (BVN) 이 직면한 과제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Beyond-the-View Navigation #Video Generation Models #Sparse Video Generation #Diffusion Models #Embodied AI #Real-world Navigation #Long-horizon Planning

2026년 2월 12일

[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.

#Review #LLM #Scientific Reasoning #Co-evolution #Reinforcement Learning #Sparse Supervision #Geometric Consensus #Self-Play #Verifier

2026년 2월 12일

[논문리뷰] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

본 연구는 대규모 Visual Instruction Tuning (VIT) 데이터셋의 높은 중복성으로 인한 비효율적인 훈련 비용 문제를 해결하고자 합니다.

#Review #Multimodal Data Selection #Visual Instruction Tuning #Training-Free #Scalability #Subspace Learning #Vision-Language Models #Attention Mechanism

2026년 2월 12일

[논문리뷰] RISE: Self-Improving Robot Policy with Compositional World Model

본 논문은 VLA(Vision-Language-Action) 모델 이 접촉이 많고 역동적인 로봇 조작 작업에서 여전히 취약하며, 물리적 환경에서의 온-정책(on-policy) 강화 학습이 하드웨어 비용, 느린 상호작용, 수동 리셋 등의 문제로 인해 확장이 어렵다는 한계를 해결하고자 합니다.

#Review #Robot Learning #Reinforcement Learning #World Models #Compositional Models #Robotic Manipulation #Self-Improving #Vision-Language-Action (VLA)

2026년 2월 12일

[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.

#Review #Decentralized Training #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency #Sparse Expert Synchronization #Federated Learning #Distributed GPUs

2026년 2월 12일

[논문리뷰] NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

본 논문은 긴 길이의 비디오에 대해 계산 효율적이고, 시간적으로 일관되며, 서사적 흐름에 의미론적으로 부합하는 배경 음악을 자동으로 생성하는 것을 목표로 합니다.

#Review #Video-to-Music Generation #Affective Computing #Vision-Language Models (VLMs)#Hierarchical Control #Soundtrack Generation #Temporal Coherence #Emotion-Driven Music

2026년 2월 12일

[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Metaphor Understanding #Visual Reasoning #Reinforcement Learning #MLLMs #TFQ-GRPO #End-to-End Learning #Cognitive AI

2026년 2월 12일

[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.

#Review #Audio Tokenizer #Transformer Architecture #End-to-End Learning #Residual Vector Quantization #Speech Synthesis #Audio Foundation Models #Scalability #Autoregressive Models

2026년 2월 12일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments

법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.

#Review #Legal Reasoning #AI Agent #Large Language Models #Verification #Knowledge Management #Dynamic Environments #Procedural Compliance #Tool Use

2026년 2월 12일

[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.

#Review #VLA Models #World Models #Reinforcement Learning #Robotic Manipulation #Long-Horizon Control #Human-in-the-Loop #Continual Learning

2026년 2월 12일

[논문리뷰] EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

본 논문은 로봇 텔레오퍼레이션의 한계(높은 비용, 복잡성, 환경 제약)로 인해 부족한 휴머노이드 로코-조작(loco-manipulation) 데이터 문제를 해결하고자 합니다.

#Review #Humanoid Robotics #Loco-Manipulation #Egocentric Demonstration #Robot-Free Learning #Cross-Embodiment Transfer #View Alignment #Action Alignment #VLA Co-training

2026년 2월 12일

[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit

본 논문은 현재 대규모 언어 모델(LM) 및 멀티모달 대규모 언어 모델(MLLM)의 안전성 평가, 진단, 정렬 워크플로우가 파편화되어 외부 행동 위험만 파악하고 내부 원인을 규명하지 못하는 문제를 해결하고자 합니다.

#Review #LM Safety #Evaluation #Diagnosis #Multimodal AI #Frontier AI Risks #Black-box Analysis #White-box Insight #Open-source Toolkit

2026년 2월 12일

[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.

#Review #Multimodal Model #Image Generation #Image Editing #Diffusion Models #VLM-DiT Architecture #Stacked Channel Bridging #Reinforcement Learning #Lightweight Models

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale

본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #E-commerce #Vision-Language Models #Multimodal Understanding #Instruction Tuning #Attribute Extraction #Fine-tuning #Benchmarking #LLMs

2026년 2월 12일

[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.

#Review #Long-Context Reasoning #Large Language Models (LLMs)#Recurrent Memory #Gated Mechanisms #Reinforcement Learning #Memory Efficiency #Early Exit

2026년 2월 11일

[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다.

#Review #Vision-Centric Jailbreak Attack #Image Editing Models #Safety Benchmark #IESBench #Multimodal Reasoning #Adversarial Attack #Defense Mechanism

2026년 2월 11일

[논문리뷰] Towards Autonomous Mathematics Research

본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.

#Review #Mathematics Research #Large Language Models #AI Agents #Theorem Proving #Tool Use #Gemini Deep Think #Autonomous Research #Human-AI Collaboration

2026년 2월 11일

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Models #Inference Efficiency #Hybrid Attention #Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI #Long-Context Understanding

2026년 2월 11일

[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

ROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.

#Review #Model Compression #LLM #Training-Free #Knapsack Problem #Sparse Matrix Factorization #Dictionary Learning #Post-Training Optimization #Weight Sparsification

2026년 2월 11일

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Meta-Learning #Error Attribution #Knowledge Internalization #Self-Distillation #Verifiable Rewards

2026년 2월 11일

[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite

본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Generative Fluid Intelligence #UMM Evaluation #Visual Generation #Ad-hoc Reasoning #Contextual Adaptation #Benchmark #Attention Intervention

2026년 2월 11일

[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization #Evolutionary Algorithm #Destroy Repair Operators #Co-evolution

2026년 2월 11일

[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models

추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.

#Review #Large Language Models #Reasoning Models #Context Management #Memory Pruning #LoRA Adapter #Long-Horizon Reasoning #Self-Forgetting

2026년 2월 11일

[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Coding #Benchmarking #LLMs #Feature Development #Software Engineering #Test-Driven Development #Scalability

2026년 2월 11일

[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #3D Facial Animation #Speech-to-Face Generation #Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units #ARKit-52 Blendshapes #InstructEx Dataset #Multimodal Generation

2026년 2월 11일

[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Evaluation #Long-Horizon Planning #Interactive Economies #Benchmark #Agentic AI #Economic Simulation #Plan-and-Execute

2026년 2월 11일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.

#Review #Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition #Data Scaling #LLM Training #Generalization #Overfitting #Reasoning Models

2026년 2월 11일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents

본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.

#Review #Tool-Calling Agents #LLM Adaptation #Representation Engineering #Activation Steering #Training-Free #Inference-Time Control #Domain Adaptation

2026년 2월 11일

[논문리뷰] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

본 연구는 복잡하고 장기적인 태스크를 위해 레이블이 없는 실세계 비디오 데이터 로부터 전이 가능한 지식을 학습하는 것을 목표로 합니다.

#Review #Transferable Knowledge #Real-world Video Learning #Latent Dynamics Model #Video Diffusion #Robotics Manipulation #Long-horizon Tasks #Unlabeled Data

2026년 2월 10일

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] UI-Venus-1.5 Technical Report

본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.

#Review #GUI Agent #MLLM #Reinforcement Learning #Model Merging #GUI Grounding #Task Navigation #Online-RL #Offline-RL

2026년 2월 10일

[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

본 연구는 GUI 자동화의 핵심 과제인 GUI 플래닝의 확장성 문제를 해결하는 것을 목표로 합니다. 기존 방식의 스텝 중복과 낮은 궤적 다양성, 그리고 인간 주석 의존성으로 인한 데이터 부족 문제를 극복하고, 고품질의 대규모 GUI 궤적 데이터를 효율적으로 합성하는 방법론을 제시합니다.

#Review #GUI Automation #Computer-Use Agents #Trajectory Synthesis #Tree-Structured Exploration #Multi-Agent Framework #Reinforcement Learning #DPO #Data Efficiency

2026년 2월 10일

[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

LLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.

#Review #LLM Agents #Reinforcement Learning #Skill Discovery #Recursive Evolution #Experience Distillation #Hierarchical Skills #Context Efficiency #Task Planning

2026년 2월 10일

[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.

#Review #Environment Synthesis #Tool-Use Agents #Reinforcement Learning #Generalization #Procedural Generation #LLM Agents #Interactive Environments #Data Scaling

2026년 2월 10일

[논문리뷰] SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 고정된 추론 파이프라인이 지각적 모호성이나 행동의 다중 양상과 같은 불확실한 상황에서 오류를 누적하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Self-Uncertainty Estimation #Adaptive Inference #Active Perception #Action Decoding #Visual Attention #Robotic Manipulation

2026년 2월 10일

[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Generation #Agentic Framework #Simulation-Ready Environments #Robot Policy Learning #Large Language Models (LLM)#Physics Simulation #Data Augmentation

2026년 2월 10일

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.

#Review #Diffusion Transformers #Text Conditioning #CLIP Embedding #Modulation Guidance #Text-to-Image Generation #Image Editing #Training-free

2026년 2월 10일

[논문리뷰] Prism: Spectral-Aware Block-Sparse Attention

긴 컨텍스트를 처리하는 LLM의 pre-filling 과정 을 가속화하기 위한 블록-희소 어텐션(block-sparse attention)의 효율적인 블록 중요도 추정 문제를 해결하는 것이 목표입니다.

#Review #Block-Sparse Attention #Long-Context LLM #Rotary Positional Embeddings #Spectral Analysis #Attention Efficiency #Pre-filling Acceleration

2026년 2월 10일

[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Curriculum Learning #Physics Olympiads #Scientific Reasoning #Agentic AI #Multimodal AI #Physics

2026년 2월 10일

[논문리뷰] Olaf-World: Orienting Latent Actions for Video World Modeling

본 논문은 액션 레이블의 희소성으로 인해 액션-제어 가능한 월드 모델의 확장이 제한되는 문제를 해결하고자 합니다.

#Review #Video World Models #Latent Actions #Cross-context Transfer #Zero-shot Action Transfer #Data-efficient Adaptation #Self-supervised Learning #Representation Alignment

2026년 2월 10일

[논문리뷰] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

대규모 언어 모델(LLM) 사전 훈련에서 고품질 데이터의 고갈 문제인 '데이터 장벽(Data Wall)'에 직면함에 따라, 기존의 비효율적이거나 최적화기 비인지적인 데이터 선택 방법의 한계를 해결하고자 합니다.

#Review #Data Selection #Large Language Model #Pre-training #Optimizer-Induced Utility #Ghost Technique #CountSketch #Boltzmann Sampling

2026년 2월 10일

[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.

#Review #Long Context Reasoning #Memory Compression #Reinforcement Learning #Large Language Models (LLMs)#Inference Efficiency #Dynamic Recall #KV-Cache #Multi-hop Reasoning

2026년 2월 10일

[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.

#Review #Multi-Agent LLM #Reinforcement Learning #Training Stability #GRPO #Agent-wise Normalization #Gradient Explosion #LLM Orchestration

2026년 2월 10일

[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Search Agents #Latency Reduction #P-ReAct #Agentic Post-training #Supervised Fine-Tuning #Preference Optimization #Parallel Decoding

2026년 2월 10일

[논문리뷰] Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

본 연구는 오토회귀(Autoregressive) 이미지 생성 모델 이 확산 손실(diffusion loss) 과 결합될 때 발생하는 '조건 불일치(condition inconsistency)' 문제를 해결하고, 이로 인해 누적되는 extraneous 정보가 패치 생성 품질을 저해하는 한계를 극복하는 것을 목표로 합니다.

#Review #Autoregressive Models #Diffusion Models #Image Generation #Condition Refinement #Optimal Transport #Wasserstein Gradient Flow #Score Matching #Patch Denoising

2026년 2월 10일

[논문리뷰] Code2World: A GUI World Model via Renderable Code Generation

본 논문은 기존 텍스트 및 픽셀 기반 GUI 월드 모델이 가지는 시각적 충실도와 세밀한 구조적 제어 능력 부족 문제를 해결하고자 합니다. 사용자 인터페이스(UI)의 다음 상태를 렌더링 가능한 코드 생성 을 통해 예측하여, 높은 시각적 충실도와 정교한 구조적 제어가 가능한 GUI 월드 모델 을 구축하는 것을 목표로 합니다.

#Review #GUI World Model #Renderable Code Generation #Vision-Language Model #Reinforcement Learning #HTML Synthesis #UI Prediction #GUI Agents

2026년 2월 10일

[논문리뷰] Chain of Mindset: Reasoning with Adaptive Cognitive Modes

기존 LLM(대규모 언어 모델)의 고정된 단일 사고방식 추론 방식이 문제 해결의 여러 단계에서 요구되는 이질적인 인지적 요구를 충족하지 못하는 한계를 해결하고자 합니다. 본 연구는 단계별로 적응적인 사고방식을 유연하게 조율하여 LLM의 문제 해결 능력을 차세대 지능 수준으로 끌어올리는 것을 목표로 합니다.

#Review #Adaptive Reasoning #Cognitive Modes #Large Language Models (LLMs)#Agentic AI #Multimodal Reasoning #Mindset Orchestration #Contextual Filtering #Training-free Framework

2026년 2월 10일

[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.

#Review #Long-horizon manipulation #Embodied AI #Vision-Language-Action (VLA)#Interleaved planning #Visual forecasting #Residual Flow Guidance #Multimodal learning

2026년 2월 10일

[논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 훈련을 위한 다양하고 신뢰할 수 있는 환경의 부족 문제 를 해결하고자 합니다.

#Review #Agentic AI #Reinforcement Learning #Synthetic Environments #Tool-Use Agents #World Model #Database-Backed Simulation #LLM-powered Agents

2026년 2월 10일

[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

본 논문은 기존 이미지 편집 모델의 한계를 극복하고, 전문적인 워크플로우를 지원하는 고품질, 네이티브 해상도 이미지 편집 시스템을 개발하는 것을 목표로 합니다.

#Review #Image Editing #Agentic AI #Multi-turn Interaction #High-Fidelity #Native Resolution #LLM #Context Folding #Layer Decomposition

2026년 2월 10일

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일

[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Weak-Driven Learning #LLM Optimization #Post-training #Gradient Amplification #Curriculum Learning #Knowledge Distillation #Mathematical Reasoning #Code Generation

2026년 2월 9일

[논문리뷰] Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

대규모 사전 훈련(large-scale pretraining)과 효율적인 미세 조정(efficient finetuning) 사이의 간극을 줄여 휴머노이드 로봇 제어의 샘플 효율성과 안전성을 향상 시키는 것을 목표로 합니다.

#Review #Humanoid Control #Reinforcement Learning #SAC #Model-Based RL #Pretraining #Finetuning #Physics-Informed World Model #Sim-to-Real Transfer

2026년 2월 9일

[논문리뷰] RelayGen: Intra-Generation Model Switching for Efficient Reasoning

대규모 추론 모델(LRMs)의 긴 추론 과정에서 발생하는 불균일한 생성 난이도 문제를 해결하여, 상당한 정확도 저하 없이 추론 지연 시간을 줄이는 것 을 목표로 합니다.

#Review #LLM Inference Optimization #Model Switching #Efficient Reasoning #Speculative Decoding #Runtime Adaptation #Discourse-Level Cues #Latency Reduction

2026년 2월 9일

[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Latent Iterative Reasoning #Adaptive Compute #Recurrent Neural Networks #Robotics #Transformer #Test-Time Scaling #Continuous Action Space

2026년 2월 9일

[논문리뷰] QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining

금융 시장의 노이즈와 비정상성으로 인해 알파 마이닝이 겪는 불안정성과 시장 변화에 대한 민감성을 해결하고자 합니다. 기존 에이전트 기반 프레임워크가 가진 제한적인 다중 라운드 탐색 및 검증된 경험 재사용의 한계를 극복하고, LLM 기반 알파 요인 의 품질과 견고성을 향상시키는 것을 목표로 합니다.

#Review #Alpha Mining #LLM-Driven Agents #Evolutionary Algorithms #Financial Markets #Factor Generation #Trajectory Optimization #Quantitative Investment

2026년 2월 9일

[논문리뷰] Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

본 논문은 멀티모달 대조 학습(multimodal contrastive learning)에서 시각 및 언어 표현 정렬에도 불구하고 발생하는 Modality Gap 이라는 기하학적 이상 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Gap #Subspace Alignment #Unpaired Data #Representation Learning #Pretraining #Geometric Alignment

2026년 2월 9일

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.

#Review #LLM Agents #Runtime Memory #Budget-Tier Routing #Reinforcement Learning #Performance-Cost Trade-off #Modular Memory Pipeline #Query-Aware Memory #Resource Management

2026년 2월 9일

[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.

#Review #Chemical Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space #Molecular Optimization #Inference Efficiency #Reinforcement Learning #Chemical AI

2026년 2월 9일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing

본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.

#Review #Text Diffusion #Token Editing #Inference Acceleration #Mask-to-Token #Token-to-Token #Reinforcement Learning #Speedy Mode #Quality Mode

2026년 2월 9일

[논문리뷰] InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

본 논문은 기존 AI 과학자 시스템의 한계(도메인 특화 설계, 불완전한 추론 능력, 비효율적인 최적화 파이프라인, 장기 자율 운영 미흡)를 극복하고, 계산 및 경험적 영역 전반에 걸쳐 엔드투엔드 과학적 발견을 위한 통합 에이전트 프레임워크 인 InternAgent-1.5를 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Scientific Discovery #Long-Horizon Reasoning #Structured Memory #Knowledge Graph #Experimental Optimization #Multi-disciplinary

2026년 2월 9일

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.

#Review #Search Agents #Information Seeking #Benchmark #LLM-driven Agents #Human Trajectories #Deep and Wide Search #Deterministic Evaluation #Dynamic Evaluation

2026년 2월 9일

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

본 논문은 대규모 언어 모델(LLM)이 연역, 귀납, 귀추 와 같은 근본적인 추론 패러다임을 습득할 때, 세계 지식으로부터 분리된 상징적 추론 궤적 을 통해 도메인 외부(Out-of-Domain) 일반화 능력 이 어떻게 형성되는지 체계적으로 탐구하는 것을 목표로 합니다.

#Review #LLM Reasoning #Deduction #Induction #Abduction #Out-of-Domain Generalization #Symbolic Reasoning #Fine-tuning #Upcycling

2026년 2월 9일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

본 논문은 기존 언어 모델 기반 심층 연구 보고서 생성 시스템들이 겪는 한계를 극복하는 것을 목표로 합니다. 특히, 정적 계획에 의존하여 통찰력에 제한이 있고, 배포 및 데이터 보안 문제로 인해 대규모의 독점 모델에 의존하는 경향을 해소하고자 합니다.

#Review #Deep Research #Agentic Systems #Writing As Reasoning Policy (WARP)#Outline Generation #Iterative Refinement #Reinforcement Learning (RL)#Small Language Models

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] Self-Improving World Modelling with Latent Actions

본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Reasoning #Reinforcement Learning #Machine Translation #Question Understanding #Self-Improvement #Language Models #Cross-Lingual Alignment

2026년 2월 8일

[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.

#Review #Multi-Turn Jailbreaks #LLM Safety #Red Teaming #Reinforcement Learning #Intent Drift #Response-Agnostic Generation #Self-Tuning

2026년 2월 8일

[논문리뷰] RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

논문은 LLM의 극단적인 2비트 양자화에서 발생하는 성능과 효율성 간의 치명적인 트레이드오프 를 해결하고자 합니다.

#Review #LLM Quantization #2-bit Quantization #Residual Binarization #Quantization-Aware Training (QAT)#Inter-Path Adaptation #Hardware Efficiency #Model Compression #Low-Bit LLMs

2026년 2월 8일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

본 논문은 MoE 아키텍처에서 전문가 전문화의 세분성과 하드웨어 실행 효율성 사이의 본질적인 trade-off를 해결하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Fine-Grained Experts #Efficient Architectures #Transformer #Routing Algorithms #Hardware Acceleration #Sparse Models

2026년 2월 8일

[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

현재 LLM 에이전트 평가가 주로 연역적(deductive) 패러다임 에 집중되어 있어, 에이전트가 환경의 숨겨진 규칙을 자율적으로 발견하는 귀납적(inductive) 능력 을 측정하는 데 한계가 있음을 지적합니다.

#Review #LLM Agents #Benchmarking #Inductive Reasoning #Long-Horizon Tasks #Active Exploration #World Models #Autonomous Discovery

2026년 2월 8일

[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다.

#Review #Mobile GUI Agents #Memory Benchmarking #Short-Term Memory #Long-Term Memory #LLM-as-Judge #Dynamic Environments #Evaluation Metrics #Task Automation

2026년 2월 8일

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.

#Review #LLM Training Stability #Gradient Explosion #Stable Rank #Jacobian Alignment #Matrix Sign Operation #Optimizer #Transformer

2026년 2월 8일

[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

연구 수준 수학 문제에 대한 LLM(Large Language Model) 생성 솔루션 의 검증은 전문가 시간을 많이 소모하고 기존 LLM 평가 모델은 신뢰할 수 없거나 편향되어 있습니다.

#Review #LLM Evaluation #Mathematical Reasoning #Oracle-Free Validation #Consequence-Based Utility #Solution Quality #In-Context Learning #Research-Level Math

2026년 2월 8일

[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Iterative Reasoning #Reinforcement Learning #Large Language Models #Context Management #Summarization #Chain-of-Thought #Efficiency #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

본 논문은 기존의 개별 에이전트 중심, 트리 구조 진화 방식이 탐색적 다양성의 비효율적인 활용과 고립된 진화 브랜치로 인한 장기적인 누적 발전의 한계를 가지는 문제를 해결하고자 합니다. 궁극적으로 인간 개입 없이 스스로 구조적 설계를 수정하여 능력을 향상시키는 오픈엔드 자가 개선 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Open-Ended Learning #Self-Improving Agents #Evolutionary Algorithms #Experience Sharing #Meta-Learning #Code Generation #Agent Frameworks

2026년 2월 8일

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

RLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.

#Review #Distributed Training #Matrix-based Optimizers #Load Balancing #Asynchronous Compute #Data Parallelism #Tensor Parallelism #ZeRO-1 #LLMs

2026년 2월 8일

[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.

#Review #Medical LLM #Clinical Decision Support #Reinforcement Learning #Hallucination Suppression #Multi-task Learning #Speculative Decoding #Quantization #Clinical Inquiry

2026년 2월 8일

[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Exploration-Exploitation #Group Relative Policy Optimization #Entropy Collapse #Generative Models #Confidence-Aware Rewards

2026년 2월 8일

[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

이 논문은 오디오 처리 모델, 특히 Whisper 와 HuBERT 의 복잡한 내부 표현을 Sparse AutoEncoders (SAEs) 를 통해 이해하고 해석하는 것을 목표로 합니다.

#Review #Sparse Autoencoders (SAEs)#Audio Representation Learning #Model Interpretability #Whisper #HuBERT #Feature Steering #EEG Correlation #Audio Analysis

2026년 2월 8일

[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Agentic AI #Large Language Models (LLMs)#Visual Tools #Chain-of-Thought (CoT)#Reinforcement Learning #Curriculum Learning #Evidence-Driven Reasoning

2026년 2월 5일

[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #Video Generation #Visual Reasoning #Zero-Shot Generalization #Test-Time Scaling #Visual Context #Sequential Planning #Continuous Manipulation

2026년 2월 5일

[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Reasoning Modes #Hybrid Autoregressive #Latent Visual Reasoning #Dynamic Mode Selection #Supervised Fine-tuning #Vision-Language Tasks

2026년 2월 5일

[논문리뷰] Steering LLMs via Scalable Interactive Oversight

본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.

#Review #Scalable Oversight #Interactive AI #Large Language Models #Human-AI Collaboration #Product Requirement Documents #Reinforcement Learning #Structured Interaction #Vibe Coding

2026년 2월 5일

[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 보안 취약점을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Agent Security #Intrinsic Risk Sensing #Adaptive Defense #Hierarchical Screening #Attack Detection #S2Bench Benchmark

2026년 2월 5일

[논문리뷰] Semantic Search over 9 Million Mathematical Theorems

본 논문은 기존 검색 도구가 논문 단위로만 작동하여 특정 수학적 정리, 보조 정리, 명제 검색이 어려운 문제를 해결하고자 합니다. 대규모 수학적 정리 코퍼스에 대한 시맨틱 검색 시스템 을 구축하여, 연구자와 AI 에이전트가 특정 수학적 지식을 효율적으로 찾을 수 있도록 지원하는 것을 목표로 합니다.

#Review #Semantic Search #Theorem Retrieval #LLMs #Dense Retrieval #Mathematical Information Retrieval #Vector Embeddings #Mathematical Dataset #RAG

2026년 2월 5일

[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Deep Research Agents #Scientific Literature Retrieval #LLM-based Retrievers #Benchmarking #Test-time Scaling #Information Retrieval #Query Decomposition #RAG

2026년 2월 5일

[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation #Large Language Models #Reasoning #Benchmark #Deep Search #Error Analysis #Scientific Problem Solving #Context Understanding

2026년 2월 5일

[논문리뷰] Reinforcement World Model Learning for LLM-based Agents

대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM-based Agents #World Model Learning #Reinforcement Learning #Self-Supervised #Environment Dynamics #Sim-to-Real Reward #Textual States

2026년 2월 5일

[논문리뷰] Reinforced Attention Learning

본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Attention Mechanisms #Policy Gradient #Knowledge Distillation #Visual Grounding #Post-training

2026년 2월 5일

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Implicit Reasoning #Benchmark #Evaluation #Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)

2026년 2월 5일

[논문리뷰] ProAct: Agentic Lookahead in Interactive Environments

ProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.

#Review #Agentic AI #Large Language Models #Reinforcement Learning #Lookahead Reasoning #Monte-Carlo Tree Search #Supervised Fine-Tuning #Value Estimation #Simulation Drift

2026년 2월 5일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards #LLMs #Policy Optimization #Response Length Bias #Sequence-level Clipping #Length-Unbiased Optimization #Multimodal Reasoning

2026년 2월 5일

[논문리뷰] LatentMem: Customizing Latent Memory for Multi-Agent Systems

본 논문은 LLM 기반 멀티 에이전트 시스템(MAS)의 메모리 설계가 겪는 두 가지 근본적인 문제, 즉 (i) 역할 인지적 맞춤화 부재로 인한 메모리 동질화 와 (ii) 과도하게 세분화된 메모리 항목으로 인한 정보 과부하 를 해결하고자 합니다.

#Review #Multi-Agent Systems #LLM Memory #Latent Representation #Role-Aware #Token Efficiency #Policy Optimization #Continual Adaptation

2026년 2월 5일

[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

논문은 물리 기반 휴머노이드 로봇이 고수준의 목표만으로도 다양한 객체와 상호작용하는 복잡한 로코-조작(loco-manipulation) 행동을 생성하고 일반화하는 데 있어 기존 방법론의 확장성 및 견고성 한계를 해결하고자 합니다.

#Review #Human-Object Interaction #Physics-Based Simulation #Generative Control #Reinforcement Learning #Imitation Learning #Variational Policy #Failure Recovery #Loco-Manipulation

2026년 2월 5일

[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Kernel Generation #Triton #GPU Optimization #LLMs #Reward Hacking #Multi-turn Interaction #Code Generation

2026년 2월 5일

[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context

이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Autoregressive Models #Long Context #Temporal Consistency #Diffusion Models #Context Forcing #Memory Management #Distribution Matching Distillation

2026년 2월 5일

[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.

#Review #LLM Agents #Benchmarks #Tool-use #Consistency #Uncertainty Handling #Hallucination #In-car Assistant #Policy Adherence

2026년 2월 5일

[논문리뷰] Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

본 논문은 기존 그래프 기반 RAG(Retrieval-Augmented Generation) 모델들이 겪는 'Static Graph Fallacy' 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Knowledge Graphs #Graph Traversal #Context-Aware Retrieval #Personalized PageRank #Multi-hop Reasoning #Semantic Drift Mitigation

2026년 2월 5일

[논문리뷰] BABE: Biology Arena BEnchmark

이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.

#Review #Biology Benchmark #Large Language Models #Experimental Reasoning #Causal Inference #Cross-Scale Inference #Multimodal AI #Scientific Reasoning #Research Agents

2026년 2월 5일

[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Width Scaling #Large Language Models #Information Seeking #Task Decomposition #Parallel Execution #Lead-Agent-Subagent Framework #Orchestration

2026년 2월 4일

[논문리뷰] Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

본 논문은 지난 10년간 모델 중심 패러다임이 지배했던 생성형 AI(AIGC) 분야의 한계, 특히 '의도-실행 격차(Intent-Execution Gap)'를 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Content Generation #Orchestration #Vibe Coding #Meta-Planner #Human-in-the-Loop #Intent-Execution Gap

2026년 2월 4일

[논문리뷰] VLS: Steering Pretrained Robot Policies via Vision-Language Models

본 논문은 사전 학습된 로봇 정책이 새로운 객체, 장면, 또는 명령 변경과 같은 분포 외(Out-of-Distribution, OOD) 시나리오 에서 실패하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Vision-Language Models #Policy Steering #Inference-Time Adaptation #Out-of-Distribution Generalization #Diffusion Models #Generative Policies

2026년 2월 4일

[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models

본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Process Reward Models (MPRMs)#Data Efficiency #Monte Carlo Annotation #Data Selection #Balanced-Information Score (BIS)#Label Mixture #Label Reliability #Computational Cost Reduction

2026년 2월 4일

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[논문리뷰] SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

본 논문은 로봇의 소프트바디 조작 시 발생하는 복잡한 상호작용 속에서 변형 가능한 객체의 동역학을 정확하고 안정적으로 시뮬레이션하는 근본적인 문제를 해결하고자 합니다.

#Review #Neural Simulator #Real-to-Sim (R2S)#Robotic Manipulation #Soft-body Dynamics #Gaussian Splatting #Deformable Objects #Action-conditioned Simulation #Long-horizon Simulation

2026년 2월 4일

[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #LLM #Text-to-Image #Transformer #Semantic Routing #Feature Fusion #Dynamic Conditioning #Generative AI

2026년 2월 4일

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Residual Learning #Context Aggregation #Parallel Decoding #Masked Denoising #Reasoning Benchmarks #Entropy Weighting

2026년 2월 4일

[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

논문은 오토-회귀 비디오 생성 모델의 주요 병목인 KV-cache 메모리 문제 를 해결하고자 합니다.

#Review #Auto-Regressive Video Generation #KV-Cache Quantization #Memory Optimization #Long Video Generation #Video Diffusion Models #Semantic-Aware Smoothing #Progressive Residual Quantization

2026년 2월 4일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Token Compression #Modality-Asymmetric #Video Pruning #Audio Selection #Efficiency #Large Language Models #Spatio-Temporal

2026년 2월 4일

[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

본 논문은 기존 희소 어텐션(sparse attention) 방법론의 두 가지 근본적인 한계를 해결하고자 합니다. 첫째, 토큰 중요도 예측에 추가적인 프록시(proxy)를 사용하는 복잡성과 성능 저하 문제.

#Review #Sparse Attention #KV Cache Sharing #Hybrid Attention #Long-Context LLMs #Memory Optimization #Token Selection #Transformer Architecture

2026년 2월 4일

[논문리뷰] HY3D-Bench: Generation of 3D Assets

3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.

#Review #3D Generation #Dataset #Benchmark #AIGC #Watertight Mesh #Part-level Decomposition #Foundation Model #Robotics

2026년 2월 4일

[논문리뷰] FASA: Frequency-aware Sparse Attention

대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.

#Review #Sparse Attention #KV Cache Optimization #Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs #Long-Context #Training-Free

2026년 2월 4일

[논문리뷰] EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

본 논문은 인간형 로봇의 실제 환경 배포 시 발생하는 고유한 불안정성, 부분적 정보 기반의 지각/이동/조작 통합의 어려움, 그리고 동적 환경에서의 견고한 하위 태스크 전환 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Robots #Vision-Language Models #Task Planning #Egocentric Control #Mobile Manipulation #Active Perception #Human-Robot Interaction #Real-World Deployment

2026년 2월 4일

[논문리뷰] ERNIE 5.0 Technical Report

ERNIE 5.0은 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해 및 생성 을 위한 본질적으로 자기회귀(autoregressive) 기반 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Autoregressive #Mixture-of-Experts #Elastic Training #Reinforcement Learning #Unified Architecture #Sparse MoE #Efficient Deployment

2026년 2월 4일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

과학 논문의 복잡한 내용을 효과적으로 시각화하는 고품질 삽화의 수동 생성 병목 현상을 해결하고자 합니다. 특히, 긴 과학 텍스트(long-form scientific texts)로부터 출판 준비 수준의 과학 삽화를 자동으로 생성 및 개선 하는 것을 목표로 합니다.

#Review #Scientific Illustration Generation #Long-form Text-to-Image #Agentic Framework #Reasoned Rendering #Layout Planning #Text Refinement #FigureBench #VLM-as-a-judge

2026년 2월 4일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

기존 RAG(Retrieval-Augmented Generation) 시스템이 대규모 언어 모델(LLM)의 추론 및 도구 사용 능력을 충분히 활용하지 못하고, 정적인 검색 알고리즘이나 사전 정의된 워크플로우에 의존하는 한계를 해결하고자 합니다.

#Review #Agentic RAG #Hierarchical Retrieval #LLM Tool Use #Multi-hop QA #Context Efficiency #Dynamic Strategy #Retrieval-Augmented Generation

2026년 2월 4일

[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.

#Review #Long-Horizon Agency #Data Synthesis #Pull Request Chains #Software Evolution #LLM Training #Agentic AI #Self-Distillation #Code Generation

2026년 2월 3일

[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling

본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.

#Review #Wide Research #Multi-Agent Systems #Reinforcement Learning #Information Seeking #Benchmarking #LLM Agents #Knowledge Graphs

2026년 2월 3일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.

#Review #Sparse Attention #Long-Context Inference #LLMs #Token Selection #Efficiency #Transformer #Dynamic Sparsity

2026년 2월 3일

[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy

본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.

#Review #Transformer Optimization #Normalization Strategy #Hessian Spectral Norm #Learning Rate Stability #Large Language Models #SimpleNorm #Second-Order Optimization

2026년 2월 3일

[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.

#Review #Software Engineering Agents #LLM #Docker-Free #Execution Simulation #Reinforcement Learning #Supervised Fine-tuning #World Model

2026년 2월 3일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.

#Review #World Models #Unified Framework #Multimodal AI #Embodied AI #Physical Understanding #Long-term Consistency #AI Agents #Generative Models

2026년 2월 3일

[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

대규모 언어 모델(LLM)의 병렬 추론 시 발생하는 상당한 계산 비용 문제를 해결하고, 기존의 로컬 신호 기반 효율성 증대 방법론의 한계를 극복하고자 합니다. 병렬 브랜치 간의 전역적인 동역학을 활용하여 효율적이고 하드웨어 친화적인 병렬적 사고를 위한 경량화된 글로벌 신호를 도입하는 것이 주된 목표입니다.

#Review #LLM Reasoning #Parallel Thinking #Efficiency Optimization #2D Probing #Consensus-based Early Stopping #Deviation-based Branch Pruning #Test-Time Scaling

2026년 2월 3일

[논문리뷰] No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

본 연구는 Large Language Models (LLMs)의 Chain-of-Thought (CoT) 추론 과정에서 내재된 계획 능력(latent planning horizon) 을 규명하는 것을 목표로 합니다.

#Review #Chain-of-Thought #LLM Planning #Probing Methods #Uncertainty Estimation #Reasoning Dynamics #Model Interpretability

2026년 2월 3일

[논문리뷰] MARS: Modular Agent with Reflective Search for Automated AI Research

본 논문은 높은 평가 비용, 불투명한 성능 귀속, 복잡한 아키텍처 등으로 인해 기존 LLM 기반 에이전트가 어려움을 겪는 자동화된 AI 연구의 한계를 해결하는 것을 목표로 합니다. 특히, 컴퓨테이션 비용을 고려하고 모듈식 코드 생성을 통해 자율적인 AI 과학 발견을 최적화하는 프레임워크를 제시합니다.

#Review #Autonomous AI #Agent Framework #Machine Learning Engineering #Monte Carlo Tree Search #Reflective Learning #Modular Programming #Code Generation #Resource Management

2026년 2월 3일

[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Instruction Purification #Interference Tokens #Sample Efficiency #Policy Optimization #Verifiable Rewards

2026년 2월 3일

[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.

#Review #DeepResearch #Rubric Generation #Human Preferences #Reinforcement Learning #Multi-agent Systems #LLM Evaluation #Reward Modeling

2026년 2월 3일

[논문리뷰] Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

본 논문은 적은 추론 단계(few-step inference)로 고품질 이미지를 빠르게 생성하기 위한 Distribution Matching Distillation (DMD) 과정에서 발생하는 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Model Distillation #Mode Collapse #Image Generation #Diversity Preservation #Flow Matching #Few-Step Synthesis

2026년 2월 3일

[논문리뷰] Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Large Language Model (LLM) 사전 학습에서 효과적인 데이터 혼합 비율을 결정하는 것은 여전히 어려운 문제입니다.

#Review #LLM Pre-training #Data Mixture Optimization #Model Merging #Proxy Models #Resource Efficiency #DeMix #Corpus Curation

2026년 2월 3일

[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

본 논문은 텍스트 기반 LLM의 선형적인 컨텍스트 길이 증가와 그에 따른 계산 비용 문제로 인한 코드 이해의 비효율성을 해결하고자 합니다.

#Review #Vision Language Models #Code Understanding #Visual Code Representation #Code Compression #Computational Efficiency #Multimodal LLMs #Software Engineering

2026년 2월 3일

[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Budget Allocation #Adaptive Learning #Capability-Oriented Value Function #Exploration-Exploitation #Resource Efficiency

2026년 2월 3일

[논문리뷰] Balancing Understanding and Generation in Discrete Diffusion Models

이 논문은 이산 확산 모델(Discrete Diffusion Models, DDM) 분야에서 Masked Diffusion Language Models (MDLM) 의 의미 이해 능력과 Uniform-noise Diffusion Language Models (UDLM) 의 고품질 소수 단계 생성 능력 간의 불균형을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Language Modeling #Image Generation #Masked Diffusion #Uniform Noise #XDLM #Stationary Noise Kernel #Pareto Frontier

2026년 2월 3일

[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

본 논문은 기존 VLM(Vision-Language Model) 평가의 한계를 극복하고 적응형 멀티모달 추론 능력을 종합적으로 평가하는 벤치마크를 제안합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Vision-Language Models (VLMs)#Benchmarking #Mode Selection #Tool Learning #Reasoning Process Evaluation #Matthews Correlation Coefficient (MCC)

2026년 2월 3일

[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.

#Review #Agentic Orchestration #Sub-Agent Creation #Language Agents #Dynamic Specialization #Context Management #Tool Use #Large Language Models #Cost-Performance Optimization

2026년 2월 3일

[논문리뷰] 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

본 논문은 2D driving video로부터 3D 모션을 충실히 재현하면서도 유연한 텍스트 기반 카메라 제어를 지원하는 3D-aware 인간 비디오 생성 을 목표로 합니다.

#Review #Human Video Generation #3D-Aware #Implicit Motion Control #View-Adaptive #Diffusion Models #Motion Encoder #Text-Guided Camera Control

2026년 2월 3일

[논문리뷰] WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

기존 GraphRAG 벤치마크들이 짧고 정제된 문단에 의존하여 실제와 같은 긴 컨텍스트 및 대규모 이질적 문서 환경에서의 성능 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #GraphRAG #Benchmarking #Retrieval-Augmented Generation #Wild-Source Corpora #Multi-document Aggregation #Heterogeneous Data #Wikipedia #Long-Context Reasoning

2026년 2월 2일

[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Deep Research Agents #LLM Evaluation #Wikipedia #Good Articles #Factuality #Writing Quality #Benchmark #Hallucinations #Verifiability

2026년 2월 2일

[논문리뷰] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

본 논문은 기존 멀티모달 딥 리서치 MLLM들이 겪는 히트율 문제(검색 엔진의 노이즈와 불안정성) 및 제한된 추론 깊이/검색 폭 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Deep Research #Agentic AI #Tool Use #Visual Question Answering #Reinforcement Learning #Multi-scale Search

2026년 2월 2일

[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Deep Research #Benchmark #Visual Search #Textual Search #Cropped Search #Evaluation

2026년 2월 2일

[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Image Generation #Image Editing #World Knowledge #Self-Reflection #Unified Framework #Text-to-Image

2026년 2월 2일

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일

[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions

본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.

#Review #Software Engineering Environments #LLM Agents #Data Generation #Verifiable Tasks #Multilingual #Reinforcement Learning #Self-Verification #Hacking Detection

2026년 2월 2일

[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Progressive Learning #Width Expansion #Signal Preservation #Symmetry Breaking #LLM #Training Stability #MoE #RMSNorm

2026년 2월 2일

[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.

#Review #Preference Optimization #LLM Alignment #Direct Preference Optimization #Reference-Free #Likelihood Anchoring #Token Stabilization #Dual-Margin Loss #Unlearning

2026년 2월 2일

[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.

#Review #Reinforcement Learning #Large Language Models #Agentic AI #Reward Modeling #Environment Adaptation #Closed-loop Optimization #Multimodal Agents

2026년 2월 2일

[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

본 논문은 기존 픽셀 확산 모델이 고차원 픽셀 공간의 지각적으로 중요하지 않은 신호를 학습하는 데 어려움을 겪어 잠재 확산 모델보다 성능이 뒤처지는 문제를 해결하고자 합니다.

#Review #Pixel Diffusion #Perceptual Loss #Latent Diffusion #Image Generation #LPIPS #DINOv2 #x-prediction #End-to-End Generation

2026년 2월 2일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

기존 텍스트-이미지(T2I) 모델의 한계인 정적인 동작, 암묵적인 사용자 의도 파악 실패, 복잡한 지식 기반 추론 능력 부족을 해결하는 것입니다.

#Review #Agentic Text-to-Image #Multimodal Reasoning #Cognitive Search #Knowledge-Driven Generation #Image Generation Benchmarks #Complex User Intent

2026년 2월 2일

[논문리뷰] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

본 논문은 기존 토킹 아바타 기술의 한계인 환경 인지 및 텍스트 기반 객체 상호작용 능력 부재 문제를 해결하고자 합니다.

#Review #Talking Avatars #Human-Object Interaction (HOI)#Text-Driven Generation #Diffusion Models #Multimodal Control #Grounded Interaction

2026년 2월 2일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.

#Review #Visual Instruction #Image Editing #Multimodal Benchmark #LMM-as-a-judge #Deictic Grounding #Morphological Manipulation #Causal Reasoning #Generative Models

2026년 2월 2일

[논문리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

본 논문은 로봇 학습의 고질적인 문제인 데이터의 이질성, 낮은 품질, 그리고 행동 모방 (Behavior Cloning, BC)의 장기 태스크 한계를 해결하고자 합니다.

#Review #Vision-Language-Action #Generalist Robots #Staged Training #Reinforcement Learning #Multi-embodiment #Data Quality #Humanoid Robotics #Flow Matching

2026년 2월 2일

[논문리뷰] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

본 논문은 기존 비디오 확산 모델의 높은 추론 비용으로 인한 긴 대기 시간과 GPU 비용 문제를 해결하여, 더욱 빠르고 효율적인 비디오 생성을 가능하게 하는 고속 이미지-투-비디오 (I2V) 확산 프레임워크인 FSVideo 를 개발하는 것을 목표로 합니다.

#Review #Video Diffusion Model #Image-to-Video Generation #Latent Space Compression #Diffusion Transformer (DiT)#Model Acceleration #Layer Memory #Video Upsampling

2026년 2월 2일

[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.

#Review #LLM Agents #Deep Research #Long-Horizon Tasks #Test-Time Scaling #File System #Persistent Workspace #Knowledge Base #Dual-Agent Framework

2026년 2월 2일

[논문리뷰] Closing the Loop: Universal Repository Representation with RPG-Encoder

현재 리포지토리 에이전트들이 단편적인 코드 표현 방식(API 문서, 의존성 그래프)으로 인해 겪는 추론 단절 문제 를 해결하는 것이 목표입니다.

#Review #Code Representation #LLM Agent #Software Engineering AI #Repository Understanding #Repository Generation #Repository Planning Graph (RPG)#Semantic Lifting #Incremental Code Maintenance

2026년 2월 2일

[논문리뷰] Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

실시간 상호작용 비디오 생성을 위해 기존의 양방향(bidirectional) 비디오 확산 모델을 소수 스텝의 자기회귀(autoregressive, AR) 모델로 증류하는 과정에서 발생하는 아키텍처 간극(architectural gap) 과 프레임 수준의 단사성(frame-level injectivity) 위반 문제 를 해결하고자 합니다.

#Review #Autoregressive Video Generation #Diffusion Models #Model Distillation #Real-Time AI #Causal Attention #ODE Distillation #Frame-level Injectivity #Teacher Forcing

2026년 2월 2일

[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

본 논문은 기존 생성형 AI 모델이 픽셀 수준의 지침과 표면적 외관 유지에만 머물러 진정한 은유적 생성을 위한 추상적 논리를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Visual Metaphor Transfer #Conceptual Blending Theory #Schema Grammar #Multi-Agent Framework #Generative AI #VLM #LLM #Creative AI

2026년 2월 2일

[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-Evolving

TTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.

#Review #Test-Time Training #Self-Evolving LLMs #Curriculum Learning #Reinforcement Learning #Question Synthesis #Mathematical Reasoning #GRPO

2026년 2월 1일

[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Safety Alignment #Self-Distillation #Refusal Steering #Distributional Shift #Chain-of-Thought #Reinforcement Learning

2026년 2월 1일

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Adversarial Robustness #Best-of-N Sampling #Statistical Estimation #Beta-Binomial Model #Jailbreak #Risk Amplification

2026년 2월 1일

[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.

#Review #Reinforcement Learning #Reward Shaping #Agent Optimization #GUI Automation #Complex Reasoning #Sample Efficiency #Tiered Rewards

2026년 2월 1일

[논문리뷰] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

본 논문은 Lottery Ticket Hypothesis (LTH) 가 하나의 보편적인 'winning ticket'을 가정하여 실제 데이터의 내재된 이질성을 간과하는 한계를 해결하고자 합니다.

#Review #Pruning #Lottery Ticket Hypothesis #Adaptive Subnetworks #Heterogeneous Data #Model Efficiency #Conditional Computation #Subnetwork Collapse

2026년 2월 1일

[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.

#Review #Tool Use #Execution Errors #Error Recovery #Reinforcement Learning #LLMs #Agentic AI #GRPO #FISSION

2026년 2월 1일

[논문리뷰] Revisiting Diffusion Model Predictions Through Dimensionality

확산 모델(Diffusion Models)에서 데이터의 내재적 차원(intrinsic dimension) 과 주변 차원(ambient dimension) 에 따라 최적의 예측 대상(prediction target: ε, v, x)이 달라지는 현상에 대한 정량적이고 이론적인 설명 을 제공하고, 예측 대상을 데이터 기반으로 자동으로 학습 하는 방법을 개발하는 것이 주된 목표입니다.

#Review #Diffusion Models #Prediction Target #Dimensionality #Latent Space #Pixel Space #Generative Models #Theoretical Analysis #k-Diff

2026년 2월 1일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation

본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.

#Review #Unit Test Generation #Reward Model #Reinforcement Learning #Code Coverage #Mutation Testing #Large Language Models #Run-Free Evaluation #Software Engineering Automation

2026년 2월 1일

[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.

#Review #LLM Reasoning #Formal Verification #Neuro-Symbolic AI #Reinforcement Learning #Supervised Fine-tuning #Logic Consistency #Mathematical Reasoning

2026년 2월 1일

[논문리뷰] PaperBanana: Automating Academic Illustration for AI Scientists

AI 과학자들을 위한 학술 출판용 일러스트레이션(방법론 다이어그램 및 통계 플롯) 생성 과정의 노동 집약적인 병목 현상을 해소하고 자동화하는 것을 목표로 합니다. 이를 통해 연구 워크플로우를 가속화하고 높은 품질의 시각적 커뮤니케이션 도구에 대한 접근성을 민주화하고자 합니다.

#Review #Automated Illustration Generation #Agentic Framework #Vision-Language Model #Image Generation #Methodology Diagrams #Statistical Plots #Academic Publishing #Iterative Refinement

2026년 2월 1일

[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Visual Language Model (VLM)#Robustness #Multi-task Learning #Layout Analysis #OCR #Real-world Scenarios #Parameter Efficiency

2026년 2월 1일

[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.

#Review #Long-Horizon Reasoning #Multimodal Memory #Visual Layout #Adaptive Information Density #Reinforcement Learning #Context Window #Large Language Models

2026년 2월 1일

[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning #Reinforcement Learning #Mathematical Reasoning #Decoupling #Interpretability

2026년 2월 1일

[논문리뷰] FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

본 논문은 확산 언어 모델(dLLMs)의 비자기회귀적 잠재력을 완전히 활용하기 위해 기존 디코딩 전략의 위치 편향 문제 를 해결하고자 합니다. 이를 통해 dLLMs가 임의 순서 생성의 유연성을 발휘하고 전역적 양방향 문맥을 활용하여 출력의 전반적인 품질과 논리적 일관성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Non-Autoregressive Generation #Frequency Domain Analysis #Decoding Strategy #Structure-to-Detail #Fourier Transform #Text Generation

2026년 2월 1일

[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

본 논문은 정적 이미지에 운전 비디오의 움직임을 적용하여 고품질 애니메이션 비디오를 생성하는 캐릭터 이미지 애니메이션의 두 가지 근본적인 문제점을 해결하고자 합니다.

#Review #Character Animation #Image Animation #Spatiotemporal Learning #In-Context Learning #Diffusion Models #Motion Transfer #Generalization #Video Generation

2026년 2월 1일

[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching Models #Dense Reward #Sparse Reward Problem #Preference Alignment #SDE Sampler #GRPO #Text-to-Image Generation

2026년 2월 1일

[논문리뷰] Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

대규모 언어 모델(LLM) 기반 딥 서치 에이전트가 다단계 태스크 수행 중 추론 및 검색 상태를 모니터링하고 조절하는 메커니즘이 부족하여 발생하는 체계적인 실패 문제를 해결하는 것이 목표입니다.

#Review #Deep Search Agent #Meta-Cognitive Monitoring #Hierarchical Monitoring #Large Language Models #Cognitive Neuroscience #Uncertainty Calibration

2026년 2월 1일

[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

본 연구는 사전 훈련된 Vision Foundation Model (VFM) 기반의 생성형 오토인코더가 겪는 낮은 재구성 충실도(fidelity) 문제를 해결하고, 동시에 효율적인 이미지 생성 능력을 유지하는 것을 목표로 합니다.

#Review #Autoencoder #DINO #Vision Foundation Models #Image Generation #Image Reconstruction #Spherical Manifold #Diffusion Models #Flow Matching

2026년 2월 1일

[논문리뷰] Continual GUI Agents

본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.

#Review #Continual Learning #GUI Agents #Reinforcement Learning #Grounding #Domain Adaptation #Resolution Adaptation #Reward Shaping #Human-Computer Interaction

2026년 2월 1일

[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.

#Review #LLM Agent #Tool Use #Trajectory Synthesis #Reinforcement Learning #Environment Synthesis #Data Generation #Multi-turn Interaction #Automated Training

2026년 2월 1일

[논문리뷰] VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

본 논문은 대규모 언어 모델(LLM)의 long-context reasoning 에서 발생하는 심각한 효율성 병목 현상을 해결하고자 합니다.

#Review #Vision-Text Compression #Long-Context Reasoning #LLM Efficiency #Vision-Language Models #Iterative Reasoning #Mathematical Problem Solving #Inference Speedup

2026년 1월 29일

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.

#Review #Sovereign LLMs #Post-Training #Instruction Tuning #Supervised Fine-tuning #On-Policy Distillation #Reinforcement Learning #Knowledge Injection #Thai Language

2026년 1월 29일

[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models

본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.

#Review #Self-Improving Pretraining #Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control #Factuality #Safety #Post-trained Models #Pretraining Data Augmentation

2026년 1월 29일

[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 Mixture-of-Experts (MoE) 아키텍처가 겪는 효율성 한계를 극복하기 위해 임베딩 스케일링 을 새로운 희소성 스케일링 차원으로 탐구하는 것을 목표로 합니다.

#Review #Embedding Scaling #N-gram Embedding #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency #Inference Optimization #Speculative Decoding

2026년 1월 29일

[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

본 논문의 핵심 목표는 LLM의 추론 성능을 향상시키는 데 사용되는 강화 학습(RL) 기반 후처리 및 MCMC(Markov Chain Monte Carlo) 기반 파워 샘플링 의 높은 계산 비용 문제를 해결하는 것입니다.

#Review #LLM Reasoning #Distribution Sharpening #Power Sampling #Training-Free #Monte Carlo Estimation #Jackknife Correction #Autoregressive Generation #Inference Efficiency

2026년 1월 29일

[논문리뷰] Qwen3-ASR Technical Report

본 논문은 Qwen3-ASR 모델 제품군을 소개하며, 기존 ASR 모델의 한계를 넘어선 최첨단 성능과 효율성을 제공하는 것을 목표로 합니다.

#Review #ASR #Language Identification #Forced Alignment #Large Audio-Language Models #Multilingual Speech Recognition #Streaming Inference #Qwen3-Omni

2026년 1월 29일

[논문리뷰] PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

본 논문은 기존의 스트리밍 3D 재구성 방식이 고품질 렌더링과 정확한 기하학적 구조를 동시에 달성하기 어렵고, 구조적 중복성이 높아 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Streaming 3D Reconstruction #Hybrid Representation #Triangle Primitives #Neural Gaussians #Geometric Accuracy #High-Fidelity Rendering #Embodied AI #Monocular SLAM

2026년 1월 29일

[논문리뷰] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

본 논문은 기존의 파편화된 OCR 접근법의 한계를 극복하고, 텍스트 중심(Text-centric) 및 비전 중심(Vision-centric) OCR 기능을 통합하는 최초의 엔드-투-엔드(end-to-end) 통합 OCR 방법론 인 OCRVerse를 제안합니다.

#Review #Holistic OCR #Vision-Language Models #Multi-domain Training #Text-centric OCR #Vision-centric OCR #SFT-RL #Code Generation #Document Understanding

2026년 1월 29일

[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

이 논문은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 소스 3D 데이터의 모호성으로 인해 확장이 어려웠던 Metric Depth Estimation 의 문제를 해결하고자 합니다.

#Review #Metric Depth Estimation #Pretraining #Foundation Models #Sparse Prompts #Heterogeneous Data #Zero-Shot Learning #Multi-modal Learning

2026년 1월 29일

[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

본 논문은 고품질 추론 데이터의 부족으로 인해 독점 시스템에 비해 뒤처지는 오픈소스 멀티모달 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Data-centric AI #Chain-of-Thought #Large Language Models #Visual Question Answering #STEM Reasoning #Dataset #Fine-tuning

2026년 1월 29일

[논문리뷰] MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

본 논문은 Multimodal Large Language Models (MLLMs) 에서 발생하는 교차 모달리티 환각 현상(cross-modal hallucinations) 을 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Cross-modal Hallucination #Contrastive Decoding #Modality-Adaptive Decoding #Self-Assessment #Audio-Visual Language Model #Training-Free

2026년 1월 29일

[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

사이버보안 도메인에서 복잡한 다단계 분석을 수행하는 데 특화된 최초의 오픈소스 네이티브 추론 모델 인 Foundation-Sec-8B-Reasoning 을 개발하는 것이 목표입니다.

#Review #Cybersecurity LLM #Reasoning Model #Supervised Fine-Tuning #Reinforcement Learning #Verifiable Rewards #8B Parameters #Open-Source AI

2026년 1월 29일

[논문리뷰] Language-based Trial and Error Falls Behind in the Era of Experience

Large Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Reinforcement Learning #Exploration Efficiency #Sub-Scale Collaboration #Out-of-Distribution Tasks #Agentic AI #Supervised Fine-Tuning

2026년 1월 29일

[논문리뷰] Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Idea2Story는 기존 LLM 기반 자율 과학 연구 에이전트의 비효율성, 컨텍스트 윈도우 한계, 취약한 추론 및 환각 문제를 해결하는 것을 목표로 합니다. 문헌 이해를 온라인 실시간 추론에서 오프라인 지식 구성으로 전환하여, 확장 가능하고 신뢰할 수 있는 자율 과학 발견을 위한 실용적인 기반을 마련하고자 합니다.

#Review #Autonomous Scientific Discovery #LLM Agents #Knowledge Graph #Pre-computation #Research Pattern #Methodology #Retrieval-Augmented Generation #Review-Guided Refinement

2026년 1월 29일

[논문리뷰] Exploring Reasoning Reward Model for Agents

기존 에이전트 RL(Agentic Reinforcement Learning) 방법론이 최종 결과 기반의 희소한 보상에 의존하여 중간 추론 과정의 품질을 제대로 반영하지 못하는 문제를 해결합니다.

#Review #Agentic Reinforcement Learning #Reward Modeling #Reasoning-aware Feedback #Large Language Models (LLMs)#Multi-modal Agents #Fine-tuning #Critique Generation

2026년 1월 29일

[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

현재 Text-to-Image (T2I) 모델들이 복잡한 공간 관계(공간 인식, 추론, 상호작용) 처리에서 실패하는 한계를 해결하고, 기존의 짧고 정보 밀도가 낮은 프롬프트 기반 벤치마크의 부적합성을 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Spatial Intelligence #Benchmark #Evaluation #Prompt Engineering #Multimodal LLMs #Fine-tuning #Spatial Reasoning

2026년 1월 29일

[논문리뷰] DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

기존 VLA 모델들이 정적 객체 조작에서는 강점을 보이지만, 동적 객체 조작 시 빠른 인지(perception) , 시간적 예측(temporal anticipation) , 그리고 연속적인 제어(continuous control) 가 필요한 상황에서 겪는 어려움을 해결하는 것이 주요 목표입니다.

#Review #Vision-Language-Action (VLA) Models #Dynamic Object Manipulation #Robotics #Continuous Inference #Latent-aware Action Streaming #Real-time Control #Perception-Execution Gap

2026년 1월 29일

[논문리뷰] Discovering Hidden Gems in Model Repositories

본 논문은 대규모 모델 저장소에서 사용자에게 잘 알려지지 않았지만 성능이 뛰어난 '숨겨진 보석' 모델들을 효율적으로 발견하는 것을 목표로 합니다. 특히, 현재 모델 사용의 집중이 효율적인 시장 선택의 결과인지, 아니면 우수한 모델들이 단순히 간과되고 있는지 규명하고자 합니다.

#Review #Model Discovery #Hidden Gems #Sequential Halving #Multi-Armed Bandit #Model Repositories #Large Language Models #Performance Evaluation

2026년 1월 29일

[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.

#Review #AI Agents #Deep Research #Benchmark #Information Retrieval #Comprehensiveness #Multi-step Reasoning #Evaluation #LLM-as-a-Judge

2026년 1월 29일

[논문리뷰] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

대규모 언어 모델(LLMs)이 모든 토큰에 균일하게 연산을 할당하여 비효율적인 연산 자원 사용을 초래하는 문제를 해결하는 것이 목표입니다.

#Review #MoE #LLMs #Adaptive Compression #Token Merging #Compute Allocation #Efficiency #Vision-Language Models #Continual Training

2026년 1월 29일

[논문리뷰] Beyond Imitation: Reinforcement Learning for Active Latent Planning

이 논문은 기존의 모방 기반 잠재 추론 방식이 여러 동등한 추론 경로 중 하나만을 학습하여 성능 저하 및 훈련-테스트 간 격차를 초래하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Reasoning #Reinforcement Learning (RL)#Variational Autoencoder (VAE)#Active Planning #Numerical Reasoning #Coherence Reward

2026년 1월 29일

[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.

#Review #Long-Context LLMs #Autonomous Agents #Benchmark #Environment Rollouts #State Tracking #Tool Use #Memory Evaluation #Lateral Thinking Puzzles

2026년 1월 29일

[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

본 연구는 사전 훈련된 비전 백본으로부터 밀도 높은 특징(dense features)을 효율적으로 생성하는 과정에서 발생하는 계산 비용 문제 를 해결하고자 합니다.

#Review #Feature Upsampling #Local Attender #Pixel-Dense Features #Iterative Upsampling #Vision Transformer #Efficiency #Generative AI #Semantic Segmentation

2026년 1월 28일

[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.

#Review #Agentic AI #Reinforcement Learning #Long-Horizon Tasks #Dynamic Branching #Strategic Exploration #LLM Agents #Sample Efficiency #Policy Optimization

2026년 1월 28일

[논문리뷰] SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

본 논문은 기존 애니메이션 도구가 스케치를 고정된 명령으로 제한하여 자유로운 표현과 인간의 의도 반영에 한계가 있다는 문제를 해결합니다. 자유형 스케치를 통해 동적 의도(dynamic intent)를 효과적으로 포착하고, 이를 활용하여 애니메이션 콘텐츠를 자동으로 생성하는 인터랙션 패러다임을 탐구하는 것을 목표로 합니다.

#Review #Animation Generation #Free-Form Sketching #Human-AI Interaction #Vision-Language Models (VLMs)#Dynamic Intent Expression #Motion Graphics #Iterative Refinement #Storyboard

2026년 1월 28일

[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs

본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Flow-based VLA #Transformer Compression #Real-time Robotics #Edge AI #Vision-Language-Action Models #Inference Efficiency

2026년 1월 28일

[논문리뷰] SERA: Soft-Verified Efficient Repository Agents

본 논문은 폐쇄형 시스템 대비 오픈 소스 코딩 에이전트의 강점인 사설 코드베이스 특화 능력 을 저비용으로 실현하는 것을 목표로 합니다. 기존 훈련 방식의 높은 비용과 복잡성으로 인해 이론에 머물렀던 이점을 극복하고, 효율적인 데이터 생성 및 학습 방법론 을 제시하여 실질적인 적용 가능성을 입증하고자 합니다.

#Review #Coding Agents #Synthetic Data Generation #Repository Specialization #Supervised Finetuning #Soft Verification #Cost-Efficiency #SWE-bench

2026년 1월 28일

[논문리뷰] SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

본 논문은 Diarization-Conditioned Whisper (DiCoW)의 핵심 한계점인 STNO (Silence-Target-Non-target-Overlap) 마스크의 모호성 을 해결하고자 합니다.

#Review #Target-Speaker ASR #DiCoW #Whisper Model #Multi-speaker ASR #Self-enrollment #Cross-attention #Speech Diarization

2026년 1월 28일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

본 논문은 잔향 스피치 처리 분야에서 투명한 음향 메타데이터와 용이한 재현성을 갖춘 표준화된 평가 자원의 부족 문제를 해결하고자 합니다.

#Review #Reverberant Speech #Speech Corpus #Acoustic Metadata #Reproducible Research #ASR Evaluation #Room Impulse Response #Speech Recognition

2026년 1월 28일

[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.

#Review #GUI Agent #Multimodal AI #MoE #Data Synthesis #Reinforcement Learning #Cross-Platform #Benchmarking

2026년 1월 28일

[논문리뷰] Linear representations in language models can change dramatically over a conversation

본 연구는 대규모 언어 모델(LLM) 내에서 선형 표현(Linear representations) , 특히 사실성(factuality)이나 윤리(ethics)와 같은 고수준 개념을 나타내는 표현이 대화 과정에서 어떻게 동적으로 변화 하는지 조사하는 것을 목표로 합니다.

#Review #Language Models #Representation Analysis #Interpretability #In-Context Learning #Representation Dynamics #Factuality #Conversational AI #Activation Steering

2026년 1월 28일

[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.

#Review #Multimodal LLM #Scientific AI #Data Efficiency #Reinforcement Learning #Vision-Language Model #Scientific Reasoning #Reproducible AI

2026년 1월 28일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

본 논문은 이미지-텍스트 쌍에서 풍자(sarcasm)를 효과적으로 탐지하기 위해 기존 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Sarcasm Detection #Large Language Models #Multimodal LLMs #Discrepancy Modeling #Image Captioning #Gated Fusion #Semantic Incongruity

2026년 1월 28일

[논문리뷰] DeepSeek-OCR 2: Visual Causal Flow

본 논문은 기존 Vision-Language Model (VLM) 이 시각 토큰을 고정된 래스터 스캔 순서로 처리하여 인간의 유연한 시각 인지 방식과 상충하는 문제를 해결하고자 합니다.

#Review #OCR #Vision-Language Model #Causal Reasoning #Transformer Architecture #Attention Mechanism #Document Understanding #DeepEncoder

2026년 1월 28일

[논문리뷰] Advancing Open-source World Models

본 논문은 기존 비디오 생성 모델의 한계(데이터 희소성, 장기 일관성 부족, 실시간 상호작용의 어려움, 독점적 솔루션)를 극복하고, 가상 세계의 역학을 학습하며 실시간으로 렌더링할 수 있는 오픈 소스 세계 모델(world model) 인 LingBot-World를 개발하는 것을 목표로 합니다.

#Review #World Models #Open-source AI #Video Generation #Real-time Simulation #Long-term Memory #Action-Conditioned Learning #Generative Models #Embodied AI

2026년 1월 28일

[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via Text

본 논문은 프로그래밍 기술이 없는 비전문가도 텍스트 설명을 통해 실행 및 시각화 가능한 AI Town 환경 을 쉽게 만들 수 있도록 하는 것을 목표로 합니다.

#Review #Generative Agents #AI Town #LLM #Environment Creation #Multi-agent System #Spatial Reasoning #Text-to-World #Reverse Synthesis

2026년 1월 27일

[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

본 논문은 기존 AI 시스템이 언어적/추상적 영역에서 강세를 보이지만, 풍부한 표현과 사전 지식, 특히 명시적인 시각적 세계 모델링의 부족으로 인해 물리적/공간적 지능 분야에서는 인간에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Multimodal AI #World Models #Visual Generation #Chain-of-Thought (CoT)#Multimodal Reasoning #Unified Multimodal Models #Spatial-Physical Reasoning

2026년 1월 27일

[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety Alignment #Reinforcement Learning #Self-Play #Red Teaming #Adversarial Training #Multi-Role Framework #Reward Hacking Mitigation

2026년 1월 27일

[논문리뷰] Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

대규모 언어 모델(LLM)이 정렬 노력에도 불구하고 여전히 유해한 행동에 취약하며, 기존 액티베이션 스티어링(Activation Steering) 기법들이 norm 보존 실패 로 인한 생성 붕괴, 세심한 계수 튜닝, 또는 이진 제어 등의 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Activation Steering #Large Language Models (LLMs)#Norm Preservation #Discriminative Layer Selection #Behavior Control #Inference-time Intervention #Angular Steering

2026년 1월 27일

[논문리뷰] Revisiting Parameter Server in LLM Post-Training

대규모 언어 모델(LLM) 후처리 훈련 과정에서 시퀀스 길이의 높은 편차 로 인해 발생하는 워크로드 불균형 문제 를 해결하는 것이 목표입니다.

#Review #LLM Post-Training #Parameter Server #Distributed Training #FSDP #On-Demand Communication #Workload Imbalance #Communication Optimization #Deep Learning

2026년 1월 27일

[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.

#Review #Transformer Architecture #Layer Normalization #Depth Scaling #Training Stability #Large Language Models #Gradient Flow #Highway Networks #Post-LayerNorm

2026년 1월 27일

[논문리뷰] HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences

본 논문은 학술 논문, 특히 AI/ML 분야에서 증가하는 환각 인용(HalluCitation) 의 확산과 그 영향을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Hallucinated Citations #NLP Conferences #Citation Detection #Academic Integrity #Peer Review #Large Language Models (LLMs)#Bibliometrics

2026년 1월 27일

[논문리뷰] GPCR-Filter: a deep learning framework for efficient and precise GPCR modulator discovery

GPCR(G protein-coupled receptors) 변조기 발견의 복잡성과 기존 스크리닝 방법론의 한계(느리고 비용이 많이 들며 복잡한 동적 상호작용을 포착하지 못함)를 해결하는 것을 목표로 합니다.

#Review #GPCR #Drug Discovery #Deep Learning #Protein Language Model #Graph Neural Network #Attention Mechanism #Drug Target Interaction #Virtual Screening

2026년 1월 27일

[논문리뷰] FABLE: Forest-Based Adaptive Bi-Path LLM-Enhanced Retrieval for Multi-Document Reasoning

본 논문은 장문 컨텍스트 LLM의 'lost-in-the-middle' 현상, 높은 계산 비용, 멀티 도큐먼트 추론 확장성 부족 문제를 해결하고, 기존 RAG 시스템의 의미론적 노이즈 및 구조화된 교차 문서 합성 한계를 극복하는 것을 목표로 합니다.

#Review #RAG #LLM-Enhanced Retrieval #Multi-Document Reasoning #Hierarchical Indexing #Bi-Path Retrieval #Adaptive Retrieval #Knowledge Organization #Context Window Optimization

2026년 1월 27일

[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

AI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.

#Review #AI Agents #Safety Guardrails #Explainable AI (XAI)#Risk Taxonomy #Benchmarking #LLM Safety #Tool Use #Agent Alignment

2026년 1월 27일

[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Tool Orchestration #Visual Reasoning #Reinforcement Learning #Adaptive Learning #Generalization #Tool Use

2026년 1월 27일

[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

본 논문은 기존 벤치마크들이 다루지 못했던 시간-가변 오디오-비주얼 신호의 인간 문화적 맥락 이해 능력 을 평가하기 위해, MLLM(Multimodal Large Language Model) 의 맥락적, 문화적 지식 및 사고 능력 을 진단하는 새로운 벤치마크인 AVMeme Exam 을 제시합니다.

#Review #Multimodal LLMs #Benchmark #Cultural Understanding #Contextual Inference #Audio-Visual Memes #Multilingual #Q&A Evaluation

2026년 1월 27일

[논문리뷰] A Pragmatic VLA Foundation Model

이 논문은 로봇 조작을 위한 Vision-Language-Action (VLA) 파운데이션 모델 이 다양한 작업과 플랫폼에서 비용 효율적으로 일반화되는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Model #Robotics #Foundation Models #Multi-Embodiment Learning #Data Scaling #Computational Efficiency #Real-world Deployment

2026년 1월 27일

[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of Code

이미지 생성 분야의 Autoregressive(AR) 모델과 Diffusion 모델 간의 단절을 해소하고, 이들을 위한 통일된 토크나이저를 구축 하는 것을 목표로 합니다.

#Review #Finite Scalar Quantization (FSQ)#Image Generation #Autoregressive Models #Diffusion Models #Quantization #Tokenization #Representation Alignment (REPA)#Latent Space

2026년 1월 26일

[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering

본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.

#Review #Agentic Software Engineering #Mid-training #Large Language Models #Agent-native Data #Contextual Trajectories #Environmental Trajectories #SWE-Bench Verified #Code Generation

2026년 1월 26일

[논문리뷰] VIBEVOICE-ASR Technical Report

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.

#Review #Automatic Speech Recognition #Speaker Diarization #Long-form Audio #Large Language Models #End-to-end Speech Processing #Multilingual #Context-aware ASR

2026년 1월 26일

[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 '의미론적 간극'을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.

#Review #Dialogue-to-Video Generation #Agentic AI #Cinematic Scripting #Long-Horizon Video Synthesis #Visual Coherence #Reinforcement Learning #Multimodal LLM

2026년 1월 26일

[논문리뷰] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

본 논문은 초기 성공률이 낮아 훈련 신호가 희박한 어려운 추론 문제 에 대해 대규모 언어 모델(LLM) 이 학습 정체기에서 벗어나도록 돕는 것을 목표로 합니다.

#Review #Meta-RL #Curriculum Learning #Self-Play #LLM Reasoning #Sparse Rewards #Question Generation #Bilevel Optimization

2026년 1월 26일

[논문리뷰] SkyReels-V3 Technique Report

본 논문은 SkyReels-V3 를 통해 시각적 참조, 비디오, 오디오 및 텍스트 입력을 통합하여 유연하고 제어 가능한 비디오 생성을 가능하게 하는 통합 멀티모달 조건부 비디오 생성 프레임워크 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal AI #Diffusion Models #Transformer Architecture #Reference-guided Generation #Video-to-Video #Audio-driven Animation #Temporal Consistency

2026년 1월 26일

[논문리뷰] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

과학적 추론을 위한 멀티모달 데이터의 부족과 기존 Text-to-Image(T2I) 모델 이 시각적으로는 그럴듯하지만 과학적으로 부정확한 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Scientific Image Synthesis #Multimodal Reasoning #Text-to-Image #Benchmarking #Programmatic Synthesis #Large Multimodal Models #Synthetic Data

2026년 1월 26일

[논문리뷰] STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

이 논문은 자연어 질의에 대한 테이블 검색(Table Retrieval) 과정에서 발생하는 비정형 질의와 정형 테이블 간의 심층적인 의미적 불일치 및 긴 테이블 처리 시 토큰 길이 제한 문제를 해결하는 것을 목표로 합니다.

#Review #Table Retrieval #Semantic Representation #K-means Clustering #Weighted Fusion #Large Language Models #Query Generation #Information Retrieval

2026년 1월 26일

[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.

#Review #Deep Search #Agentic Data Generation #LLMs #Execution Feedback #Reinforcement Learning #Question Answering #Synthetic Data

2026년 1월 26일

[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Cross-Domain Generalization #State Information Richness #Planning Complexity #State Augmentation #Step-by-Step Reasoning #Mid-Training

2026년 1월 26일

[논문리뷰] Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

본 논문은 대규모 시각-언어 모델(LVLM)에서 시각 토큰 압축이 모델의 강건성(robustness) 에 미치는 보안적 영향을 최초로 체계적으로 탐구합니다.

#Review #LVLM Security #Token Compression #Adversarial Attack #Robustness Degradation #Compression-Aware Attack #Efficiency-Security Trade-off #Black-box Attack

2026년 1월 26일

[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.

#Review #End-to-End ASR #Speaker Diarization #Child Speech Processing #Whisper Model #Serialized Output Training #Multi-task Learning #State-Machine Decoding

2026년 1월 26일

[논문리뷰] Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

표준 어텐션 메커니즘의 이차적인 복잡도로 인한 대규모 언어 모델(LLM)의 긴 컨텍스트 시나리오에서의 확장성 병목 현상을 해결하고자 합니다.

#Review #Transformer #Sparse Attention #Adaptive Sparsity #Efficient LLM #Attention Router #Long-Context #Hybrid Attention

2026년 1월 26일

[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Long-Horizon Planning #Benchmarking #Verifiable Constraints #Tool Use #Constraint Optimization #Information Acquisition #Travel Planning #Shopping Planning

2026년 1월 26일

[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Academic Rebuttal #LLM Agents #Peer Review Automation #Generative AI #Retrieval-Augmented Generation (RAG)#Strategic Planning #Persuasion

2026년 1월 26일

[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

본 논문은 LLM(대규모 언어 모델)이 데이터 준비(Data Preparation) 작업에 미치는 변혁적인 영향을 체계적으로 검토하는 것을 목표로 합니다.

#Review #Data Preparation #LLMs #Data Cleaning #Data Integration #Data Enrichment #AI Agents #Semantic Reasoning #Workflow Automation

2026년 1월 26일

[논문리뷰] CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

본 논문은 일반적인 임베딩 모델이 테이블 검색에서 겪는 의미론적 압축(semantic compression) 및 쿼리-테이블 불일치 문제를 해결하고, 기존 LLM 기반 검색 증강 방법론인 QGpT의 한계(휴리스틱한 부분 테이블 선택 및 합성 쿼리의 불충분한 활용)를 극복하여 테이블 검색 성능을 향상시키는 것을 목표로 합니다.

#Review #Table Retrieval #LLM Supervision #K-means Clustering #Partial Table #Contrastive Learning #Embedding Fine-tuning #Synthetic Query Generation

2026년 1월 26일

[논문리뷰] Agentic Very Long Video Understanding

본 논문은 항상 켜져 있는 개인 AI 비서가 요구하는 매우 긴 비디오 이해의 과제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Video Understanding #Agentic AI #Entity Graph #Multimodal Reasoning #Video Question Answering #EgoLifeQA #Retrieval Augmented Generation

2026년 1월 26일

[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Multimodal AI #Any-to-Any Generation #Unified Model #Speech Generation #Image Generation #Transformer Decoder #Real-time Streaming

2026년 1월 26일

[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.

#Review #Multimodal Agents #Vision-Language Models (VLMs)#Interactive AI #Reinforcement Learning Environments #Benchmark #Decision-Making #Diagnostic Tools #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Robotics #Catastrophic Forgetting #Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM #Specialist VLM #Flow-Matching

2026년 1월 25일

[논문리뷰] SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

본 논문은 소프트웨어 개발을 위한 LLM 에이전트가 긴 컨텍스트로 인해 발생하는 높은 API 비용과 지연 시간 문제를 해결하고자 합니다.

#Review #Context Pruning #Coding Agents #Large Language Models (LLMs)#Software Development #Code Comprehension #Efficiency Optimization #Task-Aware Pruning #CRF

2026년 1월 25일

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

본 논문은 반복적인 비디오 편집 과정에서 기존 Video-to-Video (V2V) Diffusion 모델 들이 순차적인 편집 간의 일관성(cross-consistency) 을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video-to-Video Diffusion #Explicit Memory #Multi-turn Video Editing #Cross-consistency #Dynamic Tokenization #Adaptive Token Merging #Video Novel View Synthesis #Text-guided Video Editing

2026년 1월 25일

[논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

본 논문은 LLM이 보드게임 디자인에 대한 건설적인 비판을 제공하는 데 있어 나타나는 핵심적인 한계를 해결하고자 합니다. 특히, 정적 규칙에서 잠재된 게임플레이 역학을 추론하고 다양한 플레이어 그룹의 주관적인 경험 이질성을 모델링하여, 기존 시스템이 부족했던 사용자 경험 기반의 피드백을 자동화하는 것을 목표로 합니다.

#Review #Large Language Models #Board Games #Virtual Playtester #User Simulation #Persona Modeling #MDA Framework #Human-AI Collaboration #Critique Generation

2026년 1월 25일

[논문리뷰] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

본 논문은 터키어 법률 도메인에 특화된 언어 모델인 Mecellem 모델을 개발하여, 비영어권 및 전문 도메인(특히 터키어 법률)에서 대규모 언어 모델의 성능 저하 문제를 해결하는 것을 목표로 합니다. 이를 위해, 스크래치 학습된 인코더 모델과 지속적 사전 훈련(CPT)된 디코더 모델 두 가지 접근 방식을 제시합니다.

#Review #Turkish Legal NLP #Domain Adaptation #ModernBERT #Continual Pre-training (CPT)#Embedding Models #Legal LLMs #Retrieval-Augmented Generation (RAG)#Curriculum Learning

2026년 1월 25일

[논문리뷰] LongCat-Flash-Thinking-2601 Technical Report

본 논문은 장기적인 상호작용과 추론이 요구되는 에이전트 태스크 에서 기존 모델들의 한계를 극복하고, 뛰어난 에이전트 추론 능력을 가진 오픈소스 MoE(Mixture-of-Experts) 대규모 언어 모델인 LongCat-Flash-Thinking-2601 을 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Reinforcement Learning (RL)#Context Management #Scalable Training #Test-Time Reasoning #Open-Source Model

2026년 1월 25일

[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.

#Review #LLMs #Continual Adaptation #Reinforcement Learning #Supervised Fine-Tuning #Skill Transfer #Task Arithmetic #Tool Use

2026년 1월 25일

[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning #FP8 Quantization #LLM Training #On-Policy RL #Unified Precision Flow #Training Efficiency #Rollout Acceleration

2026년 1월 25일

[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.

#Review #Deep Research Agents #Inference-Time Verification #Self-Evolving LLM Agents #Rubric-Guided Feedback #Failure Taxonomy #Test-Time Scaling #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.

#Review #Large Language Models #Code Generation #Prompt Engineering #Prompt Optimization #Empirical Study #Software Engineering #Guidelines

2026년 1월 25일

[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents

본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Procedural Generation #Terminal Agents #Environment Scaling #Language Models (LLMs)#PPO #Task Generation #Automated Verification

2026년 1월 25일

[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.

#Review #Academic Rebuttal #Theory of Mind #Large Language Models #Strategic Persuasion #Reinforcement Learning #Self-Reward #Dataset Synthesis #Automated Evaluation

2026년 1월 25일

[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.

#Review #Data Science Agents #LLM Evaluation #Benchmark Framework #Execution-Grounded Training #Bioinformatics #Kaggle #Shortcut Filtering #Synthetic Data

2026년 1월 25일

[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior

논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.

#Review #Video Matting #Diffusion Models #Generative Priors #Mask-Guided #Pseudo-labeling #Large-scale Dataset #Zero-shot Generalization

2026년 1월 22일

[논문리뷰] VIOLA: Towards Video In-Context Learning with Minimal Annotations

본 논문은 레이블링된 데이터가 부족한 새로운 비디오 도메인에서 Multimodal Large Language Models (MLLMs) 의 일반화 능력을 향상시키는 것을 목표로 합니다.

#Review #Video In-Context Learning #Minimal Annotation #Active Learning #Pseudo-Labeling #Multimodal LLMs #Density-Uncertainty Sampling #Confidence-Aware Retrieval #Low-Resource Adaptation

2026년 1월 22일

[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs

본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.

#Review #Large Language Models #Kernel Generation #GPU Optimization #AI Agents #Code Synthesis #Performance Engineering #Hardware Acceleration

2026년 1월 22일

[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Reasoning #Reinforcement Learning #Autoregressive Models #Generation Order #Entropy Degradation #Pass@k #GRPO

2026년 1월 22일

[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.

#Review #AI Agents #LLM Evaluation #Benchmarking #Command Line Interface #Software Engineering #Realistic Tasks #Error Analysis

2026년 1월 22일

[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.

#Review #Code Diffusion Models #Large Language Models #Continual Pretraining #Code Generation #Code Editing #Masked Language Models #Code Reasoning

2026년 1월 22일

[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

본 논문은 기존 변형 오토인코더(VAE) 의 저차원 잠재 공간이 대규모 텍스트-이미지(T2I) 생성 모델에서 가질 수 있는 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Diffusion Models #Representation Autoencoder #Latent Space #Large-Scale Models #Unified Models #Noise Scheduling

2026년 1월 22일

[논문리뷰] SAMTok: Representing Any Mask with Two Words

본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.

#Review #Mask Tokenization #Multimodal LLMs #Pixel-wise Vision-Language #Reinforcement Learning #Segmentation Anything Model #Discrete Representation

2026년 1월 22일

[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.

#Review #Composed Image Retrieval #Fine-Grained Evaluation #Image Editing #Benchmark #Multimodal LLM #Synthetic Data #Compositional Reasoning

2026년 1월 22일

[논문리뷰] Qwen3-TTS Technical Report

본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multilingual #Voice Cloning #Controllable Speech #Streaming #Speech Tokenization #Language Models #Low-latency

2026년 1월 22일

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.

#Review #Unified Visual Encoder #Image Understanding #Image Generation #VAE #Vision Transformer #Multimodal Learning #Reconstruction #Contrastive Learning

2026년 1월 22일

[논문리뷰] Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization

본 연구는 고성능 Numba-가속화 Python 프레임워크(dla-ideal-solver) 를 개발하여 2차원 확산-제한 응집(DLA) 시뮬레이션의 계산 처리량을 개선하는 것을 목표로 합니다.

#Review #Diffusion-Limited Aggregation #Fractal Dimension #Numba #JIT Compilation #Monte Carlo Simulation #Pattern Formation #Laplacian Growth #Non-equilibrium Statistical Mechanics

2026년 1월 22일

[논문리뷰] Learning to Discover at Test Time

본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.

#Review #Test-Time Training #Reinforcement Learning #Scientific Discovery #LLM Optimization #GPU Kernel Engineering #Algorithm Design #Single-Cell Analysis

2026년 1월 22일

[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence

본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.

#Review #LLM-in-Sandbox #Agentic Intelligence #Code Sandbox #Reinforcement Learning #Generalization #Tool Use #Multi-Modal Generation #Long-Context Processing

2026년 1월 22일

[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #KV Cache Management #Hierarchical Memory #MLLMs #Low Latency #Training-free #Memory Efficiency

2026년 1월 22일

[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Synthetic Experience #Evolutionary Learning #Reinforcement Learning #Direct Preference Optimization #GUI Automation #Scalable Infrastructure #Verifiable Synthesis

2026년 1월 22일

[논문리뷰] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

본 논문은 대규모 사전 훈련된 비디오 생성 모델 의 시공간적 사전 지식을 로봇 정책 학습에 활용하는 것을 목표로 합니다.

#Review #Video Models #Visuomotor Control #Robot Policy #Fine-tuning #Diffusion Models #World Models #Model-based Planning #Imitation Learning

2026년 1월 22일

[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Vision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Bayesian Decomposition #Latent Action Queries #Information Collapse #OOD Generalization #Robot Manipulation #Pointwise Mutual Information

2026년 1월 22일

[논문리뷰] ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

논문은 기존 애니메이션 3D 객체 생성 모델의 한계점인 느린 최적화 과정, 제한적인 입력 방식, 낮은 품질, 그리고 토폴로지 불일치 문제 를 해결하고자 합니다.

#Review #3D Mesh Generation #Animated 3D Models #Temporal Diffusion #Video-to-4D #Deep Learning #Generative Models #Topology Consistency

2026년 1월 22일

[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°

본 논문은 기존의 카메라 메타데이터(FoV, 자세)에 의존하는 한계를 극복하고, 단일 시점의 이미지 및 비디오를 360° 파노라마 로 변환하는 견고하고 기하학적 제약이 없는(geometry-free) 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Panorama Generation #Diffusion Transformers #Geometry-Free Learning #Latent Encoding #Seam Artifacts #Camera Pose Estimation #Video Outpainting

2026년 1월 22일

[논문리뷰] sangkuriang: A pseudo-spectral Python library for Korteweg-de Vries soliton simulation

본 논문은 Korteweg-de Vries (KdV) 방정식을 해결하는 오픈소스 Python 라이브러리인 sangkuriang을 소개하는 것을 목표로 합니다.

#Review #Nonlinear Wave Physics #Soliton Simulation #Korteweg-de Vries Equation #Pseudo-spectral Methods #Adaptive Time Integration #Python Library #Computational Physics

2026년 1월 21일

[논문리뷰] XR: Cross-Modal Agents for Composed Image Retrieval

AI 시대의 Composed Image Retrieval (CIR)에서 기존 유사성 기반 패러다임의 한계를 극복하고, 레퍼런스 이미지와 텍스트 수정 사항을 통합하는 데 필요한 교차-모달 추론 능력 을 향상시키는 것이 목표입니다.

#Review #Composed Image Retrieval #Cross-Modal Agents #Multimodal Reasoning #Training-free Framework #Information Retrieval #Agentic AI #Progressive Retrieval

2026년 1월 21일

[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

기존 VLM이 태국어와 같은 저자원 언어의 복잡한 스크립트 특성(비라틴 문자, 명시적 단어 경계 부재, 스택형 발음 구별 부호) 및 비정형 문서 레이아웃으로 인해 겪는 한계를 해결하는 것입니다.

#Review #Vision-Language Model #OCR #Thai Language Processing #Document Understanding #Low-Resource Language #Data Synthesis #Fine-tuning #Layout Analysis

2026년 1월 21일

[논문리뷰] Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

본 논문은 높은 지연 시간 때문에 스트리밍 애플리케이션에 비실용적인 대규모 오프라인 ASR 모델(예: Whisper)의 한계를 극복하고, 저지연 태국어 자동 음성 인식(ASR)을 위한 효율적인 스트리밍 솔루션을 개발하는 것을 목표로 합니다.

#Review #Thai ASR #Real-time Speech Recognition #FastConformer-Transducer #Low-latency #Text Normalization #Dialect Adaptation #Data Curation #Streaming ASR

2026년 1월 21일

[논문리뷰] The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems

본 논문은 현대 AI 에이전트 기반 시스템에서 의사결정 처리량이 인간의 검증 역량을 초과할 때 발생하는 구조적인 책임 귀속 실패, 즉 책임 공백(Responsibility Vacuum) 현상을 정의하고 분석합니다. 의사결정에 대한 공식적 승인 권한과 이해 역량이 일치하지 않는 조직적 문제를 규명하는 것을 목표로 합니다.

#Review #Responsibility Vacuum #Scaled Agent Systems #Organizational Failure #CI/CD Pipelines #Human Verification Capacity #Authority-Capacity Mismatch #AI Governance #Ritualized Approval

2026년 1월 21일

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…

#Review #Embodied AI #Foundation Model #3D Spatial Reasoning #Temporal Value Estimation #Robotics #Manipulation #Multimodal Learning

2026년 1월 21일

[논문리뷰] Rethinking Video Generation Model for the Embodied World

본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.

#Review #Video Generation #Embodied AI #Robotics Benchmark #RBench #Robotics Dataset #RoVid-X #Physical Plausibility #Task Completion

2026년 1월 21일

[논문리뷰] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

본 논문은 Chain-of-Thought (CoT) 프롬프팅의 지나친 장황함으로 인한 높은 연산 오버헤드 와 중간 추론 과정의 불투명성 문제를 해결하고자 합니다.

#Review #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Vision Language Models (VLMs)#Latent Reasoning #Visual Modality #Image Rendering #Computational Efficiency #Knowledge Distillation

2026년 1월 21일

[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

현재 TTS 시스템에서 스피커 임베딩이 액센트 외의 음색이나 감정과 같은 특성까지 인코딩하여 액센트 제어가 불투명하고 어렵다는 문제를 해결하고자 합니다.

#Review #Text-to-Speech #Accent Control #Phonological Rules #Speaker Embeddings #Speech Synthesis #Disentanglement #Accent Classification

2026년 1월 21일

[논문리뷰] Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

AI/ML 논문 심사 과정에서 발생하는 저자 답변(rebuttal) 작성의 어려움을 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Framework #LLM Agents #Peer Review #Rebuttal Generation #Evidence-centric Planning #Transparency #Human-in-the-loop

2026년 1월 21일

[논문리뷰] Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

기존 에이전트 기반 형식 증명 시스템의 유연성, 재현성, 확장성 한계를 해결하고자 합니다.

#Review #Agentic Systems #Formal Theorem Proving #Large Language Models (LLMs)#Lean Theorem Prover #Multi-Agent Systems #Code Generation #Automated Reasoning #Human-AI Collaboration

2026년 1월 21일

[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

본 논문은 기존 연구 에이전트 벤치마크들이 텍스트 전용 또는 짧은 형태의 멀티모달 질의응답에 초점을 맞춰, 멀티모달 증거를 활용한 종단 간 보고서 생성 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Multimodal Deep Research #Research Agents #Benchmark #Evaluation Framework #Retrieval-Augmented Generation #Large Multimodal Models #Visual Grounding #Citation Analysis

2026년 1월 21일

[논문리뷰] Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

본 논문은 대규모 언어 모델(LLM)이 프롬프트 구조에 민감하게 반응하는 이유를 밝히고, 특히 다중 선택 질의응답(MCQA) 태스크에서 컨텍스트의 순서가 성능에 미치는 영향을 분석하는 것을 목표로 합니다.

#Review #Prompt Engineering #Large Language Models #Causal Attention #Multiple-Choice QA #Prompt Order Sensitivity #Information Bottleneck #Decoder-only Transformers

2026년 1월 21일

[논문리뷰] FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

금융 에이전트(LLM 기반)가 투자 분석, 위험 평가, 자동화된 의사결정 등 고위험 및 고규제 환경에서 새로운 보안 위험을 초래하는 문제를 해결하고자 합니다.

#Review #Financial AI Agents #Security Benchmark #Execution-Grounded #LLM Safety #Prompt Injection #Jailbreaking #Compliance #Vulnerability Assessment

2026년 1월 21일

[논문리뷰] Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Mixed-Initiative AI #Human-AI Collaboration #Web Data Analysis #Proactive Guidance #Large Language Models (LLMs)#Browser Extension #Data-Centric Design

2026년 1월 21일

[논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration

본 연구는 자율 로봇 탐사에서 기존 방법론이 장기 정보 활용 및 환경 변화 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Robotic Exploration #LLM #Reinforcement Learning #Fast-Slow Thinking #Hierarchical Planning #Agentic AI #Graph Reasoning

2026년 1월 21일

[논문리뷰] Agentic Reasoning for Large Language Models

본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.

#Review #Agentic Reasoning #LLM Agents #Self-Evolving AI #Multi-Agent Systems #Planning #Tool Use #Retrieval-Augmented Generation #Reinforcement Learning

2026년 1월 21일

[논문리뷰] AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

본 논문은 LLM의 자율적인 EHR(전자건강기록) 탐색 및 임상 의사 결정 능력이 현재까지 이상화된 실험 설정에 의해 제한되어 있음을 지적합니다. 특히, 기존 요약 방식의 정보 손실과 추론 단절 문제를 해결하여 복잡한 임상 진단 및 치료 계획 태스크 에서 장문 맥락 상호작용 추론 을 가능하게 하는 것을 목표로 합니다.

#Review #Clinical Decision-Making #LLM Agents #EHR #Retrospective Summarization #Long-Context Reasoning #Experience Replay #Healthcare AI

2026년 1월 21일

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

의료 영상 이해(semantic abstraction)와 생성(pixel-level reconstruction)이라는 근본적으로 상충하는 목표를 기존 파라미터 공유 방식의 단일 모델에서 통합할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Chest X-Ray #Medical Foundation Model #Autoregressive Model #Diffusion Model #Multimodal Learning #Image Understanding #Image Generation #Cross-Modal Attention

2026년 1월 20일

[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Memory Management #Tool Learning #AI Planning #Resource Optimization #Cost-Performance Trade-off

2026년 1월 20일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일

[논문리뷰] Think3D: Thinking with Space for Spatial Reasoning

기존 Vision-Language Models (VLMs) 이 2D 인식을 넘어선 진정한 3D 공간 추론 능력 과 일관된 공간 표현을 구축하는 데 한계가 있음을 해결하고자 합니다.

#Review #Spatial Reasoning #3D Reconstruction #VLM Agents #Tool Calling #Reinforcement Learning #Novel View Synthesis #Iterative Exploration

2026년 1월 20일

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일

[논문리뷰] PRiSM: Benchmarking Phone Realization in Speech Models

기존 음소 인식(PR) 평가 방식이 표면적인 전사 정확도에만 초점을 맞추고, 실제 음성 모델의 음소적 능력과 표현의 미묘한 품질을 포착하지 못하며, 연구 간 비교가 어렵다는 문제를 해결하고자 합니다.

#Review #Phone Recognition #Speech Models #Benchmarking #Phonetic Analysis #Cross-lingual Speech #LALMs #Intrinsic Evaluation #Extrinsic Evaluation

2026년 1월 20일

[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing

본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.

#Review #Membership Inference Attacks #Copyright Auditing #Large Language Models #Adversarial Robustness #Paraphrasing #Sparse Autoencoders #Semantic Preservation #LLM Security

2026년 1월 20일

[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.

#Review #Video Transfer #Diffusion Models #Spatio-temporal Learning #Multimodal Alignment #Appearance Consistency #Temporal Control #Video Generation

2026년 1월 20일

[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.

#Review #Reward Models #LLM Memory Management #Benchmarking #Long Context #Evaluation Metrics #Generative RMs #Memory Management Patterns

2026년 1월 20일

[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.

#Review #OCR #Vision-Language Model #End-to-End Learning #Multilingual #Reinforcement Learning #Document Understanding #Bounding Box Prediction #Task Arithmetic Merging

2026년 1월 20일

[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다.

#Review #LLM Explainability #Causal Inference #Structural Counterfactuals #Concept-Based Explanations #Evaluation Benchmark #Faithfulness #SCM

2026년 1월 20일

[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning

픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Visual Generalization #Distribution Shift #Benchmarking #JAX #Controlled Environments #PPO

2026년 1월 20일

[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.

#Review #Multimodal LLMs #Future Forecasting #Audio-Visual Reasoning #Benchmark #Instruction Tuning #Omni-Modal #Causal Reasoning

2026년 1월 20일

[논문리뷰] Fundamental Limitations of Favorable Privacy-Utility Guarantees for DP-SGD

이 논문은 차등 프라이버시(DP)를 적용한 확률적 경사하강법(DP-SGD)의 근본적인 한계를 f-차등 프라이버시(f-DP) 프레임워크 하에서 분석하는 것을 목표로 합니다.

#Review #Differential Privacy (DP)#DP-SGD #f-differential privacy #Privacy-Utility Trade-off #Shuffled Sampling #Poisson Subsampling #Gaussian Noise #Worst-Case Adversary

2026년 1월 20일

[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Vision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Chain-of-Thought Reasoning #Multimodal AI #Implicit Reasoning #Visual AutoRegressor #Embodied AI #Long-Horizon Planning

2026년 1월 20일

[논문리뷰] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

논문은 다양한 로봇 플랫폼에 걸쳐 견고한 Cross-Embodiment Generalization 을 달성하기 위한 Human-Centric Robot Learning 패러다임을 제안합니다.

#Review #Robot Learning #Cross-Embodiment Generalization #Vision-Language-Action Models #Human-Centric Learning #Unified Action Space #Mixture-of-Flow #Real-Time Deployment #Large-Scale Datasets

2026년 1월 20일

[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning

본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.

#Review #Agentic AI #World Models #Experience Learning #LLMs #Physical Hallucinations #Embodied AI #Predictive Coding #Knowledge Repository

2026년 1월 20일

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.

#Review #Low-Resource NLP #Semantic Relations #Dataset Generation #Turkish Language #LLM #FastText Embeddings #Agglomerative Clustering #Synonyms #Antonyms #Co-hyponyms

2026년 1월 20일

[논문리뷰] A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification

본 논문은 프로덕션 LLM 시스템에서 안전성 검토 및 기타 분류 태스크를 위해 별도의 모델을 사용하는 방식이 야기하는 추론 지연 시간, VRAM 사용량, 운영 복잡성 증가 문제를 해결하고자 합니다.

#Review #LLM Orchestration #Lightweight Probes #Token-Layer Aggregation #Hidden States #Single-Pass Classification #Safety Moderation #Sentiment Analysis

2026년 1월 20일

[논문리뷰] YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

본 논문은 LLM의 행동을 미세하게 제어하는 데 있어 기존의 Dense Steering Vector 방식이 지닌 Latent Factor 얽힘(Entanglement) 문제와 불안정성을 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Activation Steering #Sparse Autoencoders (SAEs)#Domain Adaptation #Cultural Alignment #Preference Optimization #Disentangled Representations #Fine-grained Control

2026년 1월 19일

[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.

#Review #Language Models #Persona Control #Activation Steering #Persona Drift #Alignment #Post-training #Interpretability #Safety

2026년 1월 19일

[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.

#Review #RLVR #LLMs #Mechanistic Interpretability #Memorization Shortcuts #Data Contamination #Anchor-Adapter Circuit #Path Patching #Logit Lens

2026년 1월 19일

[논문리뷰] SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

기존 대규모 다중모달 언어 모델(MLLM) 평가 방식은 긴 과학 논문에서 심층적인 이해와 인과 관계를 파악하는 증거 기반 추론 능력 을 제대로 측정하지 못하고, 종종 표면적인 검색이나 파라미터 지식에만 의존하는 한계를 보였습니다.

#Review #Long-Context Understanding #Multimodal AI #Scientific Literature #Evidence-based Reasoning #MLLM Evaluation #Benchmarking #Cross-modal Reasoning #Information Synthesis

2026년 1월 19일

[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning #Chain-of-Thought #Reinforcement Learning #Stochastic Reasoning #Continuous Representation #Token Efficiency

2026년 1월 19일

[논문리뷰] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

본 논문은 일반 자연 이미지에 대해 강력한 성능을 보인 SAM3 와 같은 프롬프트 기반 분할 파운데이션 모델이 심각한 도메인 시프트, 특권적인 공간 프롬프트의 부재, 복잡한 해부학적 및 체적 구조 추론의 필요성으로 인해 의료 영상 분할에 직접 적용하기 어려운 문제를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Foundation Models #SAM3 #Fine-tuning #Prompt-driven #Domain Adaptation #Text-guided Segmentation

2026년 1월 19일

[논문리뷰] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

본 논문은 기존 단일 인물 애니메이션 방법론이 다중 인물, 다양한 캐릭터 유형, 그리고 레퍼런스 이미지와 드라이빙 포즈 간의 공간적 불일치(spatial misalignment) 문제를 해결하지 못하는 한계를 지적합니다.

#Review #Multi-subject Animation #Pose-driven Animation #Diffusion Models #Spatial Misalignment #Unbind-Rebind Paradigm #Character Animation #Video Generation

2026년 1월 19일

[논문리뷰] CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

본 논문은 로봇이 실제 환경에서 새로운 작업을 지속적으로 학습하면서도 기존 지식을 잊지 않는 catastrophic forgetting 문제 를 해결하고, 과거 데이터 저장 및 작업 식별자 없이 작동하는 exemplar-free continual learning 을 Vision-Language-Action (VLA) 모델 에 적용하는 것을 목표로 합니다.

#Review #Continual Learning #Vision-Language-Action Models #Adapter Learning #Catastrophic Forgetting #Autonomous Routing #Parameter-Efficient Learning #Robotics

2026년 1월 19일

[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.

#Review #Backend Development #LLM Agents #Code Generation #Benchmarking #DevOps #Containerization #End-to-End Testing #Environment Configuration

2026년 1월 19일

[논문리뷰] When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

개인화된 대규모 언어 모델(LLM)이 사용자 만족도를 높이는 동시에 사실적 추론을 왜곡 하여 개인화 유도 환각(personalization-induced hallucinations) 을 발생시키는 현상을 이해하고 해결하는 것이 목표입니다.

#Review #Personalized LLMs #Hallucination Mitigation #Factual Reasoning #Representation Entanglement #Inference-time Steering #Question Answering #Factuality Preservation

2026년 1월 18일

[논문리뷰] Reasoning Models Generate Societies of Thought

본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.

#Review #Reasoning Models #Large Language Models (LLMs)#Multi-Agent Systems #Society of Thought #Mechanistic Interpretability #Reinforcement Learning #Cognitive Diversity #Conversational AI

2026년 1월 18일

[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes

본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.

#Review #Vision Language Models #Multi-Image Understanding #Failure Analysis #Evaluation Benchmark #Attention Mechanism #Fine-tuning #MIMIC

2026년 1월 18일

[논문리뷰] Language of Thought Shapes Output Diversity in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 겪는 출력 다양성 부족(예: 모드 붕괴, 특정 문화 가치 과대 대표) 문제를 해결하고자 합니다.

#Review #Large Language Models #Output Diversity #Multilingual Reasoning #Language of Thought #Sampling Strategies #Pluralistic Alignment #Hidden State Analysis #Cognitive Science

2026년 1월 18일

[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Space Planning #Benchmark #Agentic Planning #Physics Constraints #Decision Making #Zero-Shot Learning

2026년 1월 18일

[논문리뷰] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

본 논문은 반지도 학습 기반 의료 영상 분할에서 기존 dropout 방식의 불안정하고 튜닝이 어려운 특성 교란 문제를 해결하고자 합니다.

#Review #Semi-supervised Learning #Medical Image Segmentation #Vector Quantization #Consistency Learning #Feature Perturbation #Foundation Models #Dropout Replacement

2026년 1월 15일

[논문리뷰] VIBE: Visual Instruction Based Editor

본 논문은 기존의 대규모 및 고비용 이미지 편집 모델의 한계를 극복하고, 오픈소스 기반의 초고속, 컴팩트한 시각적 지시 기반 이미지 편집 시스템을 개발하는 것을 목표로 합니다.

#Review #Instruction-Based Image Editing #Diffusion Models #Vision-Language Models (VLM)#Model Efficiency #Multi-stage Training #Preference Alignment #Source Consistency

2026년 1월 15일

[논문리뷰] Urban Socio-Semantic Segmentation with Vision-Language Reasoning

본 논문은 위성 이미지에서 건물이나 수역과 같은 물리적 속성이 아닌, 학교나 공원과 같은 사회적으로 정의된 도시의 의미론적 개체 를 정확하게 분할하는 새로운 도전 과제인 도시 사회-의미론적 분할(Urban Socio-Semantic Segmentation)을 해결하는 것을 목표로 합니다.

#Review #Urban Segmentation #Socio-Semantic #Vision-Language Models (VLMs)#Reinforcement Learning #Geospatial Data #Multi-modal Reasoning #SAM

2026년 1월 15일

[논문리뷰] Transition Matching Distillation for Fast Video Generation

대규모 비디오 Diffusion 모델이 고품질 비디오를 생성하지만, 다단계 샘플링 과정의 비효율성으로 인해 실시간 상호작용 애플리케이션에 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Model Distillation #Few-Step Sampling #Transition Matching #Flow Matching #DMD2 #Efficiency

2026년 1월 15일

[논문리뷰] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

본 논문은 에이전트 기반 과학에서 초장기 자율성(ultra-long-horizon autonomy) 의 핵심 병목 현상을 해결하고자 합니다.

#Review #Agentic AI #Long-Horizon Autonomy #Cognitive Accumulation #Hierarchical Cognitive Caching (HCC)#Context Management #Machine Learning Engineering (MLE)#LLM Agents

2026년 1월 15일

[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Tool Use Safety #Guardrail #Step-level Safety Detection #Prompt Injection #Reinforcement Learning #Feedback Framework

2026년 1월 15일

[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

본 논문은 기존 텍스트-이미지(T2I) 확산 모델들이 대규모 언어 모델(LLM) 기반 텍스트 인코더 를 단순히 특징 추출기로 사용하여 추론 능력을 충분히 활용하지 못하는 한계를 해결하고자 합니다.

#Review #Text-to-Image #Diffusion Models #LLM Encoders #Reasoning-Aware AI #Reinforcement Learning #Dual-GRPO #Prompt Rewriting

2026년 1월 15일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

LLM의 RL 기반 학습에서 발생하는 탐색 붕괴(exploration collapse) 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Exploration Collapse #Strategy-level Diversity #Uniqueness-Aware Rewarding #Creative Problem Solving #Pass@k

2026년 1월 15일

[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Video Understanding #Grounding #Open Weights #Open Data #Multimodal AI #Object Tracking #Dense Captioning

2026년 1월 15일

[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.

#Review #Tool-Integrated Reasoning #LLMs #Reinforcement Learning #Fine-Grained Supervision #Bipartite Matching #Credit Assignment #Advantage Estimation

2026년 1월 15일

[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Instruction Following #Reinforcement Learning #Logical Structures #LLMs #Reward Modeling #Dataset Construction #Attention Mechanism

2026년 1월 15일

[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation

본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.

#Review #Interactive Video Generation #Humanoid Synthesis #Real-time #Streaming Diffusion #MMDiT #Temporal Consistency #Multimodal Control #Low Latency

2026년 1월 15일

[논문리뷰] EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

본 논문은 금융 Q&A에서 회피성 답변(evasive answers) 을 탐지하는 데 필요한 대규모 고품질 벤치마크 부재 와 모호한 경계 사례에 대한 일관성 없는 레이블링 문제를 해결하고자 합니다. 특히 부분적으로 응답하는 답변과 완전한 회피성 답변 사이의 미묘한 경계에 대한 양질의 감독 데이터 확보를 목표로 합니다.

#Review #Evasion Detection #Financial NLP #Large Language Models (LLMs)#Multi-Model Consensus #LLM-as-Judge #Data Annotation #Knowledge Distillation #Hard Sample Mining

2026년 1월 15일

[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

본 연구는 고품질의 중국어 이미지-텍스트 데이터 의 부족으로 인해 지연되었던 중국어 비전-언어 사전 훈련(VLP) 연구의 발전을 목표로 합니다. 최신 웹 데이터를 기반으로 한 대규모 고품질 중국어 크로스모달 데이터셋인 DanQing 을 구축하고, 이를 통해 중국어 VLP 모델의 성능을 향상시키는 것이 주된 목적입니다.

#Review #Vision-Language Pre-training #Chinese Dataset #Data Filtering #Cross-modal Retrieval #Zero-shot Classification #Multimodal LLMs #SigLIP

2026년 1월 15일

[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #Test-Time Adaptation #Large Language Models #Collaborative Reasoning #Credit Assignment #Textual Experience #Distribution Shift Robustness

2026년 1월 15일

[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

본 논문은 비디오 모델을 텍스트-투-이미지(T2I) 생성의 '순수한 시각적 추론기'로 활용하여, 기존 T2I 모델의 시각적 추론 시작점 부재와 중간 단계의 불명확성 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Video Models #Visual Reasoning #Chain-of-Frame (CoF)#Progressive Refinement #Diffusion Models #CoF-Evol-Instruct

2026년 1월 15일

[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.

#Review #Test-Time Tool Evolution #Scientific Reasoning #Large Language Models #Dynamic Tool Synthesis #Tool Adaptation #AI for Science #Autonomous Agents

2026년 1월 15일

[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in Images

이미지 내 객체의 색상, 질감, 재질, 심지어 모양과 같은 내재적 속성(Intrinsic Attributes) 을 변경하면서도 객체의 인지된 정체성(Identity)과 장면 맥락을 충실히 보존하는 새로운 방법을 개발하는 것입니다.

#Review #Intrinsic Attributes #Object Editing #Diffusion Models #Identity Preservation #Visual Named Entities #Text-to-Image #VLM

2026년 1월 15일

[논문리뷰] Action100M: A Large-scale Video Action Dataset

본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.

#Review #Large-scale Dataset #Video Action Recognition #Open-Vocabulary #Temporal Segmentation #Vision-Language Models #Zero-shot Learning #Data Curation #Self-Refine

2026년 1월 15일

[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.

#Review #AI Safety #Large Language Models #Multimodal LLMs #Benchmark Evaluation #Adversarial Robustness #Multilingual Evaluation #Regulatory Compliance #Image Generation Safety

2026년 1월 15일

[논문리뷰] TranslateGemma Technical Report

본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.

#Review #Machine Translation #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Gemma 3 #Multimodal AI #Synthetic Data

2026년 1월 14일

[논문리뷰] The AI Hippocampus: How Far are We From Human Memory?

본 논문은 최신 Large Language Models (LLMs) 및 Multi-Modal LLMs (MLLMs) 의 추론, 적응성, 맥락적 충실도 향상을 위해 메모리 메커니즘을 통합하는 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Multi-Modal LLMs (MLLMs)#Memory Systems #Implicit Memory #Explicit Memory #Agentic Memory #Retrieval-Augmented Generation (RAG)#Contextual Understanding

2026년 1월 14일

[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

본 논문은 일반적인 Large Vision-Language Models (LVLMs) 이 피부과 진단에서 겪는 '확산 주의(diffuse attention)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 미묘한 병리학적 병변을 배경 노이즈로부터 분리하지 못해 정보 전달 효율성이 저하되는 현상입니다.

#Review #Dermatological Diagnosis #Multimodal LLM #Reinforcement Learning #Dynamic Visual Encoding #Information Transmission #Clinically Grounded Evaluation

2026년 1월 14일

[논문리뷰] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

기존 3D 장면 이해 방법론들이 훈련된 임베딩과 대규모 수동 주석, 긴 훈련 시간에 의존하는 한계를 극복하고자 합니다. OpenVoxel은 훈련 없이 희소 복셀을 그룹화하고 캡셔닝하여 오픈-vocabulary 3D 장면 이해 태스크를 수행하며, 특히 복잡한 자연어 질의에 효과적으로 대응하는 것을 목표로 합니다.

#Review #3D Scene Understanding #Open-Vocabulary Segmentation #Referring Expression Segmentation #Training-Free #Voxel Grouping #Vision-Language Models #Multi-modal Large Language Models #Sparse Voxel Rasterization

2026년 1월 14일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] Geometric Stability: The Missing Axis of Representations

논문은 학습된 표현(learned representations) 분석의 한계를 지적하며, 기존의 유사성(similarity) 측정 방식이 표현된 구조의 견고성(robustness)을 놓친다고 주장합니다.

#Review #Geometric Stability #Representation Analysis #Similarity Metrics #Shesha Framework #Drift Detection #Transfer Learning #Neural Representations #CRISPR Screens

2026년 1월 14일

[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

본 논문은 고해상도 UI 스크린샷에서 발생하는 수천 개의 시각 토큰으로 인한 Vision-Language Models (VLMs) 의 UI Grounding 작업의 높은 계산 오버헤드와 주의 분산 문제를 해결하는 것을 목표로 합니다.

#Review #UI Grounding #Visual Token Reduction #Position-Preserving #Vision-Language Models (VLMs)#Saliency Scoring #Computational Efficiency #Human-Computer Interaction

2026년 1월 14일

[논문리뷰] Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

본 논문은 Diffusion Transformer (DiT) 기반의 Image-to-Video (I2V) 모델에서 텍스트 프롬프트에 대한 제어력 부족 문제를 해결하고자 합니다.

#Review #Video Diffusion Models #Image-to-Video Generation #Diffusion Transformers (DiT)#Controllability #Semantic Alignment #Focal Guidance #Prompt Adherence

2026년 1월 14일

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Latent Planning #Chain-of-Thought #Distillation #Inference Efficiency #Robotic Manipulation #Preference Learning

2026년 1월 14일

[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web Agents

기존 웹 에이전트들이 경험을 수동적으로 전역 컨텍스트로 주입하여 동적으로 변하는 환경에서 비효율적인 탐색과 신뢰할 수 없는 응답을 생성하는 문제를 해결하고자 합니다.

#Review #Web Agents #Experience Seeking #Self-Triggered #LLM Reasoning #Entropy #Proactive Guidance #Reinforcement Learning #Foundation Models

2026년 1월 14일

[논문리뷰] EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines

LLM 기반 에이전트가 심층 연구 과정에서 겪는 고정된 워크플로우 의 한계와 무제한적인 자기 진화 로 인한 불안정성(instruction drift, hallucination) 문제를 해결하는 것입니다.

#Review #LLM Agents #Self-Evolution #Finite State Machines #Deep Research #Multi-hop QA #Adaptive Workflow #Memory Mechanism #Controllable AI

2026년 1월 14일

[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #3D Reconstruction #3D Gaussian Splatting #Camera-Controlled #Sparse Keyframes #Real-time #Computational Efficiency

2026년 1월 14일

[논문리뷰] Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

본 논문은 교사 모델이 생성한 응답에 대한 SFT(Supervised Fine-Tuning) 기반 시퀀스 레벨 증류 패러다임의 세 가지 주요 한계점(교사 분포 표현 부족, 교사-학생 모델 학습 능력 불일치, exposure bias)을 해결하고자 합니다.

#Review #Knowledge Distillation #Sequence-level Distillation #Chain-of-Thought Reasoning (CoT)#Large Language Models (LLMs)#Temperature-scheduled Learning #Divergence-aware Sampling #Mixed-policy Distillation #Open-source Models

2026년 1월 14일

[논문리뷰] DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

본 논문은 심층 연구 시스템이 생성하는 길고 복잡한 보고서의 평가가 어렵다는 문제점을 해결하고자 합니다. 기존 벤치마크는 수동 주석 작업이 많거나, 고정된 평가 차원에 의존하거나, 인용되지 않은 사실을 신뢰성 있게 검증하지 못하는 한계가 있었습니다.

#Review #Agentic AI #Deep Research Systems #Automated Evaluation #Task Construction #Fact-Checking #LLM Benchmarking #Adaptive Evaluation

2026년 1월 14일

[논문리뷰] Controlled Self-Evolution for Algorithmic Code Optimization

논문은 기존 LLM 기반 코드 생성 모델 이 기능적으로는 정확하지만 비효율적인 코드를 생성하며, 현재의 자가 진화(self-evolution) 방식이 낮은 탐색 효율성으로 인해 제한된 예산 내에서 최적의 알고리즘적 코드를 찾지 못하는 문제를 해결하고자 합니다.

#Review #Self-Evolution #Code Optimization #Large Language Models #Genetic Algorithms #Hierarchical Memory #Algorithmic Code Generation #Exploration Efficiency

2026년 1월 14일

[논문리뷰] Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

본 연구는 사용자 선호도에 맞춰 정렬된 대규모 언어 모델(LLM) 이 Preference-Undermining Attacks (PUA) 에 취약한지 규명하는 것을 목표로 합니다.

#Review #Large Language Models #Preference Alignment #Preference-Undermining Attacks #Factorial Analysis #Sycophancy #Prompt Engineering #Truth-Deference Trade-off

2026년 1월 14일

[논문리뷰] A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

논문은 기존 과학적 추론 벤치마크가 최종 답변의 정확성과 과정의 일관성에만 초점을 맞추고, 인간 추론의 기저에 있는 메모리 기반 메커니즘 , 즉 앵커(기초 지식)와 어트랙터(경험 기반 템플릿)의 활성화 및 통합을 간과하는 문제를 해결하고자 합니다.

#Review #Scientific Reasoning #Memory-Driven AI #Benchmarking #Large Language Models (LLMs)#Anchor-Attractor Activation #Episodic Memory #Knowledge Retrieval

2026년 1월 14일

[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.

#Review #Embodied Navigation #VLA Model #Adaptive Reasoning #Chain-of-Thought (CoT)#Linguistic Memory #Reinforcement Learning #Sim-to-Real Transfer #Multi-task Learning

2026년 1월 13일

[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.

#Review #Multi-Turn Dialogue Generation #Tool Use #Autonomous Agents #Large Reasoning Models #User Simulation #Synthetic Data Generation #SQL-based Tools #Agentic Benchmarks

2026년 1월 13일

[논문리뷰] Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

본 논문은 기존 벤치마크가 클레임 검증에만 초점을 맞춰 LLM의 사실 확인 워크플로우 전반(클레임 추출 및 증거 검색 포함)을 간과하는 문제를 해결하고자 합니다.

#Review #Fact-Checking #Large Language Models (LLMs)#Benchmarking #Multi-agent System #Stage-wise Evaluation #Claim Evolution #Trustworthy AI

2026년 1월 13일

[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.

#Review #LLM Agents #Calibration #Tool Use #Reinforcement Learning #Miscalibration #Overconfidence #Trustworthy AI

2026년 1월 13일

[논문리뷰] Solar Open Technical Report

Solar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Korean LLM #Synthetic Data Generation #Curriculum Learning #Reinforcement Learning #Tokenizer Optimization #Multilingual AI

2026년 1월 13일

[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Diffusion Transformer (DiT) 모델은 최첨단 이미지 생성 품질을 제공하지만, 높은 계산 및 메모리 비용으로 인해 엣지 디바이스 에서의 배포가 비실용적인 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Transformers #Edge AI #Efficient Image Generation #Sparse Attention #Elastic Training #Knowledge Distillation #Mobile AI #High-Fidelity

2026년 1월 13일

[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다.

#Review #GUI Automation #Flow-based Generative Models #Continuous Control #Vision-Language Models #Human-Computer Interaction #ScreenDrag Benchmark #Dexterous Manipulation

2026년 1월 13일

[논문리뷰] Motion Attribution for Video Generation

본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.

#Review #Motion Attribution #Video Generation #Diffusion Models #Gradient-based Attribution #Temporal Dynamics #Motion Masking #Fine-tuning #Data Curation

2026년 1월 13일

[논문리뷰] Ministral 3

본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Model Distillation #Pruning #Parameter-Efficient AI #Multimodal LLMs #Instruction Tuning #Reinforcement Learning from Human Feedback #Open-Source AI

2026년 1월 13일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

자율 소프트웨어 엔지니어링(SWE) 에이전트가 GitHub와 같은 플랫폼에 축적된 방대한 인간 경험을 효과적으로 활용하지 못하는 '닫힌 세계' 한계를 해결하는 것이 목표입니다.

#Review #Code Agents #Software Engineering #Experiential Memory #GitHub Data #Experience Governance #Agentic Search #LLM Applications #Bug Fixing

2026년 1월 13일

[논문리뷰] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

이 논문은 기존의 LLM 메모리 벤치마크가 단순한 정보 검색에 치우쳐 '인물 이해(Person Understanding)'를 직접적으로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #Person Understanding #Lifelong Digital Companions #Memory Benchmarking #Autobiographical Narratives #Cognitive Stream #Flashback Handling #LLM Evaluation #Hierarchical Reasoning

2026년 1월 13일

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일

[논문리뷰] EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

본 논문은 LLM의 반복적인 자가 훈련 과정에서 발생하는 과도한 자신감(overconfidence) 및 신뢰도 저하(calibration cost) 문제를 해결하여, 모델이 '무엇을 모르는지'를 알게 함으로써 더 나은 추론 능력을 갖추는 것을 목표로 합니다.

#Review #LLM Reasoning #Model Calibration #Epistemic Uncertainty #Self-Training #Supervised Fine-tuning #Confidence-Informed Self-Consistency #Model Collapse

2026년 1월 13일

[논문리뷰] End-to-End Video Character Replacement without Structural Guidance

본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Video Character Replacement #Diffusion Models #In-Context Learning #Reinforcement Learning #Structural Guidance #Video Editing #Data Generation Pipeline

2026년 1월 13일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

본 논문은 경쟁 프로그래밍(Competitive Programming)을 위한 코드 LLM(Large Language Model)이 실제 데이터의 희소성으로 인해 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Competitive Programming #Code LLMs #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Dual Verification #Scaling Laws #SynthSmith

2026년 1월 12일

[논문리뷰] What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

본 논문은 현재 Vision-Language Models (VLMs) 벤치마크가 대부분 명확하고 구조화된 질문에 초점을 맞추고 있어 실제 사용자 질의의 비공식적이고 불완전한 특성을 제대로 반영하지 못하는 문제를 제기합니다.

#Review #Vision-Language Models #Under-specified Queries #Multimodal Benchmark #HAERAE-Vision #Query Explicitation #Retrieval Augmentation #Cultural Knowledge #Korean QA

2026년 1월 12일

[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.

#Review #Video Question Answering #Open-domain Search #Multimodal LLMs #Agentic AI #Benchmark #Video Understanding #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.

#Review #Travel Planning #LLM Agents #Reinforcement Learning #Multi-path Reasoning #Constraint Satisfaction #POI Optimization #Chain-of-Thought

2026년 1월 12일

[논문리뷰] Structured Episodic Event Memory

현재 LLM(Large Language Models)의 RAG (Retrieval-Augmented Generation) 가 겪는 산발적인 정보 검색 및 구조적 의존성 부족 문제를 해결하여, 자율 에이전트의 장기 기억(long-term memory) 성능과 추론 일관성(logical consistency) 을 향상시키는 것을 목표로 합니다.

#Review #LLMs #RAG #Episodic Memory #Graph Memory #Memory Architecture #Narrative Coherence #Long-term Reasoning #Event Frames

2026년 1월 12일

[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #PaCoRe #Test-Time Compute Scaling #LLMs #Parallel Reasoning #Reinforcement Learning #Reasoning Synthesis #Message Passing #Mathematical Reasoning

2026년 1월 12일

[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning

기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Agents #Multi-Agent Systems #System Architecture #Separation of Concerns #RLaaS #Distributed Training #Agent Protocol Coordination

2026년 1월 12일

[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.

#Review #Spoken Language Models #Evaluation Metrics #Perplexity #Mean Opinion Score #Likelihood-based Evaluation #Model-as-a-Judge #Acoustic Consistency #Speech Generation

2026년 1월 12일

[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agent (CUA)#Multi-Agent Framework #Long-horizon Tasks #Memory Management #Multimodal Retrieval #Reflection #Generalization

2026년 1월 12일

[논문리뷰] MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

본 논문은 인터랙티브하고 자율적인 AI 에이전트의 대규모 훈련 및 평가를 위한 기존 인프라의 한계를 해결하고자 합니다.

#Review #Agentic AI #Distributed Orchestration #Scalability #Cloud-Native #Reinforcement Learning #Software Engineering Agents #Resource Management

2026년 1월 12일

[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Transformer의 핵심 모듈인 Self-Attention의 2차 시간 복잡성 으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Linear Attention #Multi-Head Attention #Transformer #Global Context Collapse #Representational Diversity #Image Generation #NLP #Video Generation

2026년 1월 12일

[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

현재 AI 연구는 '정돈된' 벤치마크에 의존하지만, 실제 환경의 본질적인 노이즈를 반영하지 못해 에이전트 AI 시스템의 실제 성능을 오해하게 만듭니다.

#Review #Robustness #Contextual Distractors #RAG #Reasoning Models #Alignment #Tool Use #NoisyBench #Rationale-Aware Reward #Inverse Scaling

2026년 1월 12일

[논문리뷰] GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

대규모 추론 모델(LRMs)의 다단계 사고 체인 생성에서 발생하는 막대한 추론 지연 및 계산 비용 문제를 해결하는 것이 목표입니다. 기존 협업 추론 방식들이 도입하는 비효율적인 오버헤드를 줄이면서, 각 추론 단계의 난이도를 효과적으로 예측하여 적절한 모델(경량 또는 대규모)을 할당하는 방법을 모색합니다.

#Review #Collaborative Inference #Large Reasoning Models (LRMs)#Inference Latency #Step-wise Routing #Initial Token Entropy #Dynamic Routing #Computational Efficiency

2026년 1월 12일

[논문리뷰] ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

LLM 기반의 Tool-Integrated Reasoning (TIR) 에이전트가 정확도에만 집중하여 발생하는 비효율적인 행동 패턴(예: 중복되거나 불충분한 도구 호출) 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#Agent Behavior Calibration #Reinforcement Learning (RL)#Self-Evolving Data Flywheel #Action Space Exploration #Behavioral Efficiency

2026년 1월 12일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data

본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.

#Review #Self-Evolution #Search Agents #Large Language Models (LLMs)#Data-Free Learning #Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

본 논문은 장기적인 인간-에이전트 상호작용에서 LLM 기반 에이전트가 겪는 메모리 앵커링(Memory Anchoring) 문제(과거 상호작용에 과도하게 갇히는 현상)와 메모리 활용 부족 문제를 해결하고자 합니다.

#Review #Long-Term Human-Agent Interaction #Controllable Memory #Memory Anchoring #Large Language Models (LLMs)#Personalization #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Memory Dependence

2026년 1월 12일

[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation Alignment

Latent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.

#Review #Latent Diffusion Models #Variational Autoencoders #Disentangled Representations #Vision Foundation Models #Representation Alignment #Image Generation #Semantic Disentanglement

2026년 1월 12일

[논문리뷰] Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

대부분의 확산 언어 모델(DLMs)이 사용하는 경직된 이진 마스킹 과 이산 토큰 할당 의 한계를 극복하고, 초기 결정의 수정 불가 및 중간 확률적 표현의 활용 미흡 문제를 해결하는 것을 목표로 합니다. 이를 통해 점진적이고 재수정 가능한 디코딩 을 지원하는 새로운 확산 기반 언어 모델을 제안하고자 합니다.

#Review #Diffusion Language Models #Masked Diffusion #Soft Tokens #Progressive Decoding #Iterative Refinement #Continuous Trajectory Supervision #KV-Caching #Blockwise Diffusion

2026년 1월 12일

[논문리뷰] BabyVision: Visual Reasoning Beyond Language

최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Benchmark #Early Vision #Spatial Perception #Visual Tracking #Pattern Recognition #Generative Models

2026년 1월 12일

[논문리뷰] Are LLM Decisions Faithful to Verbal Confidence?

대규모 언어 모델(LLM)이 자체 불확실성을 표현하는 '언어적 자신감'이 모델의 실제 추론, 지식 또는 의사 결정에 얼마나 충실한지 평가하는 것을 목표로 합니다. 특히, LLM이 다양한 오류 페널티에 반응하여 질문 응답 또는 기권 정책을 전략적으로 조정하는지 여부를 테스트합니다.

#Review #Large Language Model #Uncertainty Quantification #Verbal Confidence #Abstention #Decision-Making #Risk-Sensitive AI #Utility Maximization

2026년 1월 12일

[논문리뷰] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

비디오 생성 분야에서 Diffusion 및 Flow-Matching 모델 의 높은 계산 비용과 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Autoregressive Models #Next-Frame Prediction #Multi-scale Prediction #Temporal Consistency #Visual Autoregressive #Error Propagation

2026년 1월 11일

[논문리뷰] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

기존 대규모 시각-언어 모델(LVLM) 기반 지리 위치 특정(Geolocalization) 방법론이 지도 활용이라는 인간의 일반적인 전략을 간과하고 내부 추론에만 의존하는 한계를 극복하고자 합니다.

#Review #Geolocalization #LVLM #Map-Augmented Agent #Reinforcement Learning #Parallel Test-Time Scaling #Tool Use #MAPBench

2026년 1월 11일

[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents

대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.

#Review #Search Agent #Information Retrieval #Large Language Models #Process Reward #Query Refinement #Reinforcement Learning #Curriculum Learning

2026년 1월 11일

[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

본 논문은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식의 데이터를 통합 하여 고정밀 멀티모달 검색을 수행하는 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다.

#Review #Multimodal Retrieval #Multimodal Ranking #Foundation Models #Embedding Models #Reranking Models #Contrastive Learning #Knowledge Distillation #Matryoshka Representation Learning #Quantization-Aware Training

2026년 1월 11일

[논문리뷰] Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning

현재 LLM 에이전트 메모리 시스템이 주로 사용하는 평면적인 정보 저장 방식과 단순 유사성 기반 검색의 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #Agent Memory #Event Graph #Long-term Reasoning #Knowledge Graph #Active Retrieval #Event Segmentation #Multi-hop QA

2026년 1월 11일

[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

기존 비디오 생성 '월드 모델'이 복잡한 물리적 작업을 위한 정확한 목표를 지정하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Physics-Conditioned Goals #Causal Planning #Force Vectors #Zero-Shot Generalization #Diffusion Models #Robotics Planning

2026년 1월 11일

[논문리뷰] GenCtrl -- A Formal Controllability Toolkit for Generative Models

본 연구는 생성 모델의 제어 가능성(controllability)이 암묵적으로 가정되는 현 상황을 비판하며, 모델이 실제로 얼마나 제어 가능한지에 대한 이론적 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Generative Models #Controllability #Reachability #Control Theory #Dialogue Systems #LLMs #T2IMs #PAC Bounds #Formal Verification

2026년 1월 11일

[논문리뷰] Distilling Feedback into Memory-as-a-Tool

본 논문은 LLM 의 추론 시 발생하는 높은 연산 비용과 반복적인 자기 수정 과정의 비효율성을 해결하고자 합니다. 특히, 기존 'System 2' 스케일링 방법론들이 매번 새로운 쿼리에 대해 처음부터 추론 과정을 반복하여 발생하는 지식 손실 과 계산 자원 낭비 문제를 극복하는 것을 목표로 합니다.

#Review #LLM #Continual Learning #Memory-Augmented Agents #Self-Correction #Feedback Distillation #Tool Use #Inference Cost Amortization #Rubric-based Learning

2026년 1월 11일

[논문리뷰] CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

본 논문은 제어 가능하고 사실적인 3D 얼굴 캐리커처 아바타를 생성하는 데 있어 기존 메시 기반 방법론의 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Facial Caricaturization #Gaussian Curvature #Mesh Deformation #Photorealistic Rendering #Human Avatars #Local Affine Transformations

2026년 1월 11일

[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

비디오 이해 태스크에서 Chain-of-Thought (CoT) 추론의 필요성과 이점을 재평가하고, 기존 CoT 방식이 때로는 직접 답변보다 성능이 낮고 비효율적임을 지적합니다. 이를 바탕으로, 필요한 경우에만 추론을 수행하여 효율성과 정확성을 동시에 개선하는 적응형 비디오 추론 프레임워크 를 개발하는 것이 목표입니다.

#Review #Video Understanding #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Adaptive Reasoning #Early Exit #Multimodal LLM #Video QA #Temporal Grounding

2026년 1월 8일

[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Video World Model #4D Geometric Control #Gaussian Trajectories #Video Generation #Diffusion Models #Camera Control #Object Motion Control #Data Engine

2026년 1월 8일

[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

기존 산업용 결함 검사 시스템의 높은 오탐률, 낮은 적응성, 일반화 능력 부족, 그리고 블랙박스 모델의 해석 불가능성 한계를 극복하는 것이 목표입니다.

#Review #Industrial Defect Detection #Multimodal Dataset #Vision-Language Model #Diffusion Model #Open-Vocabulary Learning #Quality Inspection #Data Efficiency #Foundation Model

2026년 1월 8일

[논문리뷰] Token-Level LLM Collaboration via FusionRoute

논문은 여러 전문 LLM 간의 효과적인 토큰 수준 협업 을 통해 단일 모델보다 높은 품질의 응답을 생성하는 것을 목표로 합니다.

#Review #LLM Collaboration #Token-level Routing #Mixture-of-Experts #Complementary Logits #Preference Optimization #FusionRoute #Domain Adaptation

2026년 1월 8일

[논문리뷰] The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts Models

본 연구는 MoE(Mixture-of-Experts) 모델 이 희소 라우팅을 통해 도메인 특화(domain specialization)를 달성한다는 일반적인 가정에 의문을 제기합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Routing #Domain Specialization #Load Balancing #Interpretability #Standing Committee #LLM

2026년 1월 8일

[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.

#Review #Robot Manipulation #Data Augmentation #Video Generation #Diffusion Models #Multi-View #Visual Identity Prompting #Action-Guided Segmentation #Visuomotor Policy

2026년 1월 8일

[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative Decoding

본 논문은 복잡한 추론 작업에서 대규모 언어 모델(LLM) 의 높은 연산 비용과 지연 시간 문제를 해결하면서, 소규모 언어 모델(SLM) 의 제한된 추론 능력을 보완하는 효율적인 방법을 제안합니다.

#Review #LLM #SLM #Collaborative Decoding #Token-level Intervention #Reinforcement Learning #GRPO #Efficient Reasoning #Resource Efficiency

2026년 1월 8일

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.

#Review #In-Context Image Generation #Image Editing #Multimodal Models #Chain-of-Thought #Structured Reasoning #Reinforcement Learning #Alignment #Diffusion Models

2026년 1월 8일

[논문리뷰] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

본 논문은 저조도 야간 환경에서 자동 화이트 밸런스(AWB) 보정의 신뢰성 및 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Auto White Balance (AWB)#Deep Reinforcement Learning (DRL)#Low-Light Imaging #Night-time Scenes #Color Constancy #Cross-Sensor Generalization #Statistical Methods #Curriculum Learning

2026년 1월 8일

[논문리뷰] Plenoptic Video Generation

본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video #Camera Control #Plenoptic Function #Autoregressive Model #Diffusion Transformer #3D FOV Retrieval #Spatio-Temporal Consistency

2026년 1월 8일

[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study

3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.

#Review #3D Shape Generation #Memorization #Generative Models #Diffusion Models #Evaluation Framework #Generalization #Data Augmentation

2026년 1월 8일

[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Weight Decay #Learnable Multipliers #Scale Adaptation #Optimization #µP Parametrization #Adam #Muon

2026년 1월 8일

[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-reward RL #Policy Optimization #Reward Normalization #GRPO #GDPO #LLMs #Training Stability

2026년 1월 8일

[논문리뷰] Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

본 논문은 Vision-Language Model (VLM)의 autoregressive 생성 과정에서 모든 토큰이 모델 불안정성에 동일하게 기여한다는 기존 가정에 도전합니다.

#Review #Vision-Language Models #Adversarial Attacks #Entropy-Guided Attacks #Token Vulnerability #Harmful Content #Cross-Model Transferability #Autoregressive Generation

2026년 1월 8일

[논문리뷰] Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach

본 논문은 객체 탐지 성능을 향상시키기 위해 훈련 시에만 접근 가능한 특권 정보(Privileged Information, PI) 를 활용하는 LUPI(Learning Under Privileged Information) 패러다임을 통합하는 것을 목표로 합니다.

#Review #Object Detection #Privileged Information #Teacher-Student Learning #Knowledge Distillation #Model-Agnostic #Bounding Box Masks #UAV-based Detection

2026년 1월 8일

[논문리뷰] DocDancer: Towards Agentic Document-Grounded Information Seeking

본 연구는 기존 DocQA(Document Question Answering) 에이전트들의 비효율적인 도구 활용 및 폐쇄형 모델 의존성 문제를 해결하고자 합니다.

#Review #Agentic AI #Document Question Answering #Tool-use #Information Seeking #Synthetic Data Generation #Long-context Understanding #Multimodal Documents

2026년 1월 8일

[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought #Diffusion Models #Large Language Models #Reasoning #Error Correction #Preference Optimization #Denoising

2026년 1월 8일

[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.

#Review #LLM Agents #Release Engineering #Self-Improvement #Regression Testing #Continuous Integration #Flip-Centered Gating #Auditable Development #Software Engineering

2026년 1월 8일

[논문리뷰] Agent-as-a-Judge

본 논문은 LLM-as-a-Judge의 한계(내재된 편향, 피상적인 추론, 실제 관찰에 대한 검증 불가능성)를 극복하기 위해 Agent-as-a-Judge 패러다임으로의 전환을 포괄적으로 탐구하는 것을 목표로 합니다.

#Review #Agent-as-a-Judge #LLM Evaluation #Multi-Agent Systems #Tool Integration #AI Alignment #Automated Assessment #Survey

2026년 1월 8일

[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Agentic RL #Multi-turn Tasks #Policy Optimization #Tree Search #Credit Assignment #Exploration Diversity #LLM Agents

2026년 1월 8일

[논문리뷰] Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

본 논문은 최신 추론형 LLM(Large Language Models)이 최소한의 코드 스캐폴딩과 기본적인 도구를 사용하여 연구 아이디어 구상부터 최종 연구 논문 작성까지 높은 자율성 을 가지고 수행할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Machine Learning Research #Autonomous Research #LLM Agents #Scientific Workflow #Failure Modes #Experimental Design #AI Scientist #Agentic Systems

2026년 1월 7일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization

기존 3D Gaussian Splatting (3DGS) SLAM 시스템의 residual-driven densification 방식이 초래하는 불안정한 수렴과 불균일한 지오메트리 문제를 해결하는 것입니다.

#Review #Gaussian Splatting #SLAM #Dense Initialization #Real-Time Tracking #Differentiable Rendering #DINOv3

2026년 1월 7일

[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.

#Review #Molecular Dynamics #LAMMPS #Code Generation #Knowledge Q&A #Large Language Models #Reinforcement Learning #Multi-agent System #Domain Adaptation

2026년 1월 7일

[논문리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

기존 Memory-Augmented Generation (MAG) 시스템들이 단일 메모리 저장소에서 의미론적 유사성에 의존하여 시간, 인과, 엔티티 정보를 얽히게 하여 발생하는 해석 가능성 및 추론 정확도 한계를 해결하고자 합니다.

#Review #Agentic Memory #Large Language Models #Retrieval-Augmented Generation #Knowledge Graphs #Multi-Graph Architecture #Long-Context Reasoning #Memory Evolution

2026년 1월 7일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.

#Review #Supervised Fine-Tuning (SFT)#Catastrophic Forgetting #Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation #Reinforcement Learning (RL)#Confident Conflicts

2026년 1월 7일

[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Flow Models #Entropy-aware Sampling #Group Relative Policy Optimization #SDE #Human Preference Alignment #Image Generation

2026년 1월 7일

[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.

#Review #Hate Speech Detection #Explainable AI (XAI)#Multilingual NLP #Large Language Models (LLMs)#Attention Mechanism #N-gram Explanations #Human Rationales #Benchmark Dataset

2026년 1월 6일

[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Self-Supervised Learning #Text-to-Image Generation #Multi-Agent Framework #Cognitive Pattern Reconstruction #Cycle-Consistency #Conduction Aphasia

2026년 1월 6일

[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs

본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.

#Review #LLM Steerability #Instrumental Convergence #AI Safety #AI Security #Open-Weight Models #Prompt Engineering #Model Control #Behavioral Alignment

2026년 1월 6일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] Parallel Latent Reasoning for Sequential Recommendation

순차 추천 시스템에서 희소한 사용자 행동 시퀀스로부터 복잡한 사용자 선호를 포착하는 문제를 해결하는 것이 목표입니다.

#Review #Sequential Recommendation #Latent Reasoning #Parallel Processing #Computational Scaling #Mixture of Experts #Contrastive Learning #Transformer Architecture

2026년 1월 6일

[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents

논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.

#Review #Generalist Agents #Foundation Models #Behavior Cloning #Video Games #Action Extraction #Multi-game #Embodied AI

2026년 1월 6일

[논문리뷰] MiMo-V2-Flash Technical Report

본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sliding Window Attention #Multi-Token Prediction #Multi-Teacher On-Policy Distillation #Reinforcement Learning #Long-Context Modeling #Agentic AI

2026년 1월 6일

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Audio-Video #Diffusion Transformer #Cross-Modal Attention #Classifier-Free Guidance #Efficient Inference #Foundation Model

2026년 1월 6일

[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

기존의 이산적인 이미지 그리드 기반 깊이 추정 방식이 가지는 해상도 확장성 및 기하학적 세부 정보 복구의 한계를 극복하는 것을 목표로 합니다.

#Review #Depth Estimation #Neural Implicit Fields #Arbitrary Resolution #Fine-Grained #Novel View Synthesis #Vision Transformer #Synth4K Benchmark

2026년 1월 6일

[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.

#Review #Video Editing #First-Frame Propagation (FFP)#Large-Scale Dataset #Generative Models #Temporal Consistency #Spatio-Temporal RoPE #Self-Distillation

2026년 1월 6일

[논문리뷰] DreamStyle: A Unified Framework for Video Stylization

본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Video Stylization #Unified Framework #Diffusion Models #LoRA #Data Curation #Multi-modal Input #Image-to-Video

2026년 1월 6일

[논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

기존 Multimodal Large Language Models (MLLMs) 이 시각적 수학 문제 해결에서 낮은 정확도와 일관성 없는 추론을 보이는 문제를 해결하는 것이 목표입니다. 특히, 시각적 정보 추출 후 이 정보가 추론 과정에 충실히 통합되고 활용되는지를 보장하지 못하는 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Mathematical Problem Solving #Knowledge Internalization #Reinforcement Learning #Cognitive-Inspired AI #Perception-Reasoning Alignment

2026년 1월 6일

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.

#Review #Unified Generation #Multimodal Diffusion #Vision-Language Model #Image Editing #Video Editing #Interleaved Context #Progressive Training #Diffusion Transformer

2026년 1월 5일

[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Visual Autoregressive (VAR) 모델은 이질적인 입력 구조와 생성 단계별로 크게 변동하는 쿼리 토큰 수로 인해 비동기 정책 충돌이 발생하여, 특히 RL 환경에서 불안정한 학습과 최적화되지 않은 정렬을 초래합니다.

#Review #Visual Autoregressive Models #Reinforcement Learning #Policy Conflicts #GRPO #Text-to-Image Generation #Credit Assignment #Multi-scale Generation

2026년 1월 5일

[논문리뷰] Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

본 논문은 원격 탐사(RS) 이미지의 시맨틱 분할에서 의사 레이블(pseudo-label) 드리프트 와 확증 편향 으로 인한 오류 축적 문제를 해결하고, 고비용의 픽셀 단위 주석 의존도를 낮추는 것을 목표로 합니다.

#Review #Semi-Supervised Learning #Semantic Segmentation #Remote Sensing #Vision Foundation Models #Pseudo-Label Drift #Co-Guidance #Feature Fusion

2026년 1월 5일

[논문리뷰] Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

본 논문은 기존 텍스트 기반 이미지 편집 모델이 객체 수준의 기하학적 변환(이동, 회전, 크기 조절)에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Text-Guided Image Editing #Object-Level Transformation #Geometric Transformation #Diffusion Models #GRPO #Scene Editing #Spatially Grounded Rewards

2026년 1월 5일

[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.

#Review #Software Engineering #Issue Resolution #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset #Error Masking #Curriculum Learning #Test-Time Scaling (TTS)#Generative Verifiers

2026년 1월 5일

[논문리뷰] Recursive Language Models

본 논문은 대규모 언어 모델(LLMs)이 컨텍스트 길이 제한으로 인해 긴 프롬프트를 효과적으로 처리하지 못하고 '컨텍스트 로트(context rot)' 현상을 겪는 문제를 해결하고자 합니다. 특히, 수백만 토큰 규모의 장기 작업에서 일반 목적 LLM의 컨텍스트 크기를 추론 시점에 획기적으로 확장 하는 것을 목표로 합니다.

#Review #Recursive Language Models #Large Language Models #Long Context Processing #Inference Scaling #REPL Environment #Task Decomposition #Sub-LM Calls #Context Management

2026년 1월 5일

[논문리뷰] Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

본 논문은 대규모 언어 모델(LLM) 에이전트의 Chain-of-Thought(CoT) 추론 과정 이 실제 모델 출력의 원인인지 혹은 사후 합리화인지에 대한 'Faithfulness Gap' 문제를 해결하고자 합니다.

#Review #LLM Agents #Faithfulness #XAI #Causal Inference #Structural Causal Models #Counterfactual Interventions #Reasoning Trace Auditing #Causal Decoupling

2026년 1월 5일

[논문리뷰] OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

OpenNovelty 는 방대하고 빠르게 진화하는 학술 문헌 속에서 논문의 독창성을 평가하는 피어 리뷰의 어려움을 해결하고자 합니다. 특히, 기존 LLM 기반 접근법 이 겪는 환각 현상이나 세부 분석 부족 문제를 극복하여, 투명하고 추적 가능하며 증거에 기반한 독창성 분석을 제공하는 것을 목표로 합니다.

#Review #LLM 에이전트 시스템 #학술 독창성 평가 #피어 리뷰 지원 #증거 기반 검증 #의미론적 검색 #계층적 분류 체계 #대규모 언어 모델

2026년 1월 5일

[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

NextFlow는 단일 decoder-only autoregressive transformer 를 사용하여 멀티모달 이해 및 생성 능력을 통합하는 것을 목표로 합니다.

#Review #Multimodal AI #Decoder-only Transformer #Next-scale Prediction #Image Generation #Image Editing #Reinforcement Learning #Unified Modeling #TokenFlow

2026년 1월 5일

[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

본 논문은 텍스트-투-이미지 확산 모델의 개념 삭제(concept erasure) 방법들이 텍스트 프롬프트 외의 다른 입력 양식(모달리티)에 대해 얼마나 취약한지 평가하고, 이러한 취약점을 개선할 수 있는 새로운 추론 시간 방어 메커니즘을 제안하는 것을 목표로 합니다.

#Review #Diffusion Models #Concept Erasure #Multimodal Evaluation #Adversarial Attacks #Robustness #Textual Inversion #Latent Inversion #Cross-Attention

2026년 1월 5일

[논문리뷰] KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

디코더 전용 LLM을 학습 없이 텍스트 임베딩 백본으로 활용할 때 발생하는 두 가지 구조적 문제(인과적 어텐션으로 인한 정보 비대칭, 다음 토큰 예측 목표로 인한 의미 압축 편향)를 해결하여, 고품질의 텍스트 임베딩을 효율적으로 추출하는 것입니다.

#Review #Text Embedding #Decoder-only LLMs #Training-free #KV Re-routing #Causal Attention #Representation Learning #Intrinsic Dimensionality

2026년 1월 5일

[논문리뷰] K-EXAONE Technical Report

LG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.

#Review #Multilingual Language Model #Mixture-of-Experts (MoE)#Long Context #AI Safety #Korean AI #Foundation Model #Reinforcement Learning (RL)

2026년 1월 5일

[논문리뷰] InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

본 논문은 실시간 스트리밍 환경에서 3D 시각 기하학 이해 가 확장성과 장기적 안정성이라는 상충되는 요구사항으로 인해 제한되는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Streaming Perception #Memory Management #KV Cache Pruning #Visual Geometry #Temporal Consistency #Continuous Learning

2026년 1월 5일

[논문리뷰] IMA++: ISIC Archive Multi-Annotator Dermoscopic Skin Lesion Segmentation Dataset

이 연구는 피부 병변 분할(Skin Lesion Segmentation, SLS) 분야의 주요 난제 중 하나인 대규모 다중-어노테이터(multi-annotator) 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Dermoscopy #Skin Lesion Segmentation #Multi-Annotator Dataset #Inter-Annotator Variability #ISIC Archive #Medical Image Analysis #Machine Learning #Data Annotation

2026년 1월 5일

[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.

#Review #Diffusion Models #Reinforcement Learning #Reward Hacking #KL Regularization #Adaptive Regularization #Diversity Optimization #Text-to-Image Generation

2026년 1월 5일

[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Reasoning #Small Language Models (SLMs)#Hybrid Architecture #Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf #Computational Efficiency

2026년 1월 5일

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.

#Review #Video Face Swapping #Diffusion Transformer #Identity Preservation #Temporal Consistency #Modality-Aware Conditioning #Reinforcement Learning #Data Synthesis

2026년 1월 5일

[논문리뷰] Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

거대 언어 모델(LLM)이 생성하는 텍스트의 정확성 또는 오류를 스스로 인지하지 못하는 문제를 해결하고, 외부 평가자 없이 LLM 내부 작동을 통해 자체 실패를 예측할 수 있는 경량 메커니즘 을 개발하는 것을 목표로 합니다. 이는 LLM의 신뢰성, 안전성 및 효율성을 향상시키는 데 중요합니다.

#Review #LLM Self-Awareness #Failure Prediction #Internal States #Attention Mechanisms #Neural Network Probes #Computational Efficiency #Zero-Shot Transfer

2026년 1월 5일

[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.

#Review #LLM Evaluation #Policy Alignment #Organizational Policies #AI Safety #Adversarial Robustness #Refusal Behavior #Prompt Engineering #Fine-tuning

2026년 1월 5일

[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Automated Agent Generation #Reinforcement Learning #Hybrid Policy Optimization #Tool Synthesis #In-context Learning #Agent Framework #Scalability

2026년 1월 4일

[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

본 논문은 멀티모달 대규모 언어 모델(MLLMs) 이 시각적 내용보다 언어적 선험 지식에 과도하게 의존하여 발생하는 시각적으로 근거 없는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #MLLMs #Video Understanding #Hallucinations #Counterfactual Generation #Diffusion Models #Reinforcement Learning #QA Dataset #DNA-Train

2026년 1월 4일

[논문리뷰] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

본 논문은 기존 VLM 기반 에이전트의 텍스트 중심 추론 및 고립된 도구 호출 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Reinforcement Learning #Vision-Language Models #Tool Use #Agentic Reasoning #Image Search #HR-MMSearch #BN-GSPO

2026년 1월 4일

[논문리뷰] Nested Learning: The Illusion of Deep Learning Architectures

본 논문은 기존 딥러닝 모델, 특히 대규모 언어 모델(LLM) 이 직면한 지속 학습, 자기 개선, 효과적인 문제 해결 능력의 한계를 극복하고자 합니다. 이를 위해 기계 학습 모델을 중첩되고 다단계의 최적화 문제로 해석하는 새로운 학습 패러다임인 Nested Learning (NL) 을 제안합니다.

#Review #Nested Learning #Continual Learning #In-context Learning #Associative Memory #Multi-Timescale Memory #Self-Modifying Models #Optimizers

2026년 1월 4일

[논문리뷰] NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

본 연구는 기존 4D 세계 모델링 방법론의 확장성 한계(고비용의 특수 다중 뷰 데이터 및 번거로운 오프라인 전처리)를 극복하고자 합니다. 이를 위해 다양한 in-the-wild 단일 뷰 영상 으로부터 4D 재구성 및 새로운 경로 영상 생성 이 가능한 다재다능하고 확장성 높은 4D 세계 모델 NeoVerse 를 제안합니다.

#Review #4D World Model #Gaussian Splatting #Monocular Video #Novel View Synthesis #Video Generation #Feed-Forward Reconstruction #Degradation Simulation

2026년 1월 4일

[논문리뷰] MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

본 논문은 3D 모핑의 난제를 해결하고자 합니다. 특히 다양한 카테고리 간의 객체에 대해 의미론적으로 일관되고 시간적으로 부드러운 변형 시퀀스를 훈련 없이 생성하는 것을 목표로 합니다. 기존 3D 모핑 방식의 한계, 즉 부정확한 대응 추정으로 인한 구조적으로 비현실적인 결과와 낮은 일반화 성능을 극복하고자 합니다.

#Review #3D Morphing #Structured Latent (SLAT)#Generative Models #Attention Mechanisms #Training-Free Framework #Cross-Category Transitions #Temporal Coherence

2026년 1월 4일

[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs

대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.

#Review #Benchmark Synthesis #LLM Evaluation #Code Generation #Information Theory #Genetic Algorithms #Novelty Metrics #Diversity Metrics

2026년 1월 4일

[논문리뷰] Fast-weight Product Key Memory

본 논문은 최신 언어 모델의 시퀀스 모델링 레이어에서 저장 용량과 계산 효율성 사이의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Fast-weight Memory #Product Key Memory #Episodic Memory #Language Models #Long-Context Modeling #Memory Augmented Networks #Continual Learning

2026년 1월 4일

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일

[논문리뷰] Deep Delta Learning

본 논문은 딥 잔차 신경망(Deep Residual Networks)의 엄격한 가산적 귀납적 편향(additive inductive bias)으로 인해 복잡한 상태 전이 모델링 능력이 제한되는 문제를 해결하고자 합니다.

#Review #Deep Residual Networks #Delta Operator #Geometric Transformation #Spectral Analysis #Gated Networks #Householder Reflection #Dynamical Systems #Identity Shortcut

2026년 1월 4일

[논문리뷰] Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

본 논문은 기존의 단방향적인 아바타 생성 모델들이 부족했던 실시간 양방향 상호작용 과 감정적 참여(emotional engagement) 를 가능하게 하는 대화형 헤드 아바타 생성 시스템을 개발하는 것을 목표로 합니다.

#Review #Avatar Generation #Real-Time Interaction #Diffusion Models #Preference Optimization #Causal Inference #Multimodal Input #Head Avatar

2026년 1월 4일

[논문리뷰] AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

본 논문은 단일 시점 비디오에서 동적인 3D 장면을 재구성할 때 발생하는 주요 문제점인 고주파수 외형 디테일과 시간적 연속성의 동시 확보를 목표로 합니다.

#Review #Dynamic Scene Reconstruction #Gabor Representation #Gaussian Splatting #Temporal Continuity #Cubic Hermite Splines #Frequency Adaptivity #Monocular Video

2026년 1월 4일

[논문리뷰] On the Role of Discreteness in Diffusion LLMs

본 논문은 확산 모델(Diffusion Models)을 언어 모델링에 적용할 때 발생하는 근본적인 문제점을 분석하고, 텍스트의 이산적이고 구조화된 특성이 확산 메커니즘과 어떻게 불일치하는지 명확히 하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Discrete Text #Continuous Diffusion #Text Generation #Data Augmentation #Parallel Decoding #Structural Dependency

2026년 1월 1일

[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

본 논문은 기존 대규모 언어 모델(LLM)이 언어의 비균일한 정보 밀도에도 불구하고 토큰에 균일한 연산을 적용하여 발생하는 비효율성 문제를 해결하고자 합니다.

#Review #Hierarchical Language Model #Concept-Level Reasoning #Dynamic Segmentation #Adaptive Computation #Scaling Laws #Maximal Update Parametrization #Next-Token Prediction #Flash Attention

2026년 1월 1일

[논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

현재 Multimodal Large Language Models (MLLMs)이 겪는 텍스트 중심 추론의 한계와 복잡한 장기 시각 중심 태스크에서의 비효율성을 해결하고, 확산 모델을 활용한 새로운 '생성형 멀티모달 추론' 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Diffusion Models #Image-to-Image Generation #Vision-centric AI #Generative AI #Spatial Planning #Constraint Satisfaction

2026년 1월 1일

[논문리뷰] mHC: Manifold-Constrained Hyper-Connections

논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.

#Review #Hyper-Connections #Residual Connections #Manifold Learning #Doubly Stochastic Matrices #Training Stability #Large Language Models #Infrastructure Optimization #Deep Learning Architecture

2025년 12월 31일

[논문리뷰] Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

본 논문은 경량 LLM이 높은 계산 효율성 을 유지하면서도 내재적인 에이전트 지능을 갖출 수 있도록 하는 것을 목표로 합니다. 특히, 기존의 증류(distillation) 방식이 아닌, sub-2B 규모 의 모델이 처음부터 추론 및 계획 능력 을 체계적으로 학습하도록 하는 데 중점을 둡니다.

#Review #Lightweight LLM #Agentic AI #Pre-training #Multi-Latent Attention #Long-Context #Curriculum Learning #Agentic Mid-training #Instruction Tuning

2025년 12월 31일

[논문리뷰] Valori: A Deterministic Memory Substrate for AI Systems

현대 AI 시스템, 특히 RAG(Retrieval Augmented Generation) 및 에이전트 워크플로우에서 부동 소수점(floating-point) 연산 으로 인해 발생하는 비결정론적(non-determinism) 메모리 상태 문제를 해결하는 것이 목표입니다.

#Review #Deterministic AI #Reproducible Computation #Fixed-Point Arithmetic #Vector Databases #AI Memory #State Machine #Auditability

2025년 12월 31일

[논문리뷰] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

본 연구는 단일 모노큘러 비디오 로부터 동적 장면을 공간(카메라 시점)과 시간(모션 시퀀스)에 걸쳐 독립적으로 제어하며 생성적으로 렌더링하는 것을 목표로 합니다.

#Review #Video Diffusion Model #Generative Rendering #Novel View Synthesis #Space-Time Disentanglement #Temporal Control #Camera Control #Dynamic Scenes #Temporal Warping

2025년 12월 31일

[논문리뷰] Scaling Open-Ended Reasoning to Predict the Future

본 연구는 불확실한 미래에 대한 개방형 예측 질문에 대해 언어 모델(LLM)이 정확하고 신뢰할 수 있는 예측을 할 수 있도록 훈련하는 것을 목표로 합니다.

#Review #Language Models #Forecasting #Open-Ended Reasoning #Reinforcement Learning (RL)#Data Generation #Calibration #Retrieval-Augmented Generation (RAG)#Future Prediction

2025년 12월 31일

[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory Compression

본 논문은 오토회귀 비디오 생성 모델에서 발생하는 긴 비디오 컨텍스트 처리의 한계 와 컨텍스트 품질 및 길이 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #Video Compression #Autoregressive Models #Memory Compression #Frame Preservation #Pretraining #Video Generation #Diffusion Models #Long-Range Consistency

2025년 12월 31일

[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Physics-Aware AI #Direct Preference Optimization #Groupwise Preference Learning #Vision-Language Model #LoRA

2025년 12월 31일

[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.

#Review #Agentic Learning Ecosystem #Large Language Models #Reinforcement Learning #Agentic Crafting #Tool Use #ROME Model #Policy Optimization #Sandbox Environment

2025년 12월 31일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself

확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Transformer #Generative AI #Image Generation #Guidance Strategy #Internal Guidance #Auxiliary Loss #Classifier-Free Guidance

2025년 12월 31일

[논문리뷰] Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

호흡음 분류를 위한 ICBHI 2017 과 같은 소규모, 고노이즈, 클래스 불균형 데이터셋에서 Transformer 기반 모델의 과적합 및 일반화 문제 를 해결하고, 특히 민감도(Sensitivity) 를 향상시키는 것을 목표로 합니다.

#Review #Respiratory Sound Classification #Audio Spectrogram Transformer #Sharpness-Aware Minimization #Loss Landscape #Imbalanced Learning #Transfer Learning #ICBHI 2017

2025년 12월 31일

[논문리뷰] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

본 논문은 제한된 입력 뷰(sparse-view) 환경에서 발생하는 3D 재구성의 고질적인 문제(구멍, 고스팅, 기하학적 불일치)를 해결하고자 합니다.

#Review #3D Reconstruction #Sparse-View #Diffusion Models #Outpainting #Gaussian Splatting #Geometry-aware #Novel View Synthesis

2025년 12월 31일

[논문리뷰] GR-Dexter Technical Report

본 논문은 고자유도(high-DoF) 양손 덱스터러스 핸드 로봇에서 Vision-Language-Action (VLA) 모델 기반의 일반화된 로봇 조작 정책을 확장하는 과제를 해결합니다.

#Review #Dexterous Manipulation #Bimanual Robotics #VLA Models #Robot Learning #Teleoperation #Cross-Embodiment Data #Robotic Hand Design

2025년 12월 31일

[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.

#Review #Multi-modal Pre-training #Autonomous Systems #Spatial Intelligence #Foundation Models #LiDAR-Camera Fusion #Self-Supervised Learning #Generative World Models #Embodied AI

2025년 12월 31일

[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Visual Thinking #Reinforcement Learning #Code Generation #Geometric Reasoning #Adaptive Reward Mechanism #Problem Solving

2025년 12월 31일

[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.

#Review #LLM Reasoning #Mechanistic Interpretability #Sparse Autoencoders (SAEs)#Activation Steering #Unsupervised Learning #Reasoning Behaviors #Chain-of-Thought #Feature Disentanglement

2025년 12월 31일

[논문리뷰] Factorized Learning for Temporally Grounded Video-Language Models

기존 비디오-언어 모델(VLLMs)이 이벤트 수준의 정확한 temporal grounding 과 텍스트 응답 생성에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Video-Language Models #Temporal Grounding #Factorized Learning #Preference Optimization #Evidence Referencing #Video Understanding #Dense Captioning

2025년 12월 31일

[논문리뷰] BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts

전략적 대화에서 에이전트가 정확하게 추정된 신념을 발화 생성에 효과적으로 활용하는 메커니즘이 부족하다는 문제를 해결하고자 합니다. 복잡한 신념 상태에서 기존 방식이 비최적적인 의사소통으로 이어지는 한계를 극복하고, 신념 추정을 기반으로 신뢰성 높은 전략적 대화를 수행하는 것을 목표로 합니다.

#Review #Strategic Dialogue #Belief Estimation #Dialogue Acts #Probabilistic Constraints #Theory of Mind #Adversarial Dialogue #Alignment Dialogue

2025년 12월 31일

[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.

#Review #Autonomous Agents #Memory Systems #Cognitive Neuroscience #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management #Multimodal Memory #Agent Skills

2025년 12월 31일

[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

본 논문은 3D 콘텐츠 생성에서 데이터 품질, 기하학적 확장성, 미세 디테일 합성이라는 주요 과제를 해결하기 위해, 고품질의 3D 형상을 효율적으로 생성하는 확장 가능한(scalable) 3D 확산 프레임워크인 UltraShape 1.0 을 제안합니다.

#Review #3D Shape Generation #Diffusion Models #Geometric Refinement #Data Curation #Watertight Mesh #Voxel-based #Scalability #High-Fidelity

2025년 12월 30일

[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization

본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.

#Review #Issue Localization #Causal Reasoning #Graph-guided #Large Language Models #Software Engineering #Defect Analysis #Repository Mining

2025년 12월 30일

[논문리뷰] GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

본 논문은 Mixture-of-Experts (MoE) LLM 의 고유한 안전 특성과 취약점이 기존 Dense LLM 에 비해 충분히 연구되지 않았다는 문제의식을 제기합니다.

#Review #MoE LLM #Safety Alignment #Adversarial Attack #Neuron Pruning #Gate-level Profiling #Transfer Attack #Vision Language Model

2025년 12월 30일

[논문리뷰] Evaluating Parameter Efficient Methods for RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.

#Review #Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning #LLM Adaptation #SVD Initialization

2025년 12월 30일

[논문리뷰] End-to-End Test-Time Training for Long Context

본 논문은 트랜스포머의 전체 어텐션이 긴 컨텍스트에서 선형적인 비용 증가로 비효율적인 문제를 해결하고자 합니다.

#Review #Long-Context Language Modeling #Test-Time Training (TTT)#Meta-Learning #Continual Learning #Transformer #Sliding-Window Attention #Inference Efficiency #MLP Adaptation

2025년 12월 30일

[논문리뷰] DreamOmni3: Scribble-based Editing and Generation

본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Image Editing #Image Generation #Scribble-based Control #Multimodal AI #Diffusion Models #Data Synthesis #Human-Computer Interaction #Instruction-based Editing

2025년 12월 30일

[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model

본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.

#Review #Interactive World Generation #Video Diffusion Models #Text-to-Video #Image-to-Video #Real-time Generation #Temporal-Spatial-Channel Modeling #Self-Forcing

2025년 12월 29일

[논문리뷰] Web World Models

본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.

#Review #Web World Model #LLM #Neuro-symbolic AI #Procedural Generation #Hybrid Architecture #Deterministic Generation #Persistent Environments #TypeScript

2025년 12월 29일

[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.

#Review #Agentic AI #Video Understanding #Web Browsing #Benchmark #Multimodal LLMs #Temporal Grounding #Cross-Source Reasoning #Information Seeking

2025년 12월 29일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] Training AI Co-Scientists Using Rubric Rewards

언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.

#Review #AI Co-Scientists #Research Plan Generation #Reinforcement Learning (RL)#Self-Grading #Rubric Rewards #Language Models (LLMs)#Scientific Discovery

2025년 12월 29일

[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.

#Review #Surgical Robotics #World Models #Video Generation #Imitation Learning #Inverse Dynamics Model #Synthetic Data #Vision-Language-Action Models #Data Scarcity

2025년 12월 29일

[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

본 논문은 기존 확산 모델 기반 비디오 초해상화(VSR) 방법들이 높은 지각 품질(perceptual quality)을 제공함에도 불구하고, 미래 프레임 의존성 및 다단계 노이즈 제거 과정으로 인한 높은 지연 시간 때문에 실시간 온라인 적용이 불가능하다는 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Diffusion Models #Low-Latency #Streamable #Auto-Regressive #Model Distillation #Temporal Consistency #Perceptual Quality

2025년 12월 29일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.

#Review #Agentic RL #Self-Verifying Agents #GUI Automation #Evidence Curation #LLM-as-a-Judge #Reward Shaping #AndroidLab

2025년 12월 29일

[논문리뷰] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

이 논문은 3D Gaussian Splatting (3D-GS) 기반의 Open-vocabulary segmentation (OVS)에서 512-차원 CLIP 특징 과 같은 고차원 특징을 효율적으로 렌더링하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-vocabulary Segmentation #Neural Rendering #High-dimensional Features #Quantile Sampling #Real-time Rendering #Feature Distillation

2025년 12월 29일

[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

기존 옴니모달 대규모 언어 모델(OmniLLMs) 이 겪는 미세한 크로스모달 이해(fine-grained cross-modal understanding) 및 멀티모달 정렬(multimodal alignment) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Omnimodal Understanding #Audio-Guided Perception #Active Learning Agents #Cross-Modal Alignment #Tool-Use #Video Understanding #Multimodal LLMs

2025년 12월 29일

[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking

정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.

#Review #Agentic Information Seeking #LLM Agents #Browser Automation #Nested Framework #Tool Learning #Context Efficiency #Deep Web

2025년 12월 29일

[논문리뷰] Monadic Context Engineering

본 논문은 현재 AI 에이전트 아키텍처가 겪는 상태 관리, 오류 처리, 동시성 문제로 인한 취약성을 해결하고자 합니다.

#Review #Monads #Functional Programming #AI Agents #State Management #Error Handling #Concurrency #Monad Transformers #Meta-Agents

2025년 12월 29일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Vision-Language Models #Vision-Language-Action Models #Robotics #Multimodal AI #Action Planning #Long-Horizon Planning #Bidirectional Attention

2025년 12월 29일

[논문리뷰] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

본 논문은 투명하거나 반사되는 객체에 대한 깊이 및 법선 추정의 고질적인 문제를 해결하고자 합니다.

#Review #Video Diffusion Model #Depth Estimation #Normal Estimation #Transparent Objects #Robotics #Data Generation #LoRA Fine-tuning

2025년 12월 29일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Router-Expert Coupling #Auxiliary Loss #Expert Specialization #Large Language Models (LLMs)#Computational Efficiency

2025년 12월 29일

[논문리뷰] An Information Theoretic Perspective on Agentic System Design

논문은 에이전트형 언어 모델(LM) 시스템, 특히 컴프레서-프레딕터(compressor-predictor) 아키텍처 의 설계에 대한 체계적인 이해 부족을 해결하고자 합니다.

#Review #Agentic Systems #Language Models #Mutual Information #Rate-Distortion Theory #Compute Efficiency #Scaling Laws #Compressor-Predictor Architecture #On-device AI

2025년 12월 29일

[논문리뷰] Act2Goal: From World Model To General Goal-conditioned Policy

본 논문은 장기 로봇 조작(long-horizon robotic manipulation)에서 기존 목표 조건부 정책(GCP)이 겪는 문제점, 즉 장기 일관성 유지의 어려움과 국소적 교란에 대한 반응성의 부족을 해결하고자 합니다.

#Review #Goal-Conditioned Policy #World Models #Robotic Manipulation #Multi-Scale Temporal Hashing #Online Adaptation #Hindsight Experience Replay #LoRA Finetuning #Zero-shot Generalization

2025년 12월 29일

[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Perceptual Understanding #Image Aesthetics #Image Quality #Image Structure #Image Texture #MLLM Benchmark #Visual Question Answering #Reward Model

2025년 12월 28일

[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models

시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Inference #Time Budgeting #KV Cache Eviction #Response Length Prediction #Execution Time Estimation #Real-time AI #Performance Optimization

2025년 12월 28일

[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.

#Review #Personalized Slide Generation #Preference Learning #Large Language Models #Multimodal AI #Chain-of-Speech #Agentic Framework #Document-to-Slides

2025년 12월 28일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] ProEdit: Inversion-based Editing From Prompts Done Right

본 논문은 기존의 inversion-based visual editing 방법론들이 소스 이미지 정보를 과도하게 주입하여, 대상 이미지의 편집 영역에서 주체의 속성(자세, 수, 색상 등)을 제대로 수정하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Inversion-based Editing #Text-to-Image Editing #Text-to-Video Editing #Diffusion Models #Flow-based Models #Attention Mechanism #Latent Space Manipulation #Plug-and-Play

2025년 12월 28일

[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.

#Review #Foundation Model #Multimodal AI #Weather Nowcasting #Radar Inversion #Weather Understanding #Chain-of-Thought #Shared Attention

2025년 12월 28일

[논문리뷰] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

본 논문은 현재 RAG(Retrieval-Augmented Generation) 시스템이 인간의 '마인드스케이프(mindscape-aware)' 능력처럼 긴 문맥을 전체적으로 이해하는 능력이 부족하여 장문 컨텍스트(long-context) 태스크에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Long Context Understanding #Mindscape-Aware #Hierarchical Summarization #Context-Aware Embeddings #Integrative Reasoning #LLMs

2025년 12월 28일

[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.

#Review #GUI Agents #Foundation Models #Reinforcement Learning #Device-Cloud Collaboration #Mobile Navigation #Tool Augmentation #User Interaction

2025년 12월 28일

[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.

#Review #Video Object Insertion (VOI)#4D Scene Geometry #Diffusion Models #Mask Generation #Temporal Consistency #Occlusion Handling #Illumination Synthesis #ROSE++ Dataset

2025년 12월 28일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

본 논문의 핵심 목표는 일반적인 비가환 링(non-commutative rings) 환경에서 3x3 행렬 곱셈 을 위한 랭크-23(rank-23) 알고리즘 의 가산 복잡도(additive complexity)를 최적화하는 것입니다.

#Review #Matrix Multiplication #Additive Complexity #Algorithm Optimization #Ternary Flip-Graph #Heuristic Search #Common Subexpression Elimination #BLAS

2025년 12월 28일

[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Autoregressive Generation #Pixel-Aware Alignment #Variational Optimization #Reinforcement Learning #Visual Tokenizers #Image Quality #ELBO #Post-Training Framework

2025년 12월 25일

[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory

기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.

#Review #Video Generation #Spatial Memory #3D Scene Point Cloud #Spatial Consistency #Camera Control #Interactive Editing #Diffusion Models #Visual SLAM

2025년 12월 25일

[논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

대규모 언어 모델(LLM)의 추론 과정은 표면적인 통계 외에는 그 인지 구조와 단계를 파악하기 어렵습니다.

#Review #LLM Reasoning #Cognitive Science #Schoenfeld's Episode Theory #Mathematical Problem Solving #Reasoning Dynamics #Interpretable AI #Behavioral Analysis

2025년 12월 25일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일

[논문리뷰] How Much 3D Do Video Foundation Models Encode?

본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.

#Review #Video Foundation Models #3D Understanding #3D Reconstruction #Model Agnostic #Feature Probing #Diffusion Models #Temporal Reasoning

2025년 12월 25일

[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #Vision-Language Models (VLMs)#Agentic AI #Knowledge Distillation #Model Merging #PPO #Thought Guidance #Cost Efficiency

2025년 12월 25일

[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Acceleration #Quantization #Attention #Step Distillation #Performance Optimization #RTX 5090

2025년 12월 24일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일

[논문리뷰] Streaming Video Instruction Tuning

이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Large Language Models (LLMs)#Instruction Tuning #Multi-task Learning #Real-time AI Assistant #Temporal Reasoning #Focal Loss #Video Question Answering

2025년 12월 24일

[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Coding Agents #Software Evolution #Benchmarking #Long-Horizon Tasks #Large Language Models (LLMs)#Software Engineering #Code Generation

2025년 12월 24일

[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic Reasoning #Long Context LLM #FP8 Quantization #Supervised Fine-Tuning #Reinforcement Learning

2025년 12월 24일

[논문리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

Nemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.

#Review #Hybrid Mamba-Transformer #Mixture-of-Experts #LatentMoE #NVFP4 Training #Multi-Token Prediction #Long Context #Reinforcement Learning #Open Models

2025년 12월 24일

[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment

본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning #Reinforcement Learning (RL)#Knowledge Alignment #Iterative RAG #Entropy Analysis #Plan Failure

2025년 12월 24일

[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models #4D Understanding #Automated Data Generation #Geometry Selection Module #Video Analysis #Multimodal AI

2025년 12월 24일

[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.

#Review #Autoregressive Model #Video Modeling #Generative Pretraining #Representation Learning #Flow-Matching Decoder #Context Isolation #Masked Next-Frame Prediction

2025년 12월 24일

[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.

#Review #LLM Evaluation #Competitive Ranking #Swiss-System #Monte Carlo Simulation #Failure Sensitivity Analysis #Robustness #Multi-Benchmark

2025년 12월 24일

[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.

#Review #High-Resolution Video Generation #Diffusion Models #Autoregressive #Efficiency #Caching #Attention Mechanisms #Video Streaming #Temporal Consistency

2025년 12월 24일

[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.

#Review #Video Generation #One-Shot Video #Diffusion Transformer (DiT)#Frame-Guided Generation #Auto-Regressive Generation #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)

2025년 12월 24일

[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Popularity Bias #Ordinal Regression #Building Age Estimation #Multi-modal Learning #Benchmark Dataset #Explainable AI

2025년 12월 24일

[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub

본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.

#Review #Conversational AI #Toxicity Detection #LLM #Prompt Engineering #Open Source Software #GitHub #Derailment Forecasting

2025년 12월 23일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs

멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Cognitive Hierarchy #Benchmark #Reinforcement Learning #Supervised Fine-tuning #Spatial Reasoning

2025년 12월 23일

[논문리뷰] Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

스트리밍 음성-텍스트 번역(StreamST) 시스템의 평가 및 시연을 위한 통일된 오픈 소스 프레임워크가 부재하며, 기존 SimulEval 도구의 한계(유지보수 중단, 재번역 미지원, 짧은 오디오 처리 중심)를 극복하고자 합니다.

#Review #Streaming Speech-to-Text Translation #StreamST #Evaluation Toolkit #Open-Source Framework #Re-translation #Incremental Decoding #Latency Metrics #Quality Metrics #Real-time Demonstration

2025년 12월 23일

[논문리뷰] SemanticGen: Video Generation in Semantic Space

기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.

#Review #Video Generation #Semantic Space #Diffusion Models #VAE Latents #Long Video Generation #Semantic Encoders #Generative AI

2025년 12월 23일

[논문리뷰] SAM Audio: Segment Anything in Audio

본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Audio Source Separation #Foundation Models #Multimodal Prompting #Diffusion Transformers #Flow Matching #Self-Supervised Learning #Reference-Free Evaluation #Audio-Visual Learning

2025년 12월 23일

[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.

#Review #Reinforcement Learning (RL)#LLM Agents #Skill Library #Self-Improvement #Sequential Rollout #AppWorld dataset #GRPO

2025년 12월 23일

[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.

#Review #Vision-Language Models #Physical Reasoning #Quantitative Benchmark #Kinematics #Mean Relative Accuracy #Video-Text #Embodied AI

2025년 12월 23일

[논문리뷰] Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

본 연구는 질적 연구에서 LLM 기반 주제 분석의 신뢰성 문제를 해결하고, 기존의 시간 소모적이며 비용이 많이 드는 인간 코더 기반 방식의 한계를 극복하는 것을 목표로 합니다. 특히, LLM 출력의 신뢰도를 정량적으로 평가하고 투명하게 검증할 수 있는 다중 관점 검증 프레임워크를 제시하고자 합니다.

#Review #Thematic Analysis #Large Language Models #Qualitative Research #Cohen's Kappa #Semantic Similarity #Reliability Metrics #Ensemble Validation #Prompt Engineering

2025년 12월 23일

[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems

본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.

#Review #LLM Agents #Memory Systems #Meta-Evolution #Self-Evolving AI #Memory Architecture #EvolveLab #Generalization

2025년 12월 23일

[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos

본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent System #Long Video Understanding #Video Question Answering #Reinforcement Learning #Large Language Models #Temporal Grounding #Multimodal Reasoning #Tool-Augmented AI

2025년 12월 23일

[논문리뷰] INTELLECT-3: Technical Report

본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Mixture-of-Experts #Asynchronous Training #Distributed Systems #Agentic AI #Code Execution #Model Evaluation

2025년 12월 23일

[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination

본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.

#Review #LLM Hallucination Detection #Explainable AI #Faithfulness Evaluation #Data Augmentation #Reinforcement Learning #Fact-Checking

2025년 12월 23일

[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Interpretability #Transformer #Internal Policy #Entropy Analysis

2025년 12월 23일

[논문리뷰] Active Intelligence in Video Avatars via Closed-loop World Modeling

기존 비디오 아바타 생성 방식이 단순한 애니메이션을 넘어 자율적인 에이전시 를 가지지 못하고 장기 목표를 달성할 수 없는 한계를 해결하는 것이 목표입니다.

#Review #Video Avatars #Active Intelligence #World Models #Closed-loop Reasoning #POMDP #Generative AI #Hierarchical Planning #Cognitive Architecture

2025년 12월 23일

[논문리뷰] WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

논문은 단일 이미지로부터 장범위(long-range) 및 기하학적으로 일관된 새로운 시점 비디오를 생성하는 근본적인 문제를 해결하고자 합니다.

#Review #Novel View Synthesis #3D Geometry Propagation #Video Diffusion Models #Gaussian Splatting #Autoregressive Generation #Spatio-Temporal Noise #Geometric Consistency

2025년 12월 22일

[논문리뷰] Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

본 연구는 LLM의 연역적 추론 능력 을 논리적(형식적) 및 직관적(자연어) 관점에서 깊이 이해하는 것을 목표로 합니다.

#Review #Syllogistic Reasoning #Large Language Models (LLMs)#Belief Bias #Natural Language Understanding (NLU)#Formal Logic #Prompt Engineering #Self-Consistency #Cognitive Psychology

2025년 12월 22일

[논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 코드 생성 능력이 값비싼 감독 학습 데이터에 크게 의존하는 문제점을 해결하고자 합니다. 외부 코퍼스나 수동으로 주석 처리된 데이터 없이, 오직 사전 훈련된 지식만을 활용하여 LLM의 코드 생성 능력을 자율적으로 개선하는 비감독 학습 프레임워크를 개발하는 것이 목표입니다.

#Review #Unsupervised Learning #Code Generation #Large Language Models (LLMs)#Internal Probing #Self-Bootstrapping #Consensus Clustering #Code Intelligence

2025년 12월 22일

[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

본 논문은 최신 파운데이션 모델에서 추상적 의미(semantic abstraction)와 시각적 충실도(pixel-level fidelity) 사이의 근본적인 불일치를 해결하는 것을 목표로 합니다.

#Review #Unified Autoencoding #Prism Hypothesis #Semantic Representations #Pixel Representations #Frequency-Band Modulator #Foundation Models #Spectral Bias #Generative Models

2025년 12월 22일

[논문리뷰] StoryMem: Multi-shot Long Video Storytelling with Memory

본 논문은 영화적 품질과 장거리 일관성을 갖춘 다중 샷 장편 비디오 스토리텔링을 생성하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Storytelling #Multi-shot Video Generation #Memory Mechanism #Diffusion Models #Cross-shot Consistency #Latent Video Diffusion #ROPE Shift #Keyframe Selection

2025년 12월 22일

[논문리뷰] Region-Constraint In-Context Generation for Instructional Video Editing

본 논문은 텍스트 지시만으로 비디오 콘텐츠를 정밀하게 수정 하는 인-컨텍스트 비디오 편집 과정에서 발생하는 문제를 해결하고자 합니다. 구체적으로, 편집 영역이 불정확하고 노이즈 제거 과정 중 편집 및 비편집 영역 간의 토큰 간섭이 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Editing #In-Context Learning #Diffusion Models #Region-Constraint #Instruction-based Editing #Latent Space Regularization #Attention Space Regularization #Large-scale Dataset

2025년 12월 22일

[논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

본 논문은 대규모 (비전) 언어 모델(LLMs/VLMs)의 추론 및 강화 학습(RL) 훈련 과정에서 발생하는 탐색 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Latent Variable Models #Variational Autoencoder (VAE)#Reinforcement Learning (RL)#Exploration #Large Language Models (LLMs)#Vision-Language Models (VLMs)#Controllable Generation #Reasoning Strategies

2025년 12월 22일

[논문리뷰] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

본 연구는 로봇 학습에서 공간 일반화 및 정책 견고성을 제한하는 다양한 로봇 시연 데이터 수집의 높은 비용 문제를 해결하고자 합니다. 특히, 제한된 수의 실제 시연으로부터 사실적이고 다양한 새로운 로봇 시연을 효율적으로 생성 하여 데이터 효율성을 획기적으로 개선하는 프레임워크를 제안합니다.

#Review #Robotics #Demonstration Generation #3D Control Interface #Data Efficiency #Visuomotor Policy Learning #Spatial Generalization #Depth Map #Video Generation

2025년 12월 22일

[논문리뷰] QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

대규모 언어 모델(LLM)의 내부 신호(예: logits, 엔트로피)가 부정확한 예측에 대해 종종 높은 확신을 보이는 등 신뢰할 수 없다는 문제점을 해결하고자 합니다.

#Review #Dynamic RAG #Hallucination Detection #Corpus Statistics #Uncertainty Quantification #Pre-training Data #LLM Calibration #Infini-gram #Multi-hop QA

2025년 12월 22일

[논문리뷰] Name That Part: 3D Part Segmentation and Naming

본 논문은 3D 객체를 의미론적으로 명명된 부분으로 분해하는 시맨틱 3D 파트 분할(semantic 3D part segmentation) 문제를 해결하는 것을 목표로 합니다.

#Review #3D Semantic Segmentation #Part Naming #Open-Vocabulary #LLM #Set Alignment #Geometric Deep Learning #Annotation Engine #Affordance Description

2025년 12월 22일

[논문리뷰] MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

기존 모바일 GUI 에이전트 벤치마크인 AndroidWorld 의 포화 상태(90% 이상의 성공률)와 현실적이지 않은 태스크 복잡성 한계를 극복하는 것을 목표로 합니다.

#Review #Mobile Agents #GUI Benchmarking #Agent-User Interaction #Tool-Augmented Agents #Model Context Protocol (MCP)#Long-Horizon Tasks #Reproducible Evaluation #Android Environment

2025년 12월 22일

[논문리뷰] MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

본 논문은 2D 이미지 기반의 물질 예측 모델을 활용하여 3D 형상에 물리 기반 렌더링(PBR) 속성을 부여하고, 여러 시점(multi-view)에서 일관성을 유지하며 다시 조명 가능한(relightable) 3D 객체 를 재구성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Material Estimation #Diffusion Models #Gaussian Splatting #Inverse Rendering #PBR #Relighting #Neural Merger

2025년 12월 22일

[논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Diffusion Large Language Models (dLLM)은 병렬 추론 잠재력이 높음에도 불구하고, 현재 confidence-driven 디코딩 전략은 1-3 TPF (Tokens Per Forward pass) 에 머물러 실제 병렬성을 충분히 활용하지 못합니다.

#Review #dLLM #Parallel Decoding #Lookahead #Inference Acceleration #Token Filling Order #Branch Parallelism #Diffusion Models

2025년 12월 22일

[논문리뷰] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

이 논문은 전통적인 모듈형 내비게이션 파이프라인의 지연 시간과 오류 누적 문제를 해결하고, 기존 end-to-end 방식의 명시적 localization 의존성 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Navigation #End-to-end Learning #Localization Grounded #Visual Geometry #Metric-aware Perception #Diffusion Policy #RGB-D

2025년 12월 22일

[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.

#Review #Video Generation #Camera Control #Homography #Diffusion Models #Data Augmentation #Novel View Synthesis #Pose Fidelity

2025년 12월 22일

[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.

#Review #LLM Agents #Environment Simulation #Co-evolution #Curriculum Learning #Data Efficiency #Reinforcement Learning #Adaptive Simulation #Difficulty Alignment

2025년 12월 22일

[논문리뷰] Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital

본 연구는 벤처 캐피탈 자본금 내역 검증('cap table tie-out')이라는 복잡한 법률 워크플로우를 자동화하는 것을 목표로 합니다.

#Review #Legal AI #Venture Capital #Due Diligence #Capitalization Table #Multi-document Reasoning #Knowledge Graph #World Model #Neuro-Symbolic AI

2025년 12월 22일

[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.

#Review #LLM Data Preparation #Workflow Automation #Data-Centric AI #Synthetic Data #Multi-Agent System #Framework #Reproducibility

2025년 12월 22일

[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

본 논문은 LLM이 인간이 인지하는 문항(질문 또는 과제) 난이도를 정확하게 예측할 수 있는지, 특히 초기 데이터 부족 문제(cold-start problem) 상황에서 인간-AI 난이도 정렬(Human-AI Difficulty Alignment) 을 달성할 수 있는지 실증적으로 분석하는 것을 목표로 합니다.

#Review #Large Language Models #Item Difficulty Prediction #Human-AI Alignment #Proficiency Simulation #Metacognition #Curse of Knowledge #Educational Assessment #Zero-shot Learning

2025년 12월 22일

[논문리뷰] Brain-Grounded Axes for Reading and Steering LLM States

본 연구는 LLM(대규모 언어 모델)의 해석 가능성 방향이 종종 외부 접지(external grounding)가 부족하다는 문제에 주목합니다. 이를 해결하기 위해 인간의 뇌 활동을 LLM의 내부 상태를 해석하고 조종하기 위한 안정적이고 외부적으로 접지된 좌표계로 정의하는 것을 목표로 합니다.

#Review #LLM Interpretability #Brain-Grounded AI #MEG #Phase-Locking Value #ICA #LLM Steering #Neural Decoding #Latent Space

2025년 12월 22일

[논문리뷰] When Reasoning Meets Its Laws

이 논문은 대규모 추론 모델(LRMs) 의 비직관적이고 최적화되지 않은 추론 행동을 체계적으로 이론화하고, 바람직한 추론 패턴을 특성화하기 위한 Laws of Reasoning (LORE) 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Reasoning Behaviors #Compute Law #Accuracy Law #Monotonicity #Compositionality #Fine-tuning #LORE-BENCH

2025년 12월 21일

[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.

#Review #Multi-Turn Reinforcement Learning #LLM Agents #Proximal Policy Optimization (PPO)#Turn-Level MDP #Advantage Estimation #Generative AI #Deep Reinforcement Learning

2025년 12월 21일

[논문리뷰] StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

Visual Autoregressive (VAR) 모델은 고품질 이미지 생성을 가능하게 하지만, 특히 대규모 스케일 단계에서 상당한 연산 복잡도와 긴 런타임으로 어려움을 겪습니다.

#Review #Visual Autoregressive Models #Image Generation #Model Acceleration #Low-Rank Approximation #Semantic Irrelevance #Stage-Aware Optimization #Text-to-Image Synthesis

2025년 12월 21일

[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.

#Review #Formal Theorem Proving #Large Language Models #Reinforcement Learning #Agentic Prover #Lean Theorem Prover #Mathematical Reasoning #Test-Time Scaling

2025년 12월 21일

[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Software Engineering Benchmarks #Large Language Models (LLMs)#Code Generation #Automated Benchmark Generation #Multilingual #GitHub Pull Requests #Test Oracle #Fine-tuning

2025년 12월 21일

[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Degradation #Robustness #Reasoning Chains #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning #Interpretability

2025년 12월 21일

[논문리뷰] RadarGen: Automotive Radar Point Cloud Generation from Cameras

본 연구는 자동차 레이더 포인트 클라우드 생성이 지닌 고유한 데이터 특성(희소성, 무질서성, RCS/Doppler 속성)으로 인한 어려움을 해결하고자 합니다.

#Review #Radar Point Cloud Generation #Diffusion Models #Camera-to-Radar #BEV Representation #Autonomous Driving #Multi-modal Generative Models #Scene Editing

2025년 12월 21일

[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.

#Review #Scientific General Intelligence (SGI)#LLMs #Benchmarking #Scientist-Aligned Workflows #Practical Inquiry Model #Multi-modal Reasoning #Code Generation #Test-Time Reinforcement Learning (TTRL)

2025년 12월 21일

[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

언어 모델 아키텍처 간의 성능 차이를, 특히 학술 규모의 사전 훈련에서 발생하는 높은 노이즈와 비용 문제 없이 신뢰성 있게 평가하고 이해하는 것을 목표로 합니다.

#Review #Language Models #Transformer Architecture #Canon Layers #Synthetic Pretraining #Reasoning Depth #Linear Attention #State-Space Models #NoPE

2025년 12월 21일

[논문리뷰] PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

본 연구는 시점 불일치 문제로 인해 로봇 일반화에 한계가 있는 기존 VLM(Vision-Language Model)의 단점을 해결하고자 합니다.

#Review #Egocentric Data #Physical Intelligence #VLM #Robot Control #Embodied AI #VQA Supervision #Human-Robot Interaction #Zero-shot Transfer

2025년 12월 21일

[논문리뷰] Meta-RL Induces Exploration in Language Agents

본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Meta-RL #LLM Agents #Exploration #Reinforcement Learning #Policy Adaptation #In-context Learning #Self-reflection #Multi-episode tasks

2025년 12월 21일

[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Question Answering #Multi-evidence Integration #Video-LLMs #Benchmark #Temporal Reasoning #Frame Selection #Evidential Requirement #MRFS

2025년 12월 21일

[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.

#Review #Visual Grounding #MLLMs #Benchmark #Multi-Dimensional Evaluation #Rejection Capability #Test-Time Scaling #Data Mixture Training

2025년 12월 21일

[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.

#Review #Text-to-Image Generation #Image Editing #Representation Encoders #Latent Diffusion Models #Variational Autoencoder (VAE)#Semantic Reconstruction #Off-manifold Latents #DINOv2

2025년 12월 21일

[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?

본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.

#Review #LLM-as-a-Judge #Evaluation Metrics #Consistency #Robustness #Positional Bias #Transitivity #Situational Preference #Multi-agent Systems

2025년 12월 21일

[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Robotics #Foundation Models #Multi-modal Learning #Reinforcement Learning #Sim-to-Real Transfer #Human-Robot Interaction

2025년 12월 21일

[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

본 논문은 기존 MLLM이 3D 구조와 시간적 역학(4D)을 추론하는 능력이 부족하며, 특히 4D 인지 및 시간적 이해 가 약하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #4D Understanding #Perceptual Distillation #Region-level VQA #Video Question Answering #Temporal Perception #Depth Perception

2025년 12월 21일

[논문리뷰] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

본 논문은 단일 2D 이미지로부터 시각 효과(VFX) 및 게임 개발에 즉시 활용 가능한, 수정 가능한 생산 준비 완료(production-ready) 3D 텍스처 메시 장면 을 재구성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative AI #Indoor Scenes #Compositional Framework #Differentiable Rendering #Image-to-3D #VFX #Game Development

2025년 12월 21일

[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.

#Review #GUI Grounding #Multi-Platform #Benchmark #MLLM #Hierarchical Evaluation #Human-in-the-Loop Annotation #GUI Agents #Multilingual Dataset

2025년 12월 18일

[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #World Models #Video Generation #Multimodal Control #Trajectory Guidance #Reference Images #Promptable Events #Cross-Attention #Diffusion Models

2025년 12월 18일

[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

본 논문은 스테레오 비디오 변환 시 기존의 다단계 “Depth-Warp-Inpaint” (DWI) 파이프라인이 겪는 오류 전파, 깊이 모호성, 그리고 병렬 및 수렴 스테레오 형식 간의 불일치 문제를 해결하고자 합니다.

#Review #Monocular-to-Stereo Conversion #Video Generation #Diffusion Models #Feed-Forward Architecture #Domain Switcher #Cycle Consistency #Unified Dataset #Depth Ambiguity

2025년 12월 18일

[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.

#Review #Audio-Visual Generation #Diffusion Transformer #Multimodal AI #Speech Synchronization #Video Generation #Reinforcement Learning from Human Feedback #Inference Acceleration

2025년 12월 18일

[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Vision-Language Models #Diffusion Models #Region-aligned Guidance #Reinforcement Learning #Instruction-Visual Complexity #Attention Mechanism

2025년 12월 18일

[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.

#Review #Latent Diffusion Models #Vision Foundation Models #Semantic Compression #Global-Local Semantics #Image Generation #Representation Entanglement #Transformer Architecture

2025년 12월 18일

[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners

본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Generative Pretraining #Vision Transformer #Next-Embedding Prediction #Autoregressive Model #Image Classification #Semantic Segmentation #Causal Masking

2025년 12월 18일

[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

본 연구는 기존 멀티모달 모델이 2D 이미지에 의존하여 3D 공간 이해 능력이 부족하다는 한계를 해결하는 것을 목표로 합니다.

#Review #3D Grounding #Spatial Reasoning #Vision-Language Models #Depth Estimation #3D Object Detection #Chain-of-Thought #Data Generation #Multimodal AI

2025년 12월 18일

[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.

#Review #Reward Models #Multimodal LLMs #Benchmark #Text-to-Image Generation #Image Editing #Interleaved Generation #Multimodal Reasoning #MLLM-as-a-judge

2025년 12월 18일

[논문리뷰] Kling-Omni Technical Report

논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal Visual Language #Generative AI #Video Editing #Reasoning-enhanced Generation #Diffusion Transformer #Multi-modal World Simulators

2025년 12월 18일

[논문리뷰] Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

본 논문은 시계열 데이터로부터 통찰력을 추출하는 데 필요한 깊은 도메인 전문성과 시간 소모적인 과정을 해결하고자 합니다.

#Review #Time Series Analysis #Multimodal Language Models #Natural Language Generation #Dataset Creation #Instruction Tuning #GPT-4 #LLaVA #Cross-Domain Alignment

2025년 12월 18일

[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.

#Review #Speech-to-Text Translation #Multimodal LLMs #Speech Foundation Models #Cascaded Systems #Benchmarking #Speech Modality Integration #Robustness #Evaluation Metrics

2025년 12월 18일

[논문리뷰] Generative Refocusing: Flexible Defocus Control from a Single Image

본 논문은 단일 이미지로부터 촬영 후 유연한 초점 및 심도 제어를 가능하게 하는 생성적 리포커싱(Generative Refocusing) 시스템을 개발하는 것을 목표로 합니다.

#Review #Generative AI #Image Refocusing #Defocus Deblurring #Bokeh Synthesis #Depth of Field Control #Semi-Supervised Learning #Diffusion Models #Aperture Shape Control

2025년 12월 18일

[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

본 논문은 인터랙티브 애플리케이션을 위한 G-buffer 조건부 신경망 포워드 프레임 렌더링에서 시간적 일관성 을 유지하는 동시에 사실적인 이미지를 프레임별로 자동회귀적으로 생성 하는 문제를 해결하는 것을 목표로 합니다. 기존 단일 이미지 모델의 시간적 불일치 와 비디오 모델의 높은 연산 비용 문제를 극복하고자 합니다.

#Review #Neural Rendering #Diffusion Models #G-Buffer #Autoregressive Generation #Temporal Consistency #ControlNet #ControlLoRA #Interactive Applications

2025년 12월 18일

[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

본 논문은 확산 모델 기반의 기존 장시간 인물 애니메이션 방법론이 겪는 신원(ID) 불일치 및 높은 추론 지연 시간 문제를 해결하고자 합니다. 특히, ID를 보존 하면서 무한 길이의 비디오 를 생성하고, 추론 속도를 최대 6배까지 가속 하는 것을 목표로 합니다.

#Review #Portrait Animation #Diffusion Models #Inference Acceleration #Identity Preservation #Video Generation #Latent Prediction #Sliding Window

2025년 12월 18일

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.

#Review #MLLM #Model Auditing #Capability Gaps #Failure Mode Discovery #Reinforcement Learning #Data Rectification #Counterfactual Generation #VQA

2025년 12월 18일

[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

본 연구는 파노라마 깊이 추정의 핵심 과제인 다양한 장면과 거리에서의 일반화 및 측정 일관성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Panoramic Depth Estimation #Foundation Model #Semi-Supervised Learning #Pseudo-Labeling #Data-in-the-Loop #DINOv3 #Metric Depth #360-degree Vision

2025년 12월 18일

[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers

본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Image Editing #Privacy Protection #Adversarial Attack #Attention Mechanism #Identity Preservation #Deepfake Defense #In-context Learning

2025년 12월 18일

[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Text-to-Image(T2I) 생성 모델(예: Imagen, Stable Diffusion, FLUX)의 훈련 효율성을 개선하고 시각적 품질 저하, 불안정한 훈련 및 비효율적인 연산을 야기하는 저품질/과잉 데이터 문제를 해결하는 것입니다.

#Review #Text-to-Image #Data Selection #Meta-Learning #Meta-Gradient #Data Efficiency #Generative Models #Coreset Selection #Data Pruning

2025년 12월 18일

[논문리뷰] Adaptation of Agentic AI

본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.

#Review #Agentic AI #Adaptation #Agent Adaptation #Tool Adaptation #Reinforcement Learning #Fine-tuning #Modular AI

2025년 12월 18일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory

이 논문은 기존의 AIS 데이터 기반 선박 목적지 예측 모델 이 직면했던 ROI(관심 지역) 제약 , 불규칙한 시공간적 데이터 로 인한 편향 문제, 그리고 장거리 예측 능력 부족 을 해결하는 것을 목표로 합니다.

#Review #AIS data #vessel destination estimation #deep learning #transformer #channel attention #trajectory analysis #Gradient Dropout #maritime surveillance

2025년 12월 17일

[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.

#Review #Vision-Text Compression (VTC)#Long Context Understanding #Vision-Language Models (VLMs)#Benchmark #Information Retrieval #Associative Reasoning #Multimodal AI

2025년 12월 17일

[논문리뷰] Universal Reasoning Model

본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Universal Transformer #Recurrent Neural Networks #ARC-AGI #Reasoning Tasks #Nonlinearity #Convolutional Gating #Truncated Backpropagation #Model Efficiency

2025년 12월 17일

[논문리뷰] Step-GUI Technical Report

논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.

#Review #GUI Automation #Self-Evolving Pipeline #Reinforcement Learning #Multimodal LLMs #Privacy-Preserving AI #Human-Computer Interaction #Model Context Protocol #Benchmarking

2025년 12월 17일

[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.

#Review #AI-Generated Video Detection #Multimodal Large Language Model (MLLM)#Artifact Reasoning #Explainable AI #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics

2025년 12월 17일

[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Prompt Optimization #Context Management #Online Learning #Agent Effectiveness #Self-Evolving Prompts #Trace-Based Learning #Dual-Stream Routing

2025년 12월 17일

[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.

#Review #Video Reasoning #Reinforcement Learning #Multi-Turn Reasoning #Agent System #Long Videos #Synthetic Data #Any-Horizon Reasoning #Large Language Models

2025년 12월 17일

[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia Content

본 논문은 기존 딥페이크 탐지 방법론의 한계, 즉 생성 모델의 재합성 가능성(resynthesis indistinguishability) 으로 인한 높은 오탐율과 적대적 공격에 대한 취약성 을 극복하는 것을 목표로 합니다.

#Review #Deepfake Detection #Content Authenticity #Generative Models #Adversarial Robustness #Image Inversion #Plausible Deniability #Diffusion Models #Multimedia Forensics

2025년 12월 17일

[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

기존 래스터 이미지 편집 시 발생하는 일관성 문제(semantic drift, geometric misalignment)를 해결하는 것이 목표입니다.

#Review #Image Editing #Diffusion Models #Layer Decomposition #RGBA Layers #Variational Autoencoder (VAE)#Multi-stage Training #Photoshop Documents (PSD)#Inherent Editability

2025년 12월 17일

[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

본 논문은 MLLM(Multi-modal Large Language Models)이 물리적 환경에서 일반적인 비서 역할을 수행하기 위해 필수적인 비디오 기반 공간 지능 을 평가할 수 있는 포괄적인 벤치마크의 부재를 해결하고자 합니다.

#Review #Video-Based Spatial Intelligence #MLLM Benchmark #Spatial Reasoning #Multi-Modal Learning #Perception #Planning #Prediction #Cross-Video Reasoning #Human-AI Gap

2025년 12월 17일

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.

#Review #Pixel Supervision #Self-Supervised Learning #Masked Autoencoders (MAE)#Visual Pre-training #Foundation Models #Representation Learning #Web-Scale Data #Computer Vision

2025년 12월 17일

[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.

#Review #Video VFX Editing #In-Context Learning #Diffusion Transformers #Few-Shot Learning #LoRA #Spatiotemporal Tokenization #Instruction-Guided

2025년 12월 17일

[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Edge AI #Efficient Inference #Visual Resolution Compressor #Dual Consistency Learning #Vision Transformer #Quantization #Low-Latency

2025년 12월 17일

[논문리뷰] Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

본 논문은 대규모 언어 모델(LLM)의 순차적(autoregressive, AR) 디코딩으로 인한 높은 지연 시간을 해결하고, AR 모델의 생성 품질과 인과적 추론 특성을 유지하면서 효율적인 병렬 디코딩을 가능하게 하는 것을 목표로 합니다.

#Review #Parallel Decoding #Causal LLM #Jacobi Decoding #Consistency Distillation #Transformer Inference #Latency Reduction #Rejection Recycling #Multi-block Decoding

2025년 12월 17일

[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

본 논문은 기존 확산 비전 언어 모델(dVLMs)의 성능 저하와 가변 길이 생성 및 KV 캐시 재사용의 비효율성 문제를 해결하고자 합니다.

#Review #Diffusion Models #Vision Language Models #Autoregressive Models #Diffusion Finetuning #Block Diffusion #Multimodal AI #KV Cache

2025년 12월 17일

[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models

본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.

#Review #Speculative Decoding #Diffusion LLM #Autoregressive Model #Inference Acceleration #Model Alignment #Code Generation #Block Regeneration

2025년 12월 17일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

본 논문은 최근 AI 생성 비디오의 높은 현실성으로 인해 야기되는 진위 판별 문제를 해결하고자 합니다.

#Review #AIGC Detection #ASMR Videos #VLM Evaluation #VGM Realism #Audio-Visual Consistency #Perceptual Fidelity #Adversarial Benchmark #Deepfake Detection

2025년 12월 16일

[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.

#Review #Discrete Diffusion Models #Multimodal Models #Sparse Parameterization #KV Caching #Token Truncation #Image Generation #Image Editing #Visual Reasoning

2025년 12월 16일

[논문리뷰] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

논문은 기존 이미지 생성 및 통합 모델이 깊은 추론, 계획, 그리고 데이터-시각 매핑의 정밀성을 요구하는 복잡한 태스크에서 한계를 보이는 문제에 주목합니다.

#Review #Table Visualization #Infographic Generation #Multi-modal Large Language Models (MLLMs)#Diffusion Models #Self-Correction #Reinforcement Learning #Graphic Design #Data-to-Visual Mapping

2025년 12월 16일

[논문리뷰] RecGPT-V2 Technical Report

RecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #Recommender Systems #Large Language Models #Multi-Agent Systems #Reinforcement Learning #Dynamic Prompting #Hybrid Representation #Agentic Evaluation #Explanation Generation

2025년 12월 16일

[논문리뷰] Olmo 3

Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.

#Review #Large Language Models #Open-Source AI #Model Flow #Long-Context Reasoning #Instruction Following #Function Calling #Thinking Models #Data Curation #Reinforcement Learning

2025년 12월 16일

[논문리뷰] MMGR: Multi-Modal Generative Reasoning

본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.

#Review #Multi-Modal Generative Models #Reasoning Evaluation #World Models #Physical Commonsense #Abstract Reasoning #Embodied Navigation #VLM-based Evaluation #Temporal Consistency

2025년 12월 16일

[논문리뷰] Janus: Disaggregating Attention and Experts for Scalable MoE Inference

본 연구는 대규모 Mixture-of-Experts (MoE) 모델 추론 시 발생하는 높은 자원 요구량, 동적 워크로드, 그리고 어텐션 및 전문가 레이어 간의 이질적인 컴퓨팅 요구사항 문제를 해결하고자 합니다.

#Review #MoE Inference #Disaggregated Architecture #Resource Management #Scalability #Load Balancing #GPU Utilization #Communication Optimization

2025년 12월 16일

[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

이 논문은 고수준 추론과 저수준 그라운딩이 긴밀하게 결합된 기존 end-to-end 어포던스 예측 모델들이 새로운 객체나 복잡한 지시에 대한 일반화에 어려움을 겪는 한계를 해결하고자 합니다.

#Review #Affordance Prediction #Zero-Shot Learning #Agentic AI #Foundation Models #Multimodal Reasoning #Visual Grounding #Image Generation #Robotics

2025년 12월 16일

[논문리뷰] V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

본 논문은 기존 VLM이 복잡하고 개방형인 시각 추론 태스크에서 다단계 탐색 및 동적 계획 수립에 어려움을 겪는 문제를 해결하고자 합니다. 대규모 탐색 공간으로 인해 평가하기 어려운 VLM의 탐색적 시각 추론 능력을 정량적으로 평가하기 위한 벤치마크 ( V-REX ) 및 평가 프로토콜을 개발하는 것을 목표로 합니다.

#Review #Visual Reasoning #Multi-step Exploration #Chain-of-Questions (CoQ)#Vision-Language Models (VLMs)#Benchmarking #Planning #Following

2025년 12월 15일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] Towards Interactive Intelligence for Digital Humans

본 논문은 기존의 모방적인 디지털 휴먼이 가지는 상호작용 논리 및 자율성 부족 문제를 해결하고, 개성-정렬 표현, 적응적 상호작용, 자가 진화 능력 을 갖춘 '상호작용 지능(Interactive Intelligence)' 을 구현하는 것을 목표로 합니다.

#Review #Digital Human #Interactive Intelligence #Multimodal Interaction #LLM Agent #Real-time Animation #Persona Fidelity #Diffusion Models

2025년 12월 15일

[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.

#Review #Active Perception #Vision-Language Models (VLMs)#Embodied AI #View Selection #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments

2025년 12월 15일

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.

#Review #Embodied AI #Long-horizon Tasks #Vision-Language-Action Models (VLA)#BEHAVIOR Challenge #Offline RL #Pre-training #Rejection Sampling Fine-Tuning (RFT)#Robotics

2025년 12월 15일

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일

[논문리뷰] Memory in the Age of AI Agents

이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.

#Review #AI Agents #Memory Systems #LLMs #Taxonomy #Continual Learning #Self-Evolution #Multimodality #Reinforcement Learning

2025년 12월 15일

[논문리뷰] KlingAvatar 2.0 Technical Report

본 연구는 장시간 고해상도 아바타 비디오 생성 시 발생하는 효율성 부족, 시간적 드리프트, 품질 저하, 프롬프트 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Avatar Generation #Video Diffusion #Multi-modal LLM #Long-duration Video #High-resolution Video #Lip Synchronization #Multi-character Control #Spatio-temporal Cascade

2025년 12월 15일

[논문리뷰] Image Diffusion Preview with Consistency Solver

본 논문은 이미지 Diffusion 모델의 느린 추론 속도로 인해 저하되는 사용자 경험 문제를 해결하고자 합니다.

#Review #Diffusion Models #Efficient Sampling #Reinforcement Learning #ODE Solvers #Image Generation #Consistency #Diffusion Preview

2025년 12월 15일

[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

논문은 기존 비디오 생성 모델에서 물리적으로 사실적인 비디오 편집을 위한 내재적 속성(intrinsic properties) 에 대한 정확하고 일관된 제어의 부재 문제를 해결하고자 합니다.

#Review #Video Editing #Intrinsic Decomposition #Video Generation #Diffusion Models #Keyframe Editing #Inverse Rendering #Temporal Consistency #Physically Based Rendering

2025년 12월 14일

[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA) models #Flow Matching #Embodied AI #Robot Manipulation #BEHAVIOR Challenge #Correlated Noise #Stage Tracking #Multi-Task Learning

2025년 12월 14일

[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

본 논문은 비디오 생성 모델, 특히 diffusion 모델 이 관절형 및 변형 가능한 객체에 대해 물리적으로 그럴듯하고 구조를 보존하는 움직임을 생성하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Video Generation #Motion Tracking #Diffusion Models #Structure Preservation #SAM2 #Feature Distillation #Local Gram Flow

2025년 12월 14일

[논문리뷰] Sliding Window Attention Adaptation

본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] Sharp Monocular View Synthesis in Less Than a Second

이 논문은 단일 이미지로부터 실시간 포토리얼리스틱 뷰 합성(photorealistic view synthesis) 을 목표로 하며, 특히 AR/VR 애플리케이션 을 위한 고해상도 3D 장면 표현 을 1초 미만에 생성하는 것을 목표로 합니다.

#Review #View Synthesis #3D Gaussian Splatting #Single Image #Neural Rendering #Real-time #Feedforward Network #Monocular Depth Estimation #AR/VR

2025년 12월 14일

[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models

본 논문은 Discrete Diffusion Language Models (DLMs) 의 스케일링 행동을 체계적으로 연구하여, 기존 Autoregressive Language Models (ALMs) 와의 경쟁력을 평가하고 DLMs의 핵심 한계점(예: 병렬 생성 및 수정 능력 부족)을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Scaling Laws #Language Models #Masked Diffusion #Uniform Diffusion #Hyperparameter Tuning #Compute-Optimal Training

2025년 12월 14일

[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.

#Review #Text-to-Image Generation #Latent Diffusion Model #Visual Foundation Model #DINOv3 #Flow Matching #High-Resolution Synthesis #VAE-free Generation

2025년 12월 14일

[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live Streaming

기존 확산 모델 기반 초상화 애니메이션이 시각적 품질과 표현 사실성에 중점을 두어 높은 계산 비용 과 지연 시간 으로 인해 라이브 스트리밍에 부적합하다는 문제를 해결하고자 합니다.

#Review #Live Streaming #Portrait Animation #Diffusion Models #Real-time AI #Appearance Distillation #Micro-chunk Streaming #Motion Control #Low Latency

2025년 12월 14일

[논문리뷰] MeshSplatting: Differentiable Rendering with Opaque Meshes

본 논문은 3D Gaussian Splatting과 같은 기존의 지점 기반(point-based) 뉴럴 렌더링 방식이 AR/VR 및 게임 엔진에서 요구하는 메시 기반 파이프라인과 호환되지 않는 문제를 해결하고자 합니다.

#Review #Differentiable Rendering #Novel View Synthesis #Mesh Reconstruction #3D Gaussian Splatting #Opaque Meshes #Real-time Rendering #Game Engines

2025년 12월 14일

[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator

본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.

#Review #Robotic Agent #Large Language Models (LLMs)#Embodied AI #Task Planning #Human-Robot Interaction #General-purpose Robotics #ROS

2025년 12월 14일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric Video

본 연구는 단일 외부 시점(exocentric) 비디오 입력으로부터 사실적이고 일관성 있는 내부 시점(egocentric) 비디오를 생성하는 것을 목표로 합니다.

#Review #Egocentric Video Generation #Exocentric-to-Egocentric #Video Diffusion Models #3D Scene Reconstruction #Geometry-Guided Attention #View Synthesis #Camera Pose Estimation #LoRA Adaptation

2025년 12월 14일

[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Dental Imaging #Complex Reasoning #Domain Adaptation #Reinforcement Learning #Medical VQA #Dental Healthcare

2025년 12월 14일

[논문리뷰] CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

본 논문은 의료 영상 분할 시스템의 안전한 임상 배포를 위해 랜드마크 기반 해부학적 분할 에서 불확실성 추정을 연구합니다. 기존 픽셀 기반 불확실성 연구와 달리, 내재적 토폴로지 보장을 제공하는 랜드마크 기반 모델에 대한 불확실성 추정의 간극을 해결하고, 신뢰할 수 없는 예측을 식별하는 것을 목표로 합니다.

#Review #Uncertainty Quantification #Landmark Segmentation #Chest X-ray #VAE #Graph Neural Networks #Out-of-Distribution Detection #Medical Imaging

2025년 12월 14일

[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저 내에서 통합하는 핵심 과제를 해결하고자 합니다. 기존의 듀얼 인코더 방식의 복잡성과 이산형 토크나이저의 의미 이해 능력 저하 문제를 극복하고, 연속형 의미 특징 과 이산형 미세 토큰 을 동시에 생성할 수 있는 통합 토크나이저를 제안하는 것이 목표입니다.

#Review #Multimodal Learning #Vector Quantization #Autoencoder #Unified Tokenizer #Image Generation #Image Reconstruction #Vision Transformers #Semantic Features

2025년 12월 11일

[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #VideoQA #MLLMs #Tool Learning #Spatiotemporal Reasoning #Video Toolkit #Agentic AI

2025년 12월 11일

[논문리뷰] Thinking with Images via Self-Calling Agent

본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.

#Review #Multimodal LLMs #Self-Calling Chain-of-Thought #Reinforcement Learning #Visual Reasoning #Agentic AI #Tool Calling #Group Relative Policy Optimization

2025년 12월 11일

[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.

#Review #LLM Evaluation #Factuality Benchmark #Multimodal AI #Knowledge Grounding #Parametric Knowledge #Retrieval Augmented Generation #Automated Scoring

2025년 12월 11일

[논문리뷰] T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

논문은 러시아어 오픈소스 LLM의 한계, 특히 추론 능력과 효율적인 추론을 위한 통합 생태계의 부재를 해결하고자 합니다.

#Review #Russian LLM #Hybrid Reasoning #Speculative Decoding #Cyrillic Tokenizer #Instruction Tuning #Reward Modeling #T-Math Benchmark

2025년 12월 11일

[논문리뷰] Stronger Normalization-Free Transformers

본 논문은 트랜스포머 아키텍처에서 필수적이었던 정규화 계층(Normalization Layers)의 의존성을 제거 하고, 단순히 기존 정규화 계층의 성능에 필적하는 것을 넘어 이를 능가하는 새로운 점별 함수(point-wise function)를 발견 하는 것을 목표로 합니다.

#Review #Normalization-Free Transformers #Point-wise Functions #Error Function #Deep Learning #Transformer Architecture #Generalization #Normalization Layers

2025년 12월 11일

[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

본 논문은 강력한 Vision-Language Model (VLM) 을 탑재한 최신 비디오 통합 모델들이 추론 기반 시각 편집(reason-informed visual editing) 에서 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Reasoning #Unified Models #Self-Reflective Learning #Vision-Language Models (VLMs)#Diffusion Models #RVE-Bench

2025년 12월 11일

[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.

#Review #LLM Verification #Chain-of-Thought #Process-based Verifier #Outcome-based Verifier #Active Learning #Reinforcement Learning #Mathematical Reasoning #AI Alignment

2025년 12월 11일

[논문리뷰] MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

본 논문은 기존 모션 캡처 파이프라인의 종(species) 또는 템플릿(template) 의존성 문제를 해결하고, 단일 모노큘러 비디오에서 임의의 리깅된 3D 에셋(asset) 에 대한 카테고리 불가지론적 모션 캡처(CAMoCap) 를 달성하는 것을 목표로 합니다.

#Review #3D Motion Capture #Monocular Video #Arbitrary Skeletons #Motion Retargeting #Deep Learning #Inverse Kinematics #Transformer Architecture #Category-Agnostic

2025년 12월 11일

[논문리뷰] MOA: Multi-Objective Alignment for Role-Playing Agents

본 논문은 역할극 에이전트(RPA)가 다중 턴 지시 따르기, 도메인 지식 습득, 일관된 언어 스타일 유지 등 여러 상충하는 기술들을 동시에 습득해야 하는 문제를 해결하고자 합니다.

#Review #Role-Playing Agents #Multi-Objective Reinforcement Learning #LLM Alignment #Persona Consistency #Dialogue Generation #Reward Shaping #Off-Policy Guidance

2025년 12월 11일

[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Long-Horizon Reasoning #Multi-Agent System #Reinforcement Learning #Olympiad Problems #Lemma Memory #Context Length #OREAL-H

2025년 12월 11일

[논문리뷰] H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

본 논문은 일상적인 인간-객체 상호작용 비디오를 물리적으로 접지된 로봇 조작 비디오 로 변환하여 로봇이 인간 비디오로부터 조작 기술을 학습할 수 있도록 하는 것을 목표로 합니다.

#Review #Video-to-Video Translation #Robot Learning #Human-Robot Transfer #Diffusion Models #Unpaired Data Learning #Pose-Guided Generation #Embodiment Gap Bridging

2025년 12월 11일

[논문리뷰] From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

본 논문은 눈에 보이지 않는 미세한 엔티티(원자, 분자)의 공간적 관계를 인식하고 추론하는 능력인 MiSI (Microscopic Spatial Intelligence) 개념을 도입하고, Vision-Language Models (VLMs) 의 해당 도메인 잠재력을 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Microscopic Spatial Intelligence #Molecular Structures #Benchmarking #PDBbind Dataset #Spatial Reasoning #Drug Discovery

2025년 12월 11일

[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.

#Review #Federated Learning (FL)#LLM Agents #Self-Evolution #Privacy-Preserving #Multi-Environment #Parameter-Efficient Fine-Tuning #Low-Rank Aggregation #Reinforcement Learning

2025년 12월 11일

[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator

이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.

#Review #Robotics #Policy Evaluation #World Model #Video Generation #Out-of-Distribution (OOD)#Safety #Gemini Robotics #Veo Simulator

2025년 12월 11일

[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Software Engineering #Open-Source #LLM #Orchestrator #Context Management #Long-term Memory #Meta-agent

2025년 12월 11일

[논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

텍스트-3D 자동회귀(autoregressive) 생성 모델에 강화 학습(RL) 을 체계적으로 적용하고 그 효과를 분석하는 것을 목표로 합니다. 특히, 3D 객체의 복잡한 기하학적 구조와 미세한 질감을 고려하여 보상 설계 와 RL 알고리즘 선택 이 3D 생성 성능에 미치는 영향을 심층적으로 탐구합니다.

#Review #Reinforcement Learning #Text-to-3D Generation #Autoregressive Models #Reward Modeling #Hierarchical RL #3D Benchmarking #ShapeLLM-Omni

2025년 12월 11일

[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Agents #Geometry Problem Solving #Reinforcement Learning #Curriculum Learning #Auxiliary Construction #Symbolic Reasoning #IMO

2025년 12월 11일

[논문리뷰] WonderZoom: Multi-Scale 3D World Generation

본 논문은 단일 이미지로부터 다양한 공간 스케일에 걸쳐 일관된 3D 세계를 생성하는 다중 스케일 3D 세계 생성 의 핵심 문제를 해결하고자 합니다. 기존 3D 생성 모델들이 단일 스케일 합성에 국한되고 스케일 인식 3D 표현이 부족하여 상호작용적 탐색 및 콘텐츠 생성에 한계가 있다는 점을 극복하는 것을 목표로 합니다.

#Review #Multi-Scale 3D Generation #Gaussian Surfel #Progressive Synthesis #Neural Rendering #Scale-Adaptive #Content Creation #Zoom-in

2025년 12월 10일

[논문리뷰] VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

본 논문은 AR(Autoregressive) 비디오 확산 모델의 고질적인 문제인 에러 누적, 모션 드리프트, 콘텐츠 반복 문제를 해결하여 분 단위 스케일의 장기적인 일관성 과 점진적인 동적 변화 를 동시에 유지하는 것을 목표로 합니다.

#Review #Autoregressive Video Generation #Diffusion Models #Hybrid Memory #State-Space Models (SSM)#Long Video Synthesis #Temporal Consistency #Interactive AI

2025년 12월 10일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] TED-4DGS: Temporally Activated and Embedding-based Deformation for 4DGS Compression

동적 3D Gaussian Splatting (4DGS) 표현을 위한 시간적으로 활성화되고 임베딩 기반의 변형(deformation) 스키마 를 개발하여, rate-distortion 최적화 압축 을 달성하는 것이 목표입니다.

#Review #4D Gaussian Splatting #Dynamic Scene Compression #Rate-Distortion Optimization #Temporal Activation #Embedding-based Deformation #Neural Compression #3D Gaussian Splatting

2025년 12월 10일

[논문리뷰] StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

기존 단안 비디오 생성 모델의 스테레오 기능 부재 및 취약한 pose estimation/multi-stage warping 파이프라인으로 인한 스테레오 비디오 생성의 한계를 극복하는 것이 목표입니다.

#Review #Monocular-to-Stereo #Video Generation #Diffusion Models #Geometry-Aware #XR #IPD-aligned Dataset #Novel View Synthesis

2025년 12월 10일

[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication

임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.

#Review #Clinical Dialogue #LLM Agents #Healthcare AI #Agentic Paradigm #Medical Decision Support #Knowledge Grounding #AI Safety #Workflow Automation

2025년 12월 10일

[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

Vision-Language Model (VLM)의 견고성과 성능 간의 상충 관계를 해결하고, 특히 함수어(function words) 가 교차-모달 적대적 공격에 대한 VLM의 취약성을 유발한다는 가설을 검증하고자 합니다.

#Review #Vision-Language Models #Adversarial Robustness #Function Words #Cross-Attention #Adversarial Attacks #Differential Attention #Vision-Language Alignment

2025년 12월 10일

[논문리뷰] OmniPSD: Layered PSD Generation with Diffusion Transformer

본 논문은 기존 생성 모델의 한계인 단일 평면 이미지 출력 문제를 해결하고, 투명한 알파 채널을 포함하는 레이어드 PSD 파일 을 생성 및 재구성하는 통합 프레임워크인 OmniPSD 를 제안합니다.

#Review #Diffusion Transformer #PSD Generation #Image Decomposition #RGBA-VAE #In-Context Learning #Text-to-PSD #Image-to-PSD

2025년 12월 10일

[논문리뷰] Learning Unmasking Policies for Diffusion Language Models

마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.

#Review #Diffusion Language Models #Reinforcement Learning #Masked Diffusion #Sampling Policy #Inference Optimization #Markov Decision Process #Generative AI #Text Generation

2025년 12월 10일

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Linear Attention #Sliding Window Attention #Gated DeltaNet #Long-Context Understanding #Efficiency #Hybrid Architecture #Multimodal Learning

2025년 12월 10일

[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

본 연구는 주로 자연 이미지에 훈련된 Multimodal Large Language Models (MLLMs) 의 적외선 이미지 이해 능력이 미개척 상태임을 문제로 인식하고 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Infrared Image Understanding #Benchmark Dataset #Visual Question Answering (VQA)#Generative Visual Prompting (GenViP)#Domain Adaptation #Image-to-Image Translation

2025년 12월 10일

[논문리뷰] HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

대부분의 Vision-Language-Action (VLA) 모델이 Markov 속성을 가정하여 장기 태스크에서 temporal myopia 와 일관성 부족 을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action #Motion Representation #Temporal Reasoning #Long-Horizon Manipulation #Hindsight #Foresight #Robotics

2025년 12월 10일

[논문리뷰] Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules

본 논문은 확산 언어 모델(dLLM)이 오토회귀 모델에 비해 가지는 잠재력에도 불구하고, 느리고 반복적인 샘플링 과정으로 인해 실용성이 저해되는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Decoding Efficiency #Early Exit #Confidence Schedules #Training-free #Model-agnostic #Progress-aware

2025년 12월 10일

[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #Large Language Models #Lifelong Learning #Reinforcement Learning #Trust Region Policy Optimization #Chain-of-Thought #Catastrophic Forgetting

2025년 12월 10일

[논문리뷰] Composing Concepts from Images and Videos via Concept-prompt Binding

본 논문은 복잡한 시각적 개념(예: 스타일, 모션)을 이미지 및 비디오 입력에서 정확하게 추출하고, 이를 유연하게 조합하여 일관된 시각적 출력을 생성하는 문제를 해결하고자 합니다.

#Review #Visual Concept Composition #Diffusion Models #Text-to-Video Generation #Concept Binding #Hierarchical Binder #Diversify-and-Absorb Mechanism #Temporal Disentanglement #One-shot Learning

2025년 12월 10일

[논문리뷰] BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain

본 논문은 인간 뇌에서 시각적 개념 표현을 대규모로 발견하고 해석하는 자동화된 프레임워크인 BrainExplore 를 제안합니다. 기존 fMRI 연구의 소규모, 수동 분석 및 특정 영역 의존성의 한계를 극복하고, 방대한 시각적 개념 공간에서 정교하고 해석 가능한 뇌 활동 패턴 을 자동으로 식별하는 것을 목표로 합니다.

#Review #fMRI #Brain Mapping #Visual Representation #Interpretability #Sparse Autoencoders #Vision-Language Models #Unsupervised Learning #Neuroscience

2025년 12월 10일

[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.

#Review #TTS #Phonemization #G2P #Low Latency #Real-time #Service-Oriented Architecture #Context-Aware #Persian Language

2025년 12월 10일

[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

기존 모션 제어 비디오 생성 모델의 낮은 제어 정밀도, 제한된 확장성 및 비실용적인 출력 품질 문제를 해결하고자 합니다.

#Review #Video Generation #Motion Control #Latent Trajectory Guidance #Image-to-Video #Diffusion Models #Neural Networks #MoveBench

2025년 12월 9일

[논문리뷰] Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

본 논문은 기존 3D Gaussian Splatting(3DGS) 뷰어의 한계인 파편화, 무거움, 레거시 파이프라인 제약으로 인한 높은 배포 마찰과 동적 콘텐츠 및 생성 모델 지원 부족 문제를 해결하고자 합니다.

#Review #Neural Rendering #3D Gaussian Splatting #WebGPU #ONNX Inference #World Models #Real-time Rendering #Browser-based #Dynamic Scenes

2025년 12월 9일

[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Diffusion Models #Generative Models #Tree Search #Sample Efficiency #Credit Assignment #GRPO #Visual Generative Models

2025년 12월 9일

[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

기존 단안 3D 트래킹 방법론의 한계인 카메라 움직임과 전경 동적 객체 움직임의 분리 미흡 및 새롭게 출현하는 동적 객체의 밀집 트래킹 불가 문제를 해결하는 것입니다.

#Review #Monocular 3D Tracking #World-centric Coordinates #Dense Tracking #Camera Pose Estimation #Dynamic Object Tracking #Optimization #2D Track Upsampling

2025년 12월 9일

[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.

#Review #LLM #Parallel Reasoning #Inference Latency #Chain-of-Thought #Reinforcement Learning #Adaptive Threading #Mathematical Reasoning #Speedup

2025년 12월 9일

[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency #Reasoning Inconsistency #OCR Performance #Modality Gap #Benchmarking #Render Equivalence

2025년 12월 9일

[논문리뷰] SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting

본 논문은 3D Gaussian Splatting (3DGS) 의 방대한 메모리 사용량과 높은 연산 오버헤드 문제를 해결하고, 특히 4D 다이내믹 씬 에서의 실용적 배포를 어렵게 하는 한계를 극복하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting (3DGS)#Gaussian Compression #Model Efficiency #Novel View Synthesis #Dynamic Scenes #Parameter Compression #Restructuring Compression #Real-time Rendering

2025년 12월 9일

[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

본 논문은 기존의 얼굴 교체(face swapping) 기술들이 장시간의 복잡한 비디오 시퀀스에서 높은 충실도(high fidelity)와 시간적 일관성(temporal consistency)을 유지하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Face Swapping #Video Editing #Diffusion Models #Reference-guided Generation #Temporal Consistency #Keyframe Conditioning #Cinematic Quality #Dataset Construction

2025년 12월 9일

[논문리뷰] Predicting Time-Dependent Flow Over Complex Geometries Using Operator Networks

본 논문은 복잡한 형상 주변의 시간 의존적 유동장(velocity fields) 을 빠르고 정확하게 예측하는 것을 목표로 합니다.

#Review #Neural Operators #Time-Dependent Flow #Complex Geometries #DeepONet #Signed Distance Field #Autoregressive Prediction #Computational Fluid Dynamics #FlowBench

2025년 12월 9일

[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Adaptive Memory #Long-Range Context #Frame Selection #Diffusion Models #Image-to-Video #Autoregressive Generation #Narrative Coherence

2025년 12월 9일

[논문리뷰] Modular Neural Image Signal Processing

본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.

#Review #Neural ISP #Modular Architecture #Raw Image Processing #Photo-Editing #Camera Agnostic #Generalization #Deep Learning #Image Enhancement

2025년 12월 9일

[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.

#Review #Video Generation #Robotic Manipulation #Hierarchical Framework #Reinforcement Learning #Diffusion Models #World Models #Cognitive Science #Physical Alignment

2025년 12월 9일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.

#Review #Vision-Language Navigation #Dual-System Architecture #Foundation Models #Diffusion Policies #Robotics #Real-time Control #Generalization #Autonomous Navigation

2025년 12월 9일

[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.

#Review #Diffusion Language Models #LLM Adaptation #Block-Diffusion #Autoregressive Models #Attention Masks #Parallel Generation #Transfer Learning #Generative Models

2025년 12월 9일

[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

논문은 복잡한 동적 장면의 기하학적 구조와 움직임을 비디오로부터 효율적으로 재구성하는 것을 목표로 합니다. 기존의 단편적이고 컴퓨팅 비용이 높은 3D 재구성 접근 방식의 한계를 극복하고, 단일의 통일된 모델로 깊이, 시공간 대응, 전체 카메라 파라미터 추론을 수행하는 4D 이해 프레임워크 를 제시하고자 합니다.

#Review #Dynamic Scene Reconstruction #4D Reconstruction #Point Tracking #Transformer Architecture #Feedforward Model #Query-based Inference #Computer Vision #Geometric Consistency

2025년 12월 9일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] DeepCode: Open Agentic Coding

대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Agentic Coding #LLM #Code Generation #Repository Synthesis #Information Flow Management #Code Memory #CodeRAG #Automated Verification #Scientific Reproduction

2025년 12월 9일

[논문리뷰] Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

이 논문은 비디오 인스턴스 분할(VIS)에서 발생하는 합성-실제(synthetic-to-real) 도메인 간극 과 높은 주석 비용 문제를 해결하고자 합니다. 특히, 인간 주석 없이 실제 비디오에 대한 다중 인스턴스 분할 및 추적 성능을 향상시키는 데 중점을 둡니다.

#Review #Unsupervised Video Instance Segmentation #Self-Training #Quality Assessment #Pseudo-labeling #Domain Adaptation #VideoMask2Former #YouTubeVIS

2025년 12월 9일

[논문리뷰] Voxify3D: Pixel Art Meets Volumetric Rendering

3D 메시에서 고품질 복셀 아트를 자동 생성하는 과정에서 발생하는 기하학적 추상화, 의미 보존, 그리고 이산적인 색상 일관성 간의 상충하는 요구사항을 해결하는 것이 목표입니다. 기존 방법들은 기하학적 구조를 과도하게 단순화하거나 픽셀 단위의 정밀하고 팔레트 제약적인 복셀 아트 미학을 달성하지 못하는 한계가 있습니다.

#Review #Voxel Art #Volumetric Rendering #3D Stylization #Neural Radiance Fields #Discrete Optimization #Gumbel-Softmax #CLIP Loss

2025년 12월 8일

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.

#Review #Robot Manipulation #Video Generation Models #Vision-Language-Action (VLA)#Diffusion Transformer #Generalization #Action Prediction #Visual Imagination

2025년 12월 8일

[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning

이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.

#Review #Tool-integrated Visual Reasoning #Referring Grounded Reasoning #Agentic Reinforcement Learning #Self-Correction #Large Vision-Language Models #Chain-of-Thought #Tool Refinement

2025년 12월 8일

[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Multi-modal Learning #Multi-task Learning #Zero-shot Generalization #Diffusion Models #World Models #Video Understanding

2025년 12월 8일

[논문리뷰] Unified Video Editing with Temporal Reasoner

기존 비디오 편집 모델들이 겪는 정밀도(expert models)와 통합성/마스크-프리(in-context learning models) 간의 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Diffusion Models #Temporal Reasoning #Chain-of-Thought #In-Context Learning #ROPE #Multi-instance Editing

2025년 12월 8일

[논문리뷰] Scaling Zero-Shot Reference-to-Video Generation

논문은 기존 R2V(Reference-to-Video) 생성 모델이 명시적인 R2V 데이터셋 에 의존하여 확장성과 일반화 능력이 제한되는 문제를 해결하고자 합니다. 이를 위해 명시적인 R2V 데이터 없이 순수한 대규모 비디오-텍스트 쌍 만을 사용하여 제로샷 R2V 생성 이 가능한 Saber 프레임워크를 제안합니다.

#Review #Reference-to-Video Generation #Zero-Shot Learning #Diffusion Models #Masked Training #Video-Text Pairs #Identity Preservation #Scalability #Attention Mechanism

2025년 12월 8일

[논문리뷰] Rethinking Training Dynamics in Scale-wise Autoregressive Generation

본 연구는 스케일별 자동회귀(AR) 생성 모델이 겪는 (1) 훈련-추론 불일치(exposure bias) 와 (2) 스케일별 학습 난이도 불균형 문제로 인해 저하되는 생성 품질을 해결하는 것을 목표로 합니다.

#Review #Autoregressive Generation #Visual Synthesis #Exposure Bias #Student Forcing #Self-Autoregressive Refinement #Scale-wise Prediction #Image Generation

2025년 12월 8일

[논문리뷰] Relational Visual Similarity

본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Relational Similarity #Visual Similarity #Vision-Language Models #Anonymous Captioning #Image Retrieval #Analogical Reasoning #Dataset Curation

2025년 12월 8일

[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.

#Review #Video Generation #Camera Control #Novel Trajectory #3D Gaussian Splatting (3DGS)#LiDAR-Free #Diffusion Models #Autonomous Driving #Scene Synthesis

2025년 12월 8일

[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Pre-training #Mid-training #Reasoning LMs #Generalization #Synthetic Reasoning Tasks #Process-level Supervision

2025년 12월 8일

[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Jailbreak Attack #Attack-Defense Evaluation #Benchmark #Safety Alignment #Vulnerability Analysis #Risk Taxonomy #Evaluation Metrics

2025년 12월 8일

[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Parallel Reasoning #Self-Distilled Reinforcement Learning #Policy Optimization #Inference Acceleration #Structured Output #Agentic Reasoning

2025년 12월 8일

[논문리뷰] Multi-view Pyramid Transformer: Look Coarser to See Broader

본 논문은 대규모 3D 장면을 수십에서 수백 개의 이미지로부터 단일 순방향 패스로 재구성하는 트랜스포머 아키텍처의 확장성 문제 를 해결하는 것을 목표로 합니다.

#Review #Multi-view Transformer #3D Reconstruction #Hierarchical Attention #Computational Efficiency #3D Gaussian Splatting #Novel View Synthesis #Scalability

2025년 12월 8일

[논문리뷰] LongCat-Image Technical Report

컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Diffusion Model #Multilingual Text Rendering #Photorealism #Efficiency #Open-Source

2025년 12월 8일

[논문리뷰] Group Representational Position Encoding

Transformer 모델의 필수 요소인 위치 인코딩(Positional Encoding) 메커니즘들을 군 이론(Group Theory) 기반의 통합된 프레임워크 로 제시하고, 기존의 주요 기법인 RoPE 와 ALiBi 를 특수 사례로 포괄하며, 더 넓고 원칙적인 설계 공간을 제공하는 것을 목표로 합니다.

#Review #Positional Encoding #Group Theory #Transformer #RoPE #ALiBi #Lie Groups #Multiplicative PE #Additive PE

2025년 12월 8일

[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.

#Review #Egocentric Video Editing #Real-Time Streaming #Augmented Reality #Video Generation #Dataset #Benchmark #Diffusion Models #Distillation

2025년 12월 8일

[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

LLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Multi-Agent Systems #Debugging #Intervention-Driven #Failure Attribution #Automated Debugging #Verification #AI Agents #Reliability

2025년 12월 8일

[논문리뷰] Distribution Matching Variational AutoEncoder

본 논문은 시각적 생성 모델에서 VAE 및 파운데이션 모델 인코더가 잠재 공간의 분포를 명시적으로 형성하지 못하는 문제를 해결합니다.

#Review #Variational Autoencoder (VAE)#Distribution Matching #Diffusion Models #Latent Space #Self-supervised Learning (SSL) Features #Generative Models #ImageNet #Tokenizer

2025년 12월 8일

[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Evolving Learning #Data-Scarce Domains #Context-First Learning #Reward Hacking Mitigation #Multimodal Reasoning #Curriculum Learning

2025년 12월 8일

[논문리뷰] DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

본 논문은 긴 컨텍스트 대화 시스템에서 모델이 오래된 이력에 과도하게 집중하여 새로운 충돌 정보가 있을 때 내부 상태를 업데이트하지 못하는 'State Inertia' 문제를 해결하고자 합니다.

#Review #Long-Context Dialogue #Mutable State Tracking #Temporal Alignment #Preference Optimization #Attention Mechanism #State Inertia #Non-Destructive Alignment

2025년 12월 8일

[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.

#Review #Decoding-based Regression #Reinforcement Learning #Numerical Prediction #Large Language Models #Policy Gradient #Tokenization #Sequence Generation

2025년 12월 8일

[논문리뷰] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

현재 RoPE(Rotary Position Embeddings) 구현이 어텐션 스코어 계산 시 복소수 값의 내적에서 실수부만 사용 하고 허수부를 버려, 장문맥 의존성 모델링에 중요한 관계형 정보 손실 이 발생하는 문제를 해결하고자 합니다.

#Review #Rotary Position Embedding #Long-Context LLMs #Complex-Valued Neural Networks #Self-Attention #Positional Encoding #Information Loss #Length Extrapolation

2025년 12월 8일

[논문리뷰] World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

본 논문은 최첨단 제어 가능한 비디오 모델이 흔히 겪는 환각 현상과 불확실성 표현 능력 부족 문제를 해결하고자 합니다.

#Review #Controllable Video Generation #Uncertainty Quantification #Video Models #Calibration #Out-of-Distribution Detection #Proper Scoring Rules #Latent Space

2025년 12월 7일

[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Models #One-step Generation #Self-Adversarial Learning #Flow Matching #Large Language Models #Text-to-Image #Efficient Inference #Diffusion Models

2025년 12월 7일

[논문리뷰] TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

논문은 지진 시 지반 운동의 시간-주파수 특성 을 효과적으로 포착하는 딥러닝 모델의 부재 문제를 해결하고자 합니다. 특히, 지역 지반 조건에 따른 지진파의 복잡한 시공간 및 스펙트럼 패턴 을 반영하여 사이트별 강진파(strong motion)를 생성 하는 조건부 생성 모델을 개발하는 것이 주된 목표입니다.

#Review #Strong Motion Generation #Deep Learning #TimesNet #Conditional Generation #Site Effects #Seismology #HVSR #Time Series

2025년 12월 7일

[논문리뷰] SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling

본 연구는 3D 에셋 생성에서 직관적이고 정밀한 기하학적 제어가 부족하다는 문제에 주목합니다.

#Review #3D Generative Models #Spatial Control #Test-Time Guidance #Rectified Flow #Superquadrics #Training-Free #Trellis

2025년 12월 7일

[논문리뷰] Self-Improving VLM Judges Without Human Annotations

본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Improvement #Judge Models #Synthetic Data Generation #Iterative Refinement #Reward Modeling #Human-free Alignment

2025년 12월 7일

[논문리뷰] SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs

대규모 언어 모델(LLMs)의 배포에 있어 저비트 양자화(low-bit quantization) 와 희소화(sparsification) 기술이 정확도와 효율성 사이에서 균형을 맞추기 어려운 문제를 해결하는 것이 목표입니다.

#Review #LLM Quantization #Sparsification #Hardware Acceleration #Mixed-Precision #Post-Training Quantization #Data Format #GPU Optimization #AI Accelerator

2025년 12월 7일

[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Character Animation #3D Pose Representation #In-Context Learning #Diffusion Transformer #Studio-Grade Animation #Spatio-Temporal Reasoning #Video Generation

2025년 12월 7일

[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

본 논문은 기존 텍스트-이미지(T2I) 생성 모델들이 보이는 '가짜 같은' AI 아티팩트(예: '지나치게 매끄러운 피부', '기름진 얼굴 광택') 문제를 해결하고, 현실과 구분 불가능한 수준의 사실적인 이미지 를 생성하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Photorealism #Reinforcement Learning #Diffusion Models #Adversarial Learning #Detector-Guided Rewards #LLM Prompt Optimization #Image Quality Assessment

2025년 12월 7일

[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

본 논문은 복잡한 추론 중심 비디오 객체 분할 (Reasoning VOS) 태스크에서 기존 Vision-Language Models (VLMs) 의 불투명한 단일 스텝 잠재 예측 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Video Object Segmentation #Reinforcement Learning #Vision-Language Models #Reasoning Chain #Explainable AI #Multi-step Reasoning

2025년 12월 7일

[논문리뷰] ProPhy: Progressive Physical Alignment for Dynamic World Simulation

기존 비디오 생성 모델들이 대규모 또는 복잡한 다이내믹스에서 물리적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Physics-aware #World Simulation #Progressive Alignment #Mixture-of-Experts #Vision-Language Models #Token-level Routing

2025년 12월 7일

[논문리뷰] Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

논문은 단일 정적 이미지로부터 물리적으로 그럴듯하고 시간적으로 일관된 동적인 4D 장면(3D 기하학과 시간적 역학) 을 생성하는 핵심적인 문제를 해결하는 것을 목표로 합니다. 기존의 기하학-모션 분리 패러다임에서 발생하는 시공간적 불일치와 일반화 부족 문제를 극복하고자 합니다.

#Review #4D Synthesis #3D Reconstruction #Motion Generation #Single Image #Diffusion Model #Point Cloud #Dataset Curation #View Synthesis

2025년 12월 7일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Iterative Reasoning #Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following #Critique-Refine-Repeat Cycle #Think-while-Edit

2025년 12월 7일

[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Perception Enhancement #Auxiliary Modalities #Adaptive Interleaved Reasoning #Reinforcement Learning #Chain-of-Thought

2025년 12월 7일

[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence

이 논문은 AI가 스스로 개선하는 자율적 자기 개선(Self-Improving AI)의 목표가 위험하고 최적의 경로가 아니라고 주장하며, 대신 인간과 AI의 협력적 공동 개선(Co-Improvement) 을 통해 더 안전하고 빠른 공동 초지능(Co-Superintelligence) 달성을 제안합니다.

#Review #AI Safety #Superintelligence #Human-AI Collaboration #Self-Improving AI #Co-Improvement #Alignment #AI Research Agents

2025년 12월 7일

[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Resolution Extrapolation #Positional Encoding #Frequency Analysis #Adaptive Attention #High-Resolution Image Generation #Image Quality #Content Repetition

2025년 12월 4일

[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation

본 논문은 복잡한 시맨틱 추론이나 반복적인 고수준 계획이 필요한 비디오 생성에서 기존 모델들이 겪는 한계를 극복하고자 합니다. 비디오 생성을 텍스트와 비디오 생성의 교차 프로세스로 분해함으로써 시각적 품질과 사용자 제어 가능성을 획기적으로 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Language Modeling #Multimodal AI #Interleaved Generation #Flow Matching #Transformer #Controllability #World Models

2025년 12월 4일

[논문리뷰] Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

본 논문의 핵심 목표는 단안 카메라로 촬영된 불완전한 마네킹 챌린지(Mannequin-Challenge, MC) 영상 에서 미세한 움직임으로 인해 발생하는 고스팅(ghosting) 및 블러(blur) 아티팩트를 제거하고, 고품질의 완벽하게 정지된 3D 장면(freeze-time video) 을 합성하는 것입니다.

#Review #Monocular 3D Reconstruction #Mannequin Challenge #Dynamic Gaussian Splatting #Freeze-Time Video #Temporal Consistency #Artifact Suppression #Regularization

2025년 12월 4일

[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization #Mixed-Precision Quantization #Sensitivity Metric #Quantization Scale Initialization #Accuracy Preservation

2025년 12월 4일

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Asynchronous Denoising #Semantic Modeling #Texture Modeling #Image Generation #Vision Transformer #VAE #Fast Convergence

2025년 12월 4일

[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.

#Review #Vision-Language Navigation #Large Vision-Language Models #Visual Prompt #Reinforcement Fine-Tuning #Policy Optimization #Embodied AI #Spatial Reasoning #Perception Errors

2025년 12월 4일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.

#Review #Streaming Video Generation #Video Diffusion Models #Distribution Matching Distillation #Reinforcement Learning #Autoregressive Models #Attention Sink #Real-time

2025년 12월 4일

[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.

#Review #Fact-Checking #Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement #Latent Space #Disentanglement #Steering Vectors #Misinformation

2025년 12월 4일

[논문리뷰] QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory

본 연구는 기존 LSTM 모델 의 높은 파라미터 중복성과 제한된 비선형 표현력 문제를 해결하고, 특히 도시 통신 예측과 같은 복잡한 시계열 모델링 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Quantum Machine Learning #Kolmogorov-Arnold Networks #Long Short-Term Memory (LSTM)#Time Series Forecasting #Hybrid Quantum-Classical Learning #Quantum-inspired #Recurrent Neural Networks

2025년 12월 4일

[논문리뷰] PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

기존 LLM 기반 글쓰기 보조 도구가 편집기 외부에 존재하여 발생하는 컨텍스트 전환, 상호작용 기록 단절, 문서 상태와의 심층적 상호작용 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Academic Writing #In-editor Assistant #Multi-agent System #Overleaf Integration #Chrome Extension #Kubernetes #XtraMCP

2025년 12월 4일

[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO #Training Stability #Lazy Likelihood Displacement (LLD)#Regularization #Search-R1

2025년 12월 4일

[논문리뷰] Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

본 논문은 LLM이 수동적 응답자에서 자율 에이전트로 발전 하는 데 필요한 확장 가능한 고품질 상호작용 신호 인프라의 부족 문제를 해결하고자 합니다.

#Review #Agentic Models #Large Language Models (LLMs)#Agentic Scaling #Environment Construction #NexAU #NexA4A #NexGAP #Interactive Environments

2025년 12월 4일

[논문리뷰] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

기존 확산 모델이 데이터의 공간적 구조를 파괴하는 문제를 해결하고, 아키텍처 변경이나 추가 파라미터 없이 이미지의 위상을 보존하여 구조 정렬 생성(structure-aligned generation) 을 가능하게 하는 새로운 확산 프로세스를 제안합니다.

#Review #Diffusion Models #Phase Preservation #Frequency Domain #Structure-Aligned Generation #Image-to-Image Translation #Sim-to-Real #Generative AI

2025년 12월 4일

[논문리뷰] Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

본 논문은 계산 비용이 매우 높은(각 평가에 며칠 소요) 문제인 구 채우기(sphere packing) 문제에서 AI를 활용하여 새로운 수학적 상한을 발견하는 것을 목표로 합니다. 특히, 기존의 데이터 집약적인 AI 접근 방식이 비실용적인 환경에서 샘플 효율적인 모델 기반 프레임워크 를 통해 난제를 해결하고자 합니다.

#Review #Sphere Packing #Mathematical Discovery #Semidefinite Programming (SDP)#Bayesian Optimization (BO)#Monte Carlo Tree Search (MCTS)#Sample-Efficient AI #Model-Based Learning #Geometric Constraints

2025년 12월 4일

[논문리뷰] Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

본 논문은 비디오 이해 태스크에서 멀티모달 LLM(MLLM)이 생성하는 설명문의 시각적 객체 및 시간적 행동 환각 문제를 공동으로 완화하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Hallucination Mitigation #Object Hallucination #Action Hallucination #Contrastive Learning #Self-Augmentation #Tracklet-Phrase Alignment

2025년 12월 4일

[논문리뷰] Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

이 논문은 instruct LLM을 비용이 많이 드는 특화된 레이블링된 데이터 없이 비레이블링된 타겟 언어 데이터만으로 새로운 언어에 적응 시킬 때 발생하는 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Catastrophic Forgetting #Language Adaptation #Continual Pre-training #Parameter Freezing #Low-Resource Languages #Source Knowledge Preservation

2025년 12월 4일

[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.

#Review #Audio-Driven Avatar Generation #Real-time Streaming #Diffusion Models #Infinite Length #Pipeline Parallelism #Temporal Consistency #Model Distillation

2025년 12월 4일

[논문리뷰] LATTICE: Democratize High-Fidelity 3D Generation at Scale

본 논문은 고품질 3D 에셋 생성에 있어 3D 및 2D 생성 모델 간의 품질과 확장성 격차를 해소하는 것을 목표로 합니다. 특히, 3D 생성 과정의 높은 계산 복잡성과 효율적인 에셋 인코딩 방식 부재로 인해 발생하는 한계를 극복하고, 모델 확장성 및 성능 향상을 위한 효과적인 3D 표현을 정의하고자 합니다.

#Review #3D Generation #High-Fidelity #Latent Representation #Voxel Grid #Diffusion Models #Transformer #Scalable AI #Asset Creation

2025년 12월 4일

[논문리뷰] Generative Neural Video Compression via Video Diffusion Prior

본 논문은 기존 비디오 압축 방식이 초저비트레이트 환경에서 발생하는 흐릿함, 세부 정보 손실, 그리고 지각적 깜빡임(perceptual flickering) 문제를 해결하는 것을 목표로 합니다.

#Review #Neural Video Compression #Diffusion Models #Generative Models #Video Compression #Temporal Coherence #Perceptual Quality #Flow Matching #Video Diffusion Transformer (VideoDiT)

2025년 12월 4일

[논문리뷰] GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

본 논문은 기존 text-to-3D 스타일 변환 방법의 느린 최적화 시간과 멀티뷰 불일치 문제를 해결하여, 3D Gaussian Splatting (3DGS) 자산에 대한 즉각적이고 고품질의 기하학적 구조 보존 및 멀티뷰 일관성을 갖춘 스타일 변환 을 목표로 합니다.

#Review #3D Gaussian Splatting #Text-to-3D Stylization #Latent Diffusion Models #Disentangled Latent Spaces #Feed-forward Editing #Geometry Preservation #Multi-view Consistency

2025년 12월 4일

[논문리뷰] FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

본 논문은 실제 환경에서 발생하는 동적으로 변화하는 노출 과 모션에 의한 복합적인 비디오 열화 문제를 해결하여, 고해상도(HR) 및 선명한 비디오를 복원하는 것을 목표로 합니다. 기존 비디오 복원 방법론들이 고정된 노출 시간을 가정하여 실제 시나리오에 취약하다는 한계를 극복하고자 합니다.

#Review #Video Super-Resolution #Video Deblurring #Joint Restoration #Exposure-Aware #Motion Compensation #Transformer Architecture #Dynamic Filtering #Real-World Degradations

2025년 12월 4일

[논문리뷰] EgoLCD: Egocentric Video Generation with Long Context Diffusion

논문은 장기적으로 일관된 1인칭 시점(egocentric) 비디오를 생성하는 데 있어 콘텐츠 드리프트(content drift) 와 계산 자원 제약으로 인한 장기 기억(long-term memory) 관리의 어려움 을 해결하고자 합니다.

#Review #Egocentric Video Generation #Long-Context Diffusion #Long-Short Memory #Sparse KV Cache #Memory Regulation Loss #Structured Narrative Prompting #World Models #Embodied AI

2025년 12월 4일

[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.

#Review #4D World Modeling #Multimodal Data #Dynamic Scenes #Metric-Scale #Bundle Adjustment #Foundation Models #Video Analysis #Data Curation

2025년 12월 4일

[논문리뷰] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존 MLLM 기반 텍스트-투-이미지(T2I) 생성 모델의 두 가지 주요 한계점, 즉 텍스트 기반 계획의 추상성과 희귀 속성 조합 생성의 어려움을 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought (CoT)#Multimodal Large Language Models (MLLMs)#Visual Planning #Rare Concept Generation #Drafting #Classifier-Free Guidance (CFG)#Image Refinement

2025년 12월 4일

[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

본 논문은 기존 벤치마크가 놓치고 있는 실제 기업 데이터 인텔리전스 워크플로우의 복잡성 을 반영하여, 데이터 에이전트의 포괄적인 성능을 평가 하는 DAComp 벤치마크를 제시합니다.

#Review #Data Agents #Benchmarking #Data Engineering #Data Analysis #LLM-as-Judge #Full Data Intelligence Lifecycle #Repository-Level #Open-Ended Tasks

2025년 12월 4일

[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

본 논문은 기존 비디오 확산 모델의 고질적인 문제점인 장면 역학과 카메라 모션 간의 결합을 해소하고, 시간과 카메라 포즈를 명시적으로 분리하여 제어 하는 4D-controllable 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #4D Control #Camera Pose Control #Time Control #Positional Encoding #Adaptive Normalization #Synthetic Dataset

2025년 12월 4일

[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.

#Review #Text-to-Image #LVLM #Social Bias #System Prompts #Bias Mitigation #Meta-Prompting #Fairness #Generative AI

2025년 12월 4일

[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reward Models #Agentic AI #Tool Use #Reinforcement Learning #Visual Reasoning #Multimodal LLMs #Instruction Following #Evaluation Benchmarks

2025년 12월 4일

[논문리뷰] 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

기존 4D 시맨틱 필드 구축 방식이 Gaussian Splatting 에 의존하여 장면별 최적화가 필요하고 일반화 및 확장성이 제한적인 문제를 해결하고자 합니다.

#Review #4D Scene Understanding #Language Grounding #Transformer #Feed-forward Network #Semantic Field #Geometry Reconstruction #Embodied AI

2025년 12월 4일

[논문리뷰] ViDiC: Video Difference Captioning

본 논문은 동적 비디오 시퀀스 간의 시각적 차이를 이해하고 설명하는 Video Difference Captioning (ViDiC) 이라는 새로운 태스크를 제안합니다.

#Review #Video Difference Captioning #Multimodal Large Language Models #Video Understanding #Comparative Reasoning #Evaluation Benchmark #LLM-as-a-Judge #ViDiC-1K

2025년 12월 3일

[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.

#Review #LLM Compression #Quantization #Pruning #Edge AI #Adaptive Deployment #Transformer #State Space Models #Hybrid Models #One-shot Compression

2025년 12월 3일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

#Review #Self-Distillation #Cognitive Skills #Reinforcement Learning #Supervised Fine-Tuning #Language Models #Reasoning #Verification #Retrying

2025년 12월 3일

[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Alignment #Stable Rank #Intrinsic Reward #Reinforcement Learning #Geometric Properties #Group Relative Policy Optimization #Annotation-Free Alignment

2025년 12월 3일

[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory

논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Interactive World Model #Video Generation #Long-Horizon Memory #Real-Time Streaming #Diffusion Models #Autoregressive Models #Spatial Consistency #Unreal Engine

2025년 12월 3일

[논문리뷰] Qwen3-VL Technical Report

Qwen3-VL은 기존 Qwen 시리즈 중 가장 강력한 Vision-Language Model (VLM) 을 개발하여 광범위한 멀티모달 벤치마크에서 뛰어난 성능을 달성하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Reasoning #Long-Context #Interleaved Data #Mixture-of-Experts #DeepStack #Agentic AI

2025년 12월 3일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일

[논문리뷰] Jina-VLM: Small Multilingual Vision Language Model

본 연구는 VLM의 실용적 배포를 저해하는 두 가지 주요 과제를 해결하는 것을 목표로 합니다. 첫째, 비전 적응 과정에서 발생하는 다국어 성능 저하 문제를 극복하고, 둘째, 고품질 VLM 훈련 및 배포의 높은 계산 비용을 줄여 접근성을 높이는 것입니다.

#Review #Vision-Language Model #Multilingual VLM #Small VLM #Visual Question Answering #Attention Pooling #Image Tiling #SigLIP #Qwen

2025년 12월 3일

[논문리뷰] In-Context Representation Hijacking

본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.

#Review #LLM Jailbreak #In-Context Learning #Representation Hijacking #Mechanistic Interpretability #LLM Safety #Adversarial Attack #Semantic Shift

2025년 12월 3일

[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

본 논문은 Normalizing Flows (NFs) 의 생성 품질이 학습된 의미론적 표현의 부족으로 제한되는 문제를 해결하고자 합니다.

#Review #Normalizing Flows #Representation Alignment #Generative Models #TARFlow #Image Generation #Classification #Training Acceleration #Reverse Pass

2025년 12월 3일

[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

본 논문은 기존 확산 모델이 구조화된 다단계 시나리오, 특히 가변 길이 레시피 이미지 생성에서 일관성 및 유연성 부족을 겪는 문제를 해결합니다. 유연하고 일관되며 의미론적으로 분리된 다단계 레시피 이미지 생성을 위한 통합 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Multi-step Image Generation #Recipe Illustration #Diffusion Models #Consistent Generation #Regional Control #Positional Encoding #Ingredient Consistency #Procedural Content Generation

2025년 12월 3일

[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.

#Review #Image-Text Alignment #Multimodal Benchmarking #Hallucination Detection #Vision-Language Models #Synthetic Data Generation #Fine-Grained Analysis #Captioning

2025년 12월 3일

[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.

#Review #Adversarial Attack #Multimodal Large Language Models (MLLMs)#Entropy Maximization #Confusion Attack #Black-box Transfer #PGD #AI Agent Safety

2025년 12월 3일

[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation

본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.

#Review #Music-Driven Video Generation #Diffusion Models #Multi-Stage Framework #Camera Control #Lip-Sync #Temporal Coherence #Video Diffusion Transformer

2025년 12월 2일

[논문리뷰] WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

본 논문은 기존 비디오 LLM이 긴 비디오(수 시간~수 일)를 처리할 때 직면하는 제한된 컨텍스트 용량 및 시각적 세부 정보 손실 문제를 해결하고자 합니다.

#Review #Long Video Reasoning #Multimodal Memory #Adaptive Retrieval #Video Large Language Models #Knowledge Graph #Multiscale Temporal Reasoning #Episodic Memory #Semantic Memory

2025년 12월 2일

[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

본 논문은 비디오 생성 모델이 시각 데이터(비디오 컨텍스트) 만을 사용하여 인간의 인지와 유사한 시공간 지능(Visuospatial Intelligence) 을 발휘할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Video Generation #Spatial Reasoning #Visuospatial Intelligence #Diffusion Models #Context-Guided Generation #Scene Navigation #Object Grounding #Out-of-Domain Generalization

2025년 12월 2일

[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

본 논문은 기존 비디오-오디오 생성 모델이 모노 출력에 국한되어 공간적 몰입감이 부족하며, 기존 바이노럴 접근 방식이 2단계 파이프라인(모노 생성 후 공간화)으로 인한 오류 누적과 시공간 불일치 문제를 겪는 한계를 해결하고자 합니다.

#Review #Binaural Audio Generation #Spatial Audio #Video-Driven #End-to-End #Conditional Flow Matching #Multimodal AI #Deep Learning #Audio-Visual Synthesis

2025년 12월 2일

[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.

#Review #Analogical Reasoning #Large Language Models #Mechanistic Interpretability #Proportional Analogies #Story Analogies #Structural Alignment #Attention Knockout #Patchscopes

2025년 12월 2일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간과 메모리 사용량 문제를 해결하고, 경량 VLA 모델의 제한된 시공간 추론 능력을 극복하는 것을 목표로 합니다. 특히, 컴팩트한 VLA 모델에 4D 시공간 정보 를 통합하여 효율성을 유지하면서도 강력한 장면 이해 및 액션 계획 능력을 부여하고자 합니다.

#Review #Vision-Language-Action (VLA)#Lightweight Models #Spatiotemporal Dynamics #4D Features #Masked Autoencoding #Robotics #Edge AI

2025년 12월 2일

[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal AI #Agentic Models #Interleaved Reasoning #Image Manipulation #DeepSearch #Supervised Fine-tuning (SFT)#Tool-Augmented LLM

2025년 12월 2일

[논문리뷰] SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

본 논문은 기존 시뮬레이터들의 한계(제한된 환경, 비현실적인 물리/사회 규칙, LLM/VLM 에이전트 미지원)를 극복하고, 현실적이고 개방적인 환경에서 자율 에이전트의 개발 및 평가를 위한 SIMWORLD 시뮬레이터를 제시합니다.

#Review #Autonomous Agents #Realistic Simulator #Unreal Engine 5 #LLM/VLM Agents #Procedural Generation #Multi-Agent Systems #Physical Simulation #Social Interaction

2025년 12월 2일

[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at Scale

자율주행 시스템의 안전에 필수적인 안전-위험(safety-critical) 및 분포 외(Out-of-Distribution, OOD) 시나리오에 대한 실제 데이터 부족 문제를 해결하고, 제한된 실제 데이터 환경에서 대규모 시뮬레이션 데이터를 활용 하여 엔드투엔드(E2E) 플래너의 강건성 및 일반화 성능 을 체계적으로 향상시키는 방법을 제시하는 것이 목표입니다.

#Review #Autonomous Driving #Simulation #Neural Rendering #3D Gaussian Splatting #Sim-to-Real #Data Scaling #End-to-End Planning #Pseudo-Expert

2025년 12월 2일

[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning #Generalization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT #Maze Solving

2025년 12월 2일

[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AI

현재 다중 모달 대규모 언어 모델( MLLM )과 비디오 생성 모델( VGM )이 실제 물리적 역학을 인지하고 예측하는 능력을 충분히 지원하는지 이해하는 데 한계가 있습니다.

#Review #Physical AI #Benchmark #Video Generation #Conditional Video Generation #Video Understanding #Multimodal LLMs #Physical Plausibility #Embodied Reasoning

2025년 12월 2일

[논문리뷰] MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

본 논문은 단일 샷(single-shot) 비디오 생성 기술의 한계를 넘어, 유연한 샷 배열, 일관된 내러티브, 그리고 텍스트 프롬프트 이상의 제어 가능성을 갖춘 다중 샷 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Controllable Video Generation #Diffusion Models #RoPE #Spatiotemporal Consistency #Reference Injection #Data Curation Framework

2025년 12월 2일

[논문리뷰] Mixture of Horizons in Action Chunking

본 논문은 Vision-Language-Action (VLA) 모델 에서 고정된 액션 청크 길이(horizon) 가 유발하는 근본적인 한계점을 해결하고자 합니다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Multi-horizon Planning #Transformer Architecture #Gated Fusion #Dynamic Inference

2025년 12월 2일

[논문리뷰] Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

본 연구는 Masked Diffusion Language Models (MDLMs) 의 컨텍스트 이해 능력을 체계적으로 조사하고, locality bias 및 마스크 토큰 사용이 성능에 미치는 영향을 파악하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Masked Diffusion Language Models #Context Comprehension #Locality Bias #Mask Tokens #Fine-tuning #Mask-agnostic Loss #Long-context Processing

2025년 12월 2일

[논문리뷰] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

이 논문은 동적이고 이전에 본 적 없는 환경에서 강건한 제로샷 시각 내비게이션(zero-shot visual navigation) 을 달성하는 것을 목표로 합니다.

#Review #Visual Navigation #Dual-Scale Framework #Sparse Spatial Memory Graph #Memory-Guided Planning #Geometry-Enhanced Control #Zero-Shot Navigation #Embodied AI

2025년 12월 2일

[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision

본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.

#Review #Self-Evolving LLMs #Self-Play #Reinforcement Learning #Curriculum Learning #Few-shot Learning #Human Supervision #Concept Drift #Diversity Collapse

2025년 12월 2일

[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample

본 논문은 이미지 생성 확산 모델의 높은 계산 비용과 많은 추론 단계를 해결하고자 합니다. 특히, 모델의 재훈련 비용과 일반화 성능 저하 없이, 단일 샘플만으로도 효율적인 가속화와 강력한 일반화 능력을 갖춘 경량화된 솔루션을 제공하는 것을 목표로 합니다.

#Review #Diffusion Models #Acceleration #Distillation #LoRA #Few-shot Learning #Phase-aware #Image Generation #Computational Efficiency

2025년 12월 2일

[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.

#Review #GUI Agents #Screen Navigation #Reinforcement Learning #Multi-Turn RL #Simulation #Supervised Fine-tuning #Generalization

2025년 12월 2일

[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.

#Review #Diffusion Models #Video Generation #Camera Control #Depth Estimation #Dual-Branch Architecture #Geometric Awareness #Semantic Alignment #Multi-modal Fusion

2025년 12월 2일

[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Video Generation #Audio-Video Multimodal #Joint Denoising #Diffusion Models #Transformer Architecture #World Models #Physical Commonsense #Multimodal Training

2025년 12월 2일

[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Vision-Language-Action (VLA) 모델이 분포 변화 및 복잡한 다단계 로봇 조작 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다. 이는 학습된 표현이 태스크 관련 의미를 견고하게 포착하지 못하기 때문이며, 본 논문은 기하학적 정규화 를 통해 VLA 모델의 견고성을 향상시키는 것을 목표로 합니다.

#Review #VLA Models #Flow Matching #Robotics #Robustness #Distribution Shift #Wasserstein Distance #Geometric Regularization #Representation Learning

2025년 12월 2일

[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.

#Review #Large Language Models #Sparse Attention #Reinforcement Learning #Agentic AI #Tool Use #Open-source LLM #DeepSeek

2025년 12월 2일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

기존 Video Scene Graph Generation (VSGG) 및 Panoptic Video Scene Graph (PVSG) 시스템의 폐쇄적인 특성과, SAM/SAM2 와 같은 프롬프트 기반 분할 모델이 의미론적 또는 관계적 추론 기능을 결여하고 있다는 한계를 해결하고자 합니다.

#Review #Panoptic Video Scene Graph Generation #Interactive AI #User Guidance #Promptable Segmentation #Video Understanding #Relational Reasoning #Human-in-the-Loop

2025년 12월 2일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일

[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models

본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Large Language Models #Causality #Attention Mechanism #Reasoning #Natural Language Generation #Supervised Fine-Tuning #Concept-Guided

2025년 12월 2일

[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.

#Review #Block Diffusion #Video Generation #Temporal Consistency #KV Cache #Semi-Autoregressive #Video Quality Metrics #Long Video Generation

2025년 12월 2일

[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning

기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning #Object Grounding #Object Detection #Structured Output

2025년 12월 2일

[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Image Editing #Benchmarking #Cognitive AI #Creativity #Multimodal AI #Knowledge-based Reasoning #Diffusion Models #MLLMs

2025년 12월 1일

[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Knowledge Graphs #Large Language Models #Information Extraction #Wikidata Ontology #Question Answering #Entity Normalization #Retrieval Augmented Generation

2025년 12월 1일

[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

다국어 텍스트-이미지(T2I) 모델이 다국어 프롬프트에 대해 문화적으로 중립적이거나 영어 편향적인 이미지를 생성하여 교차 언어 문화적 일관성(cross-lingual cultural consistency) 을 저해하는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Image Generation #Cultural Consistency #Multilingual AI #Neuron Activation #Cultural Probing #Fine-Tuning #Diffusion Models

2025년 12월 1일

[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

최신 비디오 확산 모델이 시각적으로는 인상적이지만, 물체 부유, 가속도 불일치, 충돌 비현실성 등 기본적인 물리 법칙을 위반하는 문제점을 해결하는 것이 목표입니다.

#Review #Video Generation #Diffusion Models #Newtonian Dynamics #Physics-aware AI #Post-Training #Verifiable Rewards #Optical Flow #Mass Estimation

2025년 12월 1일

[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Asynchronous Inference #Real-Time Robotics #Low-Latency Control #Future State Awareness #Action Quantization #Temporal Alignment

2025년 12월 1일

[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Image Editing #Diffusion Models #Consistency Correction #Attention Mechanism #Reference-Guided #Agent Framework #Data Curation

2025년 12월 1일

[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.

#Review #Test-Time Scaling #LLMs #Reasoning #Compute Efficiency #Inference Optimization #Decoding Strategies #Model Behavior

2025년 12월 1일

[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.

#Review #Unified Multimodal Models #Visual Representation #VAE #Flow Matching #Multimodal Understanding #Multimodal Generation #Image Editing #State-of-the-Art

2025년 12월 1일

[논문리뷰] Structured Extraction from Business Process Diagrams Using Vision-Language Models

이 논문은 비즈니스 프로세스 모델 및 표기법(BPMN) 다이어그램 이미지에서 원시 XML 파일이나 텍스트 주석 없이 직접 구조화된 JSON 표현 을 추출하는 것을 목표로 합니다. 이는 기존 방법론이 XML 의존성으로 인해 발생하는 하위 시스템 통합 및 분석의 제약을 극복하기 위함입니다.

#Review #Vision-Language Models #BPMN Extraction #Structured Information Extraction #OCR Enrichment #Prompt Engineering #Diagram Understanding #Business Process Management

2025년 12월 1일

[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

본 연구는 대규모 언어 모델(MLLMs)이 스트리밍 비디오 환경에서 인간의 시선(gaze) 신호를 활용하여 시간적 추론 및 선제적 이해를 얼마나 효과적으로 수행하는지 평가하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Gaze-Guided AI #Temporal Reasoning #Proactive AI #MLLMs #Eye Tracking #Benchmark #Human-Computer Interaction

2025년 12월 1일

[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient #REINFORCE #Mixture-of-Experts (MoE)#Training Stability #Importance Sampling #Routing Replay #Off-policy Learning

2025년 12월 1일

[논문리뷰] SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs

본 논문은 대규모 언어 모델(LLM)의 장문맥(long-context) 추론 시 발생하는 Key-Value (KV) 캐시 관련 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Long-context Reasoning #KV Cache Optimization #Speculative Sparsity #Knowledge Distillation #Adaptive Memory Management #Throughput

2025년 12월 1일

[논문리뷰] Seeing the Wind from a Falling Leaf

본 연구는 영상 데이터로부터 나뭇잎이 떨어지는 바람과 같이 눈에 보이지 않는 물리적 힘(invisible forces)을 추정하는 것을 목표로 합니다. 인간이 시각적 단서만으로 보이지 않는 물리적 효과를 인지하는 능력을 모방하여, 비전과 물리학 간의 간극을 줄이고 픽셀 뒤의 물리적 과정을 이해하는 데 기여하고자 합니다.

#Review #Inverse Graphics #Differentiable Physics #Force Estimation #Video Generation #Material Point Method #3D Gaussians #Spatio-temporal Modeling #Vision-Language Models

2025년 12월 1일

[논문리뷰] Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

본 논문은 멀티모달 대규모 언어 모델(MLLM)에서 고해상도 이미지 및 비디오 처리 시 발생하는 과도한 메모리 소비 및 추론 지연 시간 문제 를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Token Pruning #Graph-Structured Pruning (GSP)#Query-Conditioned Semantic Pruning (QCSP)#Determinantal Point Processes (DPP)#Model Efficiency #Visual Redundancy

2025년 12월 1일

[논문리뷰] SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

이 논문은 대규모 언어 모델(LLMs)의 수학적 추론 과정에서 발생하는 성능 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Test-time Scaling #Resource Allocation #Dual-process Theory #Mathematical Reasoning #Adaptive Computation #Performance Optimization

2025년 12월 1일

[논문리뷰] Rectifying LLM Thought from Lens of Optimization

본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #RLVR #Optimization Framework #Process-level Reward #Gradient Descent #Reasoning Efficiency #Suboptimal Reasoning

2025년 12월 1일

[논문리뷰] PromptBridge: Cross-Model Prompt Transfer for Large Language Models

본 논문은 LLM 시스템에서 모델이 교체되거나 업데이트될 때, 기존 모델에 최적화된 프롬프트의 성능이 다른 모델에서 크게 저하되는 현상인 모델 드리프팅(Model Drifting) 문제를 해결하고자 합니다.

#Review #Large Language Models #Prompt Engineering #Model Drifting #Prompt Transfer #Cross-Model Adaptation #Training-Free #Prompt Optimization #MAP-RPE

2025년 12월 1일

[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.

#Review #Autonomous Driving #Reinforcement Fine-tuning #LLM-as-Critic #Vision-Language Model #End-to-End Learning #Chain-of-Thought #Trajectory Planning

2025년 12월 1일

[논문리뷰] OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

본 논문은 텍스트 전용 번역 LLM이 겪는 지연 시간과 멀티모달 컨텍스트 활용 불가능성, 그리고 MMFM이 가진 다국어 번역 성능 및 커버리지의 한계를 해결하고자 합니다.

#Review #Multimodal Translation #Speech Translation #Simultaneous Translation #Large Language Models #Multimodal Foundation Models #Modular Fusion #End-to-End #Gated Fusion #OCR

2025년 12월 1일

[논문리뷰] Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

본 논문은 단일 이미지에서 픽셀 단위의 기하학적 속성을 복구하는 고질적인 난제(ill-posed problem)를 해결하는 것을 목표로 합니다.

#Review #Geometric Dense Prediction #Depth Estimation #Surface Normal Prediction #Diffusion Models #Rectified Flow #Generative Priors #Deterministic Inference #Two-Stage Framework

2025년 12월 1일

[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling

논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Multimodal LLMs #Tool Calling #Reinforcement Learning #Chain-of-Thought #Temporal Grounding #Video Question Answering

2025년 12월 1일

[논문리뷰] Learning Eigenstructures of Unstructured Data Manifolds

이 논문은 비정형 데이터(unstructured data)로부터 연산자 선택, 이산화, 고유값 해석기 없이 직접 스펙트럼 기저(spectral basis)를 학습하는 새로운 프레임워크를 제안합니다.

#Review #Spectral Basis Learning #Unstructured Data #Manifold Learning #Laplacian Operator #Optimal Approximation Theory #Neural Networks #Eigenstructure #Point Cloud Processing

2025년 12월 1일

[논문리뷰] LFM2 Technical Report

본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.

#Review #Edge AI #Foundation Models #Hybrid Architecture #Knowledge Distillation #Multimodal AI #On-device Deployment #Efficient Inference #LLM Optimization

2025년 12월 1일

[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Self-Supervised Learning #Masked Video Modeling #Video-Text Supervision-Free #Encoder-Predictor-Decoder #Diffusion Decoder #Semantic Alignment #Latent World Model

2025년 12월 1일

[논문리뷰] Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

본 논문은 기존의 autoregressive 비디오 diffusion 모델이 가진 세 가지 핵심 한계를 해결하는 것을 목표로 합니다.

#Review #Autoregressive Video Generation #Rotary Positional Embedding #Infinite Video Generation #Action Control #Cinematic Transitions #Video Diffusion Models #KV Cache

2025년 12월 1일

[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

대규모 언어 모델(LLMs)이 고자원 다국어 작업에서 우수한 성능을 보이지만, 저자원 및 초저자원 인디언 언어에 대한 평가는 심각하게 부족합니다. 본 연구는 이러한 언어에서의 LLM 성능 한계를 체계적으로 평가하고, 교차 언어 전이 학습의 효과를 밝히는 데 목적이 있습니다.

#Review #Low-resource Languages #Indic Languages #LLM Evaluation #Benchmark #Multilingual LLMs #Question Answering #Cross-lingual Transfer

2025년 12월 1일

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.

#Review #Deep Research Agents #Evaluation Benchmark #Failure Taxonomy #Report Generation #Information Retrieval #Reasoning Resilience #Content Fabrication #AI Agents

2025년 12월 1일

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Clinical AI #Medical Benchmarks #AI Evaluation #Medical Decision Support #MedQA #HealthBench #Generalist AI

2025년 12월 1일

[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Reinforcement Learning #Vision-Language-Action #Dexterous Control #Long-Horizon Tasks #Data Filtering #Data Augmentation #Foundation Models

2025년 12월 1일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Generation #Distillation #Reinforcement Learning #Few-Step Sampling #Timestep-Aware #Pixel-GAN #Model Efficiency

2025년 12월 1일

[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Multi-Image #Causal Reasoning #World Knowledge #Benchmarking #Spatiotemporal Consistency #Generative Models #Evaluation Metrics

2025년 12월 1일

[논문리뷰] Doppler-Enhanced Deep Learning: Improving Thyroid Nodule Segmentation with YOLOv5 Instance Segmentation

본 연구는 초음파 이미지에서 YOLOv5 알고리즘 을 활용하여 갑상선 결절의 정확한 인스턴스 분할(instance segmentation) 성능을 향상시키는 것을 목표로 합니다.

#Review #YOLOv5 #Instance Segmentation #Thyroid Nodule #Ultrasound Imaging #Doppler Imaging #Medical AI #Deep Learning

2025년 12월 1일

[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images

기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.

#Review #Remote Sensing #Vision-Language Models #Iterative Reasoning #Evidence-Seeking #Socratic Method #Reinforcement Learning #Multi-Agent System #VQA #Grounding

2025년 12월 1일

[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution

본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.

#Review #Reinforcement Learning #Large Language Models #Instruction Optimization #Policy Co-Evolution #Agentic AI #Tool-Integrated Reasoning #Self-Reflection

2025년 12월 1일

[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.

#Review #Streaming Video LLMs #Token Compression #ViT Encoding #LLM Prefilling #Causal Compression #Caching #Pruning #Low-latency

2025년 12월 1일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection

본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다.

#Review #Object Detection #YOLOv9 #Mixture-of-Experts #Adaptive Routing #Deep Learning #Computer Vision #Feature Specialization

2025년 11월 30일

[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.

#Review #Small Language Models #Data Efficiency #Reasoning #Maximal-Update Parameterization #FP8 Mixed Precision #Optimizer Scheduling #Long-Context Adaptation #Agent AI

2025년 11월 30일

[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Vision-Language Models #Culture Mixing #VQA #Synthetic Data Generation #Multicultural Understanding #Model Robustness #Fine-tuning #Cultural Bias

2025년 11월 30일

[논문리뷰] Vision Bridge Transformer at Scale

본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.

#Review #Vision Transformer #Bridge Models #Conditional Generation #Image Editing #Video Translation #Velocity Matching #Diffusion Models #Scalability

2025년 11월 30일

[논문리뷰] The Collapse of Patches

본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.

#Review #Patch Collapse #Image Generation #Image Classification #Masked Image Modeling #Vision Transformers #PageRank #Uncertainty Reduction #Computational Efficiency

2025년 11월 30일

[논문리뷰] Test-time scaling of diffusions with flow maps

본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Flow Maps #Test-time Adaptation #Reward Guidance #Generative Models #SMC #Vision-Language Models

2025년 11월 30일

[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Structural Output #Information Extraction #JSON Schema #SO-Bench #Visual Reasoning #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 30일

[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists

이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.

#Review #Language Models #Refinement Capability #Self-Refinement #Guided Refinement #Checklist Evaluation #Multi-turn Interaction #Benchmark

2025년 11월 30일

[논문리뷰] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models

이 논문은 감시 비디오에서 희귀하고 다양한 이상 이벤트(abnormal events) 를 비디오 수준의 약한 감독(video-level supervision) 만을 사용하여 효율적으로 탐지하는 것을 목표로 합니다.

#Review #Anomaly Detection #Surveillance Videos #Weakly Supervised Learning #Multiple Instance Learning #Dual-Encoder #I3D #TimeSformer #Top-k Pooling

2025년 11월 30일

[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Editing #Reasoning-Enhanced AI #Multimodal Large Language Models #Diffusion Transformers #Thinking #Reflection #Iterative Refinement #Instruction Following

2025년 11월 30일

[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model (MLLM)#Dental Imaging Analysis #Chain-of-Thought (CoT) Reasoning #Medical AI #Benchmark #Diagnosis #Oral Healthcare #Explainable AI

2025년 11월 30일

[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Refinement #Reinforcement Learning #Fine-Grained Editing #Reference-Guided Generation #Latent Diffusion #Visual Fidelity #Detail Restoration

2025년 11월 30일

[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.

#Review #Small Language Models (SLMs)#Latency Optimization #Hybrid Architectures #Evolutionary Search #Weight Normalization #Efficient Attention #Depth-Width Ratios #Real-device Efficiency

2025년 11월 30일

[논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey

본 조사는 딥러닝(DL) 기반 자기공명영상(MRI) 초해상화(SR) 기술의 최신 발전을 포괄적으로 검토하고 체계적으로 분류하는 것을 목표로 합니다. 컴퓨터 비전, 계산 영상학, 역문제 및 MR 물리학 관점에서 접근하여 이론적 기반, 아키텍처, 학습 전략, 벤치마크 데이터셋, 성능 지표 등을 분석합니다.

#Review #MRI Super-Resolution #Deep Learning #Computational Imaging #Inverse Problems #Generative AI #Medical Imaging #Survey

2025년 11월 30일

[논문리뷰] Layer-Aware Video Composition via Split-then-Merge

본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video Composition #Diffusion Models #Layer-Aware Generation #Self-Composition #Affordance Learning #Video Editing #Data Augmentation

2025년 11월 30일

[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning

본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Vision Language Models (VLMs)#Geometric Constraints #Agentic AI #Tool Integration #Semantic-to-Geometric Gap #Task Formalization

2025년 11월 30일

[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.

#Review #Multimodal LLM #Human Cognition #Image Perception #Benchmarking #Supervised Fine-tuning #Image Generation #Aesthetics #Memorability

2025년 11월 30일

[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Prompt Engineering #Efficiency #Structured Input #Information Extraction #Cognitive Psychology #Token Reduction

2025년 11월 30일

[논문리뷰] Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets

본 논문은 비디오 기반 데이터셋에서 발생하는 정보 누출(information leakage) 문제를 해결하는 것을 목표로 합니다.

#Review #Data Leakage #Video Datasets #Clustering #Frame Selection #Deep Learning #Object Detection #Dataset Partitioning #Dimensionality Reduction

2025년 11월 30일

[논문리뷰] FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

논문은 기존 FL 방법론이 가정하는 모델 동질성(homogeneous model architectures) 의 비현실성을 지적하며, 모델 이질성(model-heterogeneous FL) 환경에서 성능, 프라이버시, 통신 오버헤드 간의 효과적인 균형을 달성하는 것을 목표로 합니다.

#Review #Federated Learning #Model Heterogeneity #Representation Learning #Privacy Preservation #Communication Efficiency #Entangled Representation #Knowledge Transfer

2025년 11월 30일

[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

본 논문은 3D Diffusion 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Geometry Synthesis #Diffusion Models #Acceleration #Caching #Training-free #Flow Matching #Voxel Stabilization #Computational Efficiency

2025년 11월 30일

[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.

#Review #Large Language Models #Long Context #Sparse Attention #Hierarchical Sparse Attention (HSA)#Length Generalization #Mixture of Experts (MoE)#Transformer

2025년 11월 30일

[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Action Degeneration #Data Pruning #Knowledge Distillation #Multi-modal Reasoning #Robot Learning #VLA Score

2025년 11월 30일

[논문리뷰] DiP: Taming Diffusion Models in Pixel Space

본 연구는 확산 모델(Diffusion Models)의 근본적인 문제인 생성 품질과 계산 효율성 간의 절충점 을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Pixel Space #Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head #Global-Local Modeling #Computational Efficiency #ImageNet

2025년 11월 30일

[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#Proof Verification #Self-Verification #Reinforcement Learning (RL)#Theorem Proving #Meta-Verification #Iterative Refinement

2025년 11월 30일

[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

본 논문은 Distribution Matching Distillation (DMD) 의 성공에 대한 기존의 이해에 도전하며, 복잡한 텍스트-투-이미지 생성 작업에서 CFG(Classifier-Free Guidance)가 필수적인 이유를 밝히고자 합니다.

#Review #Diffusion Models #Model Distillation #Classifier-Free Guidance (CFG)#Distribution Matching #Text-to-Image Generation #Few-step Generation #Regularization #Score-based Models

2025년 11월 30일

[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?

본 논문은 기존 MLLM 평가 방식이 캡션의 실제 활용성, 즉 다운스트림 태스크에서 이미지를 대체할 수 있는 능력 을 간과한다고 지적합니다.

#Review #Image Captioning #Caption Evaluation #Multimodal LLM #Utility-based Benchmark #Question Answering (QA)#Domain-specific Taxonomy #Hallucination #MLLM Evaluation

2025년 11월 30일

[논문리뷰] Captain Safari: A World Engine

본 논문은 기존 비디오 세계 모델들이 겪는 장기적인 3D 일관성 부족, 공격적인 6-DoF 카메라 궤적 추적의 어려움, 복잡한 야외 환경 표현의 한계를 극복하는 것을 목표로 합니다.

#Review #World Engine #3D Consistent Video Generation #Pose-conditioned Memory #Camera Control #FPV Video Synthesis #Diffusion Models #Drone Video Dataset

2025년 11월 30일

[논문리뷰] Architecture Decoupling Is Not All You Need For Unified Multimodal Model

본 논문은 통합 멀티모달 모델(UMM)에서 시각 생성 및 이해 태스크 간의 내재된 충돌을 완화하면서도 모델 아키텍처 디커플링에 과도하게 의존하지 않고 성능을 향상시키는 것을 목표로 합니다. 과도한 디커플링이 통합 모델의 상호작용적 추론 능력과 지식 전이 능력을 저해하는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Architecture Decoupling #Cross-Modal Attention #Attention Interaction Alignment (AIA) Loss #Task Conflicts #Image Generation #Image Understanding

2025년 11월 30일

[논문리뷰] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

본 논문은 다양한 다중 인물 데이터 수집의 높은 비용과 여러 인물을 일관된 상호작용으로 구동하기 어려운 문제를 해결하고자 합니다. 특히, 적은 양의 다중 인물 데이터로도 자연스러운 제스처, 생생한 감정, 상호작용이 풍부한 다중 인물 대화 영상을 확장 가능하게 생성하는 것을 목표로 합니다.

#Review #Multi-Person Video Generation #Audio-Driven Animation #Diffusion Models #Interactivity Refinement #Identity-Aware Attention #Scalability #Data Efficiency

2025년 11월 30일

[논문리뷰] Adversarial Flow Models

본 논문은 기존 GANs (Generative Adversarial Networks) 의 훈련 불안정성과 Flow Matching 모델의 저해상도 이산화 오류 및 반복적인 추론 비용 문제를 해결하고자 합니다.

#Review #Generative Models #Adversarial Flow Models #GANs #Flow Matching #Optimal Transport #Single-step Generation #Image Generation #Transformer Architecture

2025년 11월 30일

[논문리뷰] What does it mean to understand language?

본 논문은 인간의 심층적인 언어 이해 가 뇌의 핵심 언어 시스템 내에서만 이루어지는 것이 아니라, 해당 시스템에서 얻은 정보가 다른 전문화된 뇌 영역으로 내보내져(exportation) 처리 되어야 한다는 가설을 제안합니다.

#Review #Language Understanding #Cognitive Neuroscience #Situation Models #World Knowledge #Embodiment #fMRI #Large Language Models #Brain Networks

2025년 11월 27일

[논문리뷰] Video Generation Models Are Good Latent Reward Models

비디오 생성 모델을 인간의 선호도에 맞춰 정렬하는 Reward Feedback Learning (ReFL) 의 기존 한계, 즉 높은 메모리 사용량, 긴 훈련 시간, 초기 생성 단계 감독 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Reward Feedback Learning #Latent Space #Diffusion Models #Human Preferences #Motion Quality #Process-aware

2025년 11월 27일

[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

본 연구는 기존 멀티모달 평가 벤치마크들이 단일, 총체적 선호도 에만 초점을 맞춰, 미세한 기준별 판단 과 기준 간의 충돌 을 간과하는 한계를 해결하고자 합니다.

#Review #Multimodal Judges #LMM Evaluation #Pluralistic Criteria #Criteria-Following #Trade-off Sensitivity #Conflict Resolution #Reward Models #Benchmark

2025년 11월 27일

[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Multimodal AI #Iterative Reasoning #Agentic AI #Reinforcement Learning #Diffusion Models #Vision-Language Models #Instruction Following

2025년 11월 27일

[논문리뷰] Canvas-to-Image: Compositional Image Generation with Multimodal Controls

본 연구는 최신 확산 모델이 텍스트 프롬프트, 객체 참조, 공간 배치, 포즈 제약, 레이아웃 주석 등 다양한 유형의 제어 신호를 동시에 처리할 때 발생하는 제한적인 합성 능력과 낮은 충실도 문제를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Diffusion Models #Compositional Control #Multimodal Control #Unified Canvas #Multi-Task Learning #Personalization

2025년 11월 27일

[논문리뷰] Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

현재 MLLM(Multimodal Large Language Models) 이 각 문제를 de novo 방식으로 해결하며 시각적 주의 집중 및 논리적 추론 오류를 반복하는 한계를 극복하는 것이 목표입니다.

#Review #Multimodal LLMs #Semantic Memory #Agentic Learning #Error Attribution #Visual Reasoning #Long-term Memory #Grow-and-Refine #Multimodal Reasoning

2025년 11월 27일

[논문리뷰] Terminal Velocity Matching

논문은 고품질 샘플을 빠르고 효율적으로 생성하며, 고차원 데이터에 확장 가능한 생성 모델을 단일 훈련 단계로 구축하는 것을 목표로 합니다.

#Review #Generative Models #Flow Matching #Diffusion Models #One-Step Generation #Few-Step Generation #Wasserstein Distance #Transformer Architecture #Lipschitz Continuity

2025년 11월 26일

[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.

#Review #Visual Reasoning #Synthetic Environment #LVLM Evaluation #Reinforcement Learning #Cognitive Primitives #Procedural Generation #Multimodal AI

2025년 11월 26일

[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy

이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM Generalization #Task Difficulty #Item Response Theory #Cross-Difficulty #Data Curation #Model Evaluation #Supervised Fine-Tuning

2025년 11월 26일

[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #3D World Generation #City-Scale #Multimodal Agents #Reality Alignment #Urban Simulation #Foundation Models #Geospatial Data

2025년 11월 26일

[논문리뷰] NVIDIA Nemotron Parse 1.1

Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.

#Review #OCR #Document Parsing #Vision-Language Model #Encoder-Decoder #Transformer #Table Extraction #Multilingual OCR #Layout Analysis

2025년 11월 26일

[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language

본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.

#Review #Latent Visual Reasoning #Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking

2025년 11월 26일

[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Mobile Robotics #Quadruped Robots #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI #Multimodal Perception

2025년 11월 26일

[논문리뷰] Latent Collaboration in Multi-Agent Systems

본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Large Language Models #Latent Space #Latent Reasoning #Latent Communication #KV Cache #Computational Efficiency #Training-Free

2025년 11월 26일

[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.

#Review #World Simulation #Video Generation #Block Diffusion #Semi-Autoregressive #KV Cache Management #Inference Engine #Long Video Generation #Performance Optimization

2025년 11월 26일

[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.

#Review #Diffusion Models #Timestep Distillation #Consistency Models #Latent Space #Image-Free Training #Efficiency Optimization #Trajectory Sampling #Continuous-Time Learning

2025년 11월 26일

[논문리뷰] I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation

본 논문은 복잡한 다중 센서 시스템에서 RUL(Remaining Useful Life) 예측 을 위한 건강 지표(HI)의 질을 향상시키는 것을 목표로 합니다.

#Review #Health Indicator (HI)#Remaining Useful Life (RUL)#Uncertainty Quantification (UQ)#Autoencoder (AE)#Latent Space #Degradation Modeling #Prognostics #Condition-Based Maintenance

2025년 11월 26일

[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Cross-Modal Synchronization #Diffusion Models #Cross-Task Synergy #Classifier-Free Guidance #Multimodal AI #Generative AI

2025년 11월 26일

[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization

본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.

#Review #3D Gaussian Splatting #Generalization #Sharpness-Aware Minimization #Regularization #Novel View Synthesis #Sparse View Reconstruction #Loss Landscape #Frequency-Adaptive

2025년 11월 26일

[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models

블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.

#Review #Video Generation #Diffusion Models #Block-Causal Models #Inference Acceleration #Multi-GPU Parallelism #Training-Free #KV Caching #Interactive AI

2025년 11월 26일

[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.

#Review #Image Generation #Video Models #Diffusion Models #Many-to-many #Unified Framework #Temporal Consistency #Image Editing #Positional Embedding

2025년 11월 25일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering

본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.

#Review #Visual Question Answering (VQA)#Image Generation #Data-centric AI #Agentic Pipeline #Multimodal Models #Web-scale Data #Benchmark #LightFusion

2025년 11월 25일

[논문리뷰] Unified all-atom molecule generation with neural fields

본 연구는 구조 기반 신약 설계에서 특정 분자 양식에 국한되어 적용 범위가 제한적인 기존 생성 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Generation #Neural Fields #Score-based Generative Models #Drug Design #Modality-agnostic #Antibody Design #Macrocyclic Peptides #All-atom

2025년 11월 25일

[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.

#Review #Video Diffusion Transformers #Length Extrapolation #Attention Mechanism #Attention Dispersion #Periodic Content Repetition #Quality Degradation #Training-free Method #Plug-and-play

2025년 11월 25일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.

#Review #Multi-Agent System #Video Understanding #Scientific Education #Deming Cycle #Large Language Models #Iterative Optimization #Knowledge Integration #Educational Content Generation

2025년 11월 25일

[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI #VQA #Training Environment #Behavioral Cloning #Policy Optimization

2025년 11월 25일

[논문리뷰] SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

대규모 언어 모델(LLM)에서 quadratic 연산 복잡성 을 갖는 full attention 의 한계를 극복하기 위해, sparse attention 의 성능 저하 및 부족한 sparsity 문제를 해결하고자 합니다.

#Review #Sparse Attention #Full Attention #Large Language Models (LLMs)#Context Length #Attention Sparsity #Alignment Loss #Long-Context Extrapolation

2025년 11월 25일

[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

본 연구는 기존 비디오 리테이크 생성 방법론이 가변 길이 입력, 동적 카메라 모션, 분포 외 카메라 궤적에 취약하며, 종종 워핑 아티팩트나 흐릿한 객체를 생성하는 한계를 해결하고자 합니다.

#Review #Video Retake Generation #Camera Control #Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency #Video Generative Models #Transformer Architecture #Multi-view Synthesis

2025년 11월 25일

[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.

#Review #Video Generation #Physics Simulation #Controllable AI #Part-Aware #Semantic Grounding #Material Properties #Image-to-Video #Diffusion Models

2025년 11월 25일

[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

본 연구는 RGBA(Red, Green, Blue, Alpha) 이미지 조작을 위한 기존의 파편화된 단일 태스크 전문 모델과, 알파 채널 처리 능력이 없는 통합 RGB 멀티태스크 프레임워크 간의 격차를 해소하는 것을 목표로 합니다.

#Review #RGBA Generation #Multi-Task Learning #Diffusion Transformers #Image Matting #Layer Decomposition #Object Removal #Alpha-aware VAE #MSROPE-BiL

2025년 11월 25일

[논문리뷰] MedSAM3: Delving into Segment Anything with Medical Concepts

의료 영상 분할 분야에서 기존 모델들의 일반화 부족과 광범위한 수동 주석 요구 사항을 해결하고, 순전히 기하학적 프롬프트에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Segment Anything Model (SAM)#Promptable Concept Segmentation (PCS)#Multimodal Large Language Models (MLLMs)#Agentic AI #Domain Adaptation #Text-guided Segmentation

2025년 11월 25일

[논문리뷰] MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

기존 3D 도시 생성 방법론의 한계인 텍스트 기반 생성의 창의적 유연성과 객체 수준 편집 가능성 및 구조적 일관성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D City Generation #Natural Language Processing #Aesthetic Adaptation #Controllable Assets #Layout Generation #Interactive Editing #Diffusion Models #Multimodal Dataset

2025년 11월 25일

[논문리뷰] HunyuanOCR Technical Report

기존 파이프라인 기반 OCR 시스템의 에러 전파 및 높은 유지보수 비용 문제를 해결하고, 대규모 일반 VLM의 높은 컴퓨팅 자원 요구사항 과 OCR 특화 VLM의 불완전한 엔드투엔드 최적화 한계를 극복하는 것을 목표로 합니다.

#Review #Optical Character Recognition #Multimodal Large Language Model #End-to-End Learning #Reinforcement Learning #Document Parsing #Information Extraction #Text Spotting

2025년 11월 25일

[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AI

본 논문은 GigaWorld-0 라는 통합 월드 모델 프레임워크를 개발하여 Embodied AI 를 위한 확장 가능하고 데이터 효율적인 데이터 엔진 으로 활용하는 것을 목표로 합니다.

#Review #World Models #Embodied AI #Data Generation #Video Generation #3D Scene Reconstruction #Robotics #Vision-Language-Action

2025년 11월 25일

[논문리뷰] GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

이 논문은 LLM(대규모 언어 모델) 기반 진화 컴퓨테이션 을 위한 확장 가능한 오픈소스 프레임워크인 GigaEvo 를 소개하는 것을 목표로 합니다.

#Review #LLM-driven Evolutionary Computation #Quality-Diversity #MAP-Elites #Program Synthesis #Open-source Framework #Algorithmic Discovery #Genetic Algorithms

2025년 11월 25일

[논문리뷰] Fara-7B: An Efficient Agentic Model for Computer Use

본 논문은 컴퓨터 사용 에이전트(CUA) 훈련을 위한 고품질 상호작용 데이터의 부족 문제 를 해결하고, 적은 연산 자원으로 온디바이스에서 실행 가능한 효율적인 에이전트 모델 을 개발하는 것을 목표로 합니다. 이를 통해 CUA 기술의 상업적 활용 가능성을 확장하고 범용 개인 디지털 비서의 길을 열고자 합니다.

#Review #Computer Use Agents #Synthetic Data Generation #Multi-modal LLM #On-device AI #Web Automation #Pixel-in Action-out #Fara-7B #WebTailBench

2025년 11월 25일

[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.

#Review #Unified Multimodal Models #Understanding-Generation Gap #Reasoning #Knowledge Transfer #Chain-of-Thought #Self-Training #Synthetic Data #Evaluation Framework

2025년 11월 25일

[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

이 논문은 AI 생성 콘텐츠(AIGC) 탐지에서 전체 이미지 분류에 집중하는 기존 방식의 한계를 극복하고, 확산 모델 기반의 로컬 편집 에 대한 동시적인 편집 영역 위치 파악(localization) 및 모델 귀속(attribution) 을 목표로 합니다.

#Review #AIGC Detection #Diffusion Models #Image Editing #Semantic Segmentation #Localization #Model Attribution #Benchmark #Multi-turn Editing

2025년 11월 25일

[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.

#Review #Self-Evolving Agent #Vision-Language Models #Tool-Integrated Reasoning #Reinforcement Learning #Self-Correction #Multimodal AI #Generative AI

2025년 11월 25일

[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

본 논문은 기존 Diffusion Transformer(DiT) 모델을 다양한 종횡비(AR)의 4K 해상도 로 확장할 때 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Diffusion Transformers #4K Resolution #Aspect Ratio Extrapolation #Data-Model Co-Design #VAE Post-training #Positional Encoding #Diffusion Models

2025년 11월 24일

[논문리뷰] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?

본 논문은 최신 세계 모델(World Models, WMs)이 텍스트로 지정된 암묵적인 의미론적 목표를 가진 길 없는 경로 계획(mapless path planning) 작업을 실제 환경에서 얼마나 잘 수행하는지 정량적으로 평가하는 것을 목표로 합니다.

#Review #World Models #Mapless Navigation #Semantic Path Planning #Robot Learning #Video Prediction #Benchmark #Trajectory Generation

2025년 11월 24일

[논문리뷰] SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

본 논문은 단일 뷰(single-view) HOI 비디오 생성의 기하학적 왜곡 및 비현실적인 모션 문제와 3D HOI 방법론의 제한된 일반화 능력 문제를 해결하고자 합니다.

#Review #Hand-Object Interaction #Multi-view Video Generation #4D Motion Synthesis #Diffusion Models #Spatio-temporal Consistency #Geometric Consistency #Appearance and Motion Joint Modeling

2025년 11월 24일

[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning

기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Semantic Planning #Multimodal LLM #Diffusion Transformer #Spatio-temporal Guidance #Visual Hallucination #Prompt Alignment #Instruction Following

2025년 11월 24일

[논문리뷰] Pillar-0: A New Frontier for Radiology Foundation Models

본 논문은 급증하는 영상 판독량과 인력 부족으로 인한 의료 시스템의 부담을 해결하기 위해, 기존 의료 AI 모델의 한계를 극복하는 새로운 방사선과 파운데이션 모델 Pillar-0 을 제안합니다.

#Review #Radiology Foundation Model #Volumetric Imaging #Multi-window Tokenization #Multi-scale Attention #Contrastive Learning #Clinical Evaluation #Data Efficiency #Medical Imaging

2025년 11월 24일

[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking

본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.

#Review #Reward Modeling #Long-Horizon Tasks #Information Seeking #Large Language Models #Trajectory Summarization #Reinforcement Learning #Tool Use #Process Reward Models

2025년 11월 24일

[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLM Training #Hierarchical Credit Assignment #Trajectory Alignment #Group Relative Policy Optimization #Tool-Augmented Reasoning #Vertical Architecture

2025년 11월 24일

[논문리뷰] MIST: Mutual Information Via Supervised Training

본 논문은 고차원, 제한된 샘플, 복잡한 분포, 높은 MI(Mutual Information) 설정에서 기존 MI 추정기들이 겪는 성능 저하 문제를 해결하고자 합니다.

#Review #Mutual Information Estimation #Supervised Learning #Meta-Learning #Neural Networks #Uncertainty Quantification #SetTransformer #Quantile Regression

2025년 11월 24일

[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Physics Reasoning #Motion Tracking #Spatial-Temporal Grounding #Video QA #AIGC Analysis #Reinforcement Learning

2025년 11월 24일

[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

본 연구는 기존 LLM 도구 사용 벤치마크 들이 주로 텍스트 기반이고 선형적인 API 계획 에 초점을 맞추는 한계를 넘어, 멀티모달 LLM(MLLM) 에이전트 의 실제와 같은 도구 사용 능력을 평가하기 위한 첫 번째 벤치마크인 M³-Bench 를 제안합니다.

#Review #Multimodal LLM #Tool Use #Agent Benchmark #Model Context Protocol #Multi-Hop Reasoning #Multi-Threaded Execution #Evaluation Metrics #Similarity Alignment

2025년 11월 24일

[논문리뷰] In-Video Instructions: Visual Signals as Generative Control

본 논문은 대규모 비디오 생성 모델의 제어 가능성을 탐구하며, 기존 텍스트 프롬프트의 한계인 전역적이고 추상적인 제어를 극복하고자 합니다.

#Review #Video Generation #Controllable AI #Visual Instructions #Image-to-Video #Spatial Control #Zero-shot Learning #Generative Models

2025년 11월 24일

[논문리뷰] HunyuanVideo 1.5 Technical Report

경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Sparse Attention #Super-Resolution #Open-Source #Multimodal Understanding #Training Optimization #Efficient Inference

2025년 11월 24일

[논문리뷰] General Agentic Memory Via Deep Research

AI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.

#Review #AI Agents #Memory Systems #Large Language Models (LLMs)#Just-in-Time (JIT) Compilation #Memorizer #Researcher #Reinforcement Learning #Context Management

2025년 11월 24일

[논문리뷰] Flow Map Distillation Without Data

본 논문은 반복적인 샘플링으로 인해 속도가 느린 최첨단 플로우 모델의 가속화를 위해 사용되는 플로우 맵 증류(flow map distillation) 기법의 데이터 의존성 문제 를 해결하고자 합니다.

#Review #Flow Map Distillation #Data-Free Learning #Generative Models #Teacher-Student #Diffusion Acceleration #Teacher-Data Mismatch #One-Step Sampling

2025년 11월 24일

[논문리뷰] Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

본 논문은 추천 시스템에서 설명의 충실도(fidelity), 즉 설명이 모델의 실제 추론을 얼마나 정확하게 반영하는지에 대한 문제를 해결하고자 합니다.

#Review #Recommender Systems #Explainable AI (XAI)#Explanation Fidelity #Path Integration #Stochastic Sampling #Counterfactual Explanations #Model-Agnostic #Sparse Data

2025년 11월 24일

[논문리뷰] Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

본 논문은 현대 추천 시스템의 잠재 임베딩이 의미론적으로 불투명하여 해석 가능성이 낮고 제어가 어렵다는 문제를 해결하고자 합니다.

#Review #Recommender Systems #Sparse Autoencoder (SAE)#Monosemantic Neurons #Interpretability #Prediction-Aware Loss #User-Item Interactions #Post-hoc Control

2025년 11월 24일

[논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

기존 픽셀 확산 모델이 Diffusion Transformer (DiT) 하나로 고주파수 신호와 저주파수 의미론을 동시에 모델링하여 발생하는 느린 학습 및 추론 속도, 낮은 이미지 품질 문제를 해결하고자 합니다.

#Review #Pixel Diffusion #Image Generation #Frequency Decoupling #Diffusion Transformer (DiT)#Flow Matching #AdaLN #Text-to-Image Synthesis

2025년 11월 24일

[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.

#Review #Reinforcement Learning #Evolving Rubrics #Deep Research #LLM Agents #Tool Use #Long-form QA #Open-source AI #Dynamic Evaluation

2025년 11월 24일

[논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

본 논문은 합성된 래스터 이미지에서 레이어 수준의 편집이 불가능한 한계를 극복하고자 합니다. 기존 이미지 매팅 및 인페인팅 기반 방법들이 제어 가능성과 분할 정밀도에서 부족했던 문제를 해결하기 위해, 사용자 정의 바운딩 박스를 기반으로 미세 조정 가능하고 제어 가능한 다중 레이어 분리 를 달성하는 방법을 제안합니다.

#Review #Controllable Layer Decomposition #Diffusion Models #Multi-Layer Image Generation #Layer Separation #Bounding Box Guidance #Generative AI #Image Editing

2025년 11월 24일

[논문리뷰] Computer-Use Agents as Judges for Generative User Interface

현재 인간 중심적으로 설계된 GUI 가 Computer-Use Agent (CUA)의 비효율적인 태스크 수행을 강제하는 문제를 해결하는 것이 목표입니다.

#Review #Computer-Use Agents #Generative UI #AI-assisted Design #Human-Computer Interaction #LLM #AUI-Gym #Feedback Loop #Agent-centric Design

2025년 11월 24일

[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens #Multimodal Reasoning #Perceptual Grounding #Visual Thinking #Dense Prediction

2025년 11월 24일

[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent Scaling

이 논문은 대규모 언어 모델(LLM) 기반 에이전트의 효과적인 테스트 시간 스케일링(test-time scaling) 에 대한 연구를 목표로 합니다. 특히, 도구 사용 에이전트가 명시적인 예산 제약 조건 하에서 외부 환경과의 상호작용(도구 호출)을 어떻게 효율적으로 활용하여 성능을 최적화할 수 있는지를 탐구합니다.

#Review #LLM Agents #Tool Use #Budget Awareness #Test-time Scaling #Cost-Performance #Web Search Agents #Planning #Self-Verification

2025년 11월 24일

[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.

#Review #Automated Environment Generation #Cross-Environment Learning #Agent Learning #Language Models #Benchmark #Meta-Learning #Reinforcement Learning #Environment Design Language

2025년 11월 24일

[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.

#Review #HTML Extraction #Web Corpus #Large Language Models #Data Curation #Structured Element Preservation #Sequence Labeling #Markdown Conversion #MainWebBench

2025년 11월 24일

[논문리뷰] WorldGen: From Text to Traversable and Interactive 3D Worlds

본 논문은 텍스트 프롬프트로부터 대규모의 인터랙티브 3D 월드를 자동으로 생성하는 시스템 WorldGen 을 소개합니다.

#Review #3D World Generation #Text-to-3D #Generative AI #Procedural Generation #Scene Decomposition #Navmesh #Game Engines #Interactive Environments

2025년 11월 23일

[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models #Latent Memory #Cognitive Memory #Visual Grounding #Short-term Memory #Long-term Memory #Reinforcement Learning

2025년 11월 23일

[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

본 논문은 텍스트가 풍부한 비디오에서 미세한 증거를 기반으로 하는 추론 문제, 특히 기존 단일 패스(single-pass) 비디오 QA 모델의 환각 및 오류 문제 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models #Reinforcement Learning #Visual Rumination #Text-Rich Video #Video Question Answering #Iterative Perception

2025년 11월 23일

[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

본 논문은 기존 VLA 모델이 겪는 공간-시간적 불연속성(spatiotemporally discontinuous) 및 미세한 제어 부족 문제를 해결하여, 로봇 조작을 위한 공간-시간적으로 일관성 있는(spatiotemporally coherent) VLA 모델인 VLA-4D 를 제안합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #SpatioTemporal Coherence #4D Awareness #Visual Representation #Action Representation #Cross-Attention

2025년 11월 23일

[논문리뷰] Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

본 논문은 현대 LLM 분석에 중요한 도구인 Intrinsic Dimension (ID) 의 텍스트 기반 결정 요인을 밝히는 것을 목표로 합니다.

#Review #Intrinsic Dimension #LLMs #Text Complexity #Sparse Autoencoders #Text Semantics #Genre Analysis #Embedding Space #Text Generation

2025년 11월 23일

[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item Detection

X-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.

#Review #X-ray Security #Synthetic Data Generation #Diffusion Models #Object Detection #Cross-Attention #Image Inpainting #Data Augmentation

2025년 11월 23일

[논문리뷰] SAM 3: Segment Anything with Concepts

이 논문은 기존 SAM(Segment Anything Model) 의 한계, 즉 단일 객체 분할(PVS)을 넘어 이미지와 비디오에서 개념(Concept) 을 기반으로 모든 객체 인스턴스를 탐지, 분할 및 추적하는 것을 목표로 합니다.

#Review #Segment Anything Model #Open-Vocabulary Segmentation #Multimodal Foundation Model #Instance Segmentation #Video Object Tracking #Prompt Engineering #Data Engine #Human-in-the-loop

2025년 11월 23일

[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World Model

본 논문은 기존 VLA 모델(액션 다이내믹스 이해 부족, 상상력 및 물리 지식 결여)과 월드 모델(직접적인 액션 생성 불가)의 한계를 극복하기 위해, VLA 모델과 월드 모델을 단일 프레임워크로 통합 하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA) Model #World Model #Robotics #Unified Framework #Multi-modal Learning #Action Generation #Attention Mask #Continuous Control

2025년 11월 23일

[논문리뷰] Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations

본 연구는 심층 학습 모델의 시각적 설명 기법인 Saliency Map 이 명확한 목적과 사용자 질의에 대한 정렬이 부족하여 평가 및 실용적 효용성이 저해되는 문제를 해결하는 것을 목표로 합니다.

#Review #Saliency Maps #Explainable AI (XAI)#Taxonomy #Evaluation Framework #Faithfulness Metrics #Contrastive Explanations #Granularity

2025년 11월 23일

[논문리뷰] Planning with Sketch-Guided Verification for Physics-Aware Video Generation

이 논문은 비디오 생성 모델이 복잡한 동작 명령을 따르고 물리적으로 사실적이며 시간적으로 일관된 시퀀스를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Motion Planning #Physics-Aware AI #Multimodal Verification #Diffusion Models #Test-Time Optimization #Sketch-Guided

2025년 11월 23일

[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

본 연구는 대규모 언어 모델(LLM)이 권위나 설득과 같은 사회적 압력 에 직면했을 때 진실성을 왜곡하고 정확도가 저하되는 아첨(sycophancy) 현상을 측정하기 위한 견고성 중심의 프레임워크 를 제시합니다.

#Review #LLM Sycophancy #Model Robustness #AI Alignment #Benchmark #Confidence Calibration #Behavioral Taxonomy #Social Influence #Epistemic Collapse

2025년 11월 23일

[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Multimodal Models #Supervised Fine-tuning #Reinforcement Learning #Data Curation #Open-source #Multimodal Benchmarks

2025년 11월 23일

[논문리뷰] OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists

기존 AI Scientist 시스템이 과학적 발견을 독립적인 검색/최적화 문제로만 보고, 과학 연구의 사회적, 협력적 특성을 간과하는 한계를 해결합니다.

#Review #AI Scientist #Large Language Models (LLMs)#Human-AI Collaboration #Scientific Ecosystem #Research Automation #Omni Scientific Protocol (OSP)#ScienceArena #Knowledge Graph

2025년 11월 23일

[논문리뷰] O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents

기존 LLM 기반 에이전트가 장기적인 상호작용, 맥락적 일관성, 동적 개인화에 직면하는 한계를 극복하는 것이 목표입니다.

#Review #Memory System #LLM Agents #Personalization #User Profiling #Hierarchical Retrieval #Long-Term Interaction #Self-Evolving Agents #Contextual Consistency

2025년 11월 23일

[논문리뷰] Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

본 논문은 RLHF(Reinforcement Learning from Human Feedback), 시스템 프롬프트, 입력/출력 콘텐츠 필터 등 다양한 방어 메커니즘이 적용된 Vision-Language Models (VLMs) 의 안전성 취약점 을 체계적으로 드러내는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Adversarial Attack #Jailbreaking #Reward Hacking #Content Moderation Bypass #Cross-Model Transferability #Safety Vulnerabilities

2025년 11월 23일

[논문리뷰] MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

이 논문은 유전체 서열 모델링의 두 가지 난제인 다양한 정보 밀도 와 고유한 어휘 단위 부재 를 해결하고자 합니다.

#Review #Genome Modeling #Dynamic Tokenization #Token Merging #Context-aware Learning #DNA Foundation Models #Transformer Architecture #Multi-omics

2025년 11월 23일

[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

본 논문은 기존 Vision-Language-Action (VLA) 모델의 한계인 희소한 행동 감독 신호, 과도한 시각 상태 예측 비용, 정보 병목 현상, 그리고 언어 감독 부족으로 인한 이해 및 추론 능력 저하를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA) Models #Visual Foresight #Diffusion Transformer (DiT)#Robotics #Multimodal Learning #Adaptive Temporal Ensemble #Latent Actions

2025년 11월 23일

[논문리뷰] Loomis Painter: Reconstructing the Painting Process

본 논문은 기존 생성 모델들이 겪는 시간적 불연속성, 구조적 불일치, 그리고 다양한 예술 매체에 대한 일반화 능력 부족 문제를 해결하여, 어떤 입력 이미지에 대해서도 사실적이고 일관된 단계별 그림 그리기 과정 을 생성하는 것을 목표로 합니다.

#Review #Painting Process Generation #Video Diffusion Models #Media Transfer #Reverse Painting #Dataset Curation #Perceptual Distance Profile #Artistic Workflow #Generative AI

2025년 11월 23일

[논문리뷰] Insights from the ICLR Peer Review and Rebuttal Process

본 논문은 ICLR 2024 및 2025 컨퍼런스의 피어 리뷰 및 재고(rebuttal) 과정 의 본질과 역학을 이해하고, 효율성, 효과성 및 출판 논문의 품질 향상에 기여하는 것을 목표로 합니다.

#Review #Peer Review #Rebuttal Process #ICLR #Score Dynamics #LLM Analysis #Reviewer Engagement #Academic Publishing #OpenReview

2025년 11월 23일

[논문리뷰] GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

본 연구는 기존 에이전트 시각 추론 모델들이 주로 이미지 조작 도구에 집중하여 일반적인 목적으로 확장하기 어려운 한계를 해결하고자 합니다.

#Review #Geolocalization #Agentic Models #Visual Reasoning #Web-Augmented #Multimodal LLMs #Reinforcement Learning #Tool Use #GeoBench

2025년 11월 23일

[논문리뷰] Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

본 연구는 대규모 다중모달 모델(MLLM)의 크기를 축소할 때 발생하는 지능 저하 현상을 체계적으로 분석하고, 특히 어떤 기능이 가장 큰 영향을 받는지, 그리고 그 원인이 무엇인지 밝히는 것을 목표로 합니다.

#Review #Small Multimodal Models #LLM Downscaling #Perception Bottleneck #Reasoning Bottleneck #Visual Extraction Tuning #Chain-of-Thought Reasoning #Multimodal Learning

2025년 11월 23일

[논문리뷰] Diversity Has Always Been There in Your Visual Autoregressive Models

Visual Autoregressive (VAR) 모델이 겪는 다양성 붕괴(diversity collapse) 문제를 해결하고, 추가적인 훈련 없이 모델의 내재된 생성 다양성을 발현시키면서도 이미지 품질과 텍스트-이미지 정렬을 효과적으로 유지하는 것을 목표로 합니다.

#Review #Visual Autoregressive Models #Diversity Collapse #Generative Diversity #Soft-Suppression Regularization #Soft-Amplification Regularization #Training-Free #Image Generation #Singular Value Decomposition

2025년 11월 23일

[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.

#Review #Video Generation #Next Event Prediction #Reinforcement Learning #Vision-Language Model #Video Diffusion Model #Joint Optimization #Multimodal AI #Procedural Learning

2025년 11월 20일

[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

본 논문은 최신 생성 비디오 모델의 추론 능력을 체계적이고 신뢰할 수 있게 평가하기 위한 벤치마크 스위트인 V-ReasonBench 를 제안합니다.

#Review #Video Generation #Reasoning Benchmark #Chain-of-Frame #Evaluation #Multimodal AI #Physical Dynamics #Spatial Cognition #Pattern Inference

2025년 11월 20일

[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.

#Review #Information Retrieval #Turkish Language #Late-Interaction Models #ColBERT #Dense Retrieval #MUVERA #Benchmarking #Low-Resource NLP #Fine-tuning

2025년 11월 20일

[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Hybrid Mamba-Transformer #Vision-Language Model #Token Compression #Vision-to-Text Aggregation #Efficient LLM #Multimodal AI

2025년 11월 20일

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.

#Review #Visual Generation #Textual Reasoning #Interleaving #Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)

2025년 11월 20일

[논문리뷰] Step-Audio-R1 Technical Report

오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.

#Review #Audio Reasoning #Multimodal LLMs #Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought #Reinforcement Learning #Audio Understanding #Self-Distillation

2025년 11월 20일

[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models

본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal Foundation Models #Data Scaling #Perspective-taking #Visual Question Answering #Emergent Capabilities #Embodied AI #Benchmark Evaluation

2025년 11월 20일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

수술 비디오 세분화는 컴퓨터 지원 수술에 필수적이지만, 기존 SAM2 와 같은 iVOS 모델은 도메인 격차, 제한된 장기 추적 능력, 다중 소스 데이터셋 간의 주석 불일치 문제에 직면해 있습니다.

#Review #Surgical Video Segmentation #Interactive Video Object Segmentation #Long-term Tracking #Foundation Models #Domain Adaptation #Semantic Learning #Prompt-based Segmentation

2025년 11월 20일

[논문리뷰] SAM 3D: 3Dfy Anything in Images

본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative Models #Single Image 3D #Object Reconstruction #Scene Understanding #Data Engine #Model-in-the-Loop #Human Preference

2025년 11월 20일

[논문리뷰] PartUV: Part-Based UV Unwrapping of 3D Meshes

이 논문은 AI 생성 메시와 같이 시끄럽고 불규칙한 3D 메시에서 기존 UV unwrapping 방법이 야기하는 과도한 차트 분할 및 부적절한 경계 문제를 해결하고자 합니다.

#Review #UV Unwrapping #3D Meshes #Part-Based Decomposition #Neural Fields #Geometric Heuristics #Parameterization #Texture Mapping

2025년 11월 20일

[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.

#Review #LLM Compression #Elastic Networks #Knowledge Distillation #Hybrid Mamba-Attention #Reasoning LLMs #Multi-Budget Training #Zero-Shot Deployment

2025년 11월 20일

[논문리뷰] NaTex: Seamless Texture Generation as Latent Color Diffusion

본 논문은 기존 Multi-View Diffusion (MVD) 모델의 텍스처 생성 시 발생하는 occlusion 처리 미흡, 정밀한 메시-텍스처 정렬 난이도, 크로스-뷰 일관성 문제와 같은 한계를 해결하고자 합니다.

#Review #3D Texture Generation #Latent Diffusion Model #Geometry-Aware VAE #Multi-Control DiT #Color Point Cloud #Texture Synthesis #3D Asset Creation

2025년 11월 20일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] First Frame Is the Place to Go for Video Content Customization

비디오 생성 모델에서 여러 참조 이미지를 활용한 유연한 콘텐츠 맞춤화 시, 아키텍처 변경 이나 대규모 파인튜닝 없이도 일반화된 성능을 유지 하는 방법을 모색하는 것이 주된 목표입니다. 기존 모델들이 가진 '첫 프레임'의 잠재적인 역할을 재해석하여, 이를 시각적 엔티티를 저장하는 개념적 메모리 버퍼 로 활용하고자 합니다.

#Review #Video Generation #Content Customization #Few-shot Learning #LoRA #Vision-Language Models (VLMs)#First Frame Conditioning #Reference-based Generation

2025년 11월 20일

[논문리뷰] Draft and Refine with Visual Experts

최신 Large Vision-Language Models (LVLMs) 는 시각적 증거보다 언어적 사전 지식에 과도하게 의존하여 근거 없는 환각(hallucination)을 자주 생성합니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Grounding #Hallucination Mitigation #Agent Framework #Visual Question Answering (VQA)#Expert Coordination #Relevance Map #Multi-modal Reasoning

2025년 11월 20일

[논문리뷰] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

AI 연구 에이전트의 성능에 있어 아이디어 다양성(ideation diversity)이 핵심 병목 현상인지를 규명하고, 에이전트 궤적의 성공 또는 실패를 좌우하는 요인을 이해하는 것을 목표로 합니다.

#Review #AI Research Agents #Ideation Diversity #MLE-bench #LLM Backbones #Agentic Scaffolds #Shannon Entropy #Machine Learning Engineering #Performance Metrics

2025년 11월 19일

[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images

본 논문은 인간 주석이나 작업별 휴리스틱 없이, 대규모 비정형 이미지 데이터로부터 Vision-Language Models (VLMs) 의 추론 능력을 자율적으로 개선하는 것을 목표로 합니다. 기존 강화 학습(RL) 방식이 지닌 비용과 확장성 한계를 극복하고자 합니다.

#Review #Self-Evolving #Vision-Language Models #Reinforcement Learning #Self-Play #Unlabeled Data #Multimodal Reasoning #Group Relative Policy Optimization #Hallucination Mitigation

2025년 11월 19일

[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.

#Review #Video Models #Spatial Reasoning #Maze Solving #Video Generation #Benchmark #Supervised Fine-tuning #Test-Time Scaling #Multimodal Reasoning

2025년 11월 19일

[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

본 논문은 멀티모달 확산 모델에서 텍스트 및 시각 신호의 효과적인 정렬 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion #Mixture of States (MoS)#Token-Level Routing #Dynamic Conditional Fusion #Text-to-Image Generation #Image Editing #Transformer Architecture

2025년 11월 19일

[논문리뷰] Medal S: Spatio-Textual Prompt Model for Medical Segmentation

의료 영상 분할에서 다양한 모달리티와 해부학적 변이로 인한 문제를 해결하고, 기존 모델의 해상도 불일치 및 순차 처리 비효율성을 극복하는 것이 목표입니다.

#Review #Medical Segmentation #Foundation Model #Spatio-Textual Prompts #3D Convolution #Multi-modal Imaging #Dynamic Resampling #Parallel Inference #Iterative Refinement

2025년 11월 19일

[논문리뷰] MHR: Momentum Human Rig

본 논문은 ATLAS 모델의 골격/형상 분리 패러다임 에 Momentum 라이브러리에서 영감을 받은 유연하고 현대적인 리그 및 자세 보정 시스템을 결합하여, 산업 및 AR/VR 파이프라인에 통합 가능한 표현력 있고 해부학적으로 타당한 파라메트릭 인체 모델(MHR) 을 제안합니다.

#Review #Parametric Body Model #Human Animation #Character Rigging #Pose Correctives #Skeletal Decoupling #Computer Graphics #AR/VR

2025년 11월 19일

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.

#Review #Image Generation #Video Generation #Diffusion Models #Flow Matching #Diffusion Transformer #NABLA #RLHF #Supervised Fine-tuning

2025년 11월 19일

[논문리뷰] Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

본 연구는 흉부 X-ray(CXR)에서 병변 분할 모델의 제한적인 타겟 레이블 수와 전문가 수준의 상세 텍스트 입력 의존성을 해결하고자 합니다.

#Review #Medical Imaging #Chest X-ray #Lesion Segmentation #Vision-Language Models #Instruction Following #Data Generation #MIMIC-CXR

2025년 11월 19일

[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

본 논문은 기존 VLN(Vision-and-Language Navigation) 시스템의 정적인 지시, 사회적 의도 모델링 부족, 비현실적인 상호작용 환경 등의 한계를 극복하고자 합니다.

#Review #Embodied AI #Vision-and-Language Navigation (VLN)#LLM-driven Simulation #Human-Agent Interaction #Closed-Loop #Benchmark Dataset #Social Cognition

2025년 11월 19일

[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and Challenges

본 논문은 생성형 음악 AI 시스템이 계산적 최적화와 인간의 미적 감각 사이의 근본적인 격차로 인해 발생하는 문제를 해결하고, 인간의 미묘한 음악적 선호도에 더욱 잘 부합하도록 정렬하는 방법을 모색합니다.

#Review #Generative Music AI #Preference Alignment #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization #Music Generation #Human-Computer Interaction

2025년 11월 19일

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.

#Review #Video Chaptering #Long-form Video Understanding #Large Language Models #Multimodal Learning #Hierarchical Summarization #Video Segmentation #Reinforcement Learning #Dataset Creation

2025년 11월 19일

[논문리뷰] Φeat: Physically-Grounded Feature Representation

기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Physically-Grounded Features #Material Representation #Intrinsic Scene Understanding #Vision Transformer #Synthetic Data #Contrastive Learning

2025년 11월 18일

[논문리뷰] VIDEOP2R: Video Understanding from Perception to Reasoning

기존 비디오 RFT 프레임워크가 인식(perception)과 추론(reasoning) 과정을 단일 절차로 처리하여 신용 할당(credit assignment)이 모호해지고 오류 수정 효율성이 떨어진다는 문제를 해결하고자 합니다.

#Review #Video Understanding #Reinforcement Fine-Tuning (RFT)#Large Video Language Models (LVLMs)#Perception and Reasoning #Chain-of-Thought (CoT)#Process-Aware Learning #Policy Optimization #Credit Assignment

2025년 11월 18일

[논문리뷰] TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

Large Vision-Language Models (LVLMs)가 시각적 인코더의 정보 병목 현상 과 로컬 단축키 로 인해 전역 시각 정보를 제대로 인지하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LVLM Evaluation #Global Visual Perception #Topological Properties #Shortcut-Free Benchmark #Visual Bottleneck #Multimodal AI #Synthetic Data

2025년 11월 18일

[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

본 논문은 기존 텍스트 기반 자기 성찰(self-reflection) 메커니즘 이 풍부하고 동적인 시각 정보를 처리하는 데 한계가 있어, 장문 비디오 이해(long-form video understanding) 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다.

#Review #Multimodal Reasoning #Long-Form Video Understanding #Self-Reflection #Reinforcement Learning #Tool-Augmented MLLMs #Visual Rethinking #Video Question Answering #Causal Attribution

2025년 11월 18일

[논문리뷰] Proactive Hearing Assistants that Isolate Egocentric Conversations

본 논문은 사용자의 명시적인 프롬프트 없이도 대화 상대를 자동으로 식별하고 분리하여 다른 방해 음성을 억제하는 선제적(proactive) 보청 보조 장치 를 개발하는 것을 목표로 합니다. 이는 복잡한 다자간 대화 환경에서 실시간으로 작동하며, 착용자의 자율적인 대화 참여를 지원하는 데 중점을 둡니다.

#Review #Proactive Hearing Assistant #Egocentric Audio Processing #Speech Separation #Turn-taking Dynamics #Dual-Model Architecture #Real-time Inference #Wearable Devices #Dialogue Modeling

2025년 11월 18일

[논문리뷰] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

본 논문은 기존의 단일(monolithic) VLM(Vision-Language Model)이 가진 정밀성, 결정론적 제어 및 복합적 시각 작업 처리 능력의 한계를 극복하고자 합니다.

#Review #Visual Agent #Multimodal Perception #Tool-Augmented LLM #Agentic AI #Visual Reasoning #Computer Vision #Structured Outputs #ReAct Framework

2025년 11월 18일

[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.

#Review #Omnimodal LLMs #Token Compression #Audio-Video Understanding #Dynamic Pruning #Inference Acceleration #Spatio-Temporal Compression #Large Language Models

2025년 11월 18일

[논문리뷰] Mitigating Label Length Bias in Large Language Models

논문은 대규모 언어 모델(LLMs)이 다중 토큰 클래스 레이블을 예측할 때 발생하는 '레이블 길이 편향(label length bias)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Label Bias #Calibration #In-Context Learning #Text Classification #Multi-token Labels #Label Length Bias #Multiple Choice QA

2025년 11월 18일

[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

기존 Large Vision-Language Models (LVLMs) 강건성 벤치마크들이 환각이나 오해의 소지가 있는 텍스트 입력에만 집중하고, 시각적 이해 평가에서 오해의 소지가 있는 시각적 입력 을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LVLM Robustness #Misleading Visual Inputs #VQA Benchmark #Visual Perception #Visual Reasoning #MVI-Sensitivity #Multimodal AI

2025년 11월 18일

[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

본 연구는 Extreme Multi-label Classification (XMC)에서 Large Language Models (LLMs) 의 잠재력을 효과적으로 활용하고, 시각적 정보 를 효율적으로 통합하여 성능을 향상하는 것을 목표로 합니다.

#Review #Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning #Dual-decoder Learning #Vision Transformers #Contrastive Learning #Prompt Engineering

2025년 11월 18일

[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

본 논문은 카오스 엔지니어링(CE)의 수동적이고 노동 집약적인 단계(가설 설정, 실험 계획, 시스템 재구성)를 자동화하여, 누구나 저비용으로 탄력적인 소프트웨어 시스템을 구축할 수 있도록 하는 것을 목표로 합니다.

#Review #Chaos Engineering #Large Language Models #System Resilience #Kubernetes #Software Automation #AI Agents #Fault Injection

2025년 11월 18일

[논문리뷰] Error-Driven Scene Editing for 3D Grounding in Large Language Models

본 논문은 현재 3D-LLMs 가 3D 환경에서 언어를 시각적 및 공간적 요소에 정확하게 연결하지 못하는 문제점을 해결하고자 합니다.

#Review #3D Grounding #3D-LLMs #Scene Editing #Counterfactual Augmentation #Error-Driven Learning #Spatial Reasoning #Visual Grounding

2025년 11월 18일

[논문리뷰] Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

본 논문은 최신 비디오 생성 모델 이 단순한 시각적 품질을 넘어 실제 세계의 물리 법칙과 연속성을 이해하며 추론하는 Chain-of-Frames (CoF) 추론 능력 을 체계적으로 평가할 수 있는 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Generative Visual Reasoning #Chain-of-Frames (CoF)#Video Generation Models #World Simulators #AI Benchmarking #Cognitive Reasoning #VLM Evaluation

2025년 11월 18일

[논문리뷰] AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

본 연구는 기존 아랍어 대규모 언어 모델(LLM) 평가 벤치마크들이 사실적 지식과 일반 추론에 치중하여 심층적인 언어학적 이해도 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #Arabic LLMs #Linguistic Benchmark #Human Annotation #Natural Language Understanding #Grammar Evaluation #Morphology Analysis #Syntax Assessment #Reading Comprehension

2025년 11월 18일

[논문리뷰] Agent READMEs: An Empirical Study of Context Files for Agentic Coding

본 연구는 AI 코딩 에이전트의 작동 방식을 정의하고 안내하는 에이전트 컨텍스트 파일(Agent Context Files) 에 대한 체계적인 이해가 부족한 문제를 해결하고자 합니다.

#Review #Agentic Coding #Context Files #READMEs for Agents #Empirical Study #Software Engineering #Documentation Maintenance #Non-functional Requirements #LLMs

2025년 11월 18일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Benchmark #LLMs #Scientific Reasoning #Multidisciplinary #AI4S #Data Contamination #Evaluation #LRM-as-Judge

2025년 11월 18일

[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

본 논문은 기존 텍스트 프롬프트, 참조 이미지, LoRA 기반 스타일 생성 방식이 겪는 스타일 일관성 부족, 창의성 한계, 복잡한 스타일 표현 문제를 해결하고자 합니다.

#Review #Code-to-Style Generation #Discrete Style Space #Style Codebook #Autoregressive Model #Diffusion Models #Visual Stylization #Generative AI

2025년 11월 18일

[논문리뷰] A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition

본 논문은 기존 EEG 기반 감정 인식 모델들이 간과했던 뇌의 상이한 피질 영역 간의 동적 상호작용을 해결하고자 합니다.

#Review #EEG #Emotion Recognition #Transformer Architecture #Inter-Cortical Neural Interactions #Multi-Head Attention #Brain-Computer Interface #Affective Computing

2025년 11월 18일

[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

본 논문은 언어 중심의 접근 방식을 통해 멀티모달 이해, 추론 및 생성 능력을 통합하는 Uni-MoE-2.0-Omni 라는 효율적인 옴니모달 대규모 모델을 개발하는 것을 목표로 합니다.

#Review #Omnimodal Large Models #Mixture-of-Experts (MoE)#Language-Centric AI #Multimodal Understanding #Multimodal Generation #Progressive Training #Omni-Modality 3D RoPE

2025년 11월 17일

[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #Segmentation #Granularity Control #SAM #Foundation Models #Unsupervised Learning #Image Segmentation #Video Segmentation

2025년 11월 17일

[논문리뷰] UFO^3: Weaving the Digital Agent Galaxy

이 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 단일 운영체제나 기기에 국한되어 복잡한 크로스-디바이스 워크플로우를 수동으로 처리해야 하는 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Cross-Device Orchestration #LLM-Powered Agents #Task Constellation #Directed Acyclic Graph (DAG)#Agent Interaction Protocol (AIP)#Fault Tolerance #Asynchronous Execution

2025년 11월 17일

[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generative Models #Visual Reasoning #Benchmarking #Image-to-Video #TiViBench #VideoTPO #Prompt Optimization

2025년 11월 17일

[논문리뷰] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Vision-Language Models(VLM)이 테스트 시점의 도메인 변화(OOD)에 취약하여 성능이 저하되는 문제를 해결하고, 기존 Test-Time Adaptation(TTA) 방법론의 높은 계산 비용과 메모리 사용량, 그리고 frozen encoder 수정의 필요성 같은 제약을 극복하는 효율적이고 비침습적인 프레임워크를 개발하는 것이 목표입니다.

#Review #Vision-Language Models #Test-Time Adaptation #Zero-Shot Generalization #Spectral Decomposition #Latent Space Steering #SVD #Out-of-Distribution

2025년 11월 17일

[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.

#Review #Model Souping #Large Language Models #Weighted Averaging #Benchmark Optimization #State-of-the-Art #Category Experts #Parameter Averaging #Post-training

2025년 11월 17일

[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.

#Review #Multimodal Safety Alignment #Rule-Governed RL #Self-Rewarded Learning #MLLM Safety #Policy Optimization #Safety Benchmarking #Compositional Robustness

2025년 11월 17일

[논문리뷰] Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

본 논문은 기존 3D MLLM(Multimodal Large Language Model)이 3D 객체를 개별 부품으로 인식하고 조작하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #3D Multimodal LLM #Part-aware #3D Generation #3D Editing #3D Understanding #Bounding Box #Structured Program #Dual-encoder

2025년 11월 17일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Direct Preference Optimization #World Model #Reward Learning #Robotics #Embodied AI #Flow-Matching

2025년 11월 17일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일

[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #LLM Agents #Self-Evolution #On-the-Fly Learning #Tool Creation #SWE-bench #Autonomous Systems #Code Generation

2025년 11월 17일

[논문리뷰] Genomic Next-Token Predictors are In-Context Learners

본 연구는 인컨텍스트 학습(ICL)이 인간 언어에 고유한 현상인지, 아니면 대규모 예측 훈련을 통해 다른 시퀀스 도메인에서도 유기적으로 나타날 수 있는지 근본적인 질문을 탐구합니다. 특히, 풍부한 통계적 구조를 가진 대안적인 상징적 도메인인 유전체 시퀀스 에서 ICL의 출현 가능성을 검증하는 것을 목표로 합니다.

#Review #In-Context Learning (ICL)#Genomic Sequences #Next-Token Prediction #Large Language Models (LLMs)#Modality-Agnostic AI #Meta-Learning #Bitstring Program Synthesis #Evo2

2025년 11월 17일

[논문리뷰] Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

본 논문은 대규모 언어 모델(LLM)이 지식 그래프(KG)에서 예측 가능하고 관련성 높은 답변을 넘어, 예상치 못하고 가치 있는('serendipitous') 통찰력을 발견 하는 능력을 평가하는 것을 목표로 합니다.

#Review #Serendipity Discovery #Knowledge Graphs #Drug Repurposing #LLMs #KGQA #RNS Metric #Biomedical AI

2025년 11월 17일

[논문리뷰] AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing

본 논문은 대규모 언어 모델(LLM)이 겪는 전략적 취약성, 사실적 환각, 맞춤화 부족 문제로 인해 난항을 겪는 목표 지향적 설득형 대화(예: 텔레마케팅) 의 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 극복하고 실제 판매 시나리오에 효과적인 AI 에이전트를 개발하고자 합니다.

#Review #Telemarketing #Large Language Models #Persuasive Dialogue #Reinforcement Learning #Bayesian Optimization #Dynamic Prompting #Dialogue Systems

2025년 11월 17일

[논문리뷰] A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

기존 중앙 집중식 RAG(Retrieval Augmented Generation) 시스템의 높은 데이터 관리 비용과 개인 정보 보호 문제를 해결하고자 합니다.

#Review #Decentralized RAG #Blockchain #Smart Contracts #Source Reliability #Large Language Models #Retrieval Augmented Generation #Trustworthy AI

2025년 11월 17일

[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Autoformalization #Benchmark Dataset #miniF2F #Lean Language #Large Language Models #Mathematical Reasoning #Formal Verification

2025년 11월 16일

[논문리뷰] Workload Schedulers -- Genesis, Algorithms and Differences

본 논문은 현대의 워크로드 스케줄러를 운영체제 프로세스 스케줄러 , 클러스터 시스템 잡 스케줄러 , 빅 데이터 스케줄러 의 세 가지 범주로 분류하고, 각 클래스의 진화 과정, 사용되는 알고리즘, 주요 특징 및 차이점을 분석하는 것을 목표로 합니다.

#Review #Workload Scheduling #Process Scheduling #Job Scheduling #Big Data Processing #Resource Management #Distributed Systems #Scheduling Algorithms #Performance Optimization

2025년 11월 16일

[논문리뷰] Virtual Width Networks

본 논문은 Transformer 모델의 히든 차원을 늘릴 때 발생하는 Quadratic한 계산 비용 문제를 해결하면서도, 더 넓은 표현(wider representations)이 제공하는 이점을 얻는 것을 목표로 합니다.

#Review #Virtual Width Networks #Transformer #Mixture-of-Experts (MoE)#Scaling Laws #Representation Learning #Model Efficiency #Multi-Token Prediction #Hyper-Connections

2025년 11월 16일

[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.

#Review #Visual Language Model #UI-to-Code Generation #Interactive UI #UI Editing #UI Polishing #Reinforcement Learning #Multimodal Coding #Test-Time Scaling

2025년 11월 16일

[논문리뷰] Simulating the Visual World with Artificial Intelligence: A Roadmap

본 논문은 비디오 생성 모델이 포괄적인 물리적 세계 모델(Physical World Model) 로 진화하는 과정을 체계적으로 조망하고 로드맵을 제시하는 것을 목표로 합니다.

#Review #World Models #Video Generation #AI Simulation #Generative AI #Physical Plausibility #Interactive AI #Planning #Roadmap

2025년 11월 16일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일

[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Temporal Coherence #Video Generation #Computational Efficiency #FlashAttention #CUDA Kernels

2025년 11월 16일

[논문리뷰] Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

본 설문조사는 대규모 언어 모델(LLM) 을 활용한 과학적 아이디어 생성의 고유한 도전을 다루며, 특히 창의성과 과학적 타당성 사이의 균형을 맞추는 방법을 탐구합니다.

#Review #Large Language Models #Scientific Discovery #Idea Generation #Creativity #Survey #AI in Science #Prompt Engineering #Multi-agent Systems #Evaluation Metrics

2025년 11월 16일

[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal Assistant

본 논문은 청각 장애인이 일상적인 의사소통에서 겪는 어려움, 특히 불분명한 발화로 인한 문제를 해결하고자 합니다.

#Review #Multimodal AI #Hearing Impairment #Audio-Visual Speech Recognition #Curriculum Learning #Omni-Models #Assistive Technology #Lip Reading #Speech Translation

2025년 11월 16일

[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

본 논문은 통합 멀티모달 모델(UMMs)의 생성적 추론 능력 을 평가하기 위한 벤치마크 개발을 목표로 합니다. 기존 벤치마크들이 판별적 이해 또는 제약 없는 생성만을 평가하는 한계를 극복하고, 언어 이해와 정밀한 시각 생성을 융합하는 기하학적 생성적 추론 을 종합적으로 측정하고자 합니다.

#Review #Multimodal AI #Generative Reasoning #Geometric Construction #Benchmark #GeoGebra #Code-based Evaluation #Unified Models

2025년 11월 16일

[논문리뷰] From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

본 연구는 도구 증강 언어 모델(TaLMs) 이 외부 도구를 사용할 때 발생하는 추론 환각(reasoning hallucinations) 의 새로운 유형인 Tool-Induced Myopia (TIM) 를 식별하고 특성화하는 것을 목표로 합니다.

#Review #Tool-augmented LLMs #Reasoning Hallucinations #Tool-Induced Myopia (TIM)#Code Interpreter #Mathematical Reasoning #LLM Evaluation #Preference Optimization

2025년 11월 16일

[논문리뷰] Experience-Guided Adaptation of Inference-Time Reasoning Strategies

본 논문은 에이전트형 AI 시스템이 훈련 후 추론 시 상호작용을 기반으로 문제 해결 방식을 적응시키는 근본적인 과제를 해결하고자 합니다.

#Review #Adaptive AI #Inference-Time Adaptation #Reasoning Strategies #Meta-Learning #LLM-based Agents #Dynamic Strategy Generation #Continual Learning #Computational Efficiency

2025년 11월 16일

[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

기존 비디오 생성 시스템이 감성적 차원을 소홀히 다루고 특히 스타일화되거나 비현실적인 콘텐츠에서 감정 이해와 생성 간의 격차가 크다는 문제를 해결하고자 합니다.

#Review #Multimodal Dataset #Emotion Recognition #Video Generation #Affective Computing #Stylized Media #Diffusion Models #Video Understanding #Text-to-Video

2025년 11월 16일

[논문리뷰] Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding

본 논문은 추천 시스템이 정확도를 넘어선 다양성, 참신성, 개인화 등의 목표를 달성하지 못하는 문제를 해결하고자 합니다.

#Review #Generative Recommenders #Human Priors #Multi-head Decoding #Disentangled Representation Learning #Sequential Recommendation #Adapter Networks #Hierarchical Modeling

2025년 11월 16일

[논문리뷰] DoPE: Denoising Rotary Position Embedding

본 논문은 Transformer 모델 내 Rotary Position Embedding (RoPE) 의 내재된 한계로 인해 발생하는 길이 외삽 능력 약화와 attention sink 현상 을 해결하는 것을 목표로 합니다.

#Review #Rotary Position Embedding #Transformer #Length Extrapolation #Attention Sink #Matrix Entropy #Denoising #Large Language Models

2025년 11월 16일

[논문리뷰] DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

본 논문은 전문 도메인에서 담화 수준 번역의 평가가 불충분하다는 문제를 해결하고자 합니다. 기존 벤치마크들이 문장 수준의 정확성과 유창성에 초점을 맞춰 담화 일관성, 엄격한 용어 정밀도, 전문가 스타일 표준을 평가하는 데 한계가 있음을 지적합니다.

#Review #Discourse-Level Translation #Expert Domains #Benchmarking #LLM Evaluation #Reference-Free Metric #Chinese-English Translation #Contextual Coherence #Domain-Specific Terminology

2025년 11월 16일

[논문리뷰] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

본 논문은 기존 V2V 협력 인지 데이터셋이 주로 일반적인 교통 시나리오에 초점을 맞추어 Complex Adverse Traffic Scenarios (CATS) 하에서의 협력 인지 연구에 한계가 있음을 지적합니다.

#Review #Cooperative Perception #Vehicle-to-Vehicle (V2V)#Autonomous Driving #Dataset #Adverse Traffic Scenarios #Sensor Fusion #Temporal Alignment #3D Bounding Box Annotation

2025년 11월 16일

[논문리뷰] A Meta-Heuristic Load Balancer for Cloud Computing Systems

클라우드 시스템에서 노드 과부하를 방지하고 시스템 안정성을 유지하며 최소 비용으로 서비스를 할당하는 전략을 개발하는 것이 목표입니다. 특히, 다양한 유형의 자원 활용 및 서비스 마이그레이션 비용을 고려한 추상적인 클라우드 자원 모델을 제시하고 이를 효율적으로 관리할 로드 밸런서의 성능을 평가하고자 합니다.

#Review #Cloud Computing #Load Balancing #Meta-Heuristic #Genetic Algorithm #Simulated Annealing #Tabu Search #Resource Management #Service Migration

2025년 11월 16일

[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

본 논문은 전문화된 비디오 AI 모델과 실제 비디오 워크플로우 간의 격차를 해소하여 차세대 비디오 일반 인공지능을 구현하는 것을 목표로 합니다.

#Review #Video Agents #Multi-modal AI #Plan-Act Architecture #Tool-Use #Long-horizon Reasoning #Open-source #Video Generation #Video Understanding

2025년 11월 13일

[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.

#Review #Quantum Computing #Optimization #Machine Learning #Transformers #Gradient Descent #Superposition #Large Language Models #Hybrid Quantum-Classical

2025년 11월 13일

[논문리뷰] SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

기존 instruction-based image editing 모델들이 고정된 강도로 편집을 적용하여 개별 편집에 대한 정밀하고 연속적인 제어가 불가능하다는 한계를 해결하고자 합니다.

#Review #Image Editing #Continuous Control #Fine-Grained Control #Instruction-based #Low-Rank Adaptation #Disentanglement #Generative Models

2025년 11월 13일

[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.

#Review #LLM #Instruction Following #Reinforcement Learning #Rubric-based Evaluation #Benchmarking #Reward Shaping #Rubric Verifier #AdvancedIF

2025년 11월 13일

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

본 논문은 기존 확산 모델이 고해상도 이미지를 직접 샘플링할 때 발생하는 속도 저하, 비용 증가, 아티팩트 발생 문제를 해결하고, 사후 픽셀 공간 초해상도(SR) 방식의 추가 지연 및 아티팩트를 극복하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Super-Resolution #Upscaling Adapter #Image Generation #Latent Space #Multi-scale Learning #Cross-VAE

2025년 11월 13일

[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models

이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.

#Review #Audio Language Models #Music Understanding #Chain-of-Thought #Reinforcement Learning #Data Curation #Multimodal AI #Music Information Retrieval

2025년 11월 13일

[논문리뷰] MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples

이 논문은 훈련 데이터셋의 라벨링 없이 산업 제품의 2D 이미지와 3D 포인트 클라우드에서 제로샷(zero-shot) 이상 분류(AC) 및 세분화(AS) 를 수행하는 것을 목표로 합니다.

#Review #Zero-Shot Learning #Anomaly Detection #Anomaly Segmentation #Multimodal #Industrial Inspection #Mutual Scoring #Unsupervised Learning #Transformer

2025년 11월 13일

[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

본 논문은 대규모 멀티모달 모델(LMMs) 의 멀티모달 비판 능력에 대한 포괄적이고 신뢰성 있는 평가의 필요성을 제기하며, LMMs의 자가 개선 및 신뢰성 향상을 목표로 합니다. 기존 벤치마크의 이진 선호도 예측 한계를 넘어, 기본, 교정, 비교의 세 가지 비판 차원에서 MM-CRITIC 벤치마크를 제안합니다.

#Review #LMMs #Multimodal Critique #Benchmark #Evaluation #Reward Model #GPT-4o #Scaling Law

2025년 11월 13일

[논문리뷰] Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

이 논문은 Large Language Models (LLMs) 의 후처리 훈련에 사용되는 분산형 Group Relative Policy Optimization (GRPO) 시스템의 보안 취약점을 탐구합니다.

#Review #Decentralized RL #GRPO #LLM Post-training #Adversarial Attacks #Data Poisoning #Defense Mechanisms #In-context Attack #Out-of-context Attack

2025년 11월 13일

[논문리뷰] Depth Anything 3: Recovering the Visual Space from Any Views

논문은 단일 이미지, 다중 뷰 또는 비디오 스트림과 같은 임의의 시각 입력 으로부터 공간적으로 일관된 3D 기하 정보를 복구 하는 것을 목표로 합니다.

#Review #Depth Estimation #Multi-view Geometry #Transformer Architecture #Teacher-Student Learning #Pose Estimation #3D Reconstruction #Novel View Synthesis #Visual Space Recovery

2025년 11월 13일

[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.

#Review #Citation Contexts #Reproducibility #Sentiment Analysis #Large Language Models #Crowdsourcing #Dataset #Machine Learning #Science of Science

2025년 11월 13일

[논문리뷰] Black-Box On-Policy Distillation of Large Language Models

본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation #Generative Adversarial Networks (GANs)#On-policy Learning #Reinforcement Learning #Minimax Game #Model Compression

2025년 11월 13일

[논문리뷰] Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

현재 텍스트-투-이미지(T2I) 모델이 종종 동질적인 이미지를 생성하며 다양성이 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Models #Diversity Evaluation #Human Evaluation #Attribute-Conditional #Vendi Score #Generative AI #Benchmarking

2025년 11월 13일

[논문리뷰] AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

본 논문은 3D 환경에서 자연어 명령을 기반으로 물체의 상호작용 가능한 요소(affordance elements)를 식별하고, 해당 요소의 3D 마스크 , 동작 유형 , 동작 축 방향 을 포함하는 구조화된 트립렛을 예측하는 Fine-grained 3D Embodied Reasoning 이라는 새로운 태스크를 제안합니다.

#Review #3D Embodied Reasoning #Multimodal Large Language Models (MLLMs)#Chain-of-Thought (CoT)#Affordance Grounding #Motion Estimation #View Synthesis #Active Perception

2025년 11월 13일

[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

본 논문은 기존 Vision-Language Models (VLMs) 기반의 UI-to-Code 접근 방식이 정적인 HTML/CSS 코드만 생성하고 GUI 상호작용을 지원하지 못하는 한계를 극복하고자 합니다.

#Review #UI-to-Code #Vision-Language Models #Agentic Framework #Interactive UI #Web Automation #Code Generation #UI Verification #Supervised Fine-Tuning

2025년 11월 12일

[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

VLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL #World Models #Policy Optimization #Robotics #Sample Efficiency #Self-correction

2025년 11월 12일

[논문리뷰] Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

이 논문은 확산 모델의 샘플링 과정에서 발생하는 품질 및 제어 가능성 문제를 해결하고자 합니다.

#Review #Diffusion Models #Guidance Sampling #Optimal Transport #Sinkhorn Algorithm #Self-Attention #Adversarial Perturbation #Image Generation #ControlNet

2025년 11월 12일

[논문리뷰] TiDAR: Think in Diffusion, Talk in Autoregression

본 연구는 대규모 언어 모델(LLM)의 생성 과정에서 확산 모델(Diffusion Models) 의 빠른 병렬 생성 능력과 자기회귀(Autoregressive, AR) 모델 의 높은 품질을 동시에 달성하는 것을 목표로 합니다.

#Review #Hybrid LLM Architecture #Diffusion-Autoregressive #Parallel Token Generation #Speculative Decoding #Structured Attention Masks #LLM Inference Acceleration #KV Cache

2025년 11월 12일

[논문리뷰] Stemming Hallucination in Language Models Using a Licensing Oracle

언어 모델(LMs)의 고질적인 환각(hallucination) 문제, 즉 사실과 다른 정보를 유창하게 생성하는 문제를 해결하는 것이 목표입니다. 통계적 학습 방식의 한계를 극복하고, 구조화된 지식에 대한 결정론적인 진실성 검증 메커니즘 을 통해 LM의 출력에 인식론적 기반 을 마련하고자 합니다.

#Review #Hallucination Mitigation #Language Models #Knowledge Graphs #SHACL Validation #Epistemic Grounding #Retrieval-Augmented Generation #Neuro-symbolic AI

2025년 11월 12일

[논문리뷰] Motif 2 12.7B technical report

대규모 언어 모델(LLM)의 효율성 한계를 확장하고, 제한된 컴퓨팅 자원 내에서 Motif-2-12.7B 모델이 우수한 성능을 발휘할 수 있음을 입증하는 것을 목표로 합니다. 특히 아키텍처 혁신과 시스템 수준 최적화를 통해 대형 모델에 필적하는 능력을 소규모 파라미터로 구현하고자 합니다.

#Review #Large Language Model #LLM Efficiency #Grouped Differential Attention #Kernel Fusion #Parallel Muon #Supervised Fine-tuning #Architectural Scaling #Instruction Following

2025년 11월 12일

[논문리뷰] MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 복잡한 수학 문제 해결과 같은 추론 태스크에서 겪는 어려움을 극복하는 것을 목표로 합니다. 특히, 기존의 정적인 교사 모델 유래 데이터셋에 의존하는 방식이 모델의 새로운 문제 적응력과 견고한 일반화 능력을 제한한다는 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Mathematical Problem Solving #Self-Evolving #Iterative Fine-Tuning #Reward Models #Reflection #Large Language Models (LLMs)

2025년 11월 12일

[논문리뷰] MADD: Multi-Agent Drug Discovery Orchestra

초기 신약 개발 과정에서 히트 분자(hit molecule) 식별 에 필요한 막대한 자원과 기존 AI 방법론의 복잡성 및 접근성 부족 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent System #Drug Discovery #LLM #Hit Identification #Virtual Screening #Generative AI #Property Prediction #Automated Machine Learning

2025년 11월 12일

[논문리뷰] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

논문은 복잡한 3D 오픈 월드 환경 에서 인간 수준의 효율성으로 수 시간 길이의 미션을 실시간으로 완수할 수 있는 제너럴리스트 에이전트 를 구축하기 위한 '오픈 레시피'인 Lumine을 제시합니다.

#Review #Generalist Agent #3D Open World #Vision-Language Model #Imitation Learning #Real-time Inference #Hybrid Thinking #Action Chunking #Genshin Impact

2025년 11월 12일

[논문리뷰] LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

기존 LLM 툴 학습의 정적 합성 데이터 파이프라인 이 모델의 약점에 적응하지 못하고 노이즈 있는 레이블을 유지하여 훈련 효율성을 저해하는 문제를 해결합니다.

#Review #Large Language Models (LLMs)#Tool Learning #Data Generation #Model Training #Closed-Loop Framework #Reinforcement Learning (RL)#Data Refinement #Self-Correction

2025년 11월 12일

[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding Agents

이 연구는 AI 코딩 에이전트가 소프트웨어 개발에서 리팩토링 활동을 어떻게 수행하고, 그 유형과 목적은 무엇이며, 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해 부족 문제를 해결하고자 합니다.

#Review #AI Agents #Code Refactoring #Software Engineering #Empirical Study #Large Language Models #Code Quality #Agentic Software Development #Maintainability

2025년 11월 12일

[논문리뷰] Adapting Web Agents with Synthetic Supervision

웹 에이전트는 훈련 시 접하지 못한 새로운 웹사이트에 적응하는 데 어려움을 겪는데, 이는 환경별 태스크와 데모 데이터가 부족하기 때문입니다.

#Review #Web Agents #Synthetic Data Generation #LLM #Task Refinement #Trajectory Refinement #Supervised Fine-tuning #Web Automation #Environment Adaptation

2025년 11월 12일

[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.

#Review #Arabic Language #Multimodal Corpus #Data Curation #Web Scraping #Large Language Models #Document Structure #Markdown #Perplexity Filtering

2025년 11월 11일

[논문리뷰] Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective

본 연구는 대규모 언어 모델(LLMs)이 소프트웨어 개발에 미치는 영향에 대해 실무자 관점에서 심층적으로 탐구하고, LLMs 사용에 따른 긍정적(전진) 및 부정적(후퇴) 효과를 균형 있게 관리하는 방안을 모색하는 것을 목표로 합니다.

#Review #Large Language Models #Software Engineering #Developer Productivity #Socio-Technical Grounded Theory #Practitioner Insights #AI Adoption #Benefits and Risks #Balanced Use

2025년 11월 11일

[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning

본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Understanding #Self-Supervised Learning #Reinforcement Learning #MLLMs #Pretext Tasks #Verifiable Rewards #Data Generation #Temporal Grounding

2025년 11월 11일

[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Small Language Models #Reasoning #Diversity Optimization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning #Code Generation

2025년 11월 11일

[논문리뷰] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

본 논문은 수만 개의 프레임에서 관련 정보를 식별해야 하는 긴 형식 비디오 이해 태스크에서, 기존의 수동으로 고안된 검색 전략이 최적의 검색 전략 학습을 위한 end-to-end 최적화가 부족하다는 문제를 해결합니다.

#Review #Long-form Video Understanding #Temporal Search #Reinforcement Learning #Self-Verification #Video-Language Models #Adaptive Search #Interleaved Reasoning

2025년 11월 11일

[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the Principals

RLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Parameter-Efficient Fine-Tuning #Optimization Bias #Spectral Geometry #Model Sparsity #LoRA

2025년 11월 11일

[논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration

본 연구는 대규모 언어 모델(LLM)에서 다양성(diversity) 과 품질(quality) 간의 본질적인 트레이드오프 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Diversity-Quality Trade-off #Model Collaboration #Inference Optimization #Routing Strategy #Text Generation

2025년 11월 11일

[논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Masked Diffusion Models (MDMs)는 다양한 생성 태스크에서 우수한 성능을 보이지만, 느리고 정적인 샘플링 속도 로 인해 추론 과정에 병목 현상이 발생합니다.

#Review #Masked Diffusion Models #Fast Inference #Adaptive Sampling #KL Divergence #Confidence Score #Generative AI #Efficient Sampling

2025년 11월 11일

[논문리뷰] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

본 논문은 급증하는 LLM 추론 수요로 인해 중앙 집중식 클라우드 인프라가 겪는 부담을 완화하기 위해 로컬 AI의 실행 가능성을 정량화하는 것을 목표로 합니다.

#Review #Local AI #LLM Inference #Intelligence per Watt #Edge Computing #Hybrid Cloud #AI Efficiency #Hardware Benchmarking #Query Routing

2025년 11월 11일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.

#Review #Large Language Models #Sequential Reasoning #Action Space Construction #Submodular Optimization #Markov Decision Process #Monte Carlo Tree Search #Utility-Diversity Trade-off

2025년 11월 11일

[논문리뷰] BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

본 연구는 생물의학 및 일반 도메인 정보 검색(IR) 시스템의 성능 향상을 목표로 합니다. 특히, 기존 방법론에서 어려움을 겪는 '하드 네거티브' 문서를 효과적으로 식별하고 활용하여, 밀집 검색 모델의 정밀도를 높이고 미묘한 의미적 차이를 학습할 수 있도록 하는 것을 핵심 과제로 삼습니다.

#Review #Dense Retrieval #Biomedical IR #Hard Negative Mining #Citation Networks #PubMed #Zero-shot Retrieval #Transformer Models

2025년 11월 11일

[논문리뷰] Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

본 논문은 기존 Retrieval-Augmented Generation (RAG) 방법론이 긴 내러티브 내에서 분산된 정보를 다루고, 시간이 지남에 따라 진화하는 상황과 액터의 상태에 대해 추론하는 데 한계가 있음을 지적합니다.

#Review #Retrieval-Augmented Generation (RAG)#Episodic Memory #Generative Semantic Workspaces (GSW)#Large Language Models (LLMs)#Question Answering (QA)#Semantic Modeling #Knowledge Graph

2025년 11월 11일

[논문리뷰] Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

본 논문은 기존 대규모 언어 모델(LLM) 기반 다국어 기계 번역(MMT) 시스템이 겪는 제한적인 언어 커버리지, 불안정한 번역 품질, 그리고 고질적인 영어 중심 편향 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Machine Translation #Large Language Models #Directional Degeneration #Strategic Downsampling #Parallel Multilingual Prompting #Chinese-centric MT #Cross-lingual Transfer #Instruction Tuning

2025년 11월 11일

[논문리뷰] Adaptive Multi-Agent Response Refinement in Conversational Systems

대규모 언어 모델(LLM) 기반 대화 시스템이 사용자 페르소나 정렬 및 사실적 정확도와 같은 복합적인 요구사항을 충족하지 못해 발생하는 불만족스러운 응답 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Multi-Agent Systems #Conversational AI #Response Refinement #Dynamic Agent Selection #Persona Alignment #Factual Grounding #Coherence

2025년 11월 11일

[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.

#Review #Video Anomaly Understanding #Large Language Models #Causal Reasoning #Relation-Aware #Keyframe Sampling #Multimodal LLMs #Scene Graphs

2025년 11월 10일

[논문리뷰] The Station: An Open-World Environment for AI-Driven Discovery

본 논문은 기존의 경직된 최적화 패러다임을 넘어선 AI 주도 자율 과학 발견을 위한 개방형 다중 에이전트 환경인 The Station 을 소개합니다.

#Review #Multi-Agent System #Open-World Environment #Scientific Discovery #AI-Driven Research #Large Language Models #Emergent Behavior #State-of-the-Art (SOTA)

2025년 11월 10일

[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Recurrent Language Models #Pretrained Models #Model Surgery #Curriculum Learning #Test-Time Compute Scaling #Mathematics Reasoning #Efficient Training #Depth Recurrence

2025년 11월 10일

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일

[논문리뷰] SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

이 논문은 대규모 언어 모델(LM) 이 실제 소프트웨어 저장소 의 실제 워크로드 에서 런타임 성능을 얼마나 효과적으로 최적화할 수 있는지 평가하는 것을 목표로 합니다.

#Review #소프트웨어 성능 최적화 #언어 모델 #저장소 수준 추론 #벤치마크 #실제 워크로드 #코드 정확성 #속도 향상 #코드 최적화

2025년 11월 10일

[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

MoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.

#Review #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization #Manifold Regularization #Generalization #Post-training Fine-tuning #Task Embedding Alignment

2025년 11월 10일

[논문리뷰] Robot Learning from a Physical World Model

본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Video Generation #Physical World Model #Reinforcement Learning #Zero-shot Manipulation #Object-Centric Learning #Sim-to-Real

2025년 11월 10일

[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.

#Review #Reinforcement Learning #Large Language Models #Hierarchical Knowledge #Knowledge Traversal #Structured Prompting #Internal Representations #Alignment Tax

2025년 11월 10일

[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

SNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.

#Review #LLM Post-Training #Domain Adaptation #Social Networking Services #Reinforcement Learning #Supervised Fine-Tuning #Catastrophic Forgetting #Data Efficiency

2025년 11월 10일

[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.

#Review #LLM Reasoning Verification #Uncertainty Quantification (UQ)#UHeads #Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning #Computational Efficiency #Domain Generalization

2025년 11월 10일

[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.

#Review #Reinforcement Learning #LLMs #Generalization #Overfitting #Catastrophic Forgetting #Iterative Policy Optimization #Policy Diversity

2025년 11월 10일

[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Language Models #Adaptive Environments #Verifiable Environments #Procedural Generation #Curriculum Learning #Generalization

2025년 11월 10일

[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Speech Recognition #Large Language Models #Audio-Visual Speech Recognition #LoRA #Matryoshka Representation Learning #Elastic Inference #Parameter-Efficient Adaptation

2025년 11월 10일

[논문리뷰] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

본 논문은 자연어 텍스트 설명으로부터 NURBS(Non-Uniform Rational B-Splines) 기반의 고정밀 3D CAD 모델을 직접 생성하는 최초의 프레임워크인 NURBGen 을 제시합니다.

#Review #Text-to-CAD #NURBS Modeling #Large Language Models #Geometric Deep Learning #Boundary Representation #Hybrid Representation #CAD Generation

2025년 11월 10일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일

[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.

#Review #Music-Painting Cross-Modal #Perceptual Assessment #Modality-Adaptive Normalization #Direct Preference Optimization #Cross-Modal Fusion #Dataset Annotation #Affective Computing

2025년 11월 10일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.

#Review #Text Embedding #Multilingual #Cross-Lingual #Contrastive Learning #Model Merging #Synthetic Data Generation #Instruction-Tuning #LLM

2025년 11월 10일

[논문리뷰] LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

본 논문은 효율적인 단일 배치 대규모 언어 모델(LLM) 추론을 위해 FPGA 의 장점을 활용하는 것을 목표로 합니다. 특히, 기존 산술 기반 연산에서 메모리 기반 연산 으로 전환하여 GPU 대비 FPGA의 성능 및 에너지 효율성 한계를 극복하고, 온디바이스 AI 구현을 위한 핵심 기술을 개발하고자 합니다.

#Review #FPGA #Large Language Models (LLM)#Inference Optimization #Memory-based Computation #Vector Quantization #Table Lookup #Hardware Acceleration

2025년 11월 10일

[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Agents #Markov Decision Process #Workspace Reconstruction #Reinforcement Learning #Context Management #Iterative Deep Research #LLM Agents #Efficiency-Aware Policy Optimization

2025년 11월 10일

[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents

본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.

#Review #Memory Systems #AI Agents #Hallucination Detection #Evaluation Benchmark #Long-term Memory #Memory Extraction #Memory Updating #Question Answering

2025년 11월 10일

[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

본 논문은 기존 텍스트-이미지(T2I) 모델의 낮은 제어 가능성과 표현력 부족 문제를 해결하는 것을 목표로 합니다. 짧은 텍스트 프롬프트와 풍부한 시각적 출력 사이의 불일치로 인해 모델이 세부 정보를 임의로 채우는 경향이 있으며, 이는 전문적인 사용에 필요한 정밀한 제어를 제한합니다.

#Review #Text-to-Image Generation #Structured Captions #LLM Fusion #Controllability #Image Generation Evaluation #Diffusion Models #DimFusion #TaBR

2025년 11월 10일

[논문리뷰] FLEX: Continuous Agent Evolution via Forward Learning from Experience

본 논문의 핵심 목표는 기존 LLM(Large Language Model) 에이전트의 고정된 특성, 경험 기반 학습의 부재, 파라미터 최적화의 높은 비용 및 카타스트로픽 망각 문제점을 해결하는 것입니다.

#Review #LLM Agents #Continuous Learning #Experience Library #Forward Learning #Meta-MDP #Knowledge Distillation #Non-parametric Adaptation

2025년 11월 10일

[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.

#Review #Emotion Recognition in Conversation #Large Language Models #Prompt Engineering #Demonstration Retrieval #Curriculum Learning #Fine-tuning #Affective Computing #SOTA

2025년 11월 10일

[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents

본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.

#Review #Mobile Control Agents #User Interface Automation #Large-Scale Dataset #Benchmarking #LLM Judges #Data Diversity #Task Success Rate

2025년 11월 10일

[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Direct Preference Optimization (DPO)#Safeguarded Learning #Text-to-Image Generation #Preference Alignment #Generative Models #Stable Diffusion

2025년 11월 10일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] DIMO: Diverse 3D Motion Generation for Arbitrary Objects

본 연구는 기존 4D 생성 모델이 단일 객체에 대해 단일 모션만 생성하거나, 카테고리별로 제한된 모션만을 다루는 한계를 극복하고자 합니다. 단일 이미지 에서 임의의 객체 에 대한 다양한 3D 모션 을 단일 생성 모델 을 통해 단일 포워드 패스 로 즉시 생성하는 것을 목표로 합니다.

#Review #3D Motion Generation #Generative Models #Arbitrary Objects #Neural Key Points #Latent Space #4D Content Generation #Diffusion Models #3D Gaussian Splatting

2025년 11월 10일

[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

본 연구는 RL 후처리 훈련이 기존 VLM의 내재적 추론 능력 경계 를, 특히 시각 중심의 공간 추론 작업에서 확장할 수 있는지 탐색하는 것을 목표로 합니다. 이를 위해, 정밀하게 난이도를 제어할 수 있는 프레임워크인 Ariadne 를 도입하여 VLM의 추론 행동을 체계적으로 조사하고 한계를 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning #Controllable Framework #RLVR #GRPO #Maze Navigation #Generalization Boundaries

2025년 11월 10일

[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Robotics #Multimodal Perception #Cross-Robot Generalization #Hierarchical Planning #World Models #Robot Safety

2025년 11월 10일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.

#Review #Neuro-symbolic AI #Chain-of-Thought #Large Language Models #Logical Consistency #Automated Verification #Fine-tuning #SMT Solvers #Self-Reflection

2025년 11월 9일

[논문리뷰] Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings

대규모 비전-언어 모델(LVLM)이 시각적 정보를 불충분하게 활용하고 텍스트 우선(textual priors)에 과도하게 의존하여 발생하는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다. 이를 통해 모델의 시각적 grounding을 강화하고 더 균형 잡힌 멀티모달 추론을 촉진하고자 합니다.

#Review #Hallucination Mitigation #Large Vision-Language Models #Textual Embeddings #Multimodal Reasoning #Attention Mechanism #Visual Grounding #Modality Imbalance

2025년 11월 9일

[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM #Role-playing #Safety Alignment #Villain #Persona Simulation #Moral Alignment #Benchmark #Character Fidelity

2025년 11월 9일

[논문리뷰] Real-Time Reasoning Agents in Evolving Environments

본 논문은 실시간으로 변화하는 환경에서 대규모 언어 모델(LLM) 기반 에이전트가 논리적이고 시의적절한 판단을 내리는 실시간 추론(Real-Time Reasoning) 이라는 근본적인 과제를 해결하는 것을 목표로 합니다.

#Review #Real-time Reasoning #LLM Agents #Dynamic Environments #Dual-System AI #AgileThinker #Reactive Planning #Cognitive Load #Time Pressure

2025년 11월 9일

[논문리뷰] Jailbreaking in the Haystack

본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.

#Review #Jailbreaking #LLM Safety #Long-Context Models #Positional Bias #Attack Success Rate (ASR)#Prompt Engineering #Compute Efficiency #AI Agents

2025년 11월 9일

[논문리뷰] HAFixAgent: History-Aware Automated Program Repair Agent

본 연구는 기존 LLM 기반 프로그램 자동 수정(APR) 시스템이 로컬 코드 스냅샷에만 의존하여 복잡한 다중-hunk 버그 수정 시 저장소 이력 정보 를 간과하는 문제를 해결하고자 합니다.

#Review #Automated Program Repair #AI Agent #Large Language Models #Repository Mining #Historical Context #Bug Fixing #Defects4J

2025년 11월 9일

[논문리뷰] Dense Motion Captioning

본 논문은 3D 휴먼 모션 시퀀스 내에서 의미 있는 액션을 시간적으로 정확히 감지하고, 해당 액션에 대한 상세한 캡션을 생성하는 새로운 태스크인 Dense Motion Captioning (DMC) 을 제안합니다.

#Review #3D Human Motion #Dense Captioning #Large Language Models #Motion Understanding #Temporal Localization #Human-Language Datasets #Motion Generation

2025년 11월 9일

[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model

본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.

#Review #Agentic AI #Multimodal Models #Tool Use #Reinforcement Learning #Supervised Fine-tuning #Multimodal Reasoning #Web Search #Code Execution

2025년 11월 9일

[논문리뷰] CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

본 연구는 대규모 언어 모델(LLM)의 자연어 기반 신뢰도 표현(verbalized confidence) 의 정확한 보정(calibration)을 개선하는 것을 목표로 합니다.

#Review #LLM Calibration #Confidence Calibration #Uncertainty Estimation #Critique Learning #Supervised Fine-Tuning #Natural Language Processing #Self-Critique

2025년 11월 9일

[논문리뷰] V-Thinker: Interactive Thinking with Images

본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Interactive Reasoning #Vision-Centric Thinking #Reinforcement Learning #Data Synthesis #Visual Tools #Curriculum Learning #Multimodal AI

2025년 11월 9일

[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

기존의 'Thinking with Text' 및 'Thinking with Images' 패러다임이 가진 정적 이미지의 한계와 모달리티 분리 문제를 극복하고자 합니다.

#Review #Video Generation #Multimodal Reasoning #Temporal Understanding #Spatial Reasoning #Foundation Models #AI Benchmarking #In-Context Learning #Self-Consistency

2025년 11월 9일

[논문리뷰] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms

이 논문은 기존 연구에서 다루지 않았던 트랜스포머 아키텍처 의 핵심 구성 요소인 Multi-Head Attention (MHA) 메커니즘 에 대한 Strong Lottery Ticket Hypothesis (SLTH) 를 이론적으로 확립하는 것을 목표로 합니다.

#Review #Strong Lottery Ticket Hypothesis #Multi-Head Attention #Transformers #Neural Network Pruning #Overparameterization #Weight Initialization #Model Compression

2025년 11월 9일

[논문리뷰] Scaling Agent Learning via Experience Synthesis

대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.

#Review #Reinforcement Learning #LLM Agents #Experience Synthesis #World Models #Curriculum Learning #Sim-to-Real Transfer #Web Agents

2025년 11월 9일

[논문리뷰] SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

멀티모달 대규모 언어 모델(MLLM)이 비디오에서 시공간 추론을 수행하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Video Understanding #Simulated Data #Instruction Tuning #Multimodal LLMs #Sim-to-Real Transfer #AI2-THOR

2025년 11월 9일

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] RDMA Point-to-Point Communication for LLM Systems

LLM 시스템에서 필요한 유연한 지점 간 통신(point-to-point communication) 을 제공하고, 기존 RDMA 구현이 특정 NIC(Network Interface Controller) 에 종속되어 발생하는 벤더 종속성(vendor lock-in) 및 하드웨어 이식성(portability) 문제를 해결하는 것을 목표로 합니다.

#Review #RDMA #LLM #Point-to-Point Communication #Disaggregated Inference #MoE Routing #KvCache #AWS EFA #NVIDIA ConnectX

2025년 11월 9일

[논문리뷰] NVIDIA Nemotron Nano V2 VL

Nemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.

#Review #Vision-Language Model #Hybrid Architecture #Mamba-Transformer #Long-Context Understanding #Quantization #Efficient Inference #Document AI #Video AI

2025년 11월 9일

[논문리뷰] Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots

본 연구는 기존 로봇 제어 시스템의 모듈 분리(decoupled modules)로 인한 지연된 반응과 비일관적인 행동 문제를 해결하고자 합니다.

#Review #Humanoid Robot #Reinforcement Learning #RoboCup #Soccer Skills #Vision-Driven Control #Adversarial Motion Priors #Sim-to-Real #Perception-Action Coordination

2025년 11월 9일

[논문리뷰] How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

자동 음성-텍스트 번역(ST) 시스템 평가에서 텍스트 소스 가 없는 한계로 인해 소스 인식 신경 기계 번역(MT) 지표 를 적용하기 어렵습니다.

#Review #Speech Translation #Neural MT Metrics #Source-Aware Evaluation #Automatic Speech Recognition (ASR)#Back-Translation (BT)#Cross-lingual Re-segmentation #COMET #MetricX

2025년 11월 9일

[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agents #GUI Grounding #Screen Parsing #Action Prediction #Desktop Automation #Dataset #Benchmark #Multimodal Learning #LLM-augmented Data

2025년 11월 9일

[논문리뷰] EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

본 연구는 기존 가상 착용(virtual try-on) 모델들이 agnostic person images , human pose , densepose 등 복잡한 입력에 의존하고 레퍼런스 이미지 지원이 부족하여 현실성이 떨어지는 문제를 해결하고자 합니다.

#Review #Virtual Try-on #Diffusion Models #End-to-End Learning #Reference Images #Unpaired Data #Flow Matching #Transformer Architecture #Generative AI

2025년 11월 9일

[논문리뷰] Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

본 연구는 Vision-Language Models(VLMs)에서 데이터 오염(test-set leakage) 으로 인한 성능 과대평가 문제를 해결하기 위한 신뢰성, 실용성, 일관성 있는 탐지 방법론 을 개발하는 것을 목표로 합니다.

#Review #VLM Contamination #Test-set Leakage #Multi-modal Perturbation #Generative Models #Generalization #Model Memorization #VLMs

2025년 11월 9일

[논문리뷰] Cambrian-S: Towards Spatial Supersensing in Video

본 논문은 현재 멀티모달 대규모 언어 모델(MLLM)이 비디오를 단편적인 프레임으로 처리하고 공간 구조를 제대로 이해하지 못하며, 언어적 기억에 과도하게 의존하는 한계를 지적합니다.

#Review #Spatial Supersensing #Video Understanding #Multimodal LLMs #Predictive Sensing #Memory Management #Event Segmentation #VSI-SUPER #Instruction Tuning

2025년 11월 9일

[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts

이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Benchmark Design #Non-Visual Shortcuts #Test-Set Stress-Test #Bias Mitigation #Model Evaluation #Benchmark Robustness

2025년 11월 9일

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Cross-Modal Interaction #Diffusion Transformer #Face-Aware Modulation #Classifier-Free Guidance #Multimodal AI #Generative Models

2025년 11월 9일

[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.

#Review #Sequential Reasoning #Parallel Self-Consistency #Inverse-Entropy Voting #LLM Reasoning #Test-Time Scaling #Inference Optimization #Iterative Refinement #Error Correction

2025년 11월 9일

[논문리뷰] TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models

본 연구는 테이블 형식 파운데이션 모델(Tabular Foundation Models, TFMs) 의 복잡한 전처리, 분산된 API, 비일관적인 미세 조정 절차 및 표준화되지 않은 평가(특히 보정 및 공정성 지표) 문제로 인해 실용적인 채택이 제한되는 것을 해결하는 것을 목표로 합니다.

#Review #Tabular Foundation Models #Fine-Tuning #PEFT #Meta-Learning #Calibration #Fairness #Unified Library #Benchmarking

2025년 11월 9일

[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning

본 논문은 기존의 테이블 인컨텍스트 학습(ICL) 모델들이 직면한 단일 스케일 피처 처리, 테이블 너비에 대한 Quadratic Scaling 의 조밀한 어텐션, 그리고 순차적 컴포넌트 처리의 한계를 해결하는 것을 목표로 합니다.

#Review #Tabular Data #In-Context Learning #Multi-Scale Attention #Sparse Attention #Foundation Models #Perceiver Architecture

2025년 11월 9일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language Models

본 논문은 기존의 정적 벤치마크로는 평가하기 어려운 LLM 에이전트의 실제 시장에서의 의사결정 능력 과 불확실성 하의 적응성 을 평가하기 위한 라이브 트레이딩 환경을 구축하는 것을 목표로 합니다. 특히, LLM의 일반적인 추론 능력이 실제 금융 시장에서의 성능으로 이어지는지 검증하고자 합니다.

#Review #LLM Evaluation #Live Trading #Portfolio Management #Financial AI #Prediction Markets #Real-World Uncertainty #Agent Benchmarking

2025년 11월 9일

[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

본 논문은 멀티모달 환경에서 쿼리 증강(query augmentation)으로 인한 과도한 임베딩 지연 시간 과 일부 쿼리에서의 성능 저하 문제를 해결하고, 쿼리 증강의 효과를 높이는 것을 목표로 합니다.

#Review #Multimodal Embedders #Query Augmentation #Adaptive Learning #Multimodal LLM #Information Retrieval #Generative AI #Embedding Latency

2025년 11월 9일

[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #3D Scene Synthesis #Fine-Grained Evaluation #Tool-Augmented LLMs #Embodied AI #Vision-Language Models #Benchmark #Multi-Hop Grounding

2025년 11월 9일

[논문리뷰] Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

본 논문은 높은 자유도(DoF)를 가진 복잡한 관절형 객체에 대해 정적 데이터 만으로도 정확한 운동학적 토폴로지 를 추론하고 관절 매개변수 를 추정하는 문제를 해결하는 것을 목표로 합니다.

#Review #Articulated Objects #Kinematics Inference #High-DoF #Monte Carlo Tree Search #Joint Parameter Optimization #SDF #Open-Vocabulary Synthesis #Robot Self-Modeling

2025년 11월 9일

[논문리뷰] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

본 논문은 기존 AI Scientist 시스템의 제한된 연구 품질, 모호한 목표, 소규모 코드 실험 위주의 한계를 극복하고, 실제 과학적 가치를 창출할 수 있는 자율적인 AI 과학자 시스템을 개발하는 것을 목표로 합니다.

#Review #AI Scientist #Autonomous Research #Scientific Automation #LLM for Research #Code Generation #Experimental Design #Risk Assessment

2025년 11월 9일

[논문리뷰] Grounded Misunderstandings in Asymmetric Dialogue: A Perspectivist Annotation Scheme for MapTask

본 논문은 비대칭 정보 환경에서 발생하는 대화 속 레퍼런스 표현(RE)에 대한 미묘한 오해를 파악하는 것을 목표로 합니다. 화자의 의도와 청자의 해석을 별도로 포착하는 관점 기반(perspectivist) 주석 스키마 를 개발하여, 대화 과정에서 이해가 어떻게 발생하고, 발산하며, 수정되는지를 추적하고자 합니다.

#Review #Dialogue Systems #Common Ground #Misunderstanding #Annotation Scheme #MapTask Corpus #Large Language Models #Perspective Taking #Reference Resolution

2025년 11월 9일

[논문리뷰] Diffusion Language Models are Super Data Learners

본 논문은 고품질 데이터 희소성이 LLM 훈련의 주요 병목이 되는 시대에, Autoregressive (AR) 모델 과 Diffusion Language Models (DLMs) 중 어떤 패러다임이 제한된 고유 데이터로부터 더 많은 신호를 추출하는지 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Autoregressive Models #Data Efficiency #Scaling Laws #Data-Constrained Learning #Crossover Phenomenon #Pre-training #Masked Diffusion

2025년 11월 9일

[논문리뷰] CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

기존 LLM 에이전트 평가가 태스크 완료에만 집중하고 자원 효율성 및 동적 환경에서의 적응성을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Tool Use #Cost-Optimal Planning #Dynamic Environments #Benchmarking #Multi-Turn Interaction #Economic Reasoning

2025년 11월 9일

[논문리뷰] iFlyBot-VLA Technical Report

iFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Latent Actions #Diffusion Models #Dual-Arm Manipulation #Pretraining #Flow-Matching

2025년 11월 9일

[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

본 논문은 중간 시각 이미지를 생성하는 것이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위한 새로운 벤치마크인 MIRA (Multimodal Imagination for Reasoning Assessment) 를 제안합니다.

#Review #Multimodal AI #Visual Reasoning #Chain-of-Thought (CoT)#Benchmark #Image Generation #MLLMs #Visual-CoT

2025년 11월 9일

[논문리뷰] When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

이 논문은 Multimodal Large Language Models (MLLMs)가 서로 다른 모달리티에서 모순되는 정보를 받았을 때 어떤 모달리티를 따를지 ( modality following ) 결정하는 과정을 이해하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Following #Unimodal Uncertainty #Modality Preference #Conflict Resolution #Internal Mechanism #Entropy #Controllable Dataset

2025년 11월 9일

[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.

#Review #VideoLLMs #Emotion Understanding #Affective-Tree Reasoning #Curriculum Learning #Reinforcement Learning #Fine-Grained Emotion #Attribute Perception #Expression Analysis

2025년 11월 9일

[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.

#Review #Multimodal AI #Code Generation #SVG #Visual Representation #Benchmark #Large Vision-Language Models #Agentic AI #Reasoning

2025년 11월 9일

[논문리뷰] The Collaboration Gap

AI 에이전트 기반 시스템에서 독립적으로 개발된 에이전트 간의 효과적인 협업 능력 이 부족하다는 문제인 ' 협업 격차(Collaboration Gap) '를 파악하고 정량화하는 것을 목표로 합니다.

#Review #AI Collaboration #Multi-Agent Systems #Large Language Models (LLMs)#Maze Solving #Heterogeneous Agents #Collaboration Gap #Relay Inference #Agentic AI

2025년 11월 9일

[논문리뷰] TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

논문은 복잡한 질문, 노이즈가 있는 데이터, 제한된 수치 연산 능력으로 인해 대규모 언어 모델(LLM) 이 테이블 질의응답(TQA) 에서 저조한 성능을 보이는 문제를 해결합니다. 특히, 다단계(multi-hop) 수치 추론 과 지저분한 테이블 데이터 처리의 어려움을 극복하여 LLM의 성능을 향상시키는 것을 목표로 합니다.

#Review #Tabular Data #Numerical Reasoning #Large Language Models (LLMs)#Table Question Answering (TQA)#Program-of-Thoughts (PoT)#Data Sanitization #Query Decomposition #Multi-hop Reasoning

2025년 11월 9일

[논문리뷰] TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

휴머노이드 로봇 분야에서 대규모 데이터 수집의 비효율성 과 기존 텔레오퍼레이션 시스템의 한계 를 극복하는 것입니다.

#Review #Humanoid Robotics #Data Collection #Teleoperation #Full-Body Control #Visuomotor Policy Learning #VR #Portable MoCap-Free

2025년 11월 9일

[논문리뷰] Step-Audio-EditX Technical Report

이 논문은 표현력이 풍부하고 반복적인 음성 편집(감정, 말하기 스타일, 운율 포함)과 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 제공하는 최초의 오픈소스 LLM 기반 오디오 모델인 Step-Audio-EditX 를 제안합니다.

#Review #LLM-based Audio Model #Audio Editing #Text-to-Speech (TTS)#Zero-shot Learning #Large-Margin Data #Reinforcement Learning (RLHF)#Emotion Control #Speaking Style Transfer

2025년 11월 9일

[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.

#Review #LLMs #RLVR #Length Regularization #Mathematical Reasoning #Data Curation #Model Efficiency #Emergent Brevity

2025년 11월 9일

[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Real-robot Evaluation #Embodied AI #Vision-Language-Action Models #Benchmarking #Online Testing System #Robotics Control #Large-scale Evaluation

2025년 11월 9일

[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs

대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Generative AI #Benchmark #Logical Deduction #Spatial Reasoning #Constraint Satisfaction #Hallucination Cascade #Self-Correction

2025년 11월 9일

[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

본 논문은 비디오 생성 분야에서 Direct Preference Optimization (DPO) 의 효율성을 유지하면서, 기존 방법론이 가진 비싼 데이터 구축, 불안정한 훈련, 과도한 메모리 소비라는 고유한 비디오 태스크의 난제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Direct Preference Optimization #SFT Regularization #GT-Pair #Memory Optimization #Diffusion Models #I2V #T2V

2025년 11월 9일

[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

본 연구는 중국어 환경에서 대규모 언어 모델(LLMs)의 안전성 평가를 위한 동적(dynamic) 이며 문화적으로 적합한(culturally-relevant) 벤치마크인 LiveSecBench 를 제안하는 것을 목표로 합니다.

#Review #LLM Safety #AI Safety Benchmark #Chinese Context #Dynamic Evaluation #Cultural Relevance #Adversarial Robustness #ELO Rating System

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

본 논문은 LLM(Large Language Model)의 내부 작동 원리를 이론적으로 설명하기 위해 비트(bits) 대신 토큰(token) 기반의 새로운 의미론적 정보 이론 프레임워크 를 구축하는 것을 목표로 합니다.

#Review #Semantic Information Theory #Large Language Models #Directed Information #Rate-Distortion Function #Granger Causality #Token Embedding #Transformer Architecture #Variational Inference

2025년 11월 9일

[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #OOD Generalization #Representation Alignment #Fine-tuning #Robotics #Visual Representations #Attention Maps #t-SNE

2025년 11월 9일

[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

본 논문은 심도 추정 및 에고-모션 학습을 위한 기존의 자율학습(unsupervised learning) 프레임워크가 모션 구성요소(회전, 병진)를 불분명하게 처리하여 신뢰성과 견고성이 저하되는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Depth Estimation #Ego-Motion Estimation #Motion Component Discrimination #Geometric Constraints #Optical Flow #PoseNet #DepthNet

2025년 11월 9일

[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software Engineering

본 논문은 기존의 고립된 코딩 벤치마크가 아닌, 고수준의 목표 지향적 소프트웨어 개발(goal-oriented software engineering) 환경에서 언어 모델(LM)의 성능을 평가하는 도전 과제를 해결하고자 합니다.

#Review #Software Engineering Benchmarking #Language Models #AI Agents #Goal-Oriented Development #Competitive Programming #Code Evolution #Strategic Reasoning #Autonomous Systems

2025년 11월 9일

[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.

#Review #Chart Comprehension #Visual Reasoning #Data Generation #Code-Driven Pipeline #Multimodal LLMs #Retrieval-Augmented Generation #Reinforcement Learning #Synthetic Data

2025년 11월 9일

[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.

#Review #Large Multimodal Models #Visual Token Compression #Token Pruning #Benchmark #Efficiency #Inference Latency #Multimodal LLMs

2025년 11월 9일

[논문리뷰] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

fMRI 뇌 활동 기록을 통해 사람이 본 이미지를 충실하게 재구성하는 것을 목표로 합니다. 기존 확산 모델 기반 방법론들이 실제 본 이미지에 대한 시각적 충실도 및 의미적 정확도가 부족 하다는 한계를 극복하고, 구조적으로나 의미론적으로 더욱 유사한 재구성을 달성하고자 합니다.

#Review #fMRI #Image Reconstruction #Brain-Computer Interface #Transformer #Diffusion Models #Neural Decoding #Cross-Subject Learning #Deep Image Prior

2025년 11월 9일

[논문리뷰] BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring

본 연구는 특히 진단 도구에 대한 접근성이 제한된 지역에서, 조기 및 정확한 알츠하이머병(AD) 탐지의 중요성이 커지는 문제에 대응합니다. 대규모 언어 모델(LLMs) 의 강력한 추론 능력과 사례 기반 추론 을 결합하여 AD 진단 및 모니터링을 위한 확장 가능하고 설명 가능한 시스템을 개발하는 것을 목표로 합니다.

#Review #Alzheimer's Disease #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Clinical Decision Support #Multimodal Data Fusion #Cognitive Decline Detection #Early Diagnosis

2025년 11월 9일

[논문리뷰] AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

본 연구는 일반적인 대규모 언어 모델(LLM)이 아유르베다와 같이 깊은 문화적, 언어적, 전문 지식을 요구하는 특수 의학 도메인에서 일관되게 저조한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Ayurveda LLM #Domain Adaptation #Bilingual Language Model #Instruction Tuning #Medical AI #Knowledge-Grounded QA #Traditional Medicine

2025년 11월 9일

[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Vision-Language Models #Multimodal Benchmark #Rebus Puzzles #In-Context Learning #Reasoning #ControlNet #Prompt Engineering

2025년 11월 9일

[논문리뷰] World Simulation with Video Foundation Models for Physical AI

본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.

#Review #Physical AI #World Simulation #Video Foundation Models #Flow Matching #Reinforcement Learning #Robotics #Autonomous Driving #Synthetic Data Generation

2025년 11월 9일

[논문리뷰] Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

본 연구는 이질적인 검색기(retriever)로부터 얻은 후보군들을 융합할 때, 기존의 랭크 기반 융합 방식들이 콘텐츠를 무시하고 랭크나 스코어 신호에만 의존하는 한계를 극복하고자 합니다.

#Review #Video Retrieval #Vision-Language Models (VLMs)#Zero-Shot Learning #List-wise Reranking #Rank Fusion #Prompt Engineering #S-Grid #Multimodal Retrieval

2025년 11월 9일

[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Diffusion Models #Discrete Denoising #Multimodal Learning #Robotics #Embodied AI #Joint Generation #Action Prediction

2025년 11월 9일

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Reasoning-based AI #Benchmark #Multimodal Learning #Chain-of-Thought (CoT)#Dual-Reference Evaluation #Generative Models #Game AI

2025년 11월 9일

[논문리뷰] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

기존 확산 모델 기반 relighting 기법의 물리적 비일관성 문제(예: 과노출 하이라이트, 그림자 부정확성)를 해결하고, 물리적으로 그럴듯하며 세밀하게 제어 가능한 이미지 및 비디오 relighting을 위한 통합 프레임워크(UniLumos) 를 개발하는 것을 목표로 합니다.

#Review #Relighting #Diffusion Models #Flow Matching #Physics-Plausible Feedback #Image-to-Video #Geometric Supervision #Path Consistency Learning #LumosBench

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] Trove: A Flexible Toolkit for Dense Retrieval

Trove는 밀집 검색(Dense Retrieval) 연구 실험을 위한 유연하고 사용하기 쉬운 오픈 소스 툴킷을 제공하여, 유연성과 속도를 희생하지 않으면서 연구 과정을 단순화 하는 것을 목표로 합니다. 특히, 대규모 데이터셋의 효율적인 관리, 유연한 모델링, 쉬운 분산 평가 등 기존 툴킷의 한계를 극복하고자 합니다.

#Review #Dense Retrieval #Retrieval Toolkit #Data Management #Distributed Training #Model Customization #Hard Negative Mining #Hugging Face Integration #Performance Optimization

2025년 11월 9일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일

[논문리뷰] Towards Robust Mathematical Reasoning

기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#AI Benchmarks #International Mathematical Olympiad (IMO)#Proof Verification #Automatic Grading #Robustness

2025년 11월 9일

[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 동적 추론, 외부 지식 접근 및 다단계 연산이 필요한 복잡한 작업에서 겪는 한계, 특히 장기적인 VQA 작업 에서의 제한된 전역 계획 과 시각적 맥락 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Agents #Tool-Augmented LLMs #Vision-Guided Reasoning #Long-Horizon Tasks #VQA #Global Planning #Context Preservation #Perceive Tool

2025년 11월 9일

[논문리뷰] The Underappreciated Power of Vision Models for Graph Structural Understanding

본 논문은 기존 Graph Neural Networks(GNNs)의 국소적인 메시지 전달 방식과 인간의 시각적 인식(전역적 구조 우선) 간의 인지적 차이를 해소하고자 합니다.

#Review #Graph Neural Networks #Vision Models #Graph Understanding #Topological Perception #GraphAbstract Benchmark #OOD Generalization #Graph Visualization

2025년 11월 9일

[논문리뷰] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

본 연구는 기존 벤치마크들이 OpenAI o3 와 같은 최신 MLLM의 'thinking-with-images' (이미지로 사고하기) 능력, 즉 이미지 조작 도구를 활용한 문제 해결 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Agentic Reasoning #Thinking-with-Images #Visual Reasoning Benchmark #Tool Use #Image Manipulation #Fine-tuning

2025년 11월 9일

[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

본 논문은 기존 통합 멀티모달 모델(UMM) 평가 방식이 텍스트 및 이미지 이해/생성 능력을 개별적으로 측정하여 모달리티 간 상호 추론 능력 을 간과하는 문제를 제기합니다.

#Review #Multimodal AI #Benchmarking #Cross-Modal Reasoning #Omnimodal Generation #Visual Generation #Verbal Generation #Unified Multimodal Models

2025년 11월 9일

[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset

본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Locomotion #Dataset #Motion Imitation #Physics-based Control #Motion Retargeting #Data Curation #Reinforcement Learning #Inverse Kinematics

2025년 11월 9일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

본 논문은 Vision-Language Models (VLMs)의 실제 환경 내 로봇 내비게이션 능력 을 평가하기 위한 새로운 벤치마크 NaviTrace를 제안합니다.

#Review #Vision-Language Models #Embodied Navigation #VQA Benchmark #Robotic Navigation #Semantic-aware Score #Dynamic Time Warping #Real-world Scenarios

2025년 11월 9일

[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명(NLEs)을 생성할 때 내부의 매개변수 지식(Parametric Knowledge, PK) 과 외부의 문맥 지식(Context Knowledge, CK) 을 어떻게 통합하고 상호작용하는지 다단계에 걸쳐 분석하는 것을 목표로 합니다.

#Review #LLMs #Knowledge Interaction #Parametric Knowledge #Contextual Knowledge #Subspace Disentanglement #NLE Generation #Hallucination Detection #Chain-of-Thought

2025년 11월 9일

[논문리뷰] MotionStream: Real-Time Video Generation with Interactive Motion Controls

기존 모션 제어 비디오 생성 모델의 높은 지연 시간(수분 소요) 과 비인과적 처리 문제로 인한 실시간 상호작용 불가능성을 해결하고, 대화형 모션 제어 를 통해 실시간으로 무한 길이의 비디오 스트리밍 생성 을 가능하게 하는 새로운 프레임워크를 제안하는 것입니다.

#Review #Real-Time Video Generation #Motion Control #Diffusion Models #Autoregressive Generation #Self-Forcing #Attention Sink #Streaming Inference #Video Distillation

2025년 11월 9일

[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

본 연구는 Large Reasoning Models (LRMs)에서 발생하는 '추론-답변 불일치(reasoning-answer hit gap)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 추론 과정에서 올바른 사실을 식별함에도 불구하고 최종 답변에 이를 통합하지 못하여 사실적 정확도가 저하되는 현상을 말합니다.

#Review #Large Reasoning Models #Factuality Alignment #Meta-Reasoning #Kahneman-Tversky Optimization #Chain-of-Thought #Hallucination #Process-Level Alignment

2025년 11월 9일

[논문리뷰] LongCat-Flash-Omni Technical Report

LongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multimodal LLM #Real-time Interaction #Mixture-of-Experts (MoE)#Streaming Inference #Distributed Training #Curriculum Learning #Audio-Visual Perception

2025년 11월 9일

[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Surgical AI #Zero-shot Prediction #Expert Evaluation #Plausibility Gap #Medical Simulation

2025년 11월 9일

[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.

#Review #Test-Time Scaling #LLMs #Graph Optimization #REINFORCE #Multi-agent Systems #Adaptive Architectures #Compute-optimal Scaling #Probabilistic Graphs

2025년 11월 9일

[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Multimodal Attention #MLLMs #Coordinate-Free #Visual Grounding #Attention Weighting #Anchor Token

2025년 11월 9일

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Reasoning Capability #Sparse Activation #Scaling Laws #FP8 Training #Efficient Training #Instruction Tuning

2025년 11월 9일

[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.

#Review #Energy-Based Models (EBMs)#Diffusion Policy #Robotics #Behavior Cloning #Physical Reasoning #Uncertainty Modeling #Emergent Behavior #Robot Manipulation

2025년 11월 9일

[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Benchmarking #Visual Measurement Reading #Synthetic Data Generation #Fine-grained Perception #Spatial Grounding #Reinforcement Learning

2025년 11월 9일

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일

[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Benchmarking #Cyber Threat Intelligence (CTI)#Dynamic Evaluation #CTI Reasoning #Vulnerability Prediction #Threat Actor Attribution #Risk Mitigation #Natural Language Processing

2025년 11월 9일

[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Viewpoint Learning #Two-Stage Fine-tuning #3D Consistency #Viewpoint-100K #Reinforcement Learning

2025년 11월 9일

[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models #Policy Optimization #Robotics #Flow Matching #SDE #MDP

2025년 11월 9일

[논문리뷰] Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

본 논문은 MLLM(Multimodal Large Language Model) 기반 embodied agent 가 시각적 백도어 공격에 취약함을 지적하고, 이 문제를 해결하고자 합니다.

#Review #Visual Backdoor Attacks #MLLM Embodied Agents #Contrastive Trigger Learning #Policy Manipulation #Adversarial AI #Embodied AI Security #Multimodal LLMs

2025년 11월 9일

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.

#Review #LLM Alignment #Value Drift #Supervised Fine-Tuning (SFT)#Preference Optimization #RLHF #Llama-3 #Qwen-3 #Human Values

2025년 11월 9일

[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.

#Review #Self-supervised learning #Reinforcement Learning #Spatial Understanding #Vision-Language Models #Pretext Tasks #RGB-D Images #Spatial Reasoning

2025년 11월 9일

[논문리뷰] SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

현재 암시적 CoT(implicit CoT) 방법론이 직면한 두 가지 핵심 문제, 즉 (1) 암시적 추론과 실제 추론 간의 의미적 정렬 부족 으로 인한 성능 저하와 (2) 개별 암시적 추론 토큰 생성에 필요한 높은 연산 비용 을 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Implicit Reasoning #LLMs #Semantic Alignment #Efficiency Optimization #Knowledge Distillation

2025년 11월 9일

[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models

본 논문은 Vision-Language Models (VLMs)에서 사용되는 멀티모달 위치 인코딩, 특히 Rotary Positional Embedding (RoPE) 에 대한 체계적인 연구 부족 문제를 해결하고자 합니다.

#Review #Multimodal Positional Encoding #Vision-Language Models #Rotary Positional Embedding (RoPE)#Transformer #Multimodal Understanding #Visual Grounding #Frequency Allocation #Position Design

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

본 논문은 Distribution Matching Distillation (DMD) 을 통해 스코어 기반 생성 모델을 효율적인 few-step 생성기로 증류하는 과정에서 발생하는 한계점들을 해결하고자 합니다.

#Review #Distribution Matching Distillation #Few-step Diffusion #Score Matching #Mixture-of-Experts #Generative Models #Image Generation #Video Generation #Model Distillation

2025년 11월 9일

[논문리뷰] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

본 연구는 복잡한 모바일 GUI 환경에서 자율 에이전트의 안전 문제 , 특히 시스템 침해 및 개인 정보 유출과 같은 예상치 못한 위험을 효과적으로 탐지하는 문제를 해결하고자 합니다. 기존의 안전 탐지 인프라와 전략이 미흡한 점을 개선하여, 모바일 에이전트 안전 연구의 체계적인 기반을 마련하는 것이 목표입니다.

#Review #Mobile GUI Agents #Agent Safety #Hybrid Detection #Formal Verification #VLM-based Contextual Judgment #Safety Benchmark #Risk Detection

2025년 11월 9일

[논문리뷰] Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games

본 연구는 기존 게임 이론에서 충분히 다뤄지지 않은 Bounded One-Sided Response Games (BORGs) 라는 동적 상호작용 패턴을 연구하기 위한 재현 가능한 벤치마크 환경 을 제공하는 것을 목표로 합니다.

#Review #Bounded One-Sided Response Games (BORGs)#Monopoly Deal #Benchmark Environment #Counterfactual Regret Minimization (CFR)#Imperfect Information Games #Game Theory #Self-Play #State Abstraction

2025년 11월 9일

[논문리뷰] MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

본 연구는 건강 관련 허위 정보, 특히 과학적 발견을 왜곡하거나 오해하는 주장 내에 숨겨진 논리적 오류를 탐지하는 LLM의 능력 을 향상시키는 것을 목표로 합니다.

#Review #Health Misinformation #Logical Fallacy Classification #Synthetic Data Generation #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Parameter-Efficient Fine-tuning (PEFT)#LoRA #MISSCI Benchmark

2025년 11월 9일

[논문리뷰] Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

도시 계획, 3D 도시 모델링 및 인프라 모니터링에 필수적인 건물 인스턴스 분할 및 높이 분류의 정확도를 높이는 것을 목표로 합니다. 특히, 연속적인 높이 회귀 대신 이산적인 높이 분류 를 통해 실제 도시 계획 요구사항에 더 잘 부합하고 노이즈에 강한 통합 프레임워크를 제시합니다.

#Review #Building Instance Segmentation #Height Classification #YOLOv11 #Satellite Imagery #Multitask Learning #Remote Sensing #Urban Planning

2025년 11월 9일

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning #Large Language Models (LLMs)#Activity Scheduling #Longest Increasing Subsequence (LIS)#Generalization Limits #Reward Design #Self-consistency

2025년 11월 9일

[논문리뷰] INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

현대 AI 하드웨어는 LLM의 아웃라이어를 처리하기 위해 저정밀 부동소수점(FP) 형식을 점차 채택하고 있으나, 다양한 과립도(granularity)에 걸친 FP와 정수(INT) 양자화에 대한 통합적인 비교 연구가 부족합니다.

#Review #Quantization #Low-bit Formats #Integer Quantization #Floating-Point Quantization #Large Language Models (LLMs)#Hardware Efficiency #Fine-Grained Quantization #MXINT8

2025년 11월 9일

[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Uncertainty Calibration #Reinforcement Learning #Confidence Estimation #Brier Score #GUI Agents #Visual-Language Models

2025년 11월 9일

[논문리뷰] Higher-order Linear Attention

논문은 scaled dot-product attention의 이차 비용 문제를 해결하여 장문맥 언어 모델의 확장을 가능하게 하는 것을 목표로 합니다.

#Review #Linear Attention #Higher-order Interactions #Causal Streaming #Associative Scans #Prefix Summaries #Transformer Architectures #State Space Models

2025년 11월 9일

[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Diffusion Models #Multimodal Learning #Robotics #Asynchronous Sampling #Diffusion Transformers

2025년 11월 9일

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일

[논문리뷰] Continuous Autoregressive Language Models

Large Language Models (LLMs)의 비효율적인 순차적, 토큰 단위 생성 과정의 근본적인 한계를 극복하는 것이 목표입니다. 본 연구는 이산 토큰 예측에서 연속 벡터 예측 으로 패러다임을 전환하여, 각 생성 단계의 의미론적 대역폭을 증가 시킴으로써 LLM의 스케일링 및 계산 효율성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Continuous Representation #Autoencoder #Likelihood-Free Modeling #Energy-Based Models #Next-Vector Prediction #Computational Efficiency #Temperature Sampling

2025년 11월 9일

[논문리뷰] Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

텍스트-이미지(T2I) 모델을 활용한 합성 데이터 생성 에서 발생하는 과적합 및 다양성 감소 문제를 해결하고, 특히 소량 데이터(few-shot) 환경에서 미세 조정 분류(fine-grained classification) 성능을 극대화하는 것을 목표로 합니다.

#Review #Text-to-Image Synthesis #Synthetic Data Generation #Fine-Grained Classification #Few-Shot Learning #Diffusion Models #Contextual Conditioning #Causal Intervention

2025년 11월 9일

[논문리뷰] A Survey on Efficient Vision-Language-Action Models

이 논문은 대규모 Vision-Language-Action (VLA) 모델 이 직면한 막대한 계산 및 데이터 요구사항으로 인해 실제 로봇 환경에 배포되기 어려운 문제를 해결하는 것을 목표로 합니다.

#Review #Embodied AI #Robotic Manipulation #VLA Models #Efficient AI #Model Compression #Efficient Training #Data Collection #Multimodal AI

2025년 11월 9일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.

#Review #Speech Tokenizer #Noise Robustness #Semantic Tokens #SpeechLLMs #Voting-LFQ #Consensus Training #Automatic Speech Recognition #Speech Synthesis

2025년 9월 30일

[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Linear Attention #Model Acceleration #Video Generation #Attention Mechanisms #Fine-tuning

2025년 9월 30일

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Model #Linear Attention #Transformer #Long Video #Efficient Inference #Constant Memory #Low-Cost Training #RTX Deployment

2025년 9월 30일

[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Unified Models #Multimodal AI #Benchmark #Capability Synergy #Visual Understanding #Image Generation #Dual-Evaluation Protocol

2025년 9월 30일

[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.

#Review #Reinforcement Learning #LLM Reasoning #Policy Valuation #Markov Decision Process #Diversity #Math Reasoning #Verifiable Rewards

2025년 9월 30일

[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

본 연구는 기존 데이터셋의 한계, 특히 실제 적용에 필요한 체계적인 구조와 난이도 높은 시나리오의 부족으로 인해 이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능이 제약받는 문제를 해결하고자 합니다.

#Review #Image Generation #Image Editing #Multimodal AI #Dataset #Instruction Following #Taxonomy #GPT-40

2025년 9월 30일

[논문리뷰] Multiplayer Nash Preference Optimization

기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #RLHF #LLM Alignment #Nash Equilibrium #Multiplayer Games #Preference Optimization #Non-transitive Preferences #Game Theory

2025년 9월 30일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering

기존 LLM 스티어링 프레임워크들이 겪는 계산 비효율성 , 제한된 확장성 , 및 부족한 기능성 문제를 해결하는 것을 목표로 합니다. 이는 연구 진행과 실제 배포를 저해하는 요인으로, 본 논문은 고성능 과 확장성 을 갖춘 통합 LLM 스티어링 프레임워크 를 구축하여 이러한 한계를 극복하고자 합니다.

#Review #LLM Steering Framework #vLLM Integration #Hidden State Manipulation #Inference Optimization #Extensibility #Modular Architecture #Reasoning Mitigation #Hallucination Reduction

2025년 9월 30일

[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction

컴퓨터 비전, 음성 및 텍스트를 아우르는 다중 모달 인터랙티브 인간 에이전트 시스템에서 기존의 모듈형 파이프라인 방식이 야기하는 컨텍스트 불일치, 지연 및 오류 누적 문제를 해결하고자 합니다.

#Review #Digital Human #Multimodal AI #Real-time Streaming #Video Generation #Diffusion Models #Transformer Architecture #Audiovisual Synchronization #World Modeling

2025년 9월 29일

[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.

#Review #Text-to-Video Retrieval #LLM #Chain-of-Thought #Explainable AI #Multimodal Retrieval #Bradley-Terry Model #Video Annotation

2025년 9월 29일

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.

#Review #World Model #Embodied AI #Robotics #Diffusion Models #Physical Reasoning #Vision Language Models #Interaction Data #Self-Optimization

2025년 9월 29일

[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

Multimodal Large Language Models (MLLMs)의 자동 회귀 토큰 생성 과정에서 시각적 입력이 출력 토큰에 미치는 영향을 설명하고, 언어적 선험 지식과 지각적 증거의 상대적 영향력을 정량화하는 것을 목표로 합니다.

#Review #MLLM #Interpretability #Attribution #Token Generation #Black-box Explanation #Hallucination Diagnosis #Multimodality #VQA

2025년 9월 29일

[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Website Generation #Code Agent #LLM #VLM #Reinforcement Learning #Multi-Level Feedback #GUI Agent #Step-GRPO

2025년 9월 29일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] Variational Reasoning for Language Models

언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Variational Inference #Language Models #Reasoning #ELBO #IWAE #Reinforcement Learning #Latent Variables #Forward-KL

2025년 9월 29일

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일

[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Long-Horizon Reasoning #Benchmarking #Partially Observable #Tool Use #Memory Management #Exploration

2025년 9월 29일

[논문리뷰] Think-on-Graph 3.0: Efficient and Adaptive LLM Reasoning on Heterogeneous Graphs via Multi-Agent Dual-Evolving Context Retrieval

본 논문은 기존 그래프 기반 RAG 시스템이 직면한 정적 그래프 인덱스 구축의 한계 와 LLM 추출기의 성능 의존성 문제를 해결하는 것을 목표로 합니다.

#Review #RAG #LLM Reasoning #Knowledge Graphs #Multi-Agent Systems #Context Retrieval #Heterogeneous Graphs #Adaptive Learning #Dual-Evolution

2025년 9월 29일

[논문리뷰] TUN3D: Towards Real-World Scene Understanding from Unposed Images

본 논문은 실세계 스캔에서 정확한 카메라 포즈나 깊이 정보 없이 다중 뷰 이미지 입력만으로 조인트 레이아웃 추정(layout estimation) 과 3D 객체 감지(3D object detection) 를 수행하는 최초의 방법론인 TUN3D 를 제시합니다.

#Review #3D Scene Understanding #Layout Estimation #3D Object Detection #Unposed Images #Sparse Convolutional Networks #Multi-view Stereo #Real-time AI

2025년 9월 29일

[논문리뷰] StateX: Enhancing RNN Recall via Post-training State Expansion

본 논문은 Transformer 대비 긴 컨텍스트 처리 효율이 높은 RNN 계열 모델들이 고정된 크기의 recurrent state 로 인해 장문 컨텍스트에서의 정보 회상 능력(recall ability) 이 떨어지는 문제를 해결하고자 합니다.

#Review #RNN #State Expansion #Post-training #Long-context Recall #Linear Attention #State Space Models #GLA #Mamba2

2025년 9월 29일

[논문리뷰] See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

본 논문은 기존 Vision-Language Models (VLMs) 기반의 드론 내비게이션 접근 방식이 액션 예측을 텍스트 생성으로 간주하여 발생하는 한계를 해결하고자 합니다.

#Review #Vision-Language Models #UAV Navigation #Zero-shot #Spatial Grounding #Waypoint Prompting #Autonomous Navigation #Adaptive Control

2025년 9월 29일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language Models

AI 학회에서 급증하는 제출 수로 인해 저하되는 동료 검토의 품질 문제를 해결하고자 합니다.

#Review #Peer Review #Review Quality #Large Language Models (LLMs)#Misinformed Review #Argument Reconstruction #Factuality Evaluation #Natural Language Processing #Automated Evaluation

2025년 9월 29일

[논문리뷰] RefAM: Attention Magnets for Zero-Shot Referral Segmentation

컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Zero-Shot Segmentation #Referring Segmentation #Diffusion Transformers (DiTs)#Attention Mechanisms #Attention Sinks #Stop Words #Vision-Language Models #Training-Free Methods

2025년 9월 29일

[논문리뷰] Real-Time Object Detection Meets DINOv3

본 논문은 실시간 객체 탐지 분야에서 성능과 연산 효율성 사이의 균형을 개선하고, 특히 경량 모델을 위한 엣지 및 모바일 환경에서의 배포 효율성을 높이는 것을 목표로 합니다.

#Review #Real-time Object Detection #DINOv3 #DEIMv2 #Vision Transformer #Multi-scale Features #Spatial Tuning Adapter #Lightweight Models #Object Detection Framework

2025년 9월 29일

[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning

대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Entropy Control #Advantage Estimation #Quantile Baseline #Exploration-Exploitation #RLVR

2025년 9월 29일

[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

LLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.

#Review #Prompt Synthesis #Large Language Models #Reasoning #Expectation-Maximization #Self-Play #Supervised Fine-Tuning #Task Generation #Rationale Generation

2025년 9월 29일

[논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

본 논문은 기존의 Verifiable Rewards를 활용한 강화 학습(RLVR) 방법론, 특히 GRPO 가 모든 롤아웃 응답이 동일한 보상을 받는 ' Zero-Variance Prompts '를 무시하여 귀중한 학습 신호를 손실하고 롤아웃 비용을 낭비하는 문제를 해결하고자 합니다.

#Review #LLM Reinforcement Learning #Zero-Variance Prompts #Advantage Shaping #Entropy-Guided #Math Reasoning #RLVR #Group Relative Policy Optimization

2025년 9월 29일

[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.

#Review #Document Parsing #Vision-Language Model #High-Resolution #Two-Stage Inference #Layout Analysis #Content Recognition #Data Engine #Computational Efficiency

2025년 9월 29일

[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

본 논문은 Subject-Driven 이미지 생성 모델에서 발생하는 시각적 불일치(visual inconsistencies)를 정확하게 감지하고 정량화하며, 더 나아가 해당 불일치 영역을 공간적으로 지역화하는 것을 목표로 합니다.

#Review #Subject-Driven Generation #Visual Inconsistency Detection #Feature Disentanglement #Diffusion Models #Semantic Correspondence #Evaluation Metric #Spatial Localization #Contrastive Learning

2025년 9월 29일

[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

로봇 조작 태스크를 위한 현실적이고 태스크 관련성이 높은 3D 탁상 장면(tabletop scene)을 자동으로 생성하는 것을 목표로 합니다. 기존 수동 또는 무작위 장면 생성 방식의 비효율성과 낮은 현실성을 극복하고, 고수준의 태스크 지시와 3D 장면 레이아웃 간의 큰 격차를 해소하고자 합니다.

#Review #3D Scene Generation #Robotic Manipulation #Large Language Models #Spatial Reasoning #Dataset #Direct Preference Optimization #Tabletop Scene

2025년 9월 29일

[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

본 논문은 알 수 없는 혼합된 열화가 적용된 실제 저품질(LQ) 이미지에 대해 의미론적 일관성과 지각적 충실도를 유지하면서 범용 이미지 복원(UIR)을 수행하는 것을 목표로 합니다.

#Review #Universal Image Restoration #Diffusion Transformer #Caption-Free #Semantic Alignment #Image Quality Assessment #Data Curation #Real-World Degradations #Deep Learning

2025년 9월 29일

[논문리뷰] LongLive: Real-time Interactive Long Video Generation

실시간 및 대화형으로 고품질의 긴 비디오를 생성하는 데 따르는 효율성, 일관성, 그리고 시맨틱 일관성 문제를 해결하는 것을 목표로 합니다. 특히, 프롬프트 전환 시 시각적 일관성과 동적 콘텐츠 생성을 위한 상호작용성 부족이라는 기존 AR 및 Diffusion 모델의 한계를 극복하고자 합니다.

#Review #Long Video Generation #Real-time #Interactive AI #Autoregressive Models #KV Cache #Streaming Tuning #Attention Sink #Diffusion Models

2025년 9월 29일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards

기존 RLHF(Reinforcement Learning from Human Feedback) 방식이 구두 피드백을 스칼라 보상으로 압축하여 발생하는 정보 손실, 모호성, 보상 스케일 불균형 문제를 해결하는 것을 목표로 합니다.

#Review #Verbal Feedback #Conditional Generation #Large Language Models #Feedback-Conditional Policy #Offline-Online Learning #Reward Hypothesis Bypass

2025년 9월 29일

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

확산 모델이 적은 NFEs(Neural Function Evaluations) 또는 낮은 guidance scale에서 비현실적인 출력과 세부 정보 부족을 보이는 문제를 해결하고, 확산 샘플링의 품질과 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Models #Sampling #Generative AI #Image Generation #Plug-and-Play #Training-Free #Guidance #Momentum-Based Methods

2025년 9월 29일

[논문리뷰] FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

이 논문은 확산 모델을 활용한 텍스트 기반 이미지 편집에서 발생하는 과도한 지연 시간, 배경 불안정성, 의미론적 얽힘 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 연구의 궁극적인 목적은 속도와 품질 사이의 기존 트레이드오프를 극복하고 고품질의 실시간 이미지 편집 을 가능하게 하는 것입니다.

#Review #Text-Guided Image Editing #Diffusion Models #Real-Time Editing #One-Step Inversion #Attention Control #Background Preservation #Semantic Disentanglement

2025년 9월 29일

[논문리뷰] Fine-tuning Done Right in Model Editing

이 논문은 대규모 언어 모델(LLM) 모델 편집에서 fine-tuning이 비효율적이라는 오랜 통념에 도전하고, 그 실패의 원인이 fine-tuning 자체의 한계가 아닌 부적절한 구현 방식에 있음을 밝힙니다.

#Review #Model Editing #Fine-tuning #Large Language Models #Catastrophic Forgetting #Breadth-First Pipeline #Depth-First Pipeline #Localized Tuning #Lifelong Learning

2025년 9월 29일

[논문리뷰] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

본 연구는 노이즈가 있는 카메라 움직임과 시맨틱 세그멘테이션 시퀀스로부터 원거리 객체의 3D 위치를 찾는 문제를 해결하는 것을 목표로 합니다. 특히, 드론 기반 산불 모니터링과 같이 컴퓨팅 자원이 제한적이거나 객체가 멀리 떨어져 있는 시나리오에서 기존의 3D 재구성 또는 깊이 추정 방법의 한계를 극복하고자 합니다.

#Review #3D Object Localization #Particle Filter #Multi-target Tracking #Drone Surveillance #Wildfire Monitoring #Semantic Segmentation #Camera Pose Estimation

2025년 9월 29일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

본 논문은 기존 GUI 에이전트의 데이터 병목 현상, 지연된 오류 탐지의 높은 비용, 모순된 지침 등의 문제점을 해결하고자 합니다.

#Review #Mobile GUI Automation #Multi-Agent System #Cognitive Architecture #Pre-execution Alignment #Post-execution Reflection #Retrieval-Augmented Generation #Multimodal LLM #Deliberative AI

2025년 9월 29일

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일

[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

본 연구는 역사 문서의 텍스트 인식 정확도를 높이고 비용을 절감하기 위해 오픈-웨이트 대규모 비전-언어 모델(VLM) 인 CHURRO 를 개발하는 것을 목표로 합니다.

#Review #Historical Text Recognition #Vision-Language Model #Open-Weight Model #OCR #Cultural Heritage #Low-Cost AI #Dataset Curation #Fine-tuning

2025년 9월 29일

[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.

#Review #LLM Judge #Benchmark Evaluation #Validity #Reliability #Psychometrics #Factor Analysis #Schema Adherence #ELO Ranking

2025년 9월 26일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models

본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.

#Review #Code Large Language Models #Visual Game Generation #Benchmark #Pygame #Multimodal Evaluation #Software Engineering #AI-assisted Game Development

2025년 9월 26일

[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.

#Review #Large Reasoning Models #Cognitive Science #Schoenfeld's Episode Theory #Math Problem Solving #Chain-of-Thought #Behavioral Analysis #Dataset Annotation

2025년 9월 26일

[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.

#Review #LLM-as-a-Judge #Evaluation Frameworks #Inconsistency Reduction #Probabilistic Scoring #Transitivity #Information Loss #Perplexity #Large Language Models

2025년 9월 26일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

본 논문은 지각적 최적화(perceptual optimization)를 위한 손실 함수와 이미지 품질 평가(IQA) 지표 간의 상관관계 및 GAN(Generative Adversarial Network) Discriminator의 표현 전이 가능성(transferability)을 체계적으로 분석하여, 이들 역할 사이에 예상치 못한 비대칭성이 존재함을 밝히는 것을 목표로 합니다.

#Review #Perceptual Optimization #Image Quality Assessment (IQA)#Adversarial Training #Discriminators #Super-Resolution #Fidelity Metrics #Deep Learning

2025년 9월 26일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.

#Review #Scientific Reasoning #Foundation Models #Multi-modal Learning #Cross-domain Generalization #Chain-of-Thought #Reinforcement Learning #Scientific Discovery #Molecular Design

2025년 9월 26일

[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.

#Review #3D Scene Synthesis #Agentic Framework #LLMs #Self-Reflection #Tool-Use #Physical Plausibility #Iterative Refinement #Embodied AI

2025년 9월 26일

[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.

#Review #Mathematical Reasoning #Large Reasoning Models (LRMs)#Difficulty Scaling #Data Augmentation #Supervised Fine-Tuning (SFT)#Problem Generation #Solution Distillation

2025년 9월 26일

[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.

#Review #Generative AI #Image Generation #Diffusion Models #Rectified Flow #Model Distillation #Few-Step Generation #Computational Efficiency #Prompt Alignment

2025년 9월 26일

[논문리뷰] Residual Off-Policy RL for Finetuning Behavior Cloning Policies

본 논문은 행동 복제(BC) 기반 정책의 한계(데이터 품질, 수동 데이터 수집, 성능 포화)와 실제 로봇에서의 직접적인 강화 학습(RL)의 어려움(샘플 비효율성, 안전성, 희소 보상)을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Behavior Cloning (BC)#Residual Learning #Off-Policy RL #Robot Manipulation #Real-World Robotics #High-DoF Systems #Sample Efficiency

2025년 9월 26일

[논문리뷰] Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

본 논문은 실세계 웹 페이지에서 멀티턴, 장기적 궤적(long-horizon trajectories) 을 따르는 작업 수행 시 기존 브라우저 에이전트의 행동 시퀀싱 혼란 과 과도한 시행착오 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent System #Browser Automation #Web Reconnaissance #Tool Generation #Task Execution #Self-Evolving AI #LLM/VLM #VisualWebArena

2025년 9월 26일

[논문리뷰] Quantized Visual Geometry Grounded Transformer

대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.

#Review #Quantization #Post-Training Quantization #3D Reconstruction #Visual Transformer #Model Compression #Efficient Inference #Hadamard Rotation #Calibration Sampling

2025년 9월 26일

[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Temporal Reasoning #Reinforcement Learning #Process Supervision #Dynamic Time Warping #Multimodal Large Language Models #Video State Prediction #Reward Hacking

2025년 9월 26일

[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Reinforcement Learning #Variance-Aware Sampling #Gradient Vanishing #Data Curation #Chain-of-Thought #GRPO

2025년 9월 26일

[논문리뷰] MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

논문은 소스 도메인 데이터가 없고, 강력한 LALM(Large Audio-Language Model) 이 API 를 통해서만 접근 가능한 현실적인 SFUDA(Source-Free Unsupervised Domain Adaptation) 시나리오를 해결하는 것을 목표로 합니다.

#Review #Speech Emotion Recognition #Source-Free Unsupervised Domain Adaptation #Large Audio-Language Models #Label Fusion #Mutual Information #API-Only Models #Domain Mismatch

2025년 9월 26일

[논문리뷰] Interactive Recommendation Agent with Active User Commands

본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.

#Review #Interactive Recommendation #Large Language Models #Multi-Agent System #Natural Language Processing #Knowledge Distillation #User Control

2025년 9월 26일

[논문리뷰] Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

기존 3D 생성 모델이 이미지 또는 텍스트 조건화에 주로 의존하며 세분화된 크로스-모달 제어가 부족 하여 실용적 적용이 제한되는 문제를 해결하고자 합니다. 다양한 형태의 제어 신호 를 통합하는 통일된 프레임워크를 통해 3D 에셋 생성의 제어 가능성 과 기하학적 정확도 를 향상시키는 것을 목표로 합니다.

#Review #3D Generation #Controllable Generation #Multi-modal Conditioning #Diffusion Models #Point Clouds #Voxels #Bounding Boxes #Skeletons #Hunyuan3D

2025년 9월 26일

[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?

본 연구는 복잡한 조명, 그림자, 물 반사 등 물리적으로 사실적인 이미지 합성 을 사전 훈련된 텍스트-투-이미지(T2I) 확산 모델 을 활용하여 훈련 없이 수행하는 것을 목표로 합니다. 기존 모델들이 가진 객체 포즈 고정, 부적절한 해상도 처리, 그리고 컨텍스트에 맞지 않는 조명 생성 등의 한계를 극복하고자 합니다.

#Review #Image Composition #Diffusion Models #Training-Free #Physically Plausible #FLUX #Adapter #Guidance #Benchmark

2025년 9월 26일

[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language-Action Models #Discrete Diffusion #Reflection Mechanism #Trajectory Generation #Safety Constraints #Imitation Learning

2025년 9월 26일

[논문리뷰] CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

본 연구는 기존 사실적인 헤어 모델링 기법으로는 다루기 어려운, 고도로 양식화된 3D 애니메이션 헤어스타일 의 효율적인 모델링 및 생성 문제를 해결하고자 합니다.

#Review #3D Anime Hairstyle #Autoregressive Modeling #Control Points #Parametric Representation #Transformer #Generative AI #Dataset (AnimeHair)#Computer Graphics

2025년 9월 26일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] Blueprints of Trust: AI System Cards for End to End Transparency and Governance

본 논문은 AI 시스템의 개발 및 배포 과정에서 투명성과 책임성을 강화하기 위한 새로운 프레임워크인 Hazard-Aware System Card (HASC) 를 소개합니다.

#Review #AI Governance #Transparency #AI System Card #Hazard-Aware System Card #Data Provenance #AI Safety #AI Risk Management #ISO/IEC 42001

2025년 9월 26일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일

[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

본 논문은 검색 증강 대규모 언어 모델(LLMs)의 개인화 능력 평가에 대한 체계적인 벤치마크 부재 문제를 해결하고자 합니다. 사용자의 다양한 정보 요구와 선호하는 전달 방식을 LLM이 얼마나 효과적으로 반영하는지 진단하고 평가하기 위한 사실적이고 진단적인 벤치마크 인 BESPOKE 를 제안하는 것을 목표로 합니다.

#Review #Search-Augmented LLMs #Personalization #Benchmark #Diagnostic Feedback #User History #Evaluation Framework #RAG

2025년 9월 26일

[논문리뷰] AutoIntent: AutoML for Text Classification

본 논문은 기존 AutoML 프레임워크가 임베딩 모델 선택, 다중 레이블 분류, OOS(Out-of-Scope) 감지, 퓨샷(Few-shot) 학습 과 같은 NLP 특정 과제를 포괄적으로 지원하지 못하는 한계를 해결하고자 합니다.

#Review #AutoML #Text Classification #Intent Classification #Transformer Embeddings #Out-of-Scope Detection #Multi-label Classification #Few-shot Learning #Sklearn-like Interface

2025년 9월 26일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-Thought

Implicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.

#Review #Implicit Reasoning #Chain-of-Thought #LLM #Latent Space #Supervised Learning #Model Stability #Interpretability

2025년 9월 25일

[논문리뷰] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

기존 비디오 생성 모델들이 겪는 물리적 현실성 부족과 3D 제어의 한계를 극복하는 것을 목표로 합니다. 논문은 물리적 매개변수와 외부 힘을 명시적으로 제어하여 물리 기반(physics-grounded) 이미지-투-비디오 생성 을 가능하게 하는 PhysCtrl 프레임워크를 제안합니다.

#Review #Video Generation #Physics-Grounded #Controllable Generation #Diffusion Models #Point Cloud Trajectories #Material Simulation #Generative Physics

2025년 9월 25일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] Logics-Parsing Technical Report

본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis #Reading Order #Supervised Fine-Tuning (SFT)#HTML Annotation #Benchmarking

2025년 9월 25일

[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

본 논문은 기존 멀티모달 Masked Diffusion Model (MDM)의 한계를 극복하고, 이미지 이해, 객체 접지, 이미지 편집, 고해상도(1024px) 텍스트-투-이미지 생성 등 광범위한 멀티모달 태스크를 단일 프레임워크 내에서 처리할 수 있는 통합 MDM 인 Lavida-O를 제안하는 것을 목표로 합니다.

#Review #Multimodal AI #Masked Diffusion Models #Image Understanding #Image Generation #Image Editing #Object Grounding #ElasticMoT #Self-reflection

2025년 9월 25일

[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Academic Disciplines #LLM Applications #Review #Cross-disciplinary Research #Benchmarks

2025년 9월 25일

[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations

이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.

#Review #Text Embeddings #Lightweight Models #Encoder-Decoder #Knowledge Distillation #Model Souping #Quantization #Multilingual #Gemma

2025년 9월 25일

[논문리뷰] EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

이 논문은 이미지 및 비디오 생성과 편집 작업이 아키텍처적 한계와 데이터 부족으로 인해 파편화되어 있다는 문제를 해결하고자 합니다. 단일 모델 내에서 이미지 및 비디오 편집과 생성을 통합하는 EditVerse 프레임워크를 제안하여, 인컨텍스트 학습 을 통해 다양한 모달리티를 유연하게 처리하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #In-Context Learning #Image and Video Editing #Video Generation #Full Self-Attention #Rotary Positional Embedding #Cross-Modal Knowledge Transfer

2025년 9월 25일

[논문리뷰] Advancing Speech Understanding in Speech-Aware Language Models with GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반의 방법을 도입하여 Speech-Aware Large Language Models (SALLMs) 의 개방형 음성 이해 능력 을 향상시키는 것을 목표로 합니다.

#Review #Speech-Aware Language Models #SALLMs #GRPO #Reinforcement Learning #Speech Understanding #Spoken Question Answering #Automatic Speech Translation #BLEU Metric

2025년 9월 25일

[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

본 논문은 RGB 전용 이미지로 훈련된 범용 대규모 멀티모달 모델(LMM) 이 원격 감지 분야에서 널리 사용되는 다중 스펙트럼(multi-spectral) 입력 을 추가 훈련 없이 Zero-Shot 방식으로 이해하고 활용 할 수 있도록 하는 새로운 접근 방식을 제안합니다.

#Review #Remote Sensing #Zero-Shot Learning #Multimodal Models #Multi-spectral Imagery #Gemini 2.5 #Prompt Engineering #Land Cover Classification #Pseudo-Image

2025년 9월 24일

[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.

#Review #Chain-of-Thought #Reasoning Effectiveness #Large Reasoning Models #Failed-Step Fraction #Test-time Scaling #Reasoning Graph #Model Evaluation

2025년 9월 24일

[논문리뷰] VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

기존 Feed-Forward 3D Gaussian Splatting (3DGS) 방식의 문제점인 픽셀 정렬(pixel alignment) 의존성, 뷰 편향된 밀도 분포, 그리고 정렬 오류를 해결하는 것을 목표로 합니다. 특히 입력 뷰 수에 대한 의존성과 저텍스처 또는 폐색 영역에서의 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Voxel-Aligned Prediction #Feed-Forward Reconstruction #Multi-View Consistency #Scene Representation #Computer Vision

2025년 9월 24일

[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.

#Review #Multimodal LLMs #Video Understanding #Geospatial Reasoning #Temporal Reasoning #Travel Itinerary Reconstruction #Benchmark #Agent System #VLOG

2025년 9월 24일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

로봇 공학 분야의 데이터 부족 문제를 해결하고, 대규모 로봇 데이터셋을 자동으로 주석 및 큐레이션할 수 있는 도구의 필요성을 강조합니다. 이를 위해 시각적 관측을 통한 로봇 작업 진행도 예측을 위한 벤치마크인 OpenGVL 을 제안하고, 데이터 큐레이션 도구로서의 활용 가능성을 입증하는 것을 목표로 합니다.

#Review #Robotics Data Curation #Visual Temporal Progress #Generative Value Learning (GVL)#Vision-Language Models (VLMs)#Benchmark #Task Progress Prediction #Value-Order Correlation (VOC)

2025년 9월 24일

[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

본 논문은 급속히 발전하는 Multimodal Large Language Models (MLLMs)의 고질적인 훈련 및 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #MLLM Efficiency #Multimodal Transformer #3D-Resampler #Document AI #Hybrid Reinforcement Learning #Video Understanding #Efficient Inference

2025년 9월 24일

[논문리뷰] MAPO: Mixed Advantage Policy Optimization

본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.

#Review #Reinforcement Learning #Foundation Models #Policy Optimization #Advantage Function #Trajectory Certainty #Multimodal Reasoning #GRPO

2025년 9월 24일

[논문리뷰] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

본 논문의 핵심 목표는 실세계 다중 뷰 데이터 없이 단일 이미지 또는 비디오 입력으로부터 고품질의 3D 및 4D 장면을 생성하는 것입니다.

#Review #Generative AI #3D Scene Reconstruction #Video Diffusion Models #Self-Distillation #3D Gaussian Splatting #Dynamic 4D Generation #Monocular Input

2025년 9월 24일

[논문리뷰] Large Language Models Discriminate Against Speakers of German Dialects

본 논문은 대규모 언어 모델(LLMs)이 독일 방언 사용자에 대한 사회적 고정관념을 반영하고 강화하는지 탐구하는 것을 목표로 합니다. 특히, 독일 인구의 40% 이상 이 지역 방언을 사용하는 상황에서, LLM의 편향이 실제 세계에 미칠 수 있는 차별적 영향을 분석하고자 합니다.

#Review #Large Language Models #Bias #German Dialects #Sociolinguistics #Stereotypes #Implicit Association Test #Decision Making

2025년 9월 24일

[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.

#Review #Multimodal AI #Acceleration Framework #Speculative Decoding #Diffusion Distillation #Unified Models #Text-to-Image Generation #Image Editing #Computational Efficiency

2025년 9월 24일

[논문리뷰] HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis

3D Gaussian Splatting (3DGS) 의 실시간 고품질 렌더링 장점은 유지하면서, 뷰-의존적 효과 및 이방성 모양 모델링으로 인한 막대한 메모리 오버헤드 를 해결하는 것을 목표로 합니다.

#Review #Novel View Synthesis #3D Gaussian Splatting (3DGS)#Neural Radiance Fields (NeRF)#Memory Efficiency #High-Quality Rendering #Hybrid Representation #Real-time Rendering

2025년 9월 24일

[논문리뷰] GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction

본 논문은 기존 3D Gaussian Splatting (3DGS) 기반 표면 재구성 방법론의 한계, 즉 초기화 시 점군(point clouds) 에 대한 의존성, 불완전한 커버리지, 모호한 기하학적 표현 등의 문제를 해결하는 것을 목표로 합니다.

#Review #Surface Reconstruction #Sparse Voxels #Geometric Accuracy #Neural Radiance Fields #3D Gaussian Splatting #Monocular Depth #Voxel Uncertainty

2025년 9월 24일

[논문리뷰] Do You Need Proprioceptive States in Visuomotor Policies?

본 연구는 로봇의 시각-운동 정책(visuomotor policies)에서 고유 수용성 상태(proprioceptive states)의 필요성을 재평가하고, 기존 상태 기반 정책이 학습 궤적에 과적합되어 공간 일반화 능력이 저해되는 문제를 해결하고자 합니다.

#Review #Visuomotor Policies #Spatial Generalization #Imitation Learning #Proprioception #State-free Policies #Robot Manipulation #End-Effector Control #Data Efficiency

2025년 9월 24일

[논문리뷰] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching

조건부 생성 모델에서 속도 네트워크가 데이터 분포의 질량 이동(mass transport) 과 조건 정보 인코딩(conditional injection) 이라는 두 가지 과제를 동시에 처리해야 하는 부담을 완화하는 것이 주요 목표입니다. 이를 통해 모델 학습을 가속화하고 생성 품질을 향상시키고자 합니다.

#Review #Flow Matching #Conditional Generative Models #Reparameterization #Mode Collapse #Image Generation #Latent Space Alignment #Diffusion Models

2025년 9월 24일

[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.

#Review #Arabic OCR #Vision-Language Model #Fine-tuning #Document Understanding #Markdown Conversion #Benchmark

2025년 9월 24일

[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다.

#Review #VQA #Small VLMs #Large VLMs #Knowledge Transfer #Pseudo-labeling #Label-Free Learning #Model Parity Alignment #Computational Efficiency

2025년 9월 23일

[논문리뷰] VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

본 논문은 조잡한(coarse) 3D 지오메트리, 카메라 궤적, 그리고 참조 이미지를 사용하여 고품질 3D 장면 비디오를 생성하는 문제를 해결하고자 합니다.

#Review #3D Scene Generation #Video Diffusion #Image Diffusion #Generative Models #Computer Graphics #Temporal Consistency #Sparse Anchor Views

2025년 9월 23일

[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Reinforcement Learning #Cultural Heritage #Ancient Greek Pottery #Supervised Fine-Tuning #Benchmark

2025년 9월 23일

[논문리뷰] Understanding Embedding Scaling in Collaborative Filtering

협업 필터링 모델에서 임베딩 차원을 확장할 때 발생하는 성능 변화를 이해하고, 기존에 알려진 '단일 봉우리(single-peak)' 현상을 넘어서는 새로운 스케일링 패턴을 발견하는 것이 목표입니다. 또한, 이러한 현상의 근본적인 원인을 밝히고 특히 데이터 내 노이즈 상호작용 의 역할을 규명하고자 합니다.

#Review #Collaborative Filtering #Embedding Scaling #Noise Robustness #Recommender Systems #Graph Neural Networks #Self-supervised Learning #Performance Degradation

2025년 9월 23일

[논문리뷰] Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

대규모 언어 모델(LLMs)의 환각(hallucination) 문제를 해결하고, 특히 형태학적으로 복잡한 터키어 RAG(Retrieval-Augmented Generation) 애플리케이션 을 위한 효과적인 환각 탐지 모델을 개발하는 것이 목표입니다.

#Review #Hallucination Detection #Retrieval Augmented Generation #Large Language Models #Turkish NLP #Token Classification #ModernBERT #Low-Resource Languages

2025년 9월 23일

[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.

#Review #Video LLMs #Temporal Grounding #Reinforcement Learning #Off-policy Learning #Reward Shaping #Chain-of-Thought #Multimodal LLMs

2025년 9월 23일

[논문리뷰] Synthetic bootstrapped pretraining

본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.

#Review #Language Model Pretraining #Synthetic Data #Inter-document Correlation #Data Augmentation #Transformer #Bootstrapping #Concept Learning

2025년 9월 23일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.

#Review #Process Reward Models #Monte Carlo Annotation #Noise Denoising #Robust Learning #Self-Supervision #Mathematical Reasoning #Large Language Models

2025년 9월 23일

[논문리뷰] Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

본 연구는 LLM의 기초적인 기호 추론 능력을 향상시키기 위한 확장 가능한 RLVR (Reinforcement Learning with Verifiable Rewards) 환경인 Reasoning Core 를 소개합니다.

#Review #LLM Reasoning #Symbolic AI #Reinforcement Learning #Procedural Content Generation #Verifiable Rewards #Adaptive Curricula #First-Order Logic #PDDL Planning

2025년 9월 23일

[논문리뷰] Qwen3-Omni Technical Report

본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.

#Review #Multimodal Model #Thinker-Talker Architecture #Mixture-of-Experts #Low-latency #Audio Understanding #Cross-modal Reasoning #State-of-the-Art #Real-time Interaction

2025년 9월 23일

[논문리뷰] QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위해 양자화-인식(Quantization-Aware) PEFT (Parameter-Efficient Fine-Tuning) 방법을 개발하여, 양자화된 모델의 낮은 비트 환경에서 정확도를 높이고 동시에 훈련 효율성을 개선 하는 것을 목표로 합니다.

#Review #LLM Fine-tuning #Quantization-Aware PEFT #Walsh-Hadamard Transform #Sparse Adaptation #Low-bit Quantization #Parameter-Efficient Learning

2025년 9월 23일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

기존 멀티모달 검색 방법론들이 단일 벡터 임베딩의 표현력 한계에 부딪히거나, 다수의 토큰으로 인한 다중 벡터 방식의 계산 비용 문제로 확장성에 제약을 받는 문제를 해결하고자 합니다. 유연한 테스트 시간 임베딩 세분화 제어를 통해 확장 가능하며 높은 정확도를 유지하는 멀티모달 검색 패러다임을 개발하는 것이 주 목표입니다.

#Review #Multimodal Retrieval #Late Interaction #Meta Tokens #Matryoshka Representation Learning #Test-Time Scaling #Vision-Language Models #Dense Retrieval #Efficiency

2025년 9월 23일

[논문리뷰] Mano Report

본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-modal Foundation Model #Reinforcement Learning #Supervised Fine-tuning #Simulated Environment #Data Generation #Error Recovery #Web Automation

2025년 9월 23일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일

[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Policy Optimization #Token Heterogeneity #Adaptive Sampling #Advantage Redistribution #Asymmetric Clipping #Entropy-based RL

2025년 9월 23일

[논문리뷰] From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

오픈 소스 AI 생태계 내에서 데이터셋, 모델, 그리고 이를 활용하는 소프트웨어 애플리케이션 전반에 걸쳐 발생하는 라이선스 충돌과 '라이선스 드리프트'의 정도를 정량적으로 파악하는 것입니다.

#Review #Open-Source AI #License Compliance #License Drift #AI Supply Chain #Hugging Face #GitHub #LicenseRec #Legal Risk

2025년 9월 23일

[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.

#Review #Large Reasoning Models #LLM Evaluation #Multimodal AI #Reasoning Behaviors #Hallucination #Contamination-Free #AI Safety #Instruction Following

2025년 9월 23일

[논문리뷰] EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

대규모 언어 모델(LLM) 기반의 장기 대화형 질문 답변(LongConvQA) 시스템에서 KV 캐시의 메모리 사용량이 대화 길이에 따라 선형적으로 증가 하는 문제를 해결하는 것이 목표입니다.

#Review #KV Cache Management #Long Conversational QA #LLMs #Memory Efficiency #Episodic Clustering #Block Prefill Eviction #Sensitivity-aware Allocation

2025년 9월 23일

[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process

본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Online RL #Flow Matching #Forward Process #CFG-free #Image Generation #Negative-Aware FineTuning

2025년 9월 23일

[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.

#Review #Cultural Adaptation #Large Language Models #Indian Culture #Dataset Creation #CSI #Human Evaluation #LLM Evaluation #Cultural Bias

2025년 9월 23일

[논문리뷰] Cross-Attention is Half Explanation in Speech-to-Text Models

본 논문은 S2T 모델에서 교차 어텐션(cross-attention) 점수가 입력-출력 의존성을 얼마나 잘 설명하는지 체계적으로 분석합니다.

#Review #Cross-attention #Speech-to-Text (S2T)#Explainable AI (XAI)#Saliency Maps #Feature Attribution #Transformer #Context Mixing #Correlation

2025년 9월 23일

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Video Object Editing #Training-Free #Diffusion Transformers #Rectified Flow #Adaptive Context Enrichment #Guidance Responsiveness #Temporal Consistency #Image-to-Video

2025년 9월 23일

[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.

#Review #Code Review #LLMs #Benchmark #Python Projects #End-to-End Evaluation #Context-Awareness #Software Engineering #LLM-as-a-Judge

2025년 9월 23일

[논문리뷰] ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces

이 논문은 기존 로봇 손목이 좁고 제한된 공간에서의 작업 시 겪는 유연성, 컴팩트함, 동적 응답성 한계를 해결하고자 합니다. 특히, 유연하고 인간과 유사한 움직임을 가능하게 하는 동시에, 컴팩트함과 강성을 유지하는 새로운 병렬 로봇 손목 ByteWrist 를 개발하는 것이 주된 연구 목표입니다.

#Review #Robotics #Parallel Manipulator #Robotic Wrist #Confined Space Manipulation #Kinematics #Anthropomorphic Robot #Robot Design

2025년 9월 23일

[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.

#Review #Auditory Knowledge #Large Language Models #Multimodal Reasoning #Benchmark #Chain-of-Thought #Auditory Imagination #Text-only Reasoning

2025년 9월 23일

[논문리뷰] Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

본 논문은 LLM에서 SFT가 모델의 지식에 미치는 영향 이 충분히 이해되지 않고 있다는 문제의식에서 출발합니다.

#Review #Supervised Fine-Tuning (SFT)#Large Language Models (LLMs)#Model Knowledge #Closed-Book Question Answering (CBQA)#Parameter Restoration #Kullback-Leibler Divergence #Knowledge Forgetting

2025년 9월 23일

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.

#Review #Agent Environments #Agent Evaluation #LLM Agents #Asynchronous Systems #Reinforcement Learning #Tool Use #Multi-agent Collaboration #Benchmark

2025년 9월 23일

[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

본 논문은 Whisper 와 같은 사전 훈련된 최신 ASR(Automatic Speech Recognition) 모델이 미지의 도메인 어휘와 발화를 처리할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #ASR #Domain Adaptation #Text-Only Training #Transformer #Variational Autoencoder #Deep Supervision #Whisper #Encoder-Decoder Models

2025년 9월 22일

[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

기존 Role-playing Agents (RPAs) 가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs 에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.

#Review #Role-playing Agents (RPAs)#Multimodal AI #Video Understanding #Large Language Models (LLMs)#Dataset Creation #Dynamic Role Profiles #Adaptive Temporal Sampling #Fine-tuning

2025년 9월 22일

[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene Generation

고품질의 3D 실내 환경 모델을 생성하는 기존 방식의 시간 소모성 및 제한된 다양성 문제를 해결하고, 시각적 품질, 다양성, 의미론적 일관성 및 사용자 제어 사이의 균형을 맞추기 위한 연구입니다.

#Review #3D Scene Generation #Layout Guidance #Diffusion Models #Multi-view Synthesis #Synthetic Dataset #Indoor Environments #Gaussian Splatting #Semantic Consistency

2025년 9월 22일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

본 연구는 동적 장면에서 카메라 파라미터(초점 거리, 회전, 번역)를 효율적이고 정확하게 최적화하는 것을 목표로 합니다. 기존 COLMAP 방법의 긴 런타임과 동적 장면에서의 GT(Ground Truth) 모션 마스크 의존성 한계를 극복하고, 오직 RGB 영상 만을 감독 정보로 사용하여 이 문제를 해결하고자 합니다.

#Review #Camera Parameter Optimization #Dynamic Scenes #RGB-Only Supervision #Structure from Motion #Outlier Robustness #3D Gaussian Splatting #Two-stage Optimization #Point Tracking

2025년 9월 22일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.

#Review #Personalized Video Generation #Diffusion Transformer #Identity Preservation #Video Synthesis #Adapter Networks #Facial Recognition #Cross-Attention

2025년 9월 22일

[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

본 논문은 생성 모델링(Generative Modeling) , 표현 학습(Representation Learning) , 분류(Classification) 라는 세 가지 핵심 ML 태스크를 단일 통합 원칙으로 해결하는 것을 목표로 합니다.

#Review #Generative Modeling #Representation Learning #Classification #Unified Framework #Latent Space #Flow Matching #Deep Learning #Image Generation

2025년 9월 22일

[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

이 논문은 ITTS (Instruction-Guided Text-to-Speech) 시스템에서 사용자의 자연어 명령(natural language prompts)과 청취자의 음성 지각(listener perception) 간의 불일치를 정량적으로 분석하는 것을 목표로 합니다.

#Review #Instruction-Guided TTS #Expressive Speech Synthesis #Human Perception #Subjective Evaluation #Controllability #Instruction Following #Evaluation Metrics

2025년 9월 22일

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일

[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

AI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.

#Review #GUI Agent #Human-GUI Interaction #Cognitive Modeling #Reinforcement Learning #Multimodal Large Language Models #Attention Mechanisms #Action Planning

2025년 9월 22일

[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.

#Review #Embodied AI #Human-Robot Interaction #Multi-turn Dialogue #Instruction Following #Vision-Language Models #Diffusion Models #Ambiguity Resolution #Low-level Actions

2025년 9월 22일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

본 연구는 기존 비디오 확산 모델(VDM)이 3D/4D 작업에서 겪는 제어 가능성, 시공간 일관성, 기하학적 충실도의 한계를 해결하고자 합니다.

#Review #Video Diffusion Models #3D/4D Generation #Training-Free Guidance #Camera Trajectory Control #Novel View Synthesis #Geometric Consistency #Inference-Time Optimization

2025년 9월 19일

[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.

#Review #Spatio-Temporal Video Grounding #Multimodal Large Language Models #Zero-Shot Learning #Visual Grounding #Decomposed Spatio-Temporal Highlighting #Logit-Guided Re-attention #Temporal-Augmented Assembling

2025년 9월 19일

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autoregressive Models #Image Generation #Self-Supervised Learning #Visual Understanding #Masked Image Modeling #Contrastive Learning #Next-Token Prediction #LlamaGen

2025년 9월 19일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.

#Review #Vision-Language-Action (VLA) Model #Robot Manipulation #Human Demonstrations #Video Generative Pretraining #Ego-Centric Video #Trajectory Prediction #ActionVAE #Transformer

2025년 9월 19일

[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems

본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.

#Review #Agentic Recommender Systems #Simulated Environments #LLM-driven Simulation #Multi-turn Interaction #Reinforcement Learning #User Retention #Instruction Following #Multi-agent Systems

2025년 9월 19일

[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Specification Alignment #Test-Time Deliberation #Safety-Behavior Trade-off #ALIGN3 #SPECBENCH #Prompt Engineering

2025년 9월 19일

[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.

#Review #Instruction-based Image Editing #Dataset #Multi-modal LLM #Image Generation #Style Transfer #Multi-task Learning #Fine-tuning

2025년 9월 19일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일

[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning

대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Distribution Matching #GFlowNets #Mode Collapse #Diverse Reasoning #Flow-Balanced Optimization

2025년 9월 19일

[논문리뷰] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning

본 연구는 LLM 기반 에이전트의 현실적인 금융 데이터 검색 및 추론 능력을 평가하기 위한 종단 간(end-to-end) 벤치마크 의 부재를 해결하는 것을 목표로 합니다.

#Review #Financial LLMs #Agent Benchmarking #Open-domain Search #Financial Reasoning #Time-Sensitive Data #Multi-hop QA #Tool Use

2025년 9월 19일

[논문리뷰] FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution Remote Sensing Change Detection

고해상도 원격 감지 변화 탐지에서 발생하는 두 가지 주요 문제, 즉 복사량 변화로 인한 가짜 변화(pseudo-changes)의 만연 과 깊은 추상적 특징과 얕은 세부 특징 간의 의미론적 간극 으로 인한 불분명한 경계 문제를 해결하는 것을 목표로 합니다.

#Review #Change Detection #Remote Sensing #Frequency-Spatial Analysis #Wavelet Transform #Attention Mechanism #Gated Fusion #Deep Learning

2025년 9월 19일

[논문리뷰] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

논문은 LLM이 라벨이나 외부 평가 없이 스스로 개선하려는 라벨-프리(label-free) 학습 환경에서 겪는 엔트로피 붕괴(entropy collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Label-free Reinforcement Learning #LLMs #Self-improvement #Entropy Collapse #Novelty Reward #Test-Time RL #GRPO #Evolutionary Computing Principles

2025년 9월 19일

[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

본 연구는 의사 전문성에 크게 의존하고 주관적이며 비효율적인 기존 초음파 진단의 한계를 극복하고, 일반적인 VLM(Vision-Language Model) 의 초음파 의료 도메인 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Ultrasound Imaging #Medical Diagnosis #Mixture-of-Experts (MoE)#Instruction Tuning #Multimodal AI #Report Generation #VQA

2025년 9월 19일

[논문리뷰] AToken: A Unified Tokenizer for Vision

ATOKEN은 기존 시각 토크나이저들의 모달리티 및 태스크별 분절 문제를 해결하고, 이미지, 비디오, 3D 에셋 전반에서 고품질 재구성 및 심층적인 의미론적 이해를 동시에 달성하는 범용 시각 토크나이저를 개발하는 것을 목표로 합니다.

#Review #Unified Visual Tokenizer #Multimodal AI #Transformer Architecture #4D Representation #Adversarial-free Training #Reconstruction #Semantic Understanding #Generative Models

2025년 9월 19일

[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

논문은 캐릭터 애니메이션과 교체를 위한 통합 프레임워크 를 제시하여, 동작, 표정, 환경 상호작용에 대한 총체적인 제어 를 고품질로 달성하는 것을 목표로 합니다. 기존 오픈소스 솔루션의 성능 및 기능적 한계를 극복하고, 다양한 시나리오에서 일관성과 표현력을 갖춘 캐릭터 비디오 생성을 가능하게 하고자 합니다.

#Review #Character Animation #Video Replacement #Diffusion Models #Transformer #DiT #Relighting LoRA #Holistic Replication #Open-Source

2025년 9월 18일

[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Tool-Integrated Reasoning #Reinforcement Learning #Hierarchical Optimization #Self-Correction #Large Language Models #Code Generation

2025년 9월 18일

[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

대규모 언어 모델(LLM)의 정렬 조작(alignment steering) 방법론들을 총체적으로 평가 하는 것을 목표로 합니다.

#Review #LLM Alignment #Representation Steering #Benchmark #Behavioral Entanglement #Bias Mitigation #Harmful Generation #Hallucination Control #Modular Framework

2025년 9월 18일

[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

본 논문은 Code Language Models (CLMs) 에서 발생하는 민감한 훈련 데이터의 의도치 않은 기억(memorization) 문제를 해결하고자 합니다.

#Review #Code Language Models #Machine Unlearning #Sensitive Memorization #Privacy #Gradient Ascent #Model Utility #Code Generation

2025년 9월 18일

[논문리뷰] SAIL-VL2 Technical Report

본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Understanding #Mixture-of-Experts #Progressive Training #Data Curation #Supervised Fine-tuning #Reinforcement Learning #SAIL-ViT

2025년 9월 18일

[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

본 논문은 기존 핀홀(pinhole) 비전에 비해 연구가 뒤처진 옴니디렉셔널(omnidirectional) 비전의 잠재력을 발현하고, 데이터 병목 현상, 모델 역량 한계, 애플리케이션 공백과 같은 주요 문제를 해결하여 신체화된 AI(Embodied AI) 시대에 포괄적인 환경 인식을 달성하는 것을 목표로 합니다.

#Review #Omnidirectional Vision #Embodied AI #Panoramic Perception #Multi-modal Learning #Dataset Development #Robot Navigation #Spatial Reasoning #System Architecture

2025년 9월 18일

[논문리뷰] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

논문은 MARS2 2025 Challenge 를 통해 멀티모달 기계 학습 및 LLM 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Language Models (LLMs)#Multimodal Large Language Models (MLLMs)#Visual Grounding #Visual Question Answering #Advertisement Video Analysis #Real-world Scenarios #Challenge Benchmark

2025년 9월 18일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

아랍어 고품질 명령어 데이터의 부족과 다국어 LLM에서 언어별 깊이의 불균형 문제를 해결하는 것을 목표로 합니다. 효율적인 번역-튜닝 파이프라인 을 통해 아랍어 중심의 명령어 및 번역 모델(HALA) 패밀리를 구축하고, 아랍어 벤치마크에서 최첨단 성능을 달성하여 특정 언어에 대한 역량 심화에 중점을 둡니다.

#Review #Arabic NLP #Instruction Tuning #Machine Translation #Large Language Models #FP8 Quantization #Data Bootstrapping #Model Merging #Language-Centric AI

2025년 9월 18일

[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam

기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #Text-to-Image Generation #Multidisciplinary #Benchmark #Evaluation #AGI #Reasoning #Scoring System #Visual Question Answering

2025년 9월 18일

[논문리뷰] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

본 논문은 AI 에이전트가 방대한 웹 스케일 정보를 통찰력 있는 보고서로 통합해야 하는 복잡한 문제인 개방형 심층 연구(Open-Ended Deep Research, OEDR) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Open-Ended Deep Research #LLM Agents #Dynamic Outline #Evidence Acquisition #Hierarchical Writing #Memory Bank #State-of-the-Art #Supervised Fine-Tuning

2025년 9월 17일

[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

WebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.

#Review #Web Agents #Reinforcement Learning #Synthetic Data #Knowledge Graphs #LLMs #Supervised Fine-Tuning #Sim-to-Real Transfer #Agentic AI

2025년 9월 17일

[논문리뷰] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

본 논문은 기존의 심층 연구(deep-research) 에이전트들이 겪는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제로 인한 추론 능력의 한계를 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Deep Research #Iterative Reasoning #Long-Horizon Tasks #Context Management #Data Synthesis #Tool-Augmented LLMs #Markov Decision Process

2025년 9월 17일

[논문리뷰] Towards General Agentic Intelligence via Environment Scaling

본 논문은 일반 에이전트 지능(General Agentic Intelligence)을 발전시키기 위해 대규모 언어 모델(LLM)의 함수 호출 능력 을 향상시키는 것을 목표로 합니다.

#Review #Agentic AI #Environment Scaling #Function Calling #Tool Use #Large Language Models #Synthetic Data Generation #Supervised Fine-tuning

2025년 9월 17일

[논문리뷰] Single-stream Policy Optimization

본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Optimization #Policy Gradient #Variance Reduction #Adaptive Sampling #Scalability #Agentic Systems #RLVR

2025년 9월 17일

[논문리뷰] Scaling Agents via Continual Pre-training

본 논문은 기존의 에이전트 LLM 훈련 방법론(SFT, RL)이 복잡한 에이전트 태스크에서, 특히 오픈소스 구현체에서 저조한 성능을 보이는 문제를 해결하고자 합니다. 이는 견고한 에이전트 파운데이션 모델의 부재로 인해 훈련 후 다양한 에이전트 행동 학습과 정렬이 동시에 이루어지면서 발생하는 최적화 충돌 때문입니다.

#Review #Agentic LLMs #Continual Pre-training #Deep Research Agents #Tool Use #Multi-step Reasoning #Data Synthesis #Scaling Laws

2025년 9월 17일

[논문리뷰] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

이 논문은 대규모 언어 모델(LLM) 기반 에이전트가 장기 웹 탐색 작업을 수행할 때 컨텍스트 윈도우의 제한으로 인해 충분한 탐색이 불가능한 문제를 해결하고자 합니다.

#Review #LLM Agents #Context Management #Summarization #ReAct #Reinforcement Learning #Web Search #Long-Horizon Reasoning

2025년 9월 17일

[논문리뷰] Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

본 논문은 대규모 언어 모델(LLMs)의 효율적인 배포를 위해 양자화(Quantization) 와 희소화(Sparsification) 를 동시에 적용하는 새로운 압축 방법을 제안합니다.

#Review #LLM Compression #Quantization #Sparsification #Post-training Quantization #Hessian-based Optimization #Error Compensation #Low-bit LLMs

2025년 9월 17일

[논문리뷰] Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis

기존 Multiple Instance Learning (MIL) 기반의 컴퓨터 병리학(CPath) 모델들이 기가픽셀 Whole Slide Images (WSIs)에서 쉽게 분류 가능한(easy-to-classify) 인스턴스에 편향되어 판별 경계를 정확하게 모델링하는 데 한계가 있음을 지적합니다.

#Review #Multiple Instance Learning #Hard Instance Mining #Computational Pathology #Whole Slide Images #Masked Learning #Siamese Network #Medical Image Analysis

2025년 9월 17일

[논문리뷰] Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

본 논문은 인공지능 분야의 근본적인 도전 과제인 멀티모달 추론 의 한계를 극복하는 것을 목표로 합니다. 특히, 최첨단 GPT-03 과 같은 모델도 시각 정보 통합에 어려움을 겪는 과학 분야의 멀티모달 시나리오에서 시각-텍스트 모달리티 간의 격차를 해소 하고 견고한 추론 성능을 확보하고자 합니다.

#Review #Multimodal Reasoning #Science AI #Caption-assisted Reasoning #SeePhys Challenge #Large Language Models #Visual Question Answering #Physics Problems #Cross-modal Alignment

2025년 9월 17일

[논문리뷰] Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

이 논문은 노동 집약적이고 전문화된 기존 3D 에셋 생성 워크플로우로 인한 게임 개발의 병목 현상을 해결하고자 합니다.

#Review #3D Asset Generation #AI Pipeline #Generative AI #Game Development #Diffusion Models #Neural Modules #Retopology #UV Unwrapping

2025년 9월 17일

[논문리뷰] Exact Coset Sampling for Quantum Lattice Algorithms

본 논문은 최근 발표된 windowed-QFT 양자 격자 알고리즘(Chen, 2024)의 논란이 있는 '도메인 확장' 단계(Step 9)에서 발생하는 주기성/지원 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Quantum Algorithms #Lattice Problems #Coset Sampling #Quantum Fourier Transform (QFT)#Modular Arithmetic #Quantum Cryptography #Exact Sampling

2025년 9월 17일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일

[논문리뷰] 3D Aware Region Prompted Vision Language Model

본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.

#Review #3D Vision #Vision-Language Models #Spatial Reasoning #Region Prompting #Multi-view Learning #Depth Estimation #Unified Representation #Generative AI

2025년 9월 17일

[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Automation #Reinforcement Learning #Semi-online RL #Offline RL #Online RL #Patch Module #Multi-turn Interaction #Large Language Models

2025년 9월 16일

[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

이 논문은 대규모 언어 모델(LLM)의 특정 도메인 적응을 위한 고품질 SFT(Supervised Fine-Tuning) 데이터셋 생성 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM #Instruction Tuning #Domain Adaptation #Retrieval-Augmented Generation #Dataset Creation #Model Editing #Supervised Fine-Tuning

2025년 9월 16일

[논문리뷰] PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

본 논문은 인간 행동 특성 분석을 위한 멀티모달 데이터셋의 부족 문제 를 해결하고, LLM(Large Language Model)을 통해 추론된 행동 특성을 시각 및 전기적 속성과 결합하여 체계적인 교차 모달 및 인과 관계 연구를 가능하게 하는 것을 목표로 합니다.

#Review #Multimodal Dataset #LLM Inference #Behavioral Traits #Causal Representation Learning #Big Five #Multimodal AI #Causal Discovery #Human-Computer Interaction

2025년 9월 16일

[논문리뷰] OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

논문은 4D 세계 모델링 을 위한 고품질 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #4D World Modeling #Multi-Modal Dataset #Multi-Domain Data #Geometric Foundation Models #Video Generation #Spatio-Temporal Data #Dataset Benchmark

2025년 9월 16일

[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language Models

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 환각(hallucination) 문제를 해결하고, 특히 모델이 불확실한 상황에서 잘못된 정보를 확신하지 않고 '모르는 것을 모른다고 인정하는' 능력 , 즉 인식론적 겸손(epistemic humility) 을 측정하는 새로운 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Hallucination #Epistemic Humility #Benchmark #False-Option Rejection #Visual Question Answering #Scene Graph

2025년 9월 16일

[논문리뷰] Lost in Embeddings: Information Loss in Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 에서 시각적 정보를 언어 모델 임베딩 공간으로 투영하는 커넥터(connector) 모듈로 인해 발생하는 잠재적인 정보 손실 을 정량화하고 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Information Loss #Embeddings #Connectors #k-NN Overlap Ratio #Embedding Reconstruction #Multimodal AI

2025년 9월 16일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일

[논문리뷰] Locality in Image Diffusion Models Emerges from Data Statistics

본 연구는 확산 모델(Diffusion Models)의 학습된 지역성(locality)이 모델 아키텍처의 귀납적 편향(inductive bias)보다는 이미지 데이터셋의 통계적 속성 에서 비롯된다는 가설을 검증하고자 합니다.

#Review #Diffusion Models #Locality #Data Statistics #Optimal Denoiser #Wiener Filter #Sensitivity Fields #Generative Models #Inductive Bias

2025년 9월 16일

[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.

#Review #Multi-objective Reinforcement Learning #LLM Alignment #Dynamic Reward Weighting #Pareto Front Optimization #Hypervolume Indicator #Gradient-based Optimization #Online RL

2025년 9월 16일

[논문리뷰] LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

본 논문은 드래그 기반 이미지 편집에서 Multi-Modal Diffusion Transformers (MM-DiTs) 의 불안정성을 해결하고, 기존 방식의 암묵적 점 매칭 및 Test-Time Optimization (TTO) 또는 약화된 인버전 강도 의존성으로 인한 한계를 극복하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Multi-Modal Transformers #Drag-based Editing #Explicit Correspondence #Attention Control #Identity Preservation #Training-Free

2025년 9월 16일

[논문리뷰] InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

본 연구는 Embodied AI 의 발전을 위해 기존 3D 장면 데이터셋이 가진 규모, 다양성, 사실적인 레이아웃(특히 작은 객체), 심각한 객체 충돌 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Dataset #Simulation Environment #Scene Generation #Point-Goal Navigation #Realistic Layouts #Object Interaction #Real-to-Sim

2025년 9월 16일

[논문리뷰] GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

본 연구는 대규모 언어 모델(LLM) 기반 임베딩 모델의 배포 문제를 해결하기 위해, 기존 가지치기(pruning) 방법론이 일반적인 의미론적 표현과 도메인 특화 패턴을 구분하지 못하여 발생하는 비최적화된 가지치기 결정 의 한계를 극복하고자 합니다.

#Review #Model Pruning #Domain Adaptation #Embedding Models #Gradient Alignment #Fisher Information #Model Compression #LLMs

2025년 9월 16일

[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.

#Review #Ethical Reasoning #Mental Health AI #Benchmark Dataset #Large Language Models #AI Ethics #Clinical Decision Support #Human-in-the-loop

2025년 9월 16일

[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

본 논문은 대규모 비디오 모델(LVM)이 입력 비디오와 불일치하는 내용을 생성하는 '환각(hallucination)' 문제를 해결하는 것을 목표로 합니다.

#Review #Video Hallucination #Large Video Models (LVMs)#Hierarchical Reasoning #Spatial-Temporal Grounding #Diagnostic Framework #Benchmark Dataset #Multimodal AI

2025년 9월 16일

[논문리뷰] CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

본 연구는 분산형 소셜 미디어 플랫폼인 Bluesky 에서 실시간으로 대규모 공개 담론을 분석하기 위한 확장 가능한 오픈 소스 프레임워크인 CognitiveSky 를 제안합니다.

#Review #Sentiment Analysis #Narrative Analysis #Decentralized Social Media #Bluesky #Transformer Models #Topic Modeling #Real-time Processing #Data Visualization

2025년 9월 16일

[논문리뷰] X-Part: high fidelity and structure coherent shape decomposition

기존 파트 기반 3D 형태 생성 방식이 낮은 제어 가능성과 의미론적으로 불분명한 분해 성능을 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Shape Decomposition #Diffusion Models #Part-level Generation #Controllable Generation #Bounding Box Prompts #Semantic Features #Interactive Editing #Generative AI

2025년 9월 15일

[논문리뷰] Virtual Agent Economies

논문은 자율 AI 에이전트의 급속한 확산으로 인해 발생하는 새로운 경제적 레이어, 즉 '가상 에이전트 경제' 의 등장에 주목하며, 이러한 시스템이 인간의 감독 범위를 넘어설 정도로 확장될 수 있음을 강조합니다.

#Review #AI Agents #Virtual Economy #Multi-Agent Systems #Economic Mechanisms #Governance #Blockchain #Resource Allocation #Agent Alignment

2025년 9월 15일

[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.

#Review #Voice Style Adaptation #Spoken Language Models #Benchmark #LALM-as-a-Judge #Speech Generation #Multilingual #Evaluation Framework

2025년 9월 15일

[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

본 논문은 대규모 언어 모델(LLM)의 지속적인 스케일링이 한계 효용 체감(diminishing returns)으로 이어지는지에 대한 논쟁을 다루며, 특히 장기적인 태스크(long-horizon tasks) 수행 능력에 초점을 맞춥니다.

#Review #Large Language Models #Long-Horizon Tasks #Execution Capability #Scaling Laws #Self-Conditioning #Thinking Models #Agentic AI

2025년 9월 15일

[논문리뷰] QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading

기존 LLM 기반 금융 시스템이 텍스트 기반 입력에 주로 의존하여 고주파 매매(HFT)의 속도 및 정확성 요구사항에 부적합하다는 한계를 해결하고자 합니다.

#Review #High-Frequency Trading #Multi-Agent Systems #Large Language Models #Technical Analysis #Algorithmic Trading #Financial Reasoning #Price-Driven Signals

2025년 9월 15일

[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarks #Model Context Protocol (MCP)#LLM Evaluation #Agentic AI #Real-World Performance

2025년 9월 15일

[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

본 논문은 Long-Tailed Semi-Supervised Learning (LTSSL)에서 발생하는 기존 문제점들, 즉 모델의 과신(overconfidence) 과 저품질 의사 레이블(pseudo-labels) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-tailed Learning #Semi-Supervised Learning #Parameter-Efficient Fine-Tuning #Foundation Models #Open-World Scenarios #OOD Detection #Confidence Calibration

2025년 9월 15일

[논문리뷰] IntrEx: A Dataset for Modeling Engagement in Educational Conversations

본 논문은 제2언어 학습자를 위한 교육 대화에서 '흥미로움(interestingness)'과 '예상되는 흥미로움(expected interestingness)'을 모델링하기 위한 IntrEx 데이터셋 을 구축하는 것을 목표로 합니다.

#Review #Educational Dialogue #Engagement Modeling #Dataset Annotation #Second Language Learning #Human Feedback #LLM Alignment #Readability Metrics

2025년 9월 15일

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일

[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

본 논문은 기존 확산 모델이 고해상도 이미지 생성 시 해상도에 따라 연산 요구량이 제곱으로 증가 하여 4K 이미지 생성에 100초 이상 이 소요되는 문제점을 해결하고자 합니다.

#Review #Image Synthesis #Resolution-Agnostic #Diffusion Models #Latent Space #VAE Decoder #High-Resolution Image Generation #Generative AI #Transformer Architecture

2025년 9월 15일

[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering

본 논문은 멀티-홉 질문(multi-hop queries) 처리 시 기존 RAG(Retrieval-Augmented Generation) 시스템이 겪는 비효율성(과도한 반복 검색), 비합리적인 쿼리(원래 쿼리에 대한 노이즈 검색), 그리고 노이즈 축적 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multi-hop QA #Noise Resistance #LLM #Query Decomposition #Adaptive Retrieval #Heuristic Framework #Revelator

2025년 9월 15일

[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.

#Review #Generalist Robot Policies #Vision-Language-Action Models #Efficient AI #Imitation Learning #Diffusion Models #Intermediate Fusion #Robotics

2025년 9월 15일

[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Headline Generation #Minority Languages #Low-Resource NLP #Dataset #Benchmark #Natural Language Generation #Chinese Minority Languages

2025년 9월 15일

[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Vision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.

#Review #Visual Programmability #Code-as-Thought (CaT)#Chart Understanding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning #Dual-Reward System #Multimodal AI

2025년 9월 12일

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Multimodal Learning #Efficient AI #Model Adaptation #Bridge Attention #Low-resource Training

2025년 9월 12일

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일

[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.

#Review #Video Dataset #Spatial Annotation #Camera Pose Estimation #Depth Map #Structured Caption #Motion Instruction #3D Vision #World Modeling

2025년 9월 12일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일

[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Embodied AI #Multimodal LLMs #3D Grounding #Task-Adaptive Reasoning #Embodiment-Aware Planning #Robotics #Spatial Reasoning

2025년 9월 12일

[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.

#Review #Multimodal Recommendation #Modality Alignment #Attention Mechanism #Dilated Convolution #Maximum Mean Discrepancy #Contrastive Learning #Dimensionality Reduction

2025년 9월 12일

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Avatar Animation #Multimodal Instructions #Long-Duration Video Generation #MLLM Director #Cascaded Framework #Lip Synchronization #Instruction Grounding #Video Diffusion Transformers

2025년 9월 12일

[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.

#Review #Human-Centric Video Generation #Multimodal Conditioning #Text-to-Video #Image-to-Video #Audio-to-Video #Diffusion Models #Subject Preservation #Audio-Visual Synchronization #Progressive Training

2025년 9월 12일

[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Policy Gradients #Entropy Modulation #Credit Assignment #Uncertainty #Long-Horizon Tasks #Self-Calibrating Gradient Scaling

2025년 9월 12일

[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.

#Review #Text-based Person Retrieval #CLIP #MLLM #Data Curation #Dual-Masking #Gradient-Attention #WebPerson Dataset

2025년 9월 12일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일

[논문리뷰] EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

본 논문은 텍스트 기반 LLM에서 파생된 SLLM(Speech-to-Speech Large Language Models)이 지식 및 추론 능력에서 저하를 보이는 문제에 주목합니다.

#Review #Speech-to-Speech LLMs #Acoustic-Semantic Gap #Echo Training #Unit Language #Streaming Inference #Knowledge-based QA

2025년 9월 12일

[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Understanding #Multimodal Generation #Unified Models #Auto-Encoder #Reinforcement Learning #Image-to-Text #Text-to-Image #Reconstruction Fidelity

2025년 9월 12일

[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting

본 논문은 기존 이미지 인페인팅 방법론의 이산적인 픽셀 처리 방식이 갖는 한계를 극복하고, 2D Gaussian Splatting(2DGS) 의 연속적인 특성을 활용하여 픽셀 수준의 일관성과 전역적인 의미론적 정합성을 갖춘 고품질 이미지 인페인팅 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Inpainting #2D Gaussian Splatting #Semantic Alignment #DINO Features #Patch-level Rasterization #Continuous Representation #Generative Models

2025년 9월 12일

[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs

본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.

#Review #Toxic Text Generation #LLMs #Text Detoxification #Lexical Diversity #Synthetic Data #Human Annotation #Style Transfer

2025년 9월 11일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] P3-SAM: Native 3D Part Segmentation

본 논문은 기존 3D 파트 분할 방법론의 한계, 특히 복잡한 객체에 대한 불충분한 견고성 과 완전한 자동화의 부재 를 극복하고자 합니다.

#Review #3D Part Segmentation #Point Cloud Segmentation #Prompt-based Segmentation #Deep Learning #Transformer #Interactive Segmentation #Automatic Segmentation #Native 3D

2025년 9월 11일

[논문리뷰] Hunyuan-MT Technical Report

본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.

#Review #Machine Translation #Large Language Model #Multilingual #Low-Resource Languages #Reinforcement Learning #Weak-to-Strong Learning #Slow Thinking

2025년 9월 11일

[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

AI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.

#Review #Human Agency #AI Assistants #LLM Evaluation #Benchmark #Sociotechnical AI #AI Alignment #Scalable Evaluation

2025년 9월 11일

[논문리뷰] EnvX: Agentize Everything with Agentic AI

이 논문은 오픈소스 코드 저장소의 재활용 및 협업의 비효율성을 해결하기 위해, 저장소를 지능적인 자율 에이전트 로 변환하는 프레임워크인 EnvX 를 제안합니다.

#Review #Agentic AI #Multi-Agent Systems #Code Repository #Agentization #Natural Language Interaction #Agent-to-Agent Protocol #LLM-based Agents

2025년 9월 11일

[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interaction #Long-Horizon Decision Making #Agent Framework #Exploration-Exploitation #Progressive Scaling

2025년 9월 11일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] 3D and 4D World Modeling: A Survey

본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.

#Review #3D World Modeling #4D World Modeling #Generative Models #Predictive Models #LiDAR #Occupancy Grids #Video Generation #Autonomous Driving #Robotics

2025년 9월 11일

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models

본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Representation Alignment #Foundation Models #Regularization #Fine-grained Visual Understanding #Spatial Reasoning #Object Counting #Vision-Language Models

2025년 9월 10일

[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.

#Review #Image Customization #Multi-Identity Generation #Identity Consistency #Identity Confusion #Reinforcement Learning #Diffusion Models #Matching Reward #Global Assignment

2025년 9월 10일

[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.

#Review #RLVR #LLM Reasoning #Adaptive Learning #Hint Scaffolding #Item Response Theory #Exploration Efficiency #Problem Difficulty #Policy Optimization

2025년 9월 10일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models

논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Image Generation #Image Editing #Post-training #Self-supervised Learning #Reconstruction Alignment #Visual Embeddings

2025년 9월 10일

[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #Quantization #Few-Step Generation #Model Compression #Noise Scheduling #Post-Training Quantization #Image Quality Metrics #Latent Consistency Models

2025년 9월 10일

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일

[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.

#Review #Visual Search #Multi-Turn Reasoning #Reinforcement Learning #Tool-Integrated Agents #Exploratory Reasoning #Data Augmentation #Over-turn Masking #Visual Language Models

2025년 9월 10일

[논문리뷰] Language Self-Play For Data-Free Training

본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.

#Review #Large Language Models #Reinforcement Learning #Self-Play #Data-Free Training #Instruction Following #Adversarial Training #Reward Modeling

2025년 9월 10일

[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Visual Foresight #Predictive Inverse Dynamics #Mixture-of-Transformer #Robot Manipulation #Multi-stage Training #Generalization

2025년 9월 10일

[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Human Preference #Text-to-Image Generation #Reward Hacking #Direct-Align #SRPO #Fine-Grained Control #Flow Matching Models

2025년 9월 10일

[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology

기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Foundation Model #Radiology #Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning #Vision Transformer #Cross-Modality Generalization

2025년 9월 10일

[논문리뷰] Causal Attention with Lookahead Keys

이 연구는 자기회귀(autoregressive) 언어 모델 의 핵심 구성 요소인 표준 인과적 어텐션(causal attention)이 이전 문맥에만 의존하여 전역적 문맥 파악과 자연어 이해 능력을 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Causal Attention #Lookahead Keys #Autoregressive Modeling #Language Models #Transformer #Perplexity Reduction #Parallel Training #Efficient Inference

2025년 9월 10일

[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.

#Review #Web Agents #Long-Horizon Reasoning #Large Language Models (LLMs)#Data Generation #Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation #Information Retrieval

2025년 9월 9일

[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.

#Review #Unified Audio-Video Generation #Stitching of Experts (SoE)#Multimodal Diffusion #Online Annotation #Cross-modal Noise Correlation #Foundation Models #Verse-Bench

2025년 9월 9일

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Step-Provers #Reinforcement Learning (RL)#Off-Policy RL #Multi-Agent Systems #Tree Search #Automated Theorem Proving (ATP)#Formal Mathematics #AlphaZero

2025년 9월 9일

[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.

#Review #Automated Theorem Proving #LLM #Mathematical Reasoning #Synthetic Data Generation #TPTP Ecosystem #Saturation Proving #Proof Graph Reconstruction #Data Augmentation

2025년 9월 9일

[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.

#Review #AI Safety #Resistant AI #Resilient AI #Coevolution #Fast-Slow Models #Adversarial Training #Continual Learning #AGI Alignment

2025년 9월 9일

[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Trajectory-aware RL #Value Model #Masked Diffusion Models #Large Language Models #Reasoning Tasks #Code Generation

2025년 9월 9일

[논문리뷰] Reverse-Engineered Reasoning for Open-Ended Generation

개방형(open-ended) 및 창의적 생성과 같이 검증 불가능한 도메인에서 대규모 언어 모델(LLM)에 깊이 있는 추론 능력 을 부여하는 것이 이 연구의 핵심 목표입니다. 기존의 강화 학습(RL) 및 증류(distillation) 방식의 한계, 즉 명확한 보상 신호 부재 및 높은 비용 문제를 극복하고자 합니다.

#Review #Deep Reasoning #Open-Ended Generation #Reverse-Engineered Reasoning (REER)#LLMs #Synthetic Data #Iterative Refinement #Perplexity Minimization #DeepWriting-20K

2025년 9월 9일

[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey

본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.

#Review #Reinforcement Learning #Deep Research Systems #Agentic AI #Tool Use #Hierarchical Agents #Reward Design #Multimodal AI #RL Frameworks

2025년 9월 9일

[논문리뷰] Reinforced Visual Perception with Tools

본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.

#Review #Visual Reasoning #Multimodal LLMs #Reinforcement Learning #Tool Usage #Perception-heavy Benchmarks #GRPO #Vision Tools

2025년 9월 9일

[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

본 논문은 정적인 연구 논문이 가진 기술적 장벽으로 인해 코드 및 방법론의 활용과 확산이 어려운 문제를 해결하고자 합니다. 연구는 논문을 상호작용적이고 신뢰할 수 있는 AI 에이전트 로 변환하여 연구 결과의 다운스트림 활용, 채택, 그리고 발견을 가속화하는 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #AI Agents #Research Reproducibility #Scientific Communication #Model Context Protocol (MCP)#Natural Language Interaction #Genomics #Single-Cell Analysis #Spatial Transcriptomics

2025년 9월 9일

[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents

이 논문은 모바일 GUI 에이전트의 효율성을 높이기 위해 GUI 작업과 효율적인 바로가기(shortcuts) 를 결합한 하이브리드 패러다임의 체계적인 벤치마킹 프레임워크가 부족하다는 문제를 해결하고자 합니다.

#Review #Mobile GUI Agents #Hybrid Automation #Shortcut Generation #Benchmark #Task Efficiency #LLM-based Agents #Mobile Robotics

2025년 9월 9일

[논문리뷰] Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

대규모 언어 모델(LLM)의 영어 중심 편향 을 해결하고, 독일어, 영어, 바이에른어(Bavarian)를 지원하는 삼중 언어 기반 모델인 Llama-GENBA-10B 를 개발하는 것을 목표로 합니다.

#Review #Multilingual LLM #Low-Resource Language #German #Bavarian Dialect #Cross-Lingual Transfer #Continuous Pretraining #Llama-3.1 #Model Expansion

2025년 9월 9일

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.

#Review #Text-to-Image Generation #Interleaving Reasoning #Multimodal Learning #Visual Quality #Fine-grained Detail #Diffusion Models #Self-Correction

2025년 9월 9일

[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

본 논문은 복잡한 시각 환경에서 Vision-Language Models (VLMs) 의 추론 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Visual Reasoning #Attention Mechanisms #Contrastive Learning #Noise Suppression #Visual Complexity #Training-Free

2025년 9월 9일

[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.

#Review #Text-to-Image Generation #T2I Benchmarking #Compositional Reasoning #Deductive Inference #Inductive Inference #Abductive Inference #MLLM Evaluation

2025년 9월 9일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

온라인 밈(meme)에서 암묵적이고 문화적으로 민감한 다크 유머를 이해하고 탐지하는 문제를 해결하는 것을 목표로 합니다. 기존 자원 및 방법론의 부족을 다루기 위해 다중모드 콘텐츠에서 다크 유머의 존재, 타겟 범주 및 강도를 식별하는 포괄적인 프레임워크를 제시합니다.

#Review #Dark Humor Detection #Multimodal Reasoning #Vision-Language Models (VLMs)#Iterative Reasoning Refinement #Meme Analysis #Content Moderation #Cross-Modal Attention #Dataset Annotation

2025년 9월 9일

[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.

#Review #Online 3D Reconstruction #Camera Pose Estimation #Streaming Reconstruction #Sliding Window #Camera Token Pool #Real-time Performance #Computer Vision

2025년 9월 8일

[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Symbolic Music Reasoning #Music Score Analysis #Benchmarking #Visual Question Answering #In-the-Wild Data #Music Theory

2025년 9월 8일

[논문리뷰] Why Language Models Hallucinate

본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #Language Models #Hallucination #Pretraining #Post-training #Evaluation Metrics #Binary Classification #Uncertainty Quantification #Calibration

2025년 9월 8일

[논문리뷰] U-ARM : Ultra low-cost general teleoperation interface for robot manipulation

본 논문은 기존의 고비용 및 복잡한 엔지니어링 요구사항을 가진 로봇 텔레오퍼레이션 시스템의 한계를 극복하고, 대부분의 상용 로봇 팔과 호환되는 초저가, 사용자 친화적, 범용 리더-팔로워 텔레오퍼레이션 인터페이스 인 U-Arm을 개발하는 것을 목표로 합니다.

#Review #Teleoperation #Robot Manipulation #Low-Cost Hardware #3D Printing #Leader-Follower System #Data Collection #Robotics Interface #Open Source

2025년 9월 8일

[논문리뷰] Symbolic Graphics Programming with Large Language Models

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.

#Review #Symbolic Graphics Programming #Large Language Models #Reinforcement Learning #SVG Generation #Text-to-Image Synthesis #Cross-Modal Alignment #Program Synthesis

2025년 9월 8일

[논문리뷰] Set Block Decoding is a Language Model Inference Accelerator

본 논문은 대규모 언어 모델(LLM) 추론, 특히 디코딩 단계에서 발생하는 높은 계산 및 메모리 비용 문제에 초점을 맞춥니다.

#Review #Language Model Inference #Acceleration #Set Block Decoding #Next Token Prediction #Masked Token Prediction #Parallel Decoding #KV-caching #Diffusion Models

2025년 9월 8일

[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.

#Review #LLM Evaluation #Model Robustness #Benchmark Reliability #Paraphrasing #Linguistic Variability #Generalization #Question Answering

2025년 9월 8일

[논문리뷰] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

3D CT 영상 진단에서 발생하는 오독(under-reading), 부주의로 인한 인지 오류(inattentional blindness), 그리고 커뮤니케이션 오류를 줄이는 것을 목표로 합니다.

#Review #3D CT #Vision-Language Model #Medical Imaging #Diagnostic Error Reduction #Multi-scale Alignment #Semantic Enrichment #Radiology Reporting #Zero-shot Learning

2025년 9월 8일

[논문리뷰] LuxDiT: Lighting Estimation with Video Diffusion Transformer

논문은 단일 이미지 또는 비디오로부터 고품질의 HDR 환경 맵 을 추정하는 오랜 난제를 해결하고자 합니다. 이는 실측 HDR 환경 맵의 희소성, 간접 시각 단서에 대한 의존성, 전역적 컨텍스트 추론 및 고동적 범위(HDR) 출력 복구의 어려움으로 인해 발생합니다.

#Review #Lighting Estimation #HDR Environment Map #Diffusion Models #Video Transformer #Low-Rank Adaptation #Generative Models #Synthetic Data

2025년 9월 8일

[논문리뷰] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

본 논문은 복잡한 실제 시나리오를 시뮬레이션하는 고충실도 3D 가상 환경 을 생성하는 데 초점을 맞추어, sim-to-real 격차 를 줄이고 풍부한 데이터를 효율적으로 수집하는 것을 목표로 합니다.

#Review #Multimodal LLM #3D World Generation #Unreal Engine 5 #Procedural Content Generation #Interactive Environments #Sim-to-Real #Spatial Understanding #Multimodal Input

2025년 9월 8일

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일

[논문리뷰] Behavioral Fingerprinting of Large Language Models

현재 대규모 언어 모델(LLM) 벤치마크들이 모델의 성능 지표에만 치중하여 미묘한 행동 특성을 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Behavioral Evaluation #Model Alignment #Sycophancy #World Model Brittleness #Metacognition #Personality Profiling

2025년 9월 8일

[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.

#Review #Long Video Understanding #Reinforcement Learning #Multi-Turn Reasoning #MLLMs #Video Segment Selection #Bi-level Reward #Question Answering

2025년 9월 5일

[논문리뷰] Transition Models: Rethinking the Generative Learning Objective

본 논문은 반복적인 확산 모델의 높은 품질과 효율적인 소수 단계 모델의 성능 포화 사이의 근본적인 딜레마를 해결하고자 합니다.

#Review #Generative Models #Diffusion Models #Training Objective #Continuous-Time Dynamics #State Transition #Few-Step Generation #Scalable Training #Image Generation

2025년 9월 5일

[논문리뷰] Towards a Unified View of Large Language Model Post-Training

본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Post-Training #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient #Unified Framework #Hybrid Algorithms #Bias-Variance Tradeoff

2025년 9월 5일

[논문리뷰] NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

논문은 기존 NER(Named Entity Recognition) 시스템의 한계, 즉 고정된 유형 스키마와 대량의 레이블링 데이터 의존성을 극복하고자 합니다.

#Review #Named Entity Retrieval #Zero-Shot Learning #Type-Aware Embeddings #Large Language Models (LLMs)#Contrastive Learning #Internal Representations #Information Retrieval

2025년 9월 5일

[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.

#Review #LLMs #Instruction Following #Benchmark #Cognitive Inertia #Out-of-Distribution #Supervised Fine-Tuning #Evaluation #Robustness

2025년 9월 5일

[논문리뷰] From Editor to Dense Geometry Estimator

본 논문은 기존의 텍스트-투-이미지(T2I) 생성 모델보다 Diffusion Transformer (DiT) 기반의 이미지 편집 모델이 단안 밀집 기하학 추정(depth 및 normal) 작업에 더 적합한 파운데이션 모델임을 증명하고, 이를 기반으로 FE2E 라는 새로운 프레임워크를 개발하여 제한된 훈련 데이터로도 뛰어난 제로샷 성능을 달성하는 것을 목표로 합니다.

#Review #Dense Geometry Estimation #Diffusion Transformer #Image Editing #Zero-shot Learning #Depth Estimation #Normal Estimation #Flow Matching #Logarithmic Quantization

2025년 9월 5일

[논문리뷰] Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

본 연구는 플로우 기반 3D 생성 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Generation #Flow-based Models #Model Distillation #Few-step Sampling #Marginal-Data Transport #Velocity Matching #Velocity Distillation

2025년 9월 5일

[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.

#Review #LLM Safety #Malicious Input Detection #Probing Classifiers #Out-of-Distribution Generalization #Superficial Patterns #Instructional Patterns #Trigger Words #AI Safety

2025년 9월 5일

[논문리뷰] Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

본 논문은 주어진 참조 이미지로부터 대상 인물의 얼굴 속성(예: 헤어스타일, 안경)을 전이하여 동적인 초상화 애니메이션 비디오를 제로샷(zero-shot) 방식으로 생성하는 것을 목표로 합니다.

#Review #Portrait Animation #Attribute Transfer #Diffusion Models #Dual Reference Networks #Zero-shot Learning #Self-Reconstruction #Facial Editing

2025년 9월 5일

[논문리뷰] Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

본 연구는 LLM(Large Language Models)이 겉으로는 논리적이지만 심층적인 역설적 의미를 담고 있는 'Drivelology(심오한 헛소리)'를 얼마나 깊이 이해하는지 평가하는 것을 목표로 합니다. 통계적 유창성을 넘어선 LLM의 진정한 인지적 이해, 특히 실용적 이해 의 근본적인 한계를 밝히고자 합니다.

#Review #Large Language Models #Pragmatic Understanding #Drivelology #Benchmark Dataset #Multilingual NLP #Semantic Reasoning #Contextual Inference

2025년 9월 5일

[논문리뷰] Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings

본 연구는 2D 벡터 엔지니어링 도면(SVG 형식)으로부터 파라메트릭 CAD 모델을 자동으로 생성 하는 문제를 해결하는 것을 목표로 합니다.

#Review #CAD Generation #Vector Graphics #Sequence-to-Sequence Learning #Transformer Architecture #Engineering Drawings #Multi-modal Learning #Soft Target Loss #Dual Decoder

2025년 9월 5일

[논문리뷰] Delta Activations: A Representation for Finetuned Large Language Models

다양하게 미세 조정된 대규모 언어 모델(LLM)의 방대한 생태계에서 모델 간의 유사점과 차이점을 효율적으로 파악하고, 모델을 검색, 비교 및 클러스터링할 수 있는 표준화된 표현 방식 이 부족한 문제를 해결하는 것이 목표입니다. 이는 기존의 메타데이터 부족 문제를 극복하고 모델 재사용을 촉진하기 위함입니다.

#Review #LLM Embedding #Delta Activations #Finetuned Models #Model Representation #Model Clustering #Additive Property #Task Embedding #Model Merging

2025년 9월 5일

[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

본 논문은 기존 벤치마크의 데이터 누출 위험과 비현실적인 평가 방식의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 연구 에이전트 의 실제 연구 능력을 평가하기 위한 새로운 벤치마크인 DeepResearch Arena 를 제안합니다.

#Review #LLM Evaluation #Research Agents #Benchmark #Multi-Agent System #Seminar-Grounded Tasks #Data Leakage Prevention #Ill-Structured Problems

2025년 9월 5일

[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning

본 논문은 일반ist 로봇이 복잡한 장기 작업을 추론하고 자연스러운 인간 상호작용에 참여할 수 있도록 단일 비전-언어 아키텍처 내에서 로봇 추론, 태스크 플래닝, 자연어 상호작용을 통합하는 Robix 모델을 제안합니다.

#Review #Robot Learning #Vision-Language Models (VLMs)#Embodied AI #Human-Robot Interaction (HRI)#Task Planning #Reinforcement Learning (RL)#Chain-of-Thought (CoT) Reasoning #Robotics

2025년 9월 4일

[논문리뷰] Open Data Synthesis For Deep Research

본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.

#Review #Data Synthesis #Deep Research #Hierarchical Constraint Satisfaction Problems #Large Language Models #Agentic AI #Reinforcement Learning #Question Answering

2025년 9월 4일

[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

논문은 기존 생성 모델이 의미론적 제어와 사진 같은 사실성 사이의 섬세한 균형을 맞추는 데 어려움을 겪고, 특히 Diffusion Transformer (DiT) 가 복잡한 다중 모드 조건부 설정에서 충분히 탐색되지 않았다는 문제를 해결하고자 합니다.

#Review #Diffusion Transformer #Mixture of Experts #Controllable Generation #Face Generation #Multimodal Synthesis #Semantic Control #Image Generation

2025년 9월 4일

[논문리뷰] MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement

이 논문은 다중 피사체 개인화 이미지 생성 시 발생하는 정체성 혼합(identity blending) 및 속성 유출(attribute leakage) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Subject Generation #Personalized Image Synthesis #Semantic Correspondence #Attention Disentanglement #Diffusion Models #Identity Preservation #Dataset

2025년 9월 4일

[논문리뷰] LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations

언어 모델(LMs)이 사전 훈련 과정에서 지식 표현을 어떻게 형성하고 발전시키는지에 대한 내부 프로세스를 분석하는 것입니다.

#Review #Language Models #Knowledge Acquisition #Pretraining Data #Entity Linking #Coreference Resolution #Information Retrieval #Model Analysis #Checkpoints

2025년 9월 4일

[논문리뷰] ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

본 연구는 기존 모노큘러 덴스 SLAM 시스템의 주요 한계점인 카메라 인트린직스(intrinsics) 필요성, 높은 계산 복잡성, 그리고 장기적인 시퀀스에서의 드리프트 축적 문제를 해결하는 것을 목표로 합니다.

#Review #Monocular SLAM #Dense Reconstruction #Neural Networks #Pose Graph Optimization #Intrinsics-free #Real-time #Two-view Association

2025년 9월 3일

[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.

#Review #Agentic Reinforcement Learning #Tool Use #Large Language Models #Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution #Multi-modal AI #Framework

2025년 9월 3일

[논문리뷰] Universal Deep Research: Bring Your Own Model and Strategy

이 논문은 기존의 심층 연구 도구(DRT)들이 고정된 연구 전략과 제한적인 모델 선택으로 인해 사용자 정의가 어렵고 특정 산업에 특화된 연구 전략을 구축하기 어렵다는 문제를 제기합니다.

#Review #Agentic Systems #Language Models (LLMs)#Research Automation #Customizable Strategies #Code Generation #Deep Research #User-Defined Agents #Sandboxed Execution

2025년 9월 3일

[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-Turn RL #Reinforcement Learning #Data Flywheel #Agent Framework #Hybrid Environments #Parameter Interpolation

2025년 9월 3일

[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

본 논문은 3D 포인트 클라우드 학습에서 기존 단일 뷰(single-view) 기반 마스킹 재구성(masked reconstruction) 방식의 한계를 극복하고, 더 다양하고 도전적인 두 뷰(two-view) 기반 사전 학습 패러다임 을 탐구하는 것을 목표로 합니다.

#Review #Point Cloud Learning #Self-Supervised Learning #Cross Reconstruction #Decoupled Views #Generative Models #Positional Encoding #3D Vision

2025년 9월 3일

[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.

#Review #Agentic Reinforcement Learning #Large Language Models #LLM Agents #Sequential Decision Making #Policy Optimization #Tool Use #Dynamic Environments #Autonomous AI

2025년 9월 3일

[논문리뷰] The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

이 논문은 대규모 언어 모델(LLMs)이 언어 학습에서 인간과 유사한 메타언어적 추론 능력 을 진정으로 갖추고 있는지 평가하는 것을 목표로 합니다. LLM의 성공이 단순한 패턴 매칭이 아닌, 명시적인 문법 규칙과 어휘를 통해 낯선 언어를 학습하고 적용 하는 능력에서 비롯되는지 진단하고자 합니다.

#Review #LLMs #Metalinguistic Reasoning #Constructed Language #Camlang #Second Language Acquisition #Zero-shot Learning #Natural Language Understanding #Commonsense Reasoning

2025년 9월 3일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일

[논문리뷰] SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

본 논문은 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 시스템의 견고성과 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 시스템들이 실행 기반 피드백에만 의존하여 논리적으로 부정확하지만 문법적으로 유효한 SQL 쿼리 오류를 수정하지 못하는 한계를 극복하고자 합니다.

#Review #Text-to-SQL #Multi-agent Systems #Chain-of-Thought #Error Correction #Large Language Models #Query Planning #Database Interaction

2025년 9월 3일

[논문리뷰] Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 능력을 습득하기 위해 필요한 값비싼 강화 학습(RL) 기반 최적화 과정을 대체하는 방법을 모색합니다.

#Review #Reasoning Vectors #Task Arithmetic #Chain-of-Thought #LLMs #Reinforcement Learning #Model Merging #Parameter Transfer

2025년 9월 3일

[논문리뷰] POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

본 논문은 복잡한 문서 형식(테이블, 수식, 다단 텍스트 등)을 정확하게 변환하기 위한 고품질 주석 데이터의 부족 문제를 해결합니다.

#Review #문서 변환 #시각-언어 모델 #자가 개선 #합성 데이터 #증류 없는 학습 #OCR #멀티모달 AI #데이터 필터링

2025년 9월 3일

[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

OpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision Encoder #Generative Pretraining #Captioning Loss #Training Efficiency #Image-Text Models #Large Language Models

2025년 9월 3일

[논문리뷰] MobiAgent: A Systematic Framework for Customizable Mobile Agents

본 논문은 GUI 기반 모바일 에이전트가 직면하는 낮은 태스크 완료율, 느린 응답 시간, 예상치 못한 상황 처리 능력 부족 등 실세계 태스크 실행의 정확성과 효율성 문제 를 해결하고자 합니다. 특히, 기존 모델들의 한계를 극복하고 맞춤형 모바일 에이전트 를 위한 체계적인 프레임워크를 제공하는 것을 목표로 합니다.

#Review #Mobile Agents #GUI Agents #Vision-Language Models #Agent Acceleration #Benchmarking #Reinforcement Learning #Data Collection

2025년 9월 3일

[논문리뷰] Metis: Training Large Language Models with Advanced Low-Bit Quantization

본 논문은 대규모 언어 모델(LLMs)을 저비트 양자화로 훈련할 때 발생하는 이방성 매개변수 분포 가 불안정한 훈련과 성능 저하의 주된 원인임을 식별하고, 이를 해결하여 견고하고 효율적인 저비트 훈련을 가능하게 하는 새로운 프레임워크인 Metis 를 제안합니다.

#Review #Low-Bit Quantization #LLMs #Spectral Decomposition #Anisotropy #Adaptive Learning Rate #Regularization #FP8 Training #FP4 Training

2025년 9월 3일

[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?

의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Vision Foundation Models #Self-supervised Learning #Vision Transformers (ViT)#Domain Adaptation #DINOv3 #CT Imaging

2025년 9월 3일

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.

#Review #Medical Image Retrieval #Self-Supervised Learning #Multimodal #Zero-shot #Foundation Models #MAE #SimDINO #Vision Transformer

2025년 9월 3일

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

본 논문은 critic 모델이 단순히 응답을 평가하는 것을 넘어 강력한 정책 모델로서 생성 능력까지 갖출 수 있다는 통념에 도전합니다. 최종 목표는 선호도 기반 critic 데이터를 활용한 강화 학습(RL) 을 통해, 평가와 생성 두 가지 역할을 동시에 탁월하게 수행하는 단일 멀티모달 모델을 개발하는 것입니다.

#Review #Vision-Language Models (VLMs)#Critic Models #Policy Models #Reinforcement Learning (RL)#Self-Criticism #Multimodal Reasoning #Preference Learning #Generative Models

2025년 9월 3일

[논문리뷰] Kwai Keye-VL 1.5 Technical Report

본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Slow-Fast Encoding #Long Context #Chain-of-Thought #Reinforcement Learning #Human Alignment #Native-Resolution Vision Encoder

2025년 9월 3일

[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations

대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.

#Review #Reinforcement Learning #Language Models #Diversity Optimization #Quality Enhancement #Semantic Clustering #Post-training #Generative AI

2025년 9월 3일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion Transformer

본 논문은 기존의 수동적이고 노동 집약적인 비디오 합성(Video Compositing) 과정을 생성형 모델 을 사용하여 자동화하는 것을 목표로 합니다.

#Review #Video Compositing #Diffusion Transformer #Generative Models #Video Editing #Position Embedding #Diffusion Models #Masked Token Injection #Video Harmonization

2025년 9월 3일

[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.

#Review #GUI Agents #Adventure Games #Benchmark #Full Story Arc #Observation-Behavior Gap #LLMs #Automated Evaluation

2025년 9월 3일

[논문리뷰] FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models

본 논문은 기존 가상 착용(Virtual Try-On) 기술이 다중 레퍼런스 의상 조합(가먼트 및 액세서리 포함)을 지원하지 못하고, 각 디노이징 단계에서 레퍼런스 피처의 중복 계산으로 인한 비효율성 문제를 해결하는 것을 목표로 합니다. 이를 통해 빠르고 일관된 다중 레퍼런스 가상 착용 프레임워크를 제공하고자 합니다.

#Review #Virtual Try-On #Diffusion Models #Cacheable Architecture #Multi-Reference #Semi-Attention #Efficiency #Image Synthesis

2025년 9월 3일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Video MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.

#Review #Long Video Understanding #Hallucination #Semantic Aggregation #Video MLLM #Benchmark #DPO #Positional Encoding #VideoQA

2025년 9월 3일

[논문리뷰] Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

본 연구는 시각적 자기회귀(VAR) 모델 에서 추가 훈련 없이 프롬프트 기반 이미지 편집 기능을 구현하는 것을 목표로 합니다. 기존 VAR 모델의 편집 능력 한계를 극복하고, 원본 이미지의 관련 없는 세부 사항을 보존하면서 텍스트 프롬프트에 따라 타겟 편집을 정확하고 제어 가능하게 수행하는 방법론을 개발하고자 합니다.

#Review #Image Editing #Autoregressive Models #Noise Inversion #Text-to-Image #Gumbel-max Trick #Training-free #Location-aware Argmax Inversion

2025년 9월 3일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

본 논문은 자동차 손상 평가와 같은 미세하고 컨텍스트에 의존적인 시나리오 에서 객체 탐지의 한계를 극복하는 것을 목표로 합니다. 특히, 기존 DiffusionDet 모델이 로컬 특징 조건화 에만 의존하여 발생하는 탐지 오류를 해결하고, 전역 장면 컨텍스트 를 활용하여 고정밀 탐지 성능을 달성하고자 합니다.

#Review #Object Detection #Diffusion Model #Global Scene Context #Context-Aware Fusion #Fine-grained Detection #Automotive Damage Assessment #Generative Denoising #Cross-Attention

2025년 9월 3일

[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining

대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.

#Review #LLM Optimizers #Benchmarking #Hyperparameter Tuning #AdamW #AdEMAMix #MARS #Mixture of Experts (MoE)#Weight Decay

2025년 9월 3일

[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System

의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.

#Review #Medical AI #LLM #Reinforcement Learning #Verifier System #Patient Simulator #Clinical Rubrics #Baichuan-M2 #HealthBench

2025년 9월 3일

[논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

본 논문은 대규모 언어 모델(LLM)을 활용한 합성 데이터 생성 시 품질과 다양성 확보의 어려움을 해결하는 것을 목표로 합니다. 특히, 하류 태스크 훈련의 견고성을 높이기 위해 데이터 다양성과 생성기 적응성을 자동으로 증폭할 수 있는 프레임워크를 제안합니다.

#Review #Synthetic Data Generation #Large Language Models (LLMs)#Genetic Algorithms #Textual Data Augmentation #Active Learning #NLP #Data Diversity

2025년 9월 3일

[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.

#Review #Bias Mitigation #Large Language Models #Speculative Decoding #Constitutional AI #Fairness #Inference-Time Control #Indian Sociocultural Context

2025년 9월 3일

[논문리뷰] UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat

본 연구는 영어 중심 LLM들이 아랍어의 언어적, 문화적 뉘앙스를 포착하는 데 어려움을 겪는 문제를 해결하기 위해 개발된 ALLaM 34B 모델에 대한 포괄적인 UI-레벨 평가를 수행하는 것을 목표로 합니다.

#Review #Arabic LLM #UI-level Evaluation #ALLaM 34B #HUMAIN Chat #Dialectal Arabic #LLM as a Judge #Safety Evaluation

2025년 9월 2일

[논문리뷰] T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

본 논문은 대규모 언어 모델(LLMs)의 테이블 추론 능력을 산업 애플리케이션에 적용하는 데 있어, 테이블 정보를 포괄적인 보고서로 변환하는 핵심 과제를 해결하고자 합니다. 특히, 복잡하고 다양한 테이블로 인한 추론 성능 저하와 기존 벤치마크의 실제 적용 평가 능력 부족이라는 두 가지 주요 문제를 다룹니다.

#Review #Table-to-Report Generation #Large Language Models (LLMs)#Benchmark Dataset #Industrial Applications #Table Reasoning #Evaluation Metrics #Real-world Data

2025년 9월 2일

[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Critic-Free RL #Agentic Reasoning #Policy Optimization #Large Language Models (LLMs)#Advantage Estimation #Group Sampling #Static Value Estimation

2025년 9월 2일

[논문리뷰] No Label Left Behind: A Unified Surface Defect Detection Model for all Supervision Regimes

본 논문은 기존 표면 결함 감지 모델들이 특정 감독 시나리오에 제한되거나 다양한 데이터 주석 유형(비지도, 약지도, 혼합, 완전 지도)에 적응하기 어려운 문제를 해결하고자 합니다.

#Review #Surface Defect Detection #Anomaly Detection #Mixed Supervision #Deep Learning #Industrial Inspection #Unified Model

2025년 9월 2일

[논문리뷰] How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

본 논문은 복잡하고 동적인 다중 턴 환경(예: τ-bench )에서 대규모 언어 모델(LLM) 에이전트 가 도구를 사용하는 과정에서 발생하는 일관성 없는 추론, 도메인 정책 미준수, 장기적인 정보 추출 실패와 같은 문제들을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Tool Use #Function Calling #Input Reformulation #Dynamic Environments #τ-bench #Context Engineering #Multi-Agent Framework

2025년 9월 2일

[논문리뷰] From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

본 논문은 기존의 반응적(reactive) 접근 방식이 가진 공간 기억의 부재와 그로 인한 복잡한 실세계 환경에서의 일반화 및 적응성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Cognition #Embodied Agents #Brain-inspired AI #Cognitive Map #Spatial Memory #MLLMs #Navigation

2025년 9월 2일

[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning

이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.

#Review #GUI Agent #Foundational Model #Multimodal LLM #Perception #Planning #Reinforcement Learning #Data Engineering #Chinese App Scenarios

2025년 9월 1일

[논문리뷰] TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

언어 모델 사전 훈련 과정에서 고정된 데이터 혼합 전략은 모델의 학습 선호도가 동적으로 변화함에 따라 최적의 성능을 달성하지 못합니다. 본 논문은 이러한 진화하는 데이터 선호도를 효율적으로 관찰 하고, 이를 기반으로 데이터 혼합 비율을 동적으로 조정 하여 모델 성능을 극대화하는 것을 목표로 합니다.

#Review #Language Model Pre-training #Dynamic Data Mixing #Data Influence #Group Influence #Optimization #Regression Model #LLM Training

2025년 9월 1일

[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Game AI #Procedural Knowledge #Declarative Knowledge #Explainable AI #Strategic Decision-Making

2025년 9월 1일

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Driven Talking Head Synthesis #Large-Scale Dataset #Data Diversity #Data Curation #Evaluation Benchmark #Generalization Gap #Algorithmic Fairness

2025년 9월 1일

[논문리뷰] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

본 논문은 복잡한 추론 문제에서 뛰어난 성능을 보이는 기존 MLLM의 step-by-step 사고(thinking) 과정이 단순 문제에서는 불필요한 연산 오버헤드를 유발하는 비효율성을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Auto-Thinking #Reinforcement Learning (RL)#Bi-mode Annealing #Bi-mode Policy Optimization (BPO)#General-Purpose AI #Reasoning #Efficiency

2025년 9월 1일

[논문리뷰] Morae: Proactively Pausing UI Agents for User Choices

본 논문은 기존 UI 에이전트들이 맹인 및 저시력(BLV) 사용자들에게 중요한 의사결정 시 선택권을 주지 않고 자동으로 작업을 완료하여 사용자 주도성을 저해하는 문제를 해결하고자 합니다.

#Review #UI Agents #Accessibility #Human-Agent Interaction #Mixed-Initiative AI #Large Multimodal Models #Proactive AI #User Choice #Blind and Low-Vision Users

2025년 9월 1일

[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

본 논문은 기존의 단일 모달(symbolic regression 또는 LLM) 접근법이 물리학자들이 현상학적 시각적 표현을 활용하는 점을 간과하여 동적 현상 내재의 시공간 패턴을 해석하는 능력이 약하다는 문제를 해결하고자 합니다.

#Review #Physics Formula Discovery #Multimodal AI #Vision-Language Models #Symbolic Regression #Causal Chain of Thought #Reinforcement Learning #Agentic AI

2025년 9월 1일

[논문리뷰] HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

이 논문은 복잡한 다지(multi-fingered) 로봇 핸드를 활용한 모바일 양손 로봇 조작(mobile bimanual dexterous manipulation)에서 다양한 소스의 인간 동작 데이터를 실제 로봇 행동으로 효과적으로 변환 하는 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Dexterous Manipulation #Mobile Manipulation #Human-to-Robot Learning #Sim2Real #Reinforcement Learning #Depth Image #Visual Localization #Bimanual Control

2025년 9월 1일

[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.

#Review #Embodied AI #Robot Control #Vision-Language-Action Models #Multimodal Pretraining #Flow Matching #Foundation Models #Generalization #Real-world Robotics

2025년 9월 1일

[논문리뷰] Efficient Code Embeddings from Code Generation Models

본 논문은 기존 코드 임베딩 모델들이 겪는 지도 학습 데이터 부족 문제 와 대규모 비정렬 코드/자연어 데이터의 활용 미흡 을 해결하고자 합니다.

#Review #Code Embeddings #Code Generation Models #Autoregressive Backbones #Last-Token Pooling #Instruction Tuning #Contrastive Learning #Retrieval-Augmented Generation #MTEB Benchmark

2025년 9월 1일

[논문리뷰] Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

3D 데이터 부족 문제를 해결하기 위해 대규모 비디오 데이터에서 얻은 상식 사전(commonsense priors) 을 활용하여 3D 생성 모델의 일반화 능력을 향상시키는 것을 목표로 합니다.

#Review #3D Generation #Video Diffusion Models #Spatial Consistency #Semantic Knowledge #Multi-view Synthesis #Large-scale Dataset #Image-to-3D #Text-to-3D

2025년 9월 1일

[논문리뷰] CLIPSym: Delving into Symmetry Detection with CLIP

본 논문은 기존 대규모 비전-언어 모델(Vision-Language Models, VLMs)인 CLIP 을 활용하여 이미지 내의 반사 및 회전 대칭을 더욱 정확하고 견고하게 탐지하는 것을 목표로 합니다.

#Review #Symmetry Detection #Vision-Language Models #CLIP #Equivariant Networks #Prompt Engineering #Geometric Deep Learning

2025년 9월 1일

[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models

오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Language Models #Holistic Evaluation #Benchmarking #Multimodality #Fairness #Robustness #Reasoning #Bias Detection

2025년 9월 1일

[논문리뷰] A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

이 논문은 과학 분야 대규모 언어 모델(Sci-LLMs)의 발전 과정을 데이터 기반과 에이전트 프론티어 관점에서 종합적으로 분석하는 것을 목표로 합니다.

#Review #Scientific LLMs #AI for Science #Scientific Data #Agentic AI #Multimodal Integration #Knowledge Representation #Autonomous Discovery #Data Ecosystems

2025년 9월 1일

[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #AI-Generated Code Security #LLM Evaluation #Repository-Level Benchmark #Code Security #Vulnerability Detection #Static Analysis #Reproducibility #Context-Awareness

2025년 9월 1일

[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report

본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.

#Review #Agentic Reinforcement Learning #Math Reasoning #Code Interpreter #Tool Use #GRPO-RoC #LLM Training Efficiency #Self-Reflection

2025년 8월 29일

[논문리뷰] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

본 논문은 스타일 기반 생성(style-driven generation)과 주제 기반 생성(subject-driven generation)이 기존에 별개의 태스크로 다뤄져 상충되는 문제를 해결하고자 합니다.

#Review #Style-Driven Generation #Subject-Driven Generation #Disentangled Representation #Reward Learning #Cross-Task Learning #Diffusion Models #Image Customization #Unified Framework

2025년 8월 29일

[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)이 특정 내부 표현 방향에 의해 매개되며 우회될 수 있다는 기존 연구를 바탕으로, 정반대로 안전 정렬을 강화하는 새로운 방법을 제안합니다.

#Review #LLM Safety #Alignment Amplification #Rank-One Update #Mechanistic Interpretability #Weight Steering #Jailbreak Robustness #Fine-tuning-free #Safety Injection

2025년 8월 29일

[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.

#Review #Instruction Augmentation #Fine-tuning #Large Language Models #Task-Centric #Data Diversity #Task Alignment #Breadth-First Search #Constraint Generation

2025년 8월 29일

[논문리뷰] ROSE: Remove Objects with Side Effects in Videos

기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Video Object Removal #Side Effects #3D Rendering #Diffusion Transformer #Video Inpainting #Synthetic Data #Difference Mask

2025년 8월 29일

[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models

본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.

#Review #Large Language Models #In-Tool Learning #In-Weight Learning #Factual Recall #Retrieval-Augmented Generation #Scaling Laws #Parameter Efficiency #Catastrophic Forgetting

2025년 8월 29일

[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Text-to-Image Generation #GRPO #Reward Hacking #Pairwise Preference #Reward Model #Stable Optimization #UniGenBench

2025년 8월 29일

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.

#Review #Persuasion Dynamics #Large Language Models (LLMs)#Robustness #Gullibility #Receptiveness #Direct Preference Optimization (DPO)#Safety Alignment #Multi-turn Dialogue

2025년 8월 29일

[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.

#Review #Image Generation #Mask-Guided Editing #Reinforcement Learning #Human Preference Learning #Vision-Language Models #Multi-Task Learning #Flow Matching

2025년 8월 29일

[논문리뷰] OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models

다중 턴 대화에서 대규모 언어 모델(LLM) 과의 상호작용이 길고 복잡해짐에 따라, 사용자가 대화 목표 진행 상황 을 효과적으로 평가하고 검토하는 데 겪는 어려움을 해결하는 것이 핵심 연구 목표입니다.

#Review #Large Language Models (LLMs)#Human-Computer Interaction (HCI)#Conversational AI #Goal Tracking #Visualization #Multi-Turn Dialogue #User Interface Design #Sensemaking

2025년 8월 29일

[논문리뷰] Multi-View 3D Point Tracking

본 논문은 기존 단안 카메라 트래커의 깊이 모호성 및 가림(occlusion) 문제나, 20개 이상의 카메라와 복잡한 최적화를 요구하는 기존 멀티 카메라 방식의 한계를 극복하고자 합니다.

#Review #3D Point Tracking #Multi-View #Transformer #kNN Correlation #Depth Estimation #Dynamic Scenes #Occlusion Handling #Feature Fusion

2025년 8월 29일

[논문리뷰] Mixture of Contexts for Long Video Generation

본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.

#Review #Long Video Generation #Diffusion Transformers (DiT)#Sparse Attention #Context Routing #Memory Management #Generative Models #Video Synthesis

2025년 8월 29일

[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.

#Review #LLM Agents #Tool Use #Benchmarking #Model Context Protocol (MCP)#Cross-Domain Orchestration #Fuzzy Instructions #Multi-Step Tasks #Real-World Scenarios

2025년 8월 29일

[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes

본 연구는 미묘하고 국소적인 조작이 가해져 탐지하기 어려운 새로운 형태의 딥페이크인 FakeParts 를 정의하고, 기존 탐지 시스템의 한계를 극복하기 위해 포괄적인 벤치마크 데이터셋 FakePartsBench 를 구축하는 것을 목표로 합니다.

#Review #Deepfake Detection #Partial Deepfakes #AI-Generated Video #Benchmark Dataset #Video Forensics #Generative Models #Manipulation Detection #Human Perception

2025년 8월 29일

[논문리뷰] Dress&Dance: Dress up and Dance as You Like It - Technical Preview

본 논문은 정적인 2D 이미지 기반의 가상 착용(virtual try-on) 방식과 기존 비디오 생성 모델의 한계를 극복하여, 사용자가 원하는 옷을 입고 특정 동작(춤)을 수행하는 고품질의 5초 길이, 1152x720 해상도, 24 FPS 가상 착용 비디오를 생성하는 것을 목표로 합니다.

#Review #Virtual Try-On #Video Diffusion #Multi-modal Conditioning #Garment Transfer #Pose Animation #Generative AI #Fashion Tech #CondNet

2025년 8월 29일

[논문리뷰] Collaborative Multi-Modal Coding for High-Quality 3D Generation

본 논문은 기존 3D 생성 모델들이 단일 모달리티(예: RGB 이미지)에 의존하여 훈련 데이터의 범위가 제한되고 멀티모달 데이터의 상호 보완적 이점을 간과하는 문제를 해결하고자 합니다.

#Review #3D Generation #Multi-modal Learning #Diffusion Models #Triplane Representation #Collaborative Coding #Image-to-3D #Latent Space

2025년 8월 29일

[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

본 논문은 기존 Vision-Language-Action (VLA) 모델의 높은 계산 오버헤드 와 모달리티 간의 의미론적 불일치(semantic fragmentation) 문제를 해결하여, VLA 모델의 확장성과 배포 가능성을 제한하는 요소를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Sparsification #Instruction-Driven Routing #Cognition-Aligned AI #Robotics #Computational Efficiency #Multimodal AI

2025년 8월 29일

[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI

본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.

#Review #Agentic AI #Reinforcement Learning #Distributed Systems #Experience Generation #LLM Fine-tuning #GAIA Benchmark #Scalability #AWORLD Framework

2025년 8월 29일

[논문리뷰] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

전통적인 자동 스케일러가 Prefill-Decode (P/D) 분리형 아키텍처 를 사용하는 대규모 언어 모델(LLM) 추론 환경에서 비효율적이라는 문제에 직면했습니다. 이로 인해 이기종 하드웨어의 비효율적인 사용, 네트워크 병목 현상, 그리고 Prefill 및 Decode 단계 간의 불균형이 발생합니다.

#Review #LLM Inference #Autoscaling #Disaggregated Architecture #Heterogeneous Hardware #Resource Management #Topology-aware Scheduling #GPU Utilization

2025년 8월 28일

[논문리뷰] StepWiser: Stepwise Generative Judges for Wiser Reasoning

본 논문은 대규모 언어 모델(LLM)이 복잡한 문제 해결을 위해 사용하는 다단계 추론(Chain-of-Thought) 전략에서 각 중간 단계의 논리적 유효성을 감독하는 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Process Reward Models #Reinforcement Learning #Generative Judges #Stepwise Feedback #Chain-of-Thought #Meta-Reasoning

2025년 8월 28일

[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning Decomposition

Vision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Rewarding #Reasoning Decomposition #Visual Perception #Language Reasoning #Hallucinations #Language Shortcuts

2025년 8월 28일

[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling

기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Language Modeling #Next-Token Prediction #Multi-Token Prediction #Token Order Prediction #Auxiliary Objective #Learning-to-Rank #Transformer #Large Language Models

2025년 8월 28일

[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

본 논문은 기존 텍스트 기반 모션 생성 방법론이 겪는 언어적 설명과 모션 의미 간의 부정확한 정렬 및 느리고 비효율적인 다단계 추론 과정 의 문제를 해결하고자 합니다. 궁극적으로 강력한 의미론적 정렬, 고품질 모션 생성, 그리고 실시간 합성을 가능하게 하는 프레임워크를 개발하는 것이 목표입니다.

#Review #Text-Guided Motion Generation #Rectified Flow Matching #Preference Alignment #Human Motion Synthesis #Real-time AI #Transformer Architecture #Self-supervised Learning

2025년 8월 28일

[논문리뷰] Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

본 논문은 MLLM 기반 스마트폰 에이전트 의 개인정보 보호 인식(Privacy Awareness) 능력을 체계적으로 평가하기 위한 최초의 대규모 벤치마크를 구축하고, 에이전트들이 민감한 사용자 정보에 접근할 때 적절한 개인정보 보호 조치를 취하는지 검증하는 것을 목표로 합니다.

#Review #Multimodal LLMs (MLLMs)#Smartphone Agents #Privacy Awareness #Benchmarking #Sensitive Data Detection #Risk Assessment #UI Automation

2025년 8월 28일

[논문리뷰] MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation

본 논문은 다양한 입력 신호에 실시간으로 반응하며, 낮은 지연 시간과 높은 시각적 일관성을 유지하는 대화형 디지털 휴먼 비디오 생성 시스템 을 구축하는 것을 목표로 합니다. 기존 방식의 높은 지연 시간, 계산 비용, 제한된 제어 가능성 등의 한계를 극복하고자 합니다.

#Review #Multimodal Generation #Digital Human Synthesis #Real-time Video Generation #Autoregressive LLM #Diffusion Models #Deep Compression Autoencoder #Exposure Bias Mitigation #Streaming Inference

2025년 8월 28일

[논문리뷰] Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation

기존 rPPG(remote PhotoPlethysmoGraphy) 데이터셋의 한계 (작은 규모, 사생활 침해 우려, 조건 다양성 부족, 접근 제한)를 극복하고, 원격 건강 모니터링 및 AI 의료 보조 시스템 개발 을 가속화하기 위한 포괄적인 대규모 다중 뷰 비디오 데이터셋과 베이스라인 모델을 구축하는 것을 목표로 합니다.

#Review #rPPG #Multi-View Video Dataset #Health Biomarkers #Physiological Monitoring #Deep Learning #Telemedicine #Biosignals

2025년 8월 28일

[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Action Decoding #Transformer #Robot Control #Masked Modeling #Adaptive Decoding #Reinforcement Learning

2025년 8월 28일

[논문리뷰] Diffusion Language Models Know the Answer Before Decoding

본 논문은 확산 언어 모델(DLM)의 주요 단점인 느린 추론 속도를 해결하는 것을 목표로 합니다.

#Review #Diffusion Language Models #DLM Acceleration #Early Answer Convergence #Early Commit Decoding #Confidence Gap #Inference Speedup #Training-Free

2025년 8월 28일

[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.

#Review #Generative Research Synthesis #Live Benchmark #Automated Evaluation #LLM-as-a-judge #Related Work Generation #Retrieval-Augmented Generation #Verifiability

2025년 8월 28일

[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

GUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #GUI Agents #Reinforcement Learning #Planner-Executor Architecture #Decoupled Training #Large Vision-Language Models #Specialization #Generalization #Computer Use Agent

2025년 8월 28일

[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR

본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.

#Review #ASR #Mechanistic Interpretability #Logit Lens #Linear Probing #Activation Patching #Hallucinations #Repetitions #Encoder-Decoder

2025년 8월 28일

[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models

본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.

#Review #Text-to-Audio #Long-Form Audio Generation #Large Language Models #Narrative Reasoning #Diffusion Models #Multimodal AI #Progressive Training

2025년 8월 28일

[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video Generation

본 연구는 기존 오디오 기반 캐릭터 애니메이션 모델이 복잡한 영화 및 TV 프로덕션 시나리오(미묘한 상호작용, 현실적인 신체 움직임, 다이내믹한 카메라 워크)에서 한계를 보이는 문제를 해결합니다.

#Review #Audio-Driven Video Generation #Cinematic Video #Diffusion Models #Transformer Architecture #Long Video Consistency #Human Animation #Multimodal Control #Data Curation

2025년 8월 27일

[논문리뷰] VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

본 논문은 기존 2D 이미지 기반의 3D 편집 방법론이 겪는 비일관성 및 비정밀성의 한계를 극복하고, 네이티브 3D 잠재 공간 에서 훈련 없이(training-free) 정밀하고 일관성 있는 3D 로컬 편집을 수행하는 것을 목표로 합니다.

#Review #3D Editing #Training-Free #Diffusion Models #Latent Space #3D Inversion #Contextual Feature Replacement #3D Consistency #Edit3D-Bench

2025년 8월 27일

[논문리뷰] VibeVoice Technical Report

본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.

#Review #Speech Synthesis #Long-form Audio #Multi-speaker #Next-token Diffusion #Speech Tokenizer #Large Language Model #Variational Autoencoder #Audio Compression

2025년 8월 27일

[논문리뷰] Unraveling the cognitive patterns of Large Language Models through module communities

본 논문은 LLM의 내부 아키텍처와 인지 과정을 이해하기 어려운 ‘블랙박스’ 문제를 해결하고자 합니다. 특히 기존 연구에서 부족했던 스킬 간의 관계, 동적 적응성, 교차 도메인 일반화 및 메커니즘의 상세한 해석 가능성 탐색에 중점을 둡니다.

#Review #Large Language Models #Network Community Structure #Cognitive Skills #AI Interpretability #Module Communities #Fine-tuning #Neural Plasticity

2025년 8월 27일

[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.

#Review #Memory Networks #Mixture of Experts (MoE)#Long-Context Learning #Sparse Models #Transformer Architecture #LLMs #Efficient Inference

2025년 8월 27일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 사이버 보안 취약점을 자동으로 탐지하고 악용하는 것을 목표로 합니다.

#Review #LLM Agents #Cybersecurity #CTF Challenges #Vulnerability Detection #Execution Environments #Docker #Automated Training #Verifiable Feedback

2025년 8월 27일

[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.

#Review #LLMs #Controllable Reasoning #Computational Efficiency #Reinforcement Learning #Supervised Fine-tuning #Reasoning Compression #Budget-Aware Training

2025년 8월 27일

[논문리뷰] Spacer: Towards Engineered Scientific Inspiration

Spacer는 기존 LLM의 한계인 제한된 창의성과 문맥 의존성을 극복하여 외부 개입 없이 창의적이고 사실에 기반한 과학적 개념을 생성하는 것을 목표로 합니다.

#Review #Scientific Discovery #Large Language Models (LLMs)#Decontextualization #Keyword Graph #Multi-Agent System #Scientific Ideation #Research Automation #Inspiration Engine

2025년 8월 27일

[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.

#Review #Deep Research Agents #LLM Evaluation #Academic Survey #Factual Accuracy #Citation Verification #Report Generation #Benchmark #Hallucination

2025년 8월 27일

[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.

#Review #Hallucination Mitigation #Large Language Models #Contextual Bandits #Query Rewriting #Semantic Features #No-Regret Learning

2025년 8월 27일

[논문리뷰] Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

이 논문은 기존 3D 장면 재구성 모델(예: NeRF, Gaussian Splatting)이 시각적 외형에만 집중하고 물리적 속성 예측에는 한계가 있는 문제를 해결하고자 합니다.

#Review #3D Physics Prediction #Supervised Learning #CLIP Features #Neural Radiance Fields #Material Point Method #PIXIEVERSE Dataset #Zero-Shot Generalization

2025년 8월 27일

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일

[논문리뷰] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

기존 비디오 아바타 모델이 오디오 리듬에 국한된 물리적 애니메이션만 생성하는 한계를 넘어, 감정, 의도, 문맥을 깊이 이해하여 의미론적으로 일관되고 표현력이 풍부한 캐릭터 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Video Avatar Generation #Cognitive Simulation #Multimodal Large Language Models (MLLMs)#Diffusion Transformers (DiT)#Multimodal Fusion #Human Motion Synthesis #Contextual Animation

2025년 8월 27일

[논문리뷰] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

기존 3D 인페인팅 방법론들이 다중 뷰 2D 이미지 인페인팅에 의존하여 발생하는 뷰 간 불일치, 흐릿한 텍스처, 공간 불연속성 문제를 해결하고자 합니다. 이를 극복하고 비디오 확산 모델 의 시공간적 일관성 유지 능력을 활용하여 고품질의 일관된 3D 객체 완성 및 편집을 목표로 합니다.

#Review #3D Inpainting #Multi-view Consistency #Video Diffusion Models #3D Object Completion #Generative Models #LoRA #3D Gaussian Splatting

2025년 8월 27일

[논문리뷰] MovieCORE: COgnitive REasoning in Movies

본 논문은 기존의 비디오 질의응답(VQA) 데이터셋이 표면적인 이해에 머무는 한계를 극복하고, 영화 콘텐츠에 대한 깊이 있는 인지적 이해 와 System-2 사고 를 유도하는 새로운 VQA 데이터셋 MovieCORE 를 제안합니다.

#Review #Video Question Answering (VQA)#Cognitive Reasoning #System-2 Thinking #Multi-agent LLMs #Dataset Creation #Movie Understanding #Cinematic Content #Agentic Enhancement

2025년 8월 27일

[논문리뷰] FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

기존 메시 생성 방식이 토큰 시퀀스 내의 정점(vertex) 중복 사용으로 인해 발생하는 비효율성(과도한 토큰 길이, 느린 생성 프로세스)을 해결하고, 정점과 면(face)을 분리하여 처리 함으로써 고품질의 예술적 메시를 더욱 효율적이고 빠르게 생성 하는 것을 목표로 합니다.

#Review #3D Mesh Generation #Component Decoupling #Autoregressive Models #Bidirectional Transformer #Fidelity Enhancement #Prediction Filtering #Token Efficiency #Artistic Meshes

2025년 8월 27일

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Scientific Reasoning #Knowledge Retrieval #Reasoning Probing #Benchmarks #Chain-of-Thought #Fine-tuning

2025년 8월 27일

[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.

#Review #Legal AI #Natural Language Processing #Claim Generation #Chinese Legal Dataset #Factuality #Clarity #Large Language Models #Zero-shot Evaluation

2025년 8월 27일

[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

기존 확산 모델이 낮은 해상도 데이터로 훈련되어 고해상도 시각 콘텐츠 생성 시 반복적인 패턴이나 흐릿함, 품질 저하 문제를 겪는 한계를 해결합니다.

#Review #Diffusion Models #High-Resolution Generation #Image Generation #Video Generation #UNet Architecture #DiT Architecture #Scale Fusion #LoRA Fine-tuning

2025년 8월 27일

[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.

#Review #Large Language Models #Condensed Matter Physics #Benchmark #Scientific Reasoning #Evaluation Metric #Expression Edit Distance #Problem Solving

2025년 8월 27일

[논문리뷰] Autoregressive Universal Video Segmentation Model

현재 단편화된 비디오 분할 태스크들을 단일 아키텍처 로 통합하고, 프롬프트 기반(prompted) 및 비프롬프트 기반(unprompted) 비디오 분할을 아우르는 범용 모델을 개발하는 것이 목표입니다.

#Review #Video Segmentation #Autoregressive Model #Universal Model #State Space Models #Mamba #Parallel Training #Streaming Video #Deep Learning

2025년 8월 27일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] UQ: Assessing Language Models on Unsolved Questions

AI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.

#Review #LLM Evaluation #Unsolved Questions #AI Benchmark #Oracle-Free Validation #Generator-Validator Gap #Community Evaluation #Stack Exchange

2025년 8월 26일

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.

#Review #Speech Tokenizer #Diffusion Model #Text-to-Speech #Speech Language Modeling #Low Bitrate Codec #End-to-End Training #Binary Spherical Quantization

2025년 8월 26일

[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.

#Review #Text-to-Image Generation #Reasoning Benchmark #Idiom Interpretation #Textual Image Design #Entity Reasoning #Scientific Reasoning #Multimodal LLM Evaluation

2025년 8월 26일

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.

#Review #Visually-Guided Image Editing #Multimodal Models #Benchmark #Hallucination #Diffusion Models #Autoregressive Models #Evaluation Metrics

2025년 8월 26일

[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.

#Review #Semi-structured Tables #Question Answering #LLMs #Hierarchical Orthogonal Tree #Table Layout Understanding #Pipeline Generation #Verification Mechanism

2025년 8월 26일

[논문리뷰] PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs

기존 학술 포스터 자동 생성 방식은 미학적 원칙을 간과하여 수동 수정이 많이 필요하다는 문제에 직면합니다.

#Review #Multi-Agent LLMs #Academic Poster Generation #Aesthetic Design #Layout Optimization #Typography #Color Palette #VLM-as-Judge #Content Fidelity

2025년 8월 26일

[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.

#Review #LLMs as Judges #NLG Evaluation #Measurement Theory #Validity #Reliability #Evaluation Bias #Scalability #Responsible AI

2025년 8월 26일

[논문리뷰] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

본 논문은 극도로 희소한(sparse-view) 이미지 로부터 정확한 3D 장면의 표면을 재구성하는 문제를 해결하고자 합니다.

#Review #Sparse-View #Surface Reconstruction #Gaussian Splatting #2DGS #Novel View Synthesis #Generalizable #Mesh Extraction #3D Vision

2025년 8월 26일

[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion

본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Multiview Diffusion #Text-to-3D Generation #Out-of-Domain #Image Retrieval #3D Consistency #Diffusion Models #Hybrid Training

2025년 8월 26일

[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Language Models #Multilingual Benchmarking #Persian Language #Educational Assessment #Vision-Language Models #Cultural Nuance #Reasoning Tasks

2025년 8월 26일

[논문리뷰] Limitations of Normalization in Attention Mechanism

본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.

#Review #Attention Mechanism #Normalization #Softmax #Transformer Models #Gradient Sensitivity #Token Separability #Context Length #GPT-2

2025년 8월 26일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.

#Review #Text Simplification #Paraphrasing #Readability Control #German NLP #Dataset Generation #LLM Distillation #Multi-level Text Generation #Accessibility

2025년 8월 26일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일

[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.

#Review #Reasoning Depth #Cellular Automata #Transformer Architectures #Recurrence #Adaptive Computation Time #Chain-of-Thought #Reinforcement Learning #Generalization

2025년 8월 26일

[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference

본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.

#Review #LLM Inference #Tensor Parallelism #KV Cache Optimization #Latent Attention #Memory Efficiency #Decoding Speedup #Prefill/Decode Separation #Reparameterization

2025년 8월 25일

[논문리뷰] Selective Contrastive Learning for Weakly Supervised Affordance Grounding

본 논문은 약지도 어포던스 그라운딩(Weakly Supervised Affordance Grounding, WSAG) 에서 모델이 어포던스 관련 부위 대신 일반적인 클래스 패턴에 집중하는 한계를 극복하고자 합니다.

#Review #Weakly Supervised Learning #Affordance Grounding #Contrastive Learning #CLIP #Part Discovery #Object Localization #DINO #Generative Models

2025년 8월 25일

[논문리뷰] Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

본 논문은 3D 인체 포즈 및 형태 추정에서 널리 사용되지만 계산 비용이 높은 SMPLify 의 반복적 최적화 과정을 데이터 기반 신경망 으로 대체하여, 최적화 없이 빠른 시간 내에 인버스 키네마틱스(IK) 문제를 해결하는 것을 목표로 합니다.

#Review #Inverse Kinematics #Human Pose Estimation #SMPL Model #Neural Networks #Optimization-Free #Residual Learning #Data-Driven

2025년 8월 25일

[논문리뷰] Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

본 논문은 상업용 블랙박스 LLM에 대한 효과적인 탈옥(jailbreak) 공격 방법론을 개발하고, 기존 레드팀 데이터셋의 부적절한 프롬프트(Benign, Non-obvious Harmful, Non-Triggering harmful-response) 문제를 해결하여 LLM 평가의 정확성을 높이는 것을 목표로 합니다.

#Review #LLM Jailbreaking #Red Teaming #Malicious Content Detection #Developer Messages #D-Attack #DH-CoT #Adversarial Attacks #Dataset Cleaning

2025년 8월 25일

[논문리뷰] InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

본 연구는 LLM이 인간의 개별적인 추론 스타일, 특히 사회적 맥락에서 사람들의 행동과 의도를 해석하고 적용하는 능력을 평가하는 것을 목표로 합니다.

#Review #LLM Evaluation #Human Reasoning Styles #Social Deduction Games #Theory of Mind #Adaptive Reasoning #Avalon Game #Cognitive Grounding

2025년 8월 25일

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.

#Review #Agentic RAG #Medical Diagnosis #Reinforcement Learning #Traceable AI #Large Language Models #Clinical Decision Support #Out-of-Distribution Generalization #Reward Design

2025년 8월 25일

[논문리뷰] EgoTwin: Dreaming Body and View in First Person

본 논문은 egocentric video 생성 분야의 미개척 영역을 탐구하며, 특히 카메라 착용자의 모션과 시점이 일관되고 인과적으로 연결된 방식으로 egocentric video와 인간 모션을 공동 생성하는 새로운 태스크를 제시합니다.

#Review #Egocentric Video Generation #Human Motion Synthesis #Diffusion Transformers #Multimodal Generation #Viewpoint Alignment #Causal Interplay #First-Person Vision

2025년 8월 25일

[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible

본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #False Premise Detection #Instruction Following #Human-Robot Interaction #Clarification #Instruction Tuning

2025년 8월 25일

[논문리뷰] CRISP: Persistent Concept Unlearning via Sparse Autoencoders

본 논문은 대규모 언어 모델(LLMs)에서 불필요하거나 유해한 지식을 영구적으로 제거(Persistent Concept Unlearning) 하면서도 모델의 일반적인 유용성과 생성 품질을 유지하는 것을 목표로 합니다.

#Review #Concept Unlearning #Sparse Autoencoders (SAEs)#LLMs #Parameter-Efficient Fine-Tuning #Model Interpretability #Safety-Critical AI #Feature Suppression #WMDP Benchmark

2025년 8월 25일

[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Contrastive Learning #Reinforcement Learning #Fine-tuning #Chain-of-Thought (CoT)#Annotated Data #Model Stability

2025년 8월 25일

[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Play #Variational Problem Synthesis #Policy Entropy #Pass@k #Reasoning Benchmarks

2025년 8월 25일

[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 애플리케이션 구축 시 발생하는 유연하고 효율적인 도구 기반 에이전트-환경 상호작용의 어려움을 해결하고자 합니다. 이를 위해 AgentScope 1.0 이라는 개발자 중심 프레임워크를 제시하여, 복잡한 에이전트 애플리케이션 개발을 위한 포괄적인 지원을 목표로 합니다.

#Review #LLM Agents #Agentic Applications #ReAct Paradigm #Framework #Tool Use #Multi-Agent Systems #Developer Experience #Evaluation

2025년 8월 25일

[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.

#Review #Competitive Programming #LLM Evaluation #Code Reasoning #Benchmark #Test Case Generation #Programming Competitions #Algorithmic Problems

2025년 8월 25일

[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists

AI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #AI Agents #Open Access #Scientific Discovery #Peer Review #LLMs #Multi-agent Systems #Prompt Injection #Iterative Refinement

2025년 8월 22일

[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.

#Review #Video-LLM #Diffusion Model #Temporal Grounding #Object Segmentation #Long Video Understanding #Multimodal AI #Video Question Answering

2025년 8월 22일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

본 연구는 극도로 희소한 입력(전면 및 후면 이미지 단 두 장)만으로 3D 인체 가우시안을 재구성하는 도전적인 문제를 해결하고자 합니다. 기존 방법론의 고비용 데이터 수집 및 긴 처리 시간의 한계를 극복하고, 사용자 친화적인 방식으로 디지털 휴먼 생성을 위한 문턱을 낮추는 것을 목표로 합니다.

#Review #3D Human Reconstruction #Gaussian Splatting #Sparse View #Two-Image Input #Real-time Inference #Point Cloud Prediction #Feed-forward Network

2025년 8월 22일

[논문리뷰] SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

본 논문의 핵심 목표는 단일 장면 이미지와 객체 마스크를 입력으로 받아, 최적화나 에셋 검색 과정 없이 하나의 피드포워드 패스 만으로 다수의 3D 에셋(기하학적 구조, 텍스처, 공간 배치 포함)을 동시에 효율적으로 생성하는 것입니다.

#Review #3D Scene Generation #Single-Image Input #Feedforward Networks #Diffusion Models #Geometric Modeling #Texture Synthesis #Transformer #Feature Aggregation

2025년 8월 22일

[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation

본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.

#Review #GUI Automation #Multimodal Agents #Foundational Models #Reinforcement Learning #Large Language Models #Cross-Platform #Self-Supervised Learning

2025년 8월 22일

[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.

#Review #AI Agents #Tool Use #Model Context Protocol (MCP)#Benchmarking #Large Language Models (LLMs)#Real-world Tasks #Evaluation #Error Analysis

2025년 8월 22일

[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model

본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.

#Review #Multimodal Foundation Model #Scientific AI #Reinforcement Learning #Mixture-of-Experts (MoE)#Dynamic Tokenizer #Data Curation #Low-Resource Learning

2025년 8월 22일

[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior

이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.

#Review #AI Companionship #Benchmark #Language Models (LLMs)#Human-AI Interaction #Emotional AI #Boundary Setting #Psychological Frameworks #Evaluation Metrics

2025년 8월 22일

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Process Reward Models #Financial Reasoning #Domain Specialization #RLHF #Best-of-N Selection #Data Curation

2025년 8월 22일

[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual Inquiries

본 논문은 기존 지도 시스템이 구조화된 GIS 데이터에 의존하여 시각적-공간적 질의(예: '카페 입구가 접근 가능한가요?', '문은 어디에 있고 어떻게 생겼나요?')에 답변하는 데 한계가 있음을 지적합니다.

#Review #Geospatial AI #Multimodal AI Agents #Visual Question Answering #Accessibility #Street View Imagery #Spatial Reasoning #Human-Computer Interaction

2025년 8월 22일

[논문리뷰] Deep Think with Confidence

본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.

#Review #LLM Reasoning #Confidence Filtering #Self-Consistency #Test-Time Optimization #Computational Efficiency #Adaptive Sampling #Early Stopping #Majority Voting

2025년 8월 22일

[논문리뷰] ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling

기존 파라메트릭 인체 모델(예: SMPL-X)이 겪는 골격 및 표면 간의 원치 않는 상관관계, 제한된 표현력, 그리고 미세한 속성 제어의 어려움을 해결하는 것을 목표로 합니다.

#Review #Parametric Human Model #3D Human Modeling #Shape-Skeleton Decoupling #Pose Correctives #Single Image Mesh Fitting #Expressive Modeling #Goliath Dataset

2025년 8월 22일

[논문리뷰] A Survey on Large Language Model Benchmarks

본 논문은 대규모 언어 모델(LLM) 평가 벤치마크의 현재 상태와 발전 과정을 체계적으로 검토하고, 기존 벤치마크의 한계를 분석하며, 향후 벤치마크 혁신을 위한 설계 패러다임을 제시하는 것을 목표로 합니다. LLM의 기능 측정과 기술 혁신 촉진이라는 핵심 역할을 하는 벤치마크의 중요성을 강조합니다.

#Review #LLM Benchmarks #Evaluation #Systematic Review #General Capabilities #Domain-Specific Benchmarks #Target-Specific Benchmarks #Data Contamination #AI Ethics

2025년 8월 22일

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일

[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

본 논문은 베트남어 다중 양식 시험 문제에 대한 Vision Language Models (VLMs) 의 성능을 평가하는 것을 목표로 합니다. 주로 영어 데이터로 훈련된 VLMs가 저자원 언어인 베트남어 환경에서 실제 교차 언어 복합 양식 추론 을 효과적으로 처리할 수 있는지 조사하고자 합니다.

#Review #Vision Language Models #Multimodal AI #Vietnamese Language #Educational Assessment #Low-Resource Languages #Cross-Lingual Reasoning #ViExam #Human-in-the-Loop

2025년 8월 21일

[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

본 논문은 기존 3D 편집 방식의 주요 한계인 방대한 장면별 최적화(per-scene optimization) 필요성 을 제거하고, 단일 또는 소수의 입력 이미지로부터 멀티-뷰 일관성(multi-view consistent) 을 유지하는 고품질 3D 편집을 목표로 합니다.

#Review #3D Editing #Multi-View Consistency #Diffusion Models #Sparse Input #Zero-Shot Learning #Scene Completion #Gaussian Splatting

2025년 8월 21일

[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.

#Review #Multi-modal Large Language Models #Embodied AI #Embodied Cognition #Video Understanding #Instance Segmentation #Spatial Reasoning #Robotics

2025년 8월 21일

[논문리뷰] Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

본 논문은 멀티모달 추천 시스템의 주요 문제점인 데이터 희소성을 해결하고, 기존 대조 학습(Contrastive Learning) 방법의 두 가지 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-modal Recommendation #Contrastive Learning #Graph Neural Network #Homography Relations #Meta-network #Orthogonal Constraint #Data Sparsity

2025년 8월 21일

[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.

#Review #Diffusion LLMs #Post-training Quantization (PTQ)#Model Compression #Activation Outliers #Quantization Methods #Efficient Deployment #Large Language Models

2025년 8월 21일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일

[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.

#Review #LLM #Point Clouds #3D Reconstruction #Structured Mesh #Blender Python #Shape Editing #Part-based Representation #Large Language Model

2025년 8월 21일

[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Large Language Models #Benchmarking #Model Context Protocol #Tool Use #Real-World Applications #Agent Evaluation #Long Context #Unknown Tools

2025년 8월 21일

[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

본 논문은 컴퓨터 비전에서 발생하는 객체의 지역적 스케일 변화 문제를 해결하고, 모델의 지역적 스케일 일관성(local scale consistency) 을 향상시키는 것을 목표로 합니다.

#Review #Scale Equivariance #Deep Equilibrium Models #Canonicalization #Computer Vision #Image Classification #Semantic Segmentation #Latent Representation #Monotone Scaling

2025년 8월 21일

[논문리뷰] Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

본 논문은 완전 동형 암호(FHE) 프레임워크, 특히 TFHE 와 같은 3세대 스킴에서 Levenshtein(편집) 거리 계산의 높은 연산 비용 을 획기적으로 줄이는 것을 목표로 합니다. 금융 및 유전체학과 같이 민감한 데이터의 프라이버시를 보존하면서 문자열 유사도 계산을 효율적으로 수행하는 것이 주된 연구 목적입니다.

#Review #Fully Homomorphic Encryption (FHE)#TFHE #Levenshtein Distance #Programmable Bootstrapping (PBS)#Privacy-Preserving Computation #String Similarity

2025년 8월 21일

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.

#Review #LLM Agents #Future Prediction #Live Benchmark #Dynamic Evaluation #Data Contamination #Tool Use #Web Search #Financial Forecasting #Misinformation

2025년 8월 21일

[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

기존 금융 LLM 벤치마크의 단일 점수 평가 방식(score flattening) 과 불균형한 개념 커버리지(coverage imbalance) 로 인해 모델의 실제 지식 수준과 한계를 파악하기 어렵다는 문제를 해결하고자 합니다.

#Review #Financial LLMs #Cognitive Diagnosis Model #LLM Evaluation #Knowledge Assessment #Matrix Factorization #CPA-QKA #Interpretability

2025년 8월 21일

[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.

#Review #Agentic AI #Autonomous Scientific Discovery #AI for Science #Large Language Models #Multi-agent Systems #Scientific Workflow Automation #Natural Sciences

2025년 8월 21일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일

[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.

#Review #Zero-shot HAR #LLM Agents #Time-Series Analysis #Knowledge Base #Retrieval-Augmented Generation #Multi-sensor Fusion #Interpretability

2025년 8월 20일

[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.

#Review #Text-Guided Editing #Color Editing #Diffusion Transformers #Training-Free #Multi-Modal AI #Attention Control #Image Manipulation

2025년 8월 20일

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일

[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation

본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.

#Review #Generative Models #Search and Recommendation #Semantic IDs #Bi-Encoder #Quantization #Multi-Task Learning #Retrieval Augmented Generation

2025년 8월 20일

[논문리뷰] Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research

이 논문은 NeRF 및 3DGS 와 같은 Radiance Field (RF) 기술이 확장 현실(XR) 분야에서 어떻게 구상되고(envisioned) 실제로 구현되었는지(addressed) 사이의 연구 격차를 체계적으로 분석하는 것을 목표로 합니다.

#Review #Radiance Fields #XR #NeRF #3D Gaussian Splatting #View Synthesis #Systematic Review #Immersive Technology

2025년 8월 20일

[논문리뷰] Prompt Orchestration Markup Language

이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.

#Review #Prompt Engineering #Large Language Models #Markup Language #Structured Prompting #IDE Support #Multimodal Data #Styling System #Development Toolkit

2025년 8월 20일

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.

#Review #Virtual Try-On #Diffusion Model #Mask-Free #Image Inpainting #ID Consistency #Wearable Objects #Generative AI

2025년 8월 20일

[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References

이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.

#Review #Controllable Image Generation #Multi-modal Generation #Visual References #Image-to-Image #Benchmark #Dataset #MLLM-as-a-Judge

2025년 8월 20일

[논문리뷰] Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence

이 논문은 골격 토폴로지가 크게 다른 캐릭터 간의 애니메이션 전이 문제를 해결하는 것을 목표로 합니다.

#Review #Motion Transfer #Cross-topology #Sparse Correspondence #Motion Matching #Animation #Training-free #Few-shot Learning

2025년 8월 20일

[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation

대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #LLMs #Confidence Estimation #Fine-Grained #Generation Process #Calibration #Monte Carlo Sampling #Backward Confidence Integration

2025년 8월 20일

[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation

의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.

#Review #Medical Image Segmentation #Model Merging #Training-Free #SAM #Generalization #Zero-Order Optimization #Bayesian Optimization

2025년 8월 20일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

본 논문은 불규칙한 카메라 움직임, 알 수 없는 카메라 자세, 방대한 장면 크기 등 일반적인 긴 비디오에서 발생하는 Novel View Synthesis (NVS)의 핵심 문제 를 해결하고자 합니다.

#Review #Novel View Synthesis #3D Gaussian Splatting #Unposed Reconstruction #Camera Pose Estimation #Incremental Optimization #Octree #Long Videos

2025년 8월 20일

[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery

본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.

#Review #Large Language Models (LLMs)#Affective Computing #Misery Score Prediction #Prompt Engineering #Few-shot Learning #Gamified Evaluation #Feedback-driven Adaptation

2025년 8월 20일

[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.

#Review #Podcast Recommendation #LLM-as-a-Judge #Offline Evaluation #User Profiling #Recommender Systems #Natural Language Processing

2025년 8월 20일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.

#Review #Sparse Autoencoders #LLM Steering #Feature Selection #Correlation Analysis #AI Safety #Bias Mitigation #Mechanistic Interpretability

2025년 8월 20일

[논문리뷰] Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends

이 논문은 대규모 언어 모델(LLM)의 높은 개발 비용, 독점적 가치 및 오용 가능성을 고려할 때 필수적인 저작권 보호 에 대한 포괄적인 조사를 제공합니다.

#Review #LLM Copyright Protection #Model Fingerprinting #Text Watermarking #Invasive Fingerprinting #Intrinsic Fingerprinting #Intellectual Property #Digital Rights Management #Backdoor Watermarking

2025년 8월 20일

[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.

#Review #Chain-of-Agents #Agent Foundation Models #Multi-Agent Systems #Tool-Integrated Reasoning #Multi-agent Distillation #Agentic Reinforcement Learning #LLMs #End-to-End Learning

2025년 8월 20일

[논문리뷰] CAMAR: Continuous Actions Multi-Agent Routing

이 논문은 기존 다중 에이전트 강화 학습(MARL) 벤치마크가 연속적인 상태 및 행동 공간, 복잡한 조정 및 계획 작업을 충분히 지원하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #Continuous Control #Pathfinding #MARL Benchmark #GPU Acceleration #Robotics Simulation #Scalability #Heterogeneous Agents

2025년 8월 20일

[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.

#Review #Large Language Models #Moral Reasoning #Bayesian Evaluation #Uncertainty Quantification #Natural Language Processing #Soft Labels

2025년 8월 20일

[논문리뷰] Advances in Speech Separation: Techniques, Challenges, and Future Trends

본 논문은 '칵테일 파티 문제' 해결을 목표로 하는 DNN 기반 음성 분리 기술 에 대한 포괄적이고 체계적인 조사를 제공합니다. 빠르게 진화하는 이 분야의 파편화된 이해를 해소하고, 다양한 아키텍처, 학습 패러다임 및 공정한 정량적 평가에 대한 기존 조사들의 격차를 메우는 것을 목표로 합니다.

#Review #Speech Separation #Deep Neural Networks #Cocktail Party Problem #Transformer Architecture #Unsupervised Learning #Supervised Learning #Evaluation Metrics #Datasets

2025년 8월 20일

[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.

#Review #Self-Refinement #Language Models #Reinforcement Learning #Proactive AI #Generation Process #Markov Decision Process #Adaptive Learning #LLM Efficiency

2025년 8월 20일

[논문리뷰] When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

본 연구는 LLM이 프롬프트 구문 및 형식의 미묘한 비의미적 변화에 매우 민감하게 반응하는 문제를 해결하고자 합니다.

#Review #LLM Robustness #Prompt Sensitivity #In-Context Learning #Fine-Tuning #Batch Calibration #Template Ensembles #Distribution Shift

2025년 8월 19일

[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

본 설문조사 논문은 기존 Transformer 기반 대규모 언어 모델(LLMs)의 Quadratic 복잡성 과 높은 연산 및 메모리 요구사항 으로 인한 비효율성 문제를 해결하기 위한 혁신적인 아키텍처를 체계적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Efficient Architectures #Transformer Optimization #Linear Attention #State Space Models #Mixture-of-Experts #Sparse Attention #Diffusion LLMs

2025년 8월 19일

[논문리뷰] S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models

본 논문은 확산 모델에서 널리 사용되는 Classifier-free Guidance (CFG) 가 종종 의미론적 불일치와 낮은 품질의 결과물을 초래하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Classifier-free Guidance #Self-Guidance #Training-Free #Stochastic Block-Dropping #Generative Models #Text-to-Image

2025년 8월 19일

[논문리뷰] Representing Speech Through Autoregressive Prediction of Cochlear Tokens

본 논문은 인간의 청각 처리 계층에서 영감을 받아, 유연하고 효율적으로 음성 정보를 이해하고 상호작용하는 인공 신경망 모델을 개발하는 것을 목표로 합니다.

#Review #Speech Representation Learning #Autoregressive Models #Cochlear Tokens #Biologically Inspired AI #Self-Supervised Learning #Audio Processing #Transformer Networks

2025년 8월 19일

[논문리뷰] Reinforcement Learning with Rubric Anchors

이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Rubric-based Reward #RLVR Extension #Human-centric AI #Controllable Generation #Reward Hacking Mitigation

2025년 8월 19일

[논문리뷰] Precise Action-to-Video Generation Through Visual Action Prompts

본 논문은 복잡하고 고자유도(high-DoF)의 상호작용(예: 인간의 손 또는 로봇 그리퍼 동작)을 위한 비디오 생성에서 정밀성과 범용성 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #Action-to-Video Generation #Visual Action Prompts #Skeleton Representation #Human-Object Interaction #Robotic Manipulation #Cross-Domain Transfer #Diffusion Models

2025년 8월 19일

[논문리뷰] Ovis2.5 Technical Report

Ovis2.5는 이전 Ovis 버전의 한계, 특히 고정 해상도 이미지 처리와 선형 사고 체인(CoT) 기반 추론의 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Native Resolution Vision #Deep Reasoning #Chart Analysis #OCR #Visual Grounding #Training Efficiency #Preference Optimization

2025년 8월 19일

[논문리뷰] Next Visual Granularity Generation

본 논문은 기존 이미지 생성 모델들이 이미지를 평면적이거나 비구조적인 데이터로 취급하여 미세한 제어 및 오류 누적에 한계가 있다는 문제점을 해결하고자 합니다.

#Review #Image Generation #Granularity Control #Structured Representation #Hierarchical Generation #Coarse-to-fine #Visual Tokenization #Latent Space

2025년 8월 19일

[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

본 논문은 기존 인터랙티브 월드 모델이 양방향 어텐션과 긴 추론 단계로 인해 발생하는 지연 문제를 해결하고 실시간 성능을 개선하는 것을 목표로 합니다.

#Review #World Model #Interactive Video Generation #Real-Time AI #Diffusion Models #Auto-Regressive Generation #Data Pipeline #Self-Forcing #KV Caching

2025년 8월 19일

[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

본 연구는 비디오에서 배경을 교체하고 동시에 포그라운드의 조명을 조화롭게 조정하는 비디오 리라이팅 태스크를 해결하는 것을 목표로 합니다. 특히, 포그라운드의 본래 속성(예: 알베도, 텍스처)을 일관되게 보존 하면서 시간적 프레임 간 일관된 조명 변경을 전파 하는 것이 주된 도전 과제입니다.

#Review #Video Relighting #Background Replacement #Generative Models #Diffusion Models #Temporal Consistency #Dataset Generation #Video Editing

2025년 8월 19일

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision-Language Models #Alignment Pre-training #Text-to-Vision Mapping #Continuous Representations #Computational Efficiency #LLM

2025년 8월 19일

[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.

#Review #Long-Horizon Planning #Structured Reasoning #LLM Evaluation #Virtual Worlds #RPG #Benchmark #Agent Systems #Combat Simulation

2025년 8월 19일

[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

이 연구는 최신 MLLM(Multi-modal Large Language Model) , 특히 GPT-5 가 인공 일반 지능(AGI)의 핵심 역량인 공간 이해 및 추론 능력을 얼마나 달성했는지 실증적으로 평가하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Benchmark Evaluation #GPT-5 #Cognitive AI #AGI

2025년 8월 19일

[논문리뷰] G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

본 논문은 기존의 피드포워드(feed-forward) 3D 재구성 모델들이 RGB 이미지에만 의존하여 보조 데이터(깊이 맵, 카메라 내/외부 파라미터)를 활용하지 못하는 한계를 해결하고자 합니다.

#Review #3D Reconstruction #Deep Learning #Multi-Modal Fusion #Camera Pose Estimation #Depth Estimation #Transformer Networks #Prior Information

2025년 8월 19일

[논문리뷰] ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning

본 논문은 대규모 언어 모델(LLM)의 제한된 컨텍스트 길이와 높은 연산 비용 문제, 그리고 기존 RAG(Retrieval-Augmented Generation) 방식의 상태 비저장(stateless) 및 단일 단계(single-step) 검색 한계를 해결하여 복잡한 장편 내러티브 이해 를 목표로 합니다.

#Review #Cognitive-Inspired RAG #Stateful Reasoning #Long Narrative Comprehension #Dynamic Memory #Metacognitive Regulation #Multi-step Retrieval #Hierarchical Knowledge Source

2025년 8월 19일

[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

본 논문은 기존 수학 벤치마크가 잘 정의된 문제 해결 능력에만 초점을 맞추는 한계를 지적하며, Large Reasoning Models (LRMs) 이 정보가 불충분한 문제에 직면했을 때 능동적으로 정보를 요청하는 능력 을 평가하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#Information Seeking #Incomplete Problems #Mathematical Reasoning #Supervised Fine-tuning (SFT)#Overthinking #Hallucination #CRITIC-math

2025년 8월 19일

[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy

본 논문은 단일 이미지로부터 4D(동적 3D) 장면 표현을 효율적으로 생성하는 피드포워드 프레임워크 인 4DNeX 를 제안합니다.

#Review #4D Generation #Dynamic 3D #Generative Models #Diffusion Models #Single Image Input #Video Synthesis #Point Clouds #Dataset

2025년 8월 19일

[논문리뷰] X-Node: Self-Explanation is All We Need

그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.

#Review #Graph Neural Networks #Explainable AI #Self-Explanation #Node Classification #Medical Imaging #Natural Language Processing #Interpretability

2025년 8월 18일

[논문리뷰] Thyme: Think Beyond Images

본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Code Generation #Image Processing #Reinforcement Learning #Supervised Fine-Tuning #Visual Reasoning #Sandbox

2025년 8월 18일

[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures

본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.

#Review #3D Dataset #High-Resolution Textures #Physically Based Rendering (PBR)#3D Animation #Data Curation #GPT-5 Annotations #Sketchfab

2025년 8월 18일

[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.

#Review #3D Morphable Model #Face Stylization #Text-to-Image Translation #Diffusion Model #Attribute Preservation #Generative AI #Computer Graphics

2025년 8월 18일

[논문리뷰] SSRL: Self-Search Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Search #Sim-to-Real Transfer #Agentic AI #Knowledge Retrieval #Reward Modeling

2025년 8월 18일

[논문리뷰] SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

의료 영상 분야에서 레이블링된 학습 데이터의 부족 으로 인한 딥러닝 모델의 한계를 극복하고, 특히 5개에서 50개 사이의 매우 적은 레이블링된 샘플 만 사용 가능한 저데이터(low-data) 환경 에서 강건한 이미지 분류 성능을 달성하는 것을 목표로 합니다.

#Review #Semi-supervised Learning #Few-shot Learning #Medical Imaging #GAN-based Methods #Image-to-image Translation #Pseudo-labeling #Ensemble Learning

2025년 8월 18일

[논문리뷰] PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

이 논문은 기존 논문 검색 시스템이 추상 기반 인덱싱에 의존하여 세분화된 쿼리(flexible-grained queries) 를 효과적으로 처리하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #논문 검색 #계층적 인덱싱 #유연한 검색 #대규모 언어 모델 #정보 추출 #뷰 인식 #강화 학습

2025년 8월 18일

[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.

#Review #Self-supervised Learning #Masked Autoencoder #Earth Observation #Multimodal #Multitemporal #Multispectral #Fusion Strategies #Target Normalization

2025년 8월 18일

[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.

#Review #Audio-Driven Animation #Preference Optimization #Diffusion Models #Reward Modeling #Human Feedback #Multi-Objective Optimization #Timestep-Layer Adaptive

2025년 8월 18일

[논문리뷰] DINOv3

본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Foundation Models #Vision Transformer #Dense Feature Maps #Gram Anchoring #Model Distillation #Geospatial AI

2025년 8월 18일

[논문리뷰] Controlling Multimodal LLMs via Reward-guided Decoding

본 논문은 MLLM(Multimodal Large Language Models)이 다양한 사용자 요구에 맞춰 동작을 조절할 수 있도록, 추론 과정에서 세밀한 제어 를 가능하게 하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reward Models #Guided Decoding #Visual Grounding #Hallucination Mitigation #Object Precision #Object Recall #Inference-time Control

2025년 8월 18일

[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.

#Review #Visual Mathematical Reasoning #MLLMs #Knowledge System #Reinforcement Learning #Curriculum Learning #Dataset Construction #Mathematical Benchmark

2025년 8월 15일

[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT

본 논문은 스크린샷만을 입력으로 받는 고성능 UI 에이전트인 UI-Venus 를 구축하는 것을 목표로 합니다. 기존 지도 미세 조정(SFT) 방식의 한계인 일반화 능력 부족과 높은 데이터 수집 비용을 극복하고, 복잡한 UI 환경에서의 탐색 및 추론 능력을 향상시키는 데 중점을 둡니다.

#Review #UI Agent #MLLM #RFT #UI Grounding #UI Navigation #GRPO #Data Cleaning #Self-Evolving Trajectory

2025년 8월 15일

[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Cartoon Generation #Video Diffusion Models #DiT #Post-Keyframing #Low-Rank Adaptation #Sparse Control #Generative AI #Animation

2025년 8월 15일

[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Causal Transformer #Sequential Modeling #Streaming Data #Pointmap Prediction #Online Perception #KVCache

2025년 8월 15일

[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.

#Review #Visual Encoders #Metadata #Image Processing #Image Acquisition #Robustness #CLIP #Foundation Models #Distribution Shift

2025년 8월 15일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.

#Review #Long-Context Understanding #Reasoning Benchmark #LLMs Evaluation #Natural Language Processing #Global Comprehension #Fluid Intelligence #Prequel Entailment #RAG

2025년 8월 15일

[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Continuous Latent Tokens #Flow Matching #Image Editing #Multimodal Learning #Transformer Architecture

2025년 8월 15일

[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.

#Review #Multimodal LLMs #Human-Centered AI #Empathy #Context-Awareness #MLLM Benchmark #Reinforcement Learning #Reasoning

2025년 8월 15일

[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.

#Review #Automated Interpreting Assessment #Explainable AI #Data Augmentation #Variational Autoencoder #SHAP #Interpreting Quality #Natural Language Processing

2025년 8월 15일

[논문리뷰] A Survey on Diffusion Language Models

본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.

#Review #Diffusion Language Models #Generative AI #Parallel Decoding #Text Generation #Multimodal AI #Model Compression #Reinforcement Learning from Human Feedback #Inference Optimization

2025년 8월 15일

[논문리뷰] When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing

이 논문은 NLP 분야에서 사후 설명 가능성(Post-hoc Explainability) 과 차등 프라이버시(Differential Privacy) 의 교차점을 탐구하며, 프라이버시와 설명 가능성 달성의 동시 가능성 및 그들 사이의 상충 관계를 이해하는 것을 목표로 합니다.

#Review #Natural Language Processing (NLP)#Explainable AI (XAI)#Post-hoc Explainability #Differential Privacy (DP)#Privacy-Utility Trade-off #Model Faithfulness #Text Privatization

2025년 8월 15일

[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.

#Review #Multimodal LLM #Code Generation #Model Merging #Task Vectors #Vision-Language Model #Coding LLM #Instruction Tuning #Benchmark

2025년 8월 14일

[논문리뷰] Story2Board: A Training-Free Approach for Expressive Storyboard Generation

논문은 자연어 프롬프트로부터 표현력이 풍부하고 시각적으로 일관된 스토리보드를 생성하는 훈련 불필요(training-free) 프레임워크인 Story2Board를 제시합니다.

#Review #Storyboard Generation #Text-to-Image #Diffusion Models #Training-Free #Character Consistency #Scene Diversity #Visual Storytelling

2025년 8월 14일

[논문리뷰] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

이 논문은 비디오 생성에서 사용자가 지정한 정체성을 고품질로 일관되게 유지하면서도, 기존 방법론의 과도한 훈련 파라미터 및 다른 AI 생성 모델과의 호환성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 경량의 플러그-앤-플레이 프레임워크를 통해 실용적인 정체성 제어 솔루션을 제시하고자 합니다.

#Review #Video Generation #Identity Preservation #Plug-and-Play #Diffusion Models #Self-Attention #Lightweight AI #Conditional Image Branch

2025년 8월 14일

[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.

#Review #Multimodal Agent #Long-Term Memory #Episodic Memory #Semantic Memory #Reinforcement Learning #Video Question Answering #Entity-Centric Memory

2025년 8월 14일

[논문리뷰] Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

본 논문은 확산 모델에서 추론 시 계산 비용을 크게 증가시키는 테스트-시간 스케일링(test-time scaling) 의 문제점을 해결하고자 합니다.

#Review #Diffusion Models #Hypernetworks #Test-Time Optimization #Reward-Guided Generation #Latent Space Optimization #LoRA #Generative AI

2025년 8월 14일

[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Discovery #Chain-of-Thought #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Molecular Generation #Explainable AI

2025년 8월 14일

[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Math Reasoning #Real-World Benchmark #Visual Perception #Robustness #K-12 Education #Dataset

2025년 8월 14일

[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

이 논문은 대규모 언어 모델(LLM) 정렬(alignment) 방법론의 한계를 해결하고자 합니다. 기존 방법론들( SFT, DPO, PPO, GRPO )은 특정 정렬 방식에 고정되거나 정량적 지표만을 최적화하여 일반화 및 견고성 측면에서 부족함을 보였습니다.

#Review #LLM Alignment #Reinforcement Learning from Human Feedback #Preference Learning #Group Relative Alignment Optimization #Self-Optimization #Mixture-of-Experts #Imitation Learning

2025년 8월 14일

[논문리뷰] IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

이 연구는 시각적 그라운딩(Visual Grounding) 태스크를 수행하는 Vision-Language Models (VLMs) 에 대한 새로운 입력 인지(Input-aware) 백도어 공격(Backdoor Attack) 시나리오와 방법론인 IAG 를 제시합니다.

#Review #Backdoor Attack #Vision-Language Models (VLMs)#Visual Grounding #Input-aware Trigger #Adversarial Attack #Security #U-Net #Open-vocabulary

2025년 8월 14일

[논문리뷰] GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

본 논문은 적은 수의 입력 영상으로 3D Gaussian Splatting (3DGS) 장면을 재구성할 때 발생하는 시각적 아티팩트와 3D 불일치 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 생성 모델들이 생성된 콘텐츠와 입력 뷰 간의 일관성을 유지하는 데 어려움 을 겪는 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Diffusion Model #Artifact Restoration #Sparse-view 3D Reconstruction #Reference-Guided

2025년 8월 14일

[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Synthetic Data #Image Generation #GPT-4o #Multimodal Models #Instruction Following #Surreal Image Generation #Dataset #Benchmarking

2025년 8월 14일

[논문리뷰] Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

본 논문은 기존 오픈소스 Diffusion Large Language Models (dLLMs)가 Autoregressive (AR) LLMs에 비해 추론 속도에서 우위를 점하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Faster Inference #Discrete Diffusion Forcing (D2F)#Autoregressive Generation #KV Cache Optimization #Parallel Decoding #Text Generation #Model Distillation

2025년 8월 14일

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일

[논문리뷰] Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study

본 연구는 비용이 많이 들고 확장성이 낮은 인간 주석 기반 설명의 한계를 극복하기 위해, LLM이 생성한 텍스트 설명 이 자연어 추론(NLI)과 같은 다운스트림 예측 태스크에서 PLM 및 LLM의 분류 성능을 향상 시킬 수 있는지 실증적으로 평가하는 것을 목표로 합니다.

#Review #Explainable NLP #Natural Language Explanations #Large Language Models #Pre-trained Language Models #Natural Language Inference #Model Performance Enhancement #Text Generation

2025년 8월 14일

[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving

대규모 언어 모델(LLM) 기반 에이전트가 외부 도구를 활용할 때 발생하는 확장된 컨텍스트 및 노이즈/관련성 없는 도구 출력 으로 인한 시스템 신뢰성 및 정확도 저하 문제를 해결하고, 에이전트 기반 시스템의 안정성과 견고성 을 향상시키는 것을 목표로 합니다.

#Review #Multi-Agent System #Agent Stability #LLM #Tool Use #GAIA Benchmark #Robustness #Dynamic Supervision #Maneuvering

2025년 8월 14일

[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Fine-tuning #Reinforcement Learning #Meta-learning #Adaptive Control #Imitation Learning #Exploration #Reasoning

2025년 8월 14일

[논문리뷰] WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion

현재 원격 감지 위성은 지표면 온도(LST) 데이터의 공간 및 시간 해상도 간 트레이드오프 문제를 겪고 있으며, 특히 일별 10m 해상도 LST 추정은 어렵습니다.

#Review #Spatio-Temporal Fusion #Land Surface Temperature #Generative Adversarial Network #Weakly-Supervised Learning #Remote Sensing #Deep Learning

2025년 8월 13일

[논문리뷰] VertexRegen: Mesh Generation with Continuous Level of Detail

기존 자동회귀 메쉬 생성 모델들이 부분-완료 방식으로 동작하여, 유효한 메쉬를 얻기 위해 전체 시퀀스를 생성해야만 하고 중간 단계에서는 불완전한 구조를 생성하는 문제를 해결하고자 합니다.

#Review #Mesh Generation #Level of Detail (LOD)#Progressive Meshes #Vertex Split #Autoregressive Models #Transformer #3D Graphics

2025년 8월 13일

[논문리뷰] UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

본 논문은 Masked Generative Transformers (MGTs)를 사용한 텍스트-이미지(T2I) 생성 시 발생하는 조합적 충실도(compositional fidelity) 문제를 해결하고, 특히 속성 바인딩(attribute binding) 오류를 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Masked Generative Transformers #Compositional Generation #Attention Guidance #Unmasking Strategy #Contrastive Learning #Training-Free #Attribute Binding

2025년 8월 13일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.

#Review #Robotic Dexterous Grasping #Affordance-Aware #Human-like Priors #Reinforcement Learning #Vision-Language Models #Two-Stage Training #Manipulation

2025년 8월 13일

[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.

#Review #Low-Resource MT #Data Augmentation #Large Language Models (LLMs)#Back-Translation #In-Context Learning (ICL)#Fine-Tuning #Topic-Guided Generation #Parallel Data Synthesis

2025년 8월 13일

[논문리뷰] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

본 논문은 확산 언어 모델(dLLMs)이 텍스트를 생성하는 반복적인 디노이징 과정에서 '시간적 진동(temporal oscillation)' 이라는 중요한 현상을 규명하고, 이를 활용하여 모델 성능을 개선하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Temporal Oscillation #Self-Consistency Voting #Reinforcement Learning #Temporal Semantic Entropy #Text Generation

2025년 8월 13일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents

본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.

#Review #Computer-Use Agents #Vision-Language Models #Chain-of-Thought Reasoning #Large-scale Dataset #Open-source Framework #Desktop Automation #Agent Evaluation

2025년 8월 13일

[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.

#Review #Paralinguistic Vocalizations #Speech Recognition #Text-to-Speech #Speech Synthesis #Data Annotation #Mandarin Speech #Expressive Speech

2025년 8월 13일

[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation

본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.

#Review #3D World Generation #Panoramic Video Generation #3D Reconstruction #Diffusion Models #Gaussian Splatting #Dataset #Camera Control

2025년 8월 13일

[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.

#Review #Hierarchical Reinforcement Learning #Deep Search #Multi-source RAG #Agentic AI #Knowledge Integration #Enterprise Search #Large Reasoning Models

2025년 8월 13일

[논문리뷰] GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

대규모 언어 모델(LLM)의 연속 학습 시 발생하는 파국적 망각(catastrophic forgetting) 문제를 해결하는 것이 주된 목표입니다. 특히, LLM이 기존의 일반적인 능력과 이전에 학습한 하위 태스크에서의 성능을 동시에 유지하면서 새로운 태스크를 효율적이고 안정적으로 학습할 수 있는 방안을 모색합니다.

#Review #Continual Learning #Large Language Models (LLMs)#Catastrophic Forgetting #Replay #Knowledge Distillation #Activation States #Anti-forgetting #Threshold-based Margin Loss

2025년 8월 13일

[논문리뷰] Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

본 논문은 대규모 언어 모델(LLMs)의 효율적인 도구 사용(tool use) 학습을 위한 강화 학습(RL) 프레임워크 부재 문제를 해결하고자 합니다. 특히, 안정적인 훈련 환경 구축의 어려움과 검증 가능한 보상 메커니즘의 부재가 LLM의 도구 사용 능력 발전을 저해하는 핵심 과제로 지적됩니다.

#Review #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#Automated Environment Generation #Feedback-Driven Training #Reward Mechanism #Contextual Understanding

2025년 8월 13일

[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.

#Review #Large Language Models #Diplomacy Game #Multi-agent Systems #Strategic Reasoning #LLM Evaluation #Prompt Engineering #Behavioral Analysis #Game AI

2025년 8월 13일

[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition

본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.

#Review #Speech Recognition #Encoder-Decoder #Regularization #Decoder-Centric #Intermediate Supervision #Out-of-Domain Generalization #Internal Language Model

2025년 8월 13일

[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning

본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.

#Review #Next Shot Generation #In-Context Tuning #Diffusion Transformer #Cinematic Continuity #Hierarchical Prompting #Video Generation #Shot Editing

2025년 8월 13일

[논문리뷰] CharacterShot: Controllable and Consistent 4D Character Animation

본 논문은 단일 캐릭터 이미지와 2D 포즈 시퀀스를 입력으로 받아, 사용자가 제어할 수 있는 동적인 3D 캐릭터(4D 캐릭터 애니메이션)를 생성하는 프레임워크인 CharacterShot 을 제안합니다.

#Review #4D Character Animation #Diffusion Models #Gaussian Splatting #Pose Control #Multi-view Synthesis #Temporal Consistency #Character Dataset

2025년 8월 13일

[논문리뷰] Bridging Theory and Practice in Quantum Game Theory: Optimized Implementation of the Battle of the Sexes with Error Mitigation on NISQ Hardware

본 논문은 양자 게임 이론의 'Battle of the Sexes' 게임을 실제 NISQ(Noisy Intermediate-Scale Quantum) 하드웨어 에 구현하는 과정에서 발생하는 노이즈, 디코히어런스, 제한된 큐비트 연결성 문제를 해결하고자 합니다.

#Review #Quantum Game Theory #NISQ Hardware #Error Mitigation #Battle of the Sexes #Qiskit #Quantum Computing #Strategic Coordination #Payoff Maximization

2025년 8월 13일

[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them

대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.

#Review #Bias Mitigation #LLMs #Mechanistic Interpretability #Fine-tuning #Attention Steering #Stereotype Analysis #Safety Alignment

2025년 8월 13일

[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Agentic Search #Asynchronous RL #Long-Horizon Planning #Tool Use #Data Synthesis

2025년 8월 13일

[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.

#Review #코드 생성 #대규모 언어 모델 #코드 벤치마크 #다국어 프로그래밍 #자동화된 데이터 생성 #샌드박스 평가 #멀티모달 AI

2025년 8월 13일

[논문리뷰] Aryabhata: An exam-focused language model for JEE Math

본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.

#Review #Language Model #Math Reasoning #JEE #Supervised Fine-Tuning #Reinforcement Learning #Model Merging #Chain-of-Thought #Curriculum Learning

2025년 8월 13일

[논문리뷰] Adversarial Video Promotion Against Text-to-Video Retrieval

본 논문은 텍스트-비디오 검색(T2VR) 모델의 간과된 취약점인 적대적 비디오 프로모션 공격 을 탐구합니다.

#Review #Adversarial Attack #Video Promotion #Text-to-Video Retrieval #Modality Refinement #Black-box Attack #Video Manipulation #Transferability

2025년 8월 13일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일

[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.

#Review #Audio-Language Models #Jailbreak Attack #Adversarial Audio #Reinforcement Learning #Projected Gradient Descent #Native Payload Discovery #Multimodal AI Safety

2025년 8월 12일

[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.

#Review #Multimodal Retrieval #Retrieval-Augmented Generation #Long Document Understanding #Multilingual NLP #Visual QA #Benchmark #MLLMs #Table Understanding

2025년 8월 12일

[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric Agents

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 사용자의 모호하고, 변화하며, 간접적으로 표현되는 목표 에 대해 능동적으로 협력하는 능력을 평가하고자 합니다.

#Review #User-Centric AI #LLM Evaluation #Interactive Agents #Gym Environment #Preference Elicitation #Multi-turn Dialogue #Tool Use

2025년 8월 12일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일

[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.

#Review #Speech-to-LaTeX #ASR #Language Models #Multimodal AI #Dataset Creation #Mathematical Expression Recognition #LaTeX Generation

2025년 8월 12일

[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.

#Review #Robot Learning #Generalization #Shortcut Learning #Dataset Diversity #Dataset Fragmentation #Data Augmentation #Imitation Learning

2025년 8월 12일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일

[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.

#Review #Embodied AI #Agent Reasoning #LLM #Benchmarking #Tool Use #Multi-Agent Systems #Physical Interaction #Constraint Reasoning

2025년 8월 12일

[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.

#Review #Visual Effects #Video Generation #LoRA #Mixture of Experts #Spatial Control #Diffusion Models #Multi-VFX

2025년 8월 12일

[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space

기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Action Reasoning #Vision-Language Models #Spatial Planning #Depth Perception #Trajectory Generation #Explainable AI

2025년 8월 12일

[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.

#Review #Mixture-of-Experts (MoE)#LLM Compression #Matrix Decomposition #Parameter Efficiency #Deep Learning #Memory Optimization

2025년 8월 12일

[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Sparse Attention #LLMs #Reasoning Tasks #Efficiency #Training-Free #Global Locality #KV Cache Optimization

2025년 8월 12일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

본 논문은 기존 MoE (Mixture of Experts) LLM의 한계인 고정된 파라미터 활성화와 이로 인한 비효율적인 계산 문제를 해결하는 것을 목표로 합니다.

#Review #Mixture of Experts #LLMs #MoE Architecture #Dynamic Activation #Adjugate Experts #Upcycling Strategy #Load Balancing

2025년 8월 12일

[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

본 연구는 기존 제로샷 텍스트 분류 모델(생성형 LLM, 크로스 인코더, 임베딩 기반 모델)의 한계점, 즉 계산 비효율성, 지시 불일치, 확장성 부족 등을 해결하고자 합니다.

#Review #Sequence Classification #Zero-shot Learning #Few-shot Learning #Transformer #Multi-label Classification #PPO #GLiNER #Computational Efficiency

2025년 8월 12일

[논문리뷰] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

이 논문은 기존 flow-기반 이미지 편집 모델이 대규모 형상 변환(large-scale shape transformations) 시 목표 형상 변화를 달성하지 못하거나 비-타겟 영역을 의도치 않게 변경하는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Shape Transformation #Rectified Flow #Trajectory Divergence Map #Region Control #Generative Models #Diffusion Models

2025년 8월 12일

[논문리뷰] Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

본 연구는 최신 LLM 기반 에이전트 팩트체킹 시스템 이 잘못된 정보를 확산시키거나 진실을 훼손할 수 있는 포이즈닝 공격에 취약함을 지적합니다. 기존 공격 방식은 이러한 정교한 시스템의 클레임 분해 및 교차 검증 메커니즘에 효과적이지 못합니다.

#Review #Adversarial Attack #Poisoning Attack #Fact-checking #LLM Agent #Retrieval Augmented Generation #Misinformation #System Security

2025년 8월 12일

[논문리뷰] Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

본 논문은 오픈-웨이트 대규모 언어 모델(LLMs)이 이중 용도(dual-use) 지식(예: 바이오위협 프록시 지식)을 학습하는 것을 효과적으로 방지하고, adversarial fine-tuning 공격에 대한 변조 저항성을 높이는 새로운 방법을 제안합니다.

#Review #LLMs #데이터 필터링 #사전 학습 #변조 저항성 #바이오위협 #AI 안전 #서킷 브레이킹 #머신 언러닝

2025년 8월 12일

[논문리뷰] Compressing Chain-of-Thought in LLMs via Step Entropy

Large Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.

#Review #LLM #Chain-of-Thought #CoT Compression #Step Entropy #Reinforcement Learning #SFT #GRPO

2025년 8월 12일

[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.

#Review #Benchmarking #Deep-Research Agents #LLMs #Retrieval #Curated Corpus #Evaluation #Fairness #Transparency #Reproducibility

2025년 8월 12일

[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

본 연구는 강력한 추론 능력을 유지하면서도 고품질 시각적 합성 기능을 LLM에 통합하는 것을 목표로 합니다. 특히, 기존 방식들이 높은 훈련 비용을 수반하고 백본 LLM의 이미지 표현 학습 부족으로 어려움을 겪는 문제를 해결하여, 고충실도 및 제어 가능한 이미지 생성을 효율적으로 달성하고자 합니다.

#Review #Multimodal LLM #Diffusion Model #CLIP Latent #Image Generation #Multimodal Understanding #ControlNet #Training Efficiency

2025년 8월 12일

[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.

#Review #Self-Evolving AI Agents #Lifelong Learning #Foundation Models #Multi-Agent Systems #Agent Optimization #Prompt Engineering #Tool Use #AI Safety #Survey

2025년 8월 12일

[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

가상 의류 착용(try-on) 및 탈의(try-off) 시 사람의 자세 및 외형 변화에 따른 의류-신체 일치성 모델링과 세부 묘사의 정확성 유지라는 고질적인 문제를 해결하는 것입니다.

#Review #Virtual Try-On #Virtual Try-Off #Diffusion Transformer #Bidirectional Learning #Generative AI #Fashion Synthesis #Attention Mechanism #Self-Correction

2025년 8월 11일

[논문리뷰] UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

본 논문은 기존 GUI 에이전트 훈련 및 추론 방식의 세 가지 한계점인 추론 설계 딜레마(P1) , 비효율적인 보상(P2) , 그리고 고해상도 디스플레이에서의 시각적 노이즈(P3) 를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Grounding #MLLMs #Reward Function #Resampling #Visual Noise Reduction

2025년 8월 11일

[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.

#Review #Code Reasoning #CoT Compression #LLMs #Efficiency #Surprisal #Pruning #Fine-tuning #Large Reasoning Models

2025년 8월 11일

[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

본 연구는 기존 대규모 언어 모델(LLM) 기반의 3D 메시 처리 방식이 갖는 데이터셋 규모의 한계와 텍스트 직렬화 과정에서의 3D 구조 정보 손실 문제를 해결하여, LLM이 텍스트 직렬화된 3D 메시를 더욱 효과적으로 이해하고 생성할 수 있도록 돕는 것을 목표로 합니다.

#Review #3D Mesh Generation #LLMs #Mesh Understanding #Text-to-3D #Primitive-Mesh Decomposition #Progressive Training #Multimodal AI

2025년 8월 11일

[논문리뷰] Memp: Exploring Agent Procedural Memory

논문은 대규모 언어 모델(LLM) 기반 에이전트가 겪는 취약한 절차적 메모리 문제를 해결하고, 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차적 메모리 를 부여하는 것을 목표로 합니다. 이를 통해 에이전트의 성공률을 높이고 유사 작업에 대한 실행 효율성 을 개선하고자 합니다.

#Review #Procedural Memory #LLM Agents #Memory Management #Task Automation #Lifelong Learning #Experience Replay #Agent Learning

2025년 8월 11일

[논문리뷰] MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

본 논문은 고자원 언어에 집중되어 저자원 언어에서 성능이 저하되는 기존 다중 모드 대규모 언어 모델(MLLM) 의 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Low-Resource Languages #Cultural Groundedness #Linguistic Capability #Dataset Creation #Multilingual AI

2025년 8월 11일

[논문리뷰] LightSwitch: Multi-view Relighting with Material-guided Diffusion

논문은 기존의 2D 이미지 리라이팅(relighting) 생성 모델들이 대상의 내재적 특성을 활용하지 못하거나 다중 뷰 데이터를 확장성 있게 고려하지 못해 불충분한 리라이팅 결과를 초래하는 문제를 해결하고자 합니다.

#Review #Multi-view Relighting #Diffusion Models #Material-guided #Inverse Rendering #3D Scene Reconstruction #Image Synthesis #Consistent Relighting

2025년 8월 11일

[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.

#Review #GUI Grounding #MLLMs #Reinforcement Learning #Policy Optimization #Exploration Strategy #Semantic Alignment #Adaptive Exploration Reward #Human-Computer Interaction

2025년 8월 11일

[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.

#Review #Large Language Model #Mixture-of-Experts #Agentic AI #Reasoning #Code Generation #Reinforcement Learning #Foundation Model

2025년 8월 11일

[논문리뷰] GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

본 논문은 NeRF 의 사실적인 렌더링 품질과 Gaussian Splatting (GS) 의 편집 가능성 및 구조적 표현의 장점을 결합하여, 물리 기반 상호작용 이 가능한 대화형 3D 장면 편집 시스템을 개발하는 것을 목표로 합니다. 기존 NeRF 의 편집 어려움과 GS 의 일부 시각적 한계를 극복하고자 합니다.

#Review #Neural Radiance Fields (NeRF)#Gaussian Splatting (GS)#Interactive Editing #3D Scene Representation #Physics Simulation #Hybrid Model #Real-time Rendering #Ray Tracing

2025년 8월 11일

[논문리뷰] Adapting Vision-Language Models Without Labels: A Comprehensive Survey

본 서베이 논문은 레이블링된 데이터 없이 사전 훈련된 Vision-Language Models (VLMs) 를 특정 다운스트림 태스크에 적용할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Unsupervised Adaptation #Test-Time Adaptation (TTA)#Domain Transfer #Multimodal Learning #Label-Free Learning #Zero-Shot Learning

2025년 8월 11일

[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

본 연구는 기존 비전-언어 모델(VLMs)이 매개변수 규모에 제약이 있고, 견고한 자가 수정 능력이 부족하며, 긴 시각적 맥락과 복잡한 추론을 요구하는 문서 기반 태스크에서 저조한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Visual Document Understanding #Visual Question Answering #Multi-Agent System #Test-Time Scaling #Self-Correction #Mixed Reward Modeling #Large Language Models

2025년 8월 8일

[논문리뷰] StrandDesigner: Towards Practical Strand Generation with Sketch Guidance

본 연구는 텍스트나 일반 이미지 프롬프트의 정밀도와 사용 편의성 부족 문제를 해결하기 위해, 스케치를 기반으로 하는 최초의 머리카락 스트랜드(strand) 생성 모델을 제안합니다.

#Review #Strand Generation #Sketch Guidance #Diffusion Models #Multi-scale Learning #Adaptive Conditioning #3D Hair Modeling #Computer Graphics

2025년 8월 8일

[논문리뷰] Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

본 논문은 확산 기반 이미지 압축 모델의 주요 단점인 과도한 디코딩 지연 시간 과 낮은 충실도(fidelity) 문제를 해결하고자 합니다. 특히 낮은 비트레이트 환경에서 높은 지각 품질과 빠른 디코딩 속도, 원본에 충실한 재구성을 동시에 달성하는 단일 스텝 확산 이미지 압축 모델(SODEC) 을 제안하는 것이 목표입니다.

#Review #Image Compression #Diffusion Models #One-Step Decoding #Fidelity Guidance #Rate Annealing #VAE #Perceptual Quality

2025년 8월 8일

[논문리뷰] RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation

본 논문은 기존의 Robust PCA (RPCA) 모델이 가진 높은 계산 비용, 수동 튜닝에 따른 일반화 능력 부족, 그리고 경직된 사전 지식으로 인한 한계를 극복하는 것을 목표로 합니다.

#Review #Robust PCA #Deep Unfolding #Sparse Segmentation #Interpretability #Image Decomposition #Computer Vision

2025년 8월 8일

[논문리뷰] REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

동시 음성 번역(SimulST) 시스템에서 번역 품질과 지연 시간 간의 최적의 균형을 달성하는 것이 주요 과제입니다.

#Review #Simultaneous Speech Translation #Adaptive Policy #Entropy-based Loss #Mutual Information #Latency-Quality Trade-off #Speech-to-Text Translation #REINA

2025년 8월 8일

[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data

본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.

#Review #Self-Evolving LLM #Reinforcement Learning #Curriculum Learning #Reasoning #Large Language Models #Self-Play #Zero-Data Training

2025년 8월 8일

[논문리뷰] PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction

본 연구는 비정형 텍스트에서 개인 식별 정보(PII) 를 자동 제거하는 문제에 초점을 맞춥니다.

#Review #PII Redaction #Large Language Models #Instruction Tuning #Retrieval-Augmented Generation #Privacy Preservation #Model Evaluation #Cross-Domain Generalization #Open-Source LLMs

2025년 8월 8일

[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization #Reward Rectification #Dynamic Fine-Tuning (DFT)#LLM #Policy Gradient #Mathematical Reasoning

2025년 8월 8일

[논문리뷰] Marco-Voice Technical Report

본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.

#Review #Speech Synthesis #Voice Cloning #Emotion Control #Text-to-Speech #Disentanglement #Contrastive Learning #Flow Matching #Emotional Speech Dataset

2025년 8월 8일

[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.

#Review #Video Object Segmentation #Dataset #Complex Scenes #Benchmark #Object Tracking #Computer Vision #Dataset Challenges

2025년 8월 8일

[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.

#Review #LLM Alignment #Reasoning #Data Curation #Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency #Scalability #Multi-dimensional Filtering

2025년 8월 8일

[논문리뷰] I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

본 논문은 기존 대규모 언어 모델(LLM) 기반의 다중모달 엔티티 연결(MEL) 방법론이 이미지 데이터를 불필요하게 통합하고 시각적 특징을 단일 추출에 의존하여 성능 저하를 겪는 문제를 해결하고자 합니다.

#Review #Multimodal Entity Linking #Large Language Models #Collaborative Reflection #Iterative Reasoning #Visual Information #Text-centric

2025년 8월 8일

[논문리뷰] I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations

본 논문은 대규모 언어 모델(LLM)이 채용 평가에서 언어적 시볼레트(linguistic shibboleths) , 특히 완곡어법(hedging language)을 기반으로 잠재적으로 인구통계학적 편향을 보이는 문제를 해결하고자 합니다.

#Review #LLM Bias #Hiring Evaluation #Linguistic Shibboleth #Hedging Language #Fairness #Benchmarking #Sociolinguistics

2025년 8월 8일

[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.

#Review #Multi-hop Question Answering #Large Language Models #Reasoning Errors #Error Taxonomy #Human Evaluation #Automated Evaluation #Overthinking

2025년 8월 8일

[논문리뷰] Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

본 논문은 3D 생성 모델의 품질 평가에 있어 기존 2D 이미지 기반 metrics의 한계와 평가의 거친 입자성(coarse-grained) 문제를 해결하고자 합니다.

#Review #3D Generation Evaluation #Hierarchical Evaluation #Material Properties #Multi-Agent Annotation #Hybrid Scoring System #Video-based Evaluation #Part-level Analysis

2025년 8월 8일

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.

#Review #Robotic Manipulation #World Model #Video Generation #Diffusion Model #Embodied AI #Foundation Model #Robotics Simulation #Policy Learning

2025년 8월 8일

[논문리뷰] Evaluating, Synthesizing, and Enhancing for Customer Support Conversation

본 논문은 고객 지원 대화(Customer Support Conversation, CSC) 분야에서 전략적 지침과 고품질 데이터의 부족 문제를 해결하고자 합니다.

#Review #Customer Support #Dialogue Generation #Large Language Models #Role-Playing #COPC Framework #Synthetic Data #Strategy Prediction #Empathetic AI

2025년 8월 8일

[논문리뷰] Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

본 설문 연구는 DeepSeek R1 과 같은 R1-style Large Reasoning Models (LRMs) 에서 흔히 발생하는 '과잉 사고(overthinking)' 문제를 해결하고, 효율적인 추론 방법을 체계적으로 분류 및 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Efficient Reasoning #Chain-of-Thought #Model Optimization #Model Collaboration #Overthinking Problem #LLM Efficiency

2025년 8월 8일

[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision Language Models (VLMs)#Agentic AI #Physical Reasoning #Benchmark #Simulation Environments #Action Planning #Interactive AI

2025년 8월 8일

[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions

이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Multi-agent System #GUI Automation #Programmatic Control #Code Generation #OSWorld Benchmark #Hybrid AI

2025년 8월 8일

[논문리뷰] Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability

본 논문은 대규모 멀티모달 모델(LMMs)이 결함 있는 입력을 수동적으로 수용하여 잘못된 추론을 유발하는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Input Scrutiny #Error Detection #Faulty Inputs #Evaluation Framework #Modality Preference #Cross-Modal Inconsistency

2025년 8월 8일

[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multimodal LLMs #Benchmark Evaluation #Document Understanding #Multi-hop Reasoning #Information Retrieval #Evaluation Dataset

2025년 8월 8일

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.

#Review #Large Language Models #Well-being Concepts #LLM Evaluation #Principle-Guided Evaluation #LLM-as-a-Judge #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation

2025년 8월 8일

[논문리뷰] Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

본 연구는 웹 에이전트가 인간의 인지 추론과 유사하게 동작하도록, 충분한 지식을 습득하여 효과적인 추론 능력을 갖추는 것을 목표로 합니다. 특히, Bloom의 교육 분류학 에서 영감을 받아 지식 내용 학습과 인지 과정이라는 두 가지 필수 단계로 웹 에이전트의 역량을 분해하여 해결하고자 합니다.

#Review #Web Agent #Cognitive Reasoning #Knowledge-Induced #Large Multimodal Models (LMMs)#Bloom's Taxonomy #Chain-of-Thought (CoT)#Web-CogDataset #Web-CogBench

2025년 8월 7일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

텍스트-투-이미지(txt2img) 확산 모델이 학습 과정에서 명시적인 지침 없이도 회화에서 콘텐츠와 스타일 개념을 내부적으로 어떻게 인코딩하고 분리하는지 탐구하는 것입니다.

#Review #Text-to-Image Generation #Diffusion Models #Cross-Attention Analysis #Content-Style Disentanglement #Artistic Style Transfer #Explainable AI #SDXL

2025년 8월 7일

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.

#Review #Social Intelligence #Reinforcement Learning #Reward Design #Large Language Models #Utterance-level Rewards #Multi-dimensional Rewards #Partial Observability #SOTOPIA

2025년 8월 7일

[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.

#Review #Music Restoration #Audio Mastering #Generative Models #Flow Matching #Text-to-Audio #Audio Quality Enhancement #Multi-task Learning #Dataset Creation

2025년 8월 7일

[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

텍스트-3D(T23D) 생성 과정에서 발생하는 '블라인드 시행착오' 프롬프트 문제와 그로 인한 예측 불가능한 결과 및 비효율적인 워크플로우를 해결하는 것이 주 목표입니다.

#Review #Text-to-3D Generation #Prompt Engineering #Visual Analytics #Human-Computer Interaction #Multi-modal Large Language Models #3D Model Evaluation

2025년 8월 7일

[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.

#Review #Large Language Models #Active Context Management #Proactive Interference #Tool Augmentation #Working Memory #Context Curation #Long Context

2025년 8월 7일

[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.

#Review #Computer Use Agent #Self-Evolving #Reinforcement Learning #Curriculum Learning #Vision-Language Models #Experiential Learning #Specialist-to-Generalist

2025년 8월 7일

[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.

#Review #Root Cause Analysis #Large Language Models #5G Wireless Networks #Supervised Fine-Tuning #Reinforcement Learning #Chain-of-Thought #TeleLogs Dataset

2025년 8월 7일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일

[논문리뷰] Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

본 논문은 현재 AI 학술 대회의 중앙 집중식 모델 이 급격한 성장으로 인해 비정상적이고 지속 불가능한 상태 에 도달했음을 진단합니다. 과학적 지식 확산, 형평성, 커뮤니티 복지와 같은 본질적인 목표를 위협하는 구조적 위기 를 데이터 기반으로 분석하고, 이에 대한 근본적인 해결책을 제시하는 것을 목표로 합니다.

#Review #AI Conferences #Sustainability #Peer Review #Community Building #Environmental Impact #Mental Health #Centralized Model #Decentralized Model

2025년 8월 7일

[논문리뷰] OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

의료 및 생명 과학 분야에서 비정형 텍스트로부터 구조화된 정보를 추출하는 데 필수적인 Named Entity Recognition (NER) 의 성능과 효율성을 개선하는 것을 목표로 합니다.

#Review #Biomedical NER #Transformer #Domain Adaptation #LoRA #Open-Source #Named Entity Recognition #Healthcare AI

2025년 8월 7일

[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions

본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.

#Review #Audio-Language Model #General Audio Captions #Audio Understanding #Speech Recognition #Efficient Inference #Public Datasets #Multimodality #Data Curation

2025년 8월 7일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.

#Review #LLM #KV Cache Optimization #Model Pruning #Efficient Decoding #Memory Optimization #Static Sparsity #Transformer

2025년 8월 7일

[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.

#Review #Design-to-Code #Webpage Generation #Multimodal Large Language Models (MLLMs)#Layout Preservation #Chain-of-Thought (CoT)#UI Automation #Code Generation

2025년 8월 7일

[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭 일 가능성을 탐구합니다.

#Review #Chain-of-Thought #LLMs #OOD Generalization #Data Distribution Shift #Reasoning #Pattern Matching #DataAlchemy

2025년 8월 7일

[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.

#Review #Instruction Following #Reinforcement Learning #Reward Hacking #LLMs #Curriculum Learning #Data Flywheel #Verifiable Rewards

2025년 8월 7일

[논문리뷰] IAUNet: Instance-Aware U-Net

본 논문은 생의학 이미징 분야에서 널리 사용되는 U-Net 아키텍처와 인스턴스 분할 태스크 간의 격차를 해소하는 것을 목표로 합니다. 특히, 기존 쿼리 기반 모델이 단일 스케일 특징에 의존하는 한계를 극복하고 U-Net의 스킵 연결에서 얻는 다중 스케일 컨텍스트를 활용하여 복잡한 세포 분할의 정밀도를 높이고자 합니다.

#Review #Instance Segmentation #U-Net #Query-based Model #Transformer Decoder #Biomedical Imaging #Cell Segmentation #Deep Learning

2025년 8월 7일

[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference Score

본 논문은 기존 텍스트-이미지 생성 모델 평가를 위한 인간 중심 지표들이 제한적인 데이터 커버리지 , 불완전한 특징 추출 , 비효율적인 손실 함수 로 인해 인간의 선호도와 충분히 정렬되지 못하는 문제를 해결하는 것을 목표로 합니다. 이는 고급 생성 모델의 평가와 실제 인간 인식과의 일치성을 저해합니다.

#Review #Human Preference Score #Text-to-Image Generation #Image Evaluation #Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss #Dataset #Iterative Refinement #Chain-of-Thought

2025년 8월 7일

[논문리뷰] Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

본 논문은 단일 비디오 입력으로부터 고품질의 동적인 3D 콘텐츠(4D)를 생성하는 문제를 해결하고자 합니다. 특히, 기존 4D 확산 모델링의 주요 도전 과제인 데이터 구축 비용 및 3D 형상, 외형, 움직임의 고차원성 으로 인한 직접 모델링의 어려움을 극복하는 것을 목표로 합니다.

#Review #4D Generation #Video-to-3D Synthesis #Gaussian Splatting #Diffusion Models #Latent Space Modeling #Variational Autoencoder #Temporal Coherence

2025년 8월 7일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] Efficient Agents: Building Effective Agents While Reducing Cost

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 확장성과 접근성을 위협하는 급증하는 비용 문제 를 해결하고자 합니다.

#Review #LLM Agents #Cost Efficiency #Performance-Cost Trade-off #Agent Frameworks #GAIA Benchmark #Optimization #Resource Management

2025년 8월 7일

[논문리뷰] EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation

레거시 C 코드베이스를 Rust로 자동 변환할 때 발생하는 언어적 불일치(안전성, 관용성) 및 프로젝트 레벨의 모듈 간 종속성 문제를 해결하여, 전체 C 프로젝트를 의미론적으로 동등하고 안전한 Rust 코드로 정확하게 번역하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #C-to-Rust Conversion #Project-Level Translation #Large Language Models #Code Synthesis #Memory Safety #Software Migration #Hybrid Translation

2025년 8월 7일

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.

#Review #Video Virtual Try-On #Diffusion Transformers #Stage-Wise Framework #Vision-Language Models #LoRA #Temporal Consistency #Garment Preservation

2025년 8월 7일

[논문리뷰] CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

기존 AI/ML 독성 예측 모델의 한계(데이터 의존성, 해석 불가능성)와 LLM 기반 접근법의 문제점(SMILES 이해 부족, 생물학적 맥락 부재, 추론 비활용)을 극복하는 것을 목표로 합니다.

#Review #Toxicity Prediction #Large Language Model #Chain-of-Thought #Drug Development #Cheminformatics #Interpretable AI #IUPAC Nomenclature

2025년 8월 7일

[논문리뷰] C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

본 연구는 3D 이상 감지(Anomaly Detection, AD)에서 기존 클래스-특정 모델 의 한계를 극복하고, 새로운 객체 범주가 지속적으로 발생하는 실제 환경에 적응할 수 있는 멀티-클래스 및 연속 학습(Continual Learning) 기능 을 갖춘 3D 이상 감지 프레임워크를 개발하는 것을 목표로 합니다.

#Review #3D Anomaly Detection #Continual Learning #Kernel Attention #Learnable Advisor #Parameter Perturbation #Point Cloud #Industrial AI

2025년 8월 7일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일

[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.

#Review #3D Occupancy Grounding #Multi-modal Learning #Natural Language Understanding #Autonomous Driving #Voxel-based Prediction #Benchmark Dataset #Coarse-to-Fine

2025년 8월 7일

[논문리뷰] Tool-integrated Reinforcement Learning for Repo Deep Search

소프트웨어 이슈 설명과 실제 결함 코드 사이의 의미론적 간극 및 다중 홉 추론 으로 인해 발생하는 이슈 로컬라이제이션(결함 코드 위치 식별)의 어려움을 해결하는 것이 목표입니다. 특히, LLM 기반 에이전트가 저장소 검색 도구를 효과적으로 활용하여 이슈 로컬라이제이션 을 수행하는 능력을 강화하고자 합니다.

#Review #Issue Localization #Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Tool-integrated Agents #Software Engineering #Code Search

2025년 8월 6일

[논문리뷰] TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

이 논문은 대규모 언어 모델(LLM)이 왜 안전하지 않거나 정책을 위반하는 출력을 생성하는 '정렬 드리프트(alignment drift)'를 겪는지에 대한 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #LLM Alignment #Alignment Drift #Training Data Provenance #Belief Conflict Index (BCI)#Suffix Array #Safety Interventions #Reinforcement Learning from Human Feedback #Explainable AI

2025년 8월 6일

[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

본 논문은 이미지 이해, 텍스트-투-이미지 생성, 이미지 편집 기능을 단일 아키텍처 내에서 통합하는 1.5억 개 파라미터 의 자기회귀 모델 인 Skywork UniPic 을 소개합니다.

#Review #Autoregressive Models #Multimodal AI #Image Generation #Image Editing #Visual Understanding #Unified Architecture #Parameter Efficiency

2025년 8월 6일

[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Code Generation #Non-Autoregressive Inference #High-Speed Inference #Discrete Diffusion #LLM Inference

2025년 8월 6일

[논문리뷰] Multi-human Interactive Talking Dataset

기존 단일 화자 또는 얼굴 기반의 오디오-구동 비디오 생성 모델의 한계를 극복하고, 다중 인간 상호작용 을 현실적으로 모델링하는 새로운 과제인 다중 인간 대화 비디오 생성(Multi-Human Talking Video Generation) 을 정의하는 것을 목표로 합니다.

#Review #Multi-human Video Generation #Interactive Talking #Dataset #Audio-driven Animation #Pose Control #Speech Interaction #Diffusion Models

2025년 8월 6일

[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

본 논문은 기존 비디오 생성 모델이 짧은 클립에는 효과적이지만, 시간적 불일치(temporal inconsistency) 와 시각적 품질 저하(visual degradation) 문제로 인해 1분 이상의 초장시간 비디오 생성 에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Ultra-long Video Generation #Multimodal Guidance #Controllable Video Generation #Diffusion Models #Temporal Consistency #Visual Quality #Autoregressive Generation #Degradation-aware Training

2025년 8월 6일

[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

본 논문은 기존 도구 사용 벤치마크가 시뮬레이션되거나 소규모의 MCP(Model Context Protocol) 서버에 국한되어 실제 대규모의 동적인 환경을 반영하지 못하는 한계를 지적합니다.

#Review #LLM Agent #Tool-use #MCP #Benchmark #Large-scale #Real-world tasks #Automated Evaluation #Meta-tool-learning

2025년 8월 6일

[논문리뷰] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

본 논문은 여러 시각적 레퍼런스와 공간적 레이아웃 정보를 활용하여 일관되고 응집력 있는 이미지를 생성하는 것을 목표로 합니다. 특히, 기존 단일 레퍼런스 확산 모델을 훈련 없이 다중 레퍼런스 시나리오로 확장하고, 개체 일관성 및 정밀한 레이아웃 제어를 동시에 달성하는 문제를 해결하고자 합니다.

#Review #Multi-Image Composition #Layout Control #Diffusion Models #Transformer #Attention Mechanisms #Training-Free #Zero-Shot Generalization

2025년 8월 6일

[논문리뷰] Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

본 논문은 형식 증명 자동화(Automated Theorem Proving, ATP) 분야에서 기존의 대규모 모델 및 연산량 의존성을 극복하고, 더 적은 자원으로도 최첨단 성능을 달성하는 새로운 오픈소스 언어 모델 시리즈인 Goedel-Prover-V2 를 개발하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Formal Verification #Language Models #Self-Correction #Data Synthesis #Reinforcement Learning #Model Averaging #Lean

2025년 8월 6일

[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.

#Review #LLM Evaluation #Answer Verification #Reward Model #Benchmarking #Data Augmentation #Reinforcement Learning #Formula Verification #Hallucination Detection

2025년 8월 6일

[논문리뷰] ChartCap: Mitigating Hallucination of Dense Chart Captioning

본 논문은 시각 언어 모델(VLMs)이 생성하는 차트 캡션의 환각 현상(hallucination)을 줄이고 정보의 정확성 및 밀도를 높이는 것 을 목표로 합니다. 기존 데이터셋의 외부 정보 포함 및 차트 유형별 핵심 정보 부족 문제를 해결하여, 모델이 차트 이미지로부터 직접 추론 가능한 고품질 캡션을 생성하도록 합니다.

#Review #Chart Captioning #Hallucination Mitigation #Dataset Generation #Visual Language Models #Cycle Consistency #Reference-Free Metric #Data Visualization

2025년 8월 6일

[논문리뷰] CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

논문은 ANNS(Approximate Nearest Neighbor Search) 알고리즘 최적화의 수작업적, 전문 지식 의존적 특성을 해결하는 것을 목표로 합니다. LLM을 강화 학습으로 증강하여 실행 속도를 보상 신호로 삼아, ANNS 구현을 자동으로 최적화하는 새로운 패러다임인 CRINN 을 제안합니다.

#Review #Approximate Nearest Neighbor Search #Reinforcement Learning #Large Language Models #Code Optimization #HNSW #Retrieval-Augmented Generation #Contrastive Learning

2025년 8월 6일

[논문리뷰] AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

대규모 언어 모델(LLM)의 LoRA 미세 조정 과정에서 발생하는 정렬 드리프트(alignment drift) 문제를 해결하여, 안전 및 행동 제약을 유지하면서도 새로운 태스크에 대한 성능 저하를 방지하는 것을 목표로 합니다.

#Review #Alignment Preservation #Fine-Tuning #LoRA #Fisher Information Matrix #Catastrophic Forgetting #LLM Safety #Riemannian Geometry #Parameter-Efficient Learning

2025년 8월 6일

[논문리뷰] VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

본 논문은 다양한 모달리티를 처리하는 복잡하고 이질적인 아키텍처 때문에 확장성이 부족하고 엔지니어링 오버헤드가 큰 옴니모달 LLM(Large Language Models) 훈련의 어려움을 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Distributed Training #Model-centric #Parallelism #FSDP #Sequence Parallelism #Expert Parallelism #Mixture-of-Experts

2025년 8월 5일

[논문리뷰] SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

본 논문은 장문 문서에 대한 RAG(Retrieval-Augmented Generation) 시스템에서 기존 임베딩 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Dense Retrieval #Context-Aware Embedding #RAG #Long Document Comprehension #Residual Learning #Semantic Association #Text Embedding

2025년 8월 5일

[논문리뷰] RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

이 논문은 물리적 환경에 배치된 로봇 에이전트의 평생 학습(Lifelong Learning) 및 장기 계획(Long-term Planning) 을 위한 뇌에서 영감을 받은 다중 메모리 프레임워크인 RoboMemory 를 제안합니다.

#Review #Brain-inspired AI #Lifelong Learning #Embodied AI #Multi-memory Systems #Knowledge Graph #Robotics #Closed-Loop Planning

2025년 8월 5일

[논문리뷰] Qwen-Image Technical Report

본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Text Rendering #Multimodal Diffusion Transformer #Curriculum Learning #Reinforcement Learning #Foundation Model

2025년 8월 5일

[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion Models

현재 텍스트-투-이미지(T2I) 확산 모델의 안전 메커니즘이 사용자의 다양한 연령, 정신 건강, 개인 신념 등의 선호도를 고려하지 않고 일률적인 기준을 적용하여 발생하는 한계를 해결하고자 합니다.

#Review #Personalized Safety Alignment #Text-to-Image Diffusion Models #DPO #User Preferences #Content Moderation #Generative AI #Cross-Attention #Safety Alignment

2025년 8월 5일

[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

본 연구는 대규모 언어 모델(LLM)의 사이버 보안 분야 통합이 데이터 부족, 복잡한 표현, 안전 및 규제 문제로 인해 제한적이라는 문제를 해결하고자 합니다.

#Review #Large Language Model #Cybersecurity #Instruction Tuning #Direct Preference Optimization #Cyber Threat Intelligence #Foundation Model #Chatbot

2025년 8월 5일

[논문리뷰] InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

본 논문은 로봇이 실제 환경에서 효과적으로 작동하기 위해 멀티모달 추론과 정확한 동작 생성을 통합하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Instruction Tuning #Multimodal Reasoning #Robotic Manipulation #Catastrophic Forgetting #Mixture-of-Experts (MoE)#Flow Matching

2025년 8월 5일

[논문리뷰] Exploitation Is All You Need... for Exploration

본 논문은 기존 RL에서 탐색을 위해 명시적인 인센티브를 부여하는 방식과 달리, 순수한 탐욕적인(exploitation-only) 목적 만으로도 탐색적 행동이 자연스럽게 나타날 수 있는지 검증하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Exploration-Exploitation #Meta-RL #Transformer Architecture #Emergent Behavior #Multi-Armed Bandits #Gridworlds #Pseudo-Thompson Sampling

2025년 8월 5일

[논문리뷰] Cyber-Zero: Training Cybersecurity Agents without Runtime

기존 대규모 언어 모델(LLM) 기반 소프트웨어 엔지니어링 에이전트들이 실행 환경을 통해 학습하지만, 사이버 보안 도메인에서는 이러한 실행 환경이 부족하여 고급 훈련 데이터 확보가 어렵습니다.

#Review #Cybersecurity Agents #LLM Training #Trajectory Synthesis #Runtime-Free Training #CTF Challenges #LLM Simulation

2025년 8월 5일

[논문리뷰] CellForge: Agentic Design of Virtual Cell Models

본 논문은 복잡한 생물학적 시스템, 이질적인 데이터 양식, 그리고 다학제적 전문 지식의 필요성으로 인해 어려움을 겪는 가상 세포 모델의 자율적인 구축 문제를 해결하고자 합니다.

#Review #AI Scientist #Multi-Agent System #Virtual Cell Modeling #Single-Cell Perturbation Prediction #Deep Learning #Automated Model Design #Code Generation #Retrieval-Augmented Generation

2025년 8월 5일

[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.

#Review #Self-Supervised RL #Instruction Following #Reasoning Models #Large Language Models #Reward Modeling #Curriculum Learning

2025년 8월 5일

[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Agents #Test-time Scaling #Compute Optimization #Multi-stage Tasks #Resource Allocation #Search Efficiency

2025년 8월 5일

[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Token Pruning #Dynamic Compression #GlimpsePrune #Computational Efficiency #VQA #Reinforcement Learning

2025년 8월 5일

[논문리뷰] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation

본 논문은 기존 오디오 기반 비디오 생성 모델들이 주로 시맨틱 정보에만 초점을 맞춰 공간적 일관성이 부족하다는 한계를 지적합니다.

#Review #Audio-driven Video Generation #Spatial Auditory Cues #Video Scene Layout #MLLM #Diffusion Models #Training-free

2025년 8월 4일

[논문리뷰] SWE-Exp: Experience-Driven Software Issue Resolution

본 논문은 기존 LLM 기반 소프트웨어 문제 해결 에이전트가 과거 경험을 활용하지 못하고 각 문제를 독립적으로 처리하여 발생하는 비효율성(중복 탐색, 지식 이전 부족, 전략적 진화 부재)을 해결하는 것을 목표로 합니다.

#Review #Software Issue Resolution #LLM Agents #Experience-Driven Learning #Automated Program Repair #Multi-Agent Systems #Knowledge Management #Continuous Learning

2025년 8월 4일

[논문리뷰] SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution

본 논문은 대규모 언어 모델(LLM) 기반 소프트웨어 이슈 해결 시스템의 '제한된 관찰 범위(limited observation scope)' 문제를 해결하고자 합니다.

#Review #Multi-Agent System #Software Engineering #Fault Localization #Issue Resolution #Large Language Models #Competitive Debate #Graph Traversal

2025년 8월 4일

[논문리뷰] PixNerd: Pixel Neural Field Diffusion

이 논문은 Variational Autoencoder (VAE) 기반의 기존 확산 모델이 야기하는 누적 오류와 디코딩 아티팩트 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Neural Fields #Pixel Space #Generative Models #Image Synthesis #Transformer Architecture #End-to-End Learning

2025년 8월 4일

[논문리뷰] Multimodal Referring Segmentation: A Survey

이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.

#Review #Multimodal Learning #Referring Segmentation #Vision-Language Models #Image Segmentation #Video Segmentation #3D Vision #Survey

2025년 8월 4일

[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

이 논문은 대규모 언어 모델(LLM) 기반의 대화 평가에서 현재 'LLM-as-a-judge' 패러다임이 겪는 편향 문제와 추론 시 발생하는 과도한 계산 오버헤드 를 해결하고자 합니다.

#Review #Multi-Turn Dialogue Evaluation #LLM-as-a-Judge #Multi-Judge Aggregation #Preference Learning #Dialogue Quality Assessment #Maximum Likelihood Estimation #Computational Efficiency

2025년 8월 4일

[논문리뷰] Investigating Hallucination in Conversations for Low Resource Languages

본 연구는 대규모 언어 모델(LLM)이 생성하는 텍스트의 사실적 오류, 즉 '환각(hallucination)' 문제를 저자원 언어인 힌디어, 페르시아어, 만다린어 대화 데이터에서 심층적으로 조사하는 것을 목표로 합니다.

#Review #LLM Hallucination #Low-resource Languages #Conversational AI #ROUGE Score #Cross-lingual Evaluation #Factual Consistency

2025년 8월 4일

[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

본 논문은 이미지-목표 내비게이션(Image-goal Navigation)의 근본적인 문제를 해결하는 것을 목표로 합니다. 기존의 종단 간 RL 학습이나 모듈 기반 접근 방식이 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 효과적으로 모델링하지 못하는 한계를 극복하고자 합니다.

#Review #Image-goal Navigation #3D Gaussian Splatting (3DGS)#Incremental Scene Representation #Coarse-to-fine Localization #Embodied AI #Robotics #Differentiable Rendering

2025년 8월 4일

[논문리뷰] Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Diffusion Large Language Models (DLLMs)의 핵심 제약 사항인 고정된 출력 길이 문제를 해결하고, 태스크별로 동적으로 적응하는 가변 길이 생성 을 가능하게 하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Variable-Length Generation #Dynamic Length Adaptation #Denoising Strategy #Inference Optimization #Computational Efficiency

2025년 8월 4일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] iLRM: An Iterative Large 3D Reconstruction Model

본 논문은 일반화 가능한 Feed-forward 3D 재구성 모델, 특히 Transformer 아키텍처 를 기반으로 하는 최신 방법론들이 다수의 뷰 또는 고해상도 이미지 처리 시 겪는 확장성 및 높은 연산 비용 문제 를 해결하고자 합니다.

#Review #3D Reconstruction #Gaussian Splatting #Iterative Refinement #Transformer Architecture #Multi-view Learning #Scalability #Feed-forward Models

2025년 8월 2일

[논문리뷰] TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

멀티모달 대규모 언어 모델(MLLMs)에서 발생하는 환각(hallucination) 문제를 해결하고 신뢰성을 향상하는 것이 목표입니다. 기존 직접 선호도 최적화(DPO) 방식이 선호도 데이터의 표면적인 언어적 특징에 과적합되어 시각적 정보와의 인과적 연결이 약해지는 한계를 극복하고자 합니다.

#Review #MLLMs #Hallucination Reduction #Preference Optimization #Min-Max Optimization #Token-Adaptive Strategy #Spectral Regularization #Visual Grounding

2025년 8월 2일

[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.

#Review #Automated Theorem Proving #Large Language Models #Formal Verification #Reinforcement Learning #Lean #Geometry Reasoning #Chain-of-Thought #Lemma-Style Proving

2025년 8월 2일

[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Multi-Task Learning #Visuomotor Agents #Spatial Reasoning #Generalization #Minecraft #Cross-View Goal Specification #Automated Task Synthesis

2025년 8월 2일

[논문리뷰] RecGPT Technical Report

기존 추천 시스템의 로그 기반(log-fitting) 접근 방식 이 야기하는 과적합, 필터 버블, 롱테일 문제의 한계를 극복하고, 사용자 의도 를 중심으로 하는 차세대 추천 시스템 RecGPT 를 제안합니다.

#Review #Recommender Systems #Large Language Models (LLMs)#User Intent Modeling #Multi-Stage Training #Human-in-the-Loop #E-commerce #Filter Bubble Mitigation #Matthew Effect

2025년 8월 2일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] Persona Vectors: Monitoring and Controlling Character Traits in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 발생하는 예상치 못한 또는 바람직하지 않은 페르소나 변화 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Persona Control #Activation Steering #Finetuning #Behavioral Shift Detection #Interpretability #Data Filtering

2025년 8월 2일

[논문리뷰] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

이 논문은 Softmax Attention 이 선형 Attention 보다 우수한 성능을 보이는 근본적인 이유를 규명하고, Softmax Attention 의 표현력과 동작 원리를 재귀 신경망(RNN) 관점에서 분석하는 것을 목표로 합니다.

#Review #Softmax Attention #Linear Attention #Recurrent Neural Networks (RNNs)#Taylor Series Expansion #Attention Mechanisms #Expressiveness #Transformer Architectures

2025년 8월 2일

[논문리뷰] NeRF Is a Valuable Assistant for 3D Gaussian Splatting

본 논문은 3D Gaussian Splatting (3DGS) 의 고유한 한계(Gaussian 초기화 민감성, 제한된 공간 인식, 약한 Gaussian 간 상관관계)를 해결하기 위해 Neural Radiance Fields (NeRF) 의 연속적인 공간 표현 능력을 활용하는 것을 목표로 합니다.

#Review #NeRF #3D Gaussian Splatting #Hybrid Model #Joint Optimization #Scene Representation #Neural Rendering #Residual Learning #Sparse View

2025년 8월 2일

[논문리뷰] Flow Equivariant Recurrent Neural Networks

본 논문은 기존 정적 변환 및 피드포워드 네트워크 에 국한된 equivariance 이론을 확장하여, 시각적 움직임과 같은 시간 매개변수화된 흐름(flows)을 포착하는 순환 신경망(RNN) 에 적용하는 것을 목표로 합니다.

#Review #Flow Equivariance #Recurrent Neural Networks #Sequence Models #Group Equivariance #Lie Subgroups #Generalization #Time-Parameterized Symmetries

2025년 8월 2일

[논문리뷰] Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

아랍어 텍스트 검색에서 복잡한 형태학적 특성 과 다양한 방언 으로 인한 기존 검색 시스템의 한계를 극복하고, 질문과 문서 간의 의미론적 관련성을 더욱 효과적으로 모델링 하여 검색 성능과 순위 정확도를 향상시키는 것을 목표로 합니다.

#Review #Arabic NLP #Dense Passage Retrieval #Attentive Relevance Scoring #Information Retrieval #Question Answering #Transformer Models #Semantic Matching

2025년 8월 2일

[논문리뷰] Efficient Machine Unlearning via Influence Approximation

본 논문은 대규모 데이터셋과 빈번한 삭제 요청이 발생하는 환경에서 기존 영향 함수 기반 언러닝(unlearning) 방식의 높은 계산 비용과 메모리 오버헤드 문제를 해결하고자 합니다.

#Review #Machine Unlearning #Influence Function #Incremental Learning #Privacy Protection #Gradient Optimization #Model Editing #Computational Efficiency

2025년 8월 2일

[논문리뷰] C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

본 연구는 현존하는 음성 대화 모델(SDM)들이 인간의 복잡한 대화, 특히 음운론적/의미론적 모호성 과 맥락 의존성 (생략, 공참조, 다중 턴 상호작용)을 얼마나 효과적으로 이해하고 모방하는지에 대한 종합적인 벤치마킹의 부족을 해결하고자 합니다.

#Review #Spoken Dialogue Models #Bilingual Benchmark #Complex Conversations #Ambiguity Resolution #Context Understanding #LLM Evaluation #Human-Computer Interaction

2025년 8월 2일

[논문리뷰] Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification

본 논문은 전문가가 라벨링한 데이터의 부족과 복잡하고 비선형적인 스타일 요소의 상호작용으로 인해 어려움을 겪는 예술 스타일 분류의 문제를 해결하고자 합니다.

#Review #Kolmogorov-Arnold Networks #Knowledge Distillation #Art Style Classification #Self-Supervised Learning #Spline-Based Activation #Dual-Teacher #Gram Matrix

2025년 8월 2일

[논문리뷰] AgroBench: Vision-Language Model Benchmark in Agriculture

본 논문은 농업 분야에서 Vision-Language Model (VLM) 의 광범위한 지식과 실제 적용 가능성을 평가하기 위한 포괄적인 벤치마크 데이터셋인 AgroBench 를 구축하는 것을 목표로 합니다. 기존 농업 VLM 벤치마크의 부족한 범주 다양성과 합성 데이터 의존성이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Agriculture #Benchmarking #Disease Identification #Pest Management #Crop Management #Agronomy

2025년 8월 2일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models

본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.

#Review #Agentic Organization #Asynchronous Thinking #Language Models #Reinforcement Learning #Multi-agent Systems #Reasoning #Task Decomposition #Orchestration

2025년 10월 31일

[논문리뷰] The End of Manual Decoding: Towards Truly End-to-End Language Models

현재 LLM이 비미분 가능한 디코딩 하이퍼파라미터(온도, top-p)의 수동 튜닝에 의존하여 발생하는 비효율성과 비최적화 문제를 해결하는 것이 목표입니다. 논문은 모델이 자체 디코딩 전략을 학습하여 동적으로 제어함으로써 진정한 엔드-투-엔드 생성 을 가능하게 하는 새로운 아키텍처를 제안합니다.

#Review #Large Language Models (LLMs)#End-to-End Generation #Dynamic Decoding #Hyperparameter Optimization #Stochastic Sampling #Instruction Following #Transformer Architecture

2025년 10월 31일

[논문리뷰] Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

이 논문은 웹, 데스크톱, 모바일 환경 전반에 걸쳐 일반화하는 에이전트를 구축하는 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Cross-Platform #GUI Automation #Vision-Language Model #Hierarchical Architecture #Agent Orchestration #Visual Interaction

2025년 10월 31일

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일

[논문리뷰] Remote Labor Index: Measuring AI Automation of Remote Work

AI 기술의 연구 발전이 실제 경제적 가치와 노동 자동화로 어떻게 연결되는지 불분명하며, AI 자동화의 진척도를 모니터링할 표준화된 경험적 방법이 부족합니다.

#Review #AI 자동화 #원격 근무 #벤치마크 #AI 에이전트 #프리랜서 경제 #인간 평가 #자동화율

2025년 10월 31일

[논문리뷰] Performance Trade-offs of Optimizing Small Language Models for E-Commerce

본 논문은 대규모 상용 LLM의 높은 비용과 리소스 제약 문제를 해결하기 위해, 소규모 오픈-웨이트 모델이 특정 도메인 작업에서 효율적인 대안이 될 수 있는지 검증하는 것을 목표로 합니다.

#Review #Small Language Models #E-commerce #Intent Recognition #Fine-tuning #QLoRA #Quantization #GPTQ #GGUF #Hardware-aware Optimization

2025년 10월 31일

[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.

#Review #Phonetic Foundation Model #Multitask Learning #Speech Recognition #Phone Recognition #Grapheme-to-Phoneme #Encoder-Decoder #Low-Resource Speech

2025년 10월 31일

[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree

기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.

#Review #Tool-Use LLM #Reinforcement Learning (RL)#Policy Optimization #Rewarded Tree #Trajectory Optimization #Agentic System #Dynamic Tool Call

2025년 10월 31일

[논문리뷰] OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

본 논문은 기존 2D 리프팅(lifting) 방식이 외관 생성에만 치중하고 내재적 속성 인식을 간과하여 현대 그래픽스 파이프라인과의 통합이 어렵다는 문제를 해결하고자 합니다.

#Review #Panoramic Generation #Panoramic Perception #3D Scene Reconstruction #Graphics-Ready Scenes #Physically Based Rendering (PBR)#Flow Matching Models #Cross-Modal Adapters #Synthetic Dataset (PanoX)

2025년 10월 31일

[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

본 연구는 다양한 문서 레이아웃 데이터의 부족과 복잡한, 긴 시퀀스 시나리오에서 기존 문서 레이아웃 생성 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Document Layout Generation #Large Language Models (LLMs)#Coarse-to-Fine Learning #Dataset Curation #OmniLayout-1M #Document AI #Generative Models

2025년 10월 31일

[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.

#Review #Medical VQA #Large Multimodal Models (LMMs)#Data Synthesis #Generator-Verifier Framework #Rubric-Guided #Reinforcement Learning (RL)#Context-Aware

2025년 10월 31일

[논문리뷰] Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets

본 논문은 LLM 에이전트가 중재하는 경제적 의사결정 환경에서 에이전트의 행동과 가치를 이해하기 위한 연구를 목표로 합니다. 기존의 제한적인 환경 연구에서 나아가, 복잡하고 동적인 실제 시장 조건 에서 에이전트의 행동을 안전하게 연구할 수 있는 개방형 시뮬레이션 환경 을 개발하는 것이 주요 목적입니다.

#Review #Agentic Markets #Multi-Agent Systems #Large Language Models (LLMs)#Simulation Environment #Open-Source Platform #Market Mechanism Design #Behavioral Biases #Manipulation Resistance

2025년 10월 31일

[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Multi-Reward Learning #Flow Matching #User Preference Alignment #Training Efficiency #Compositional Reasoning #Conditional Generation

2025년 10월 31일

[논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

본 논문은 기존 대규모 언어 모델(LLMs)이 MOF(Metal-Organic Frameworks)와 같은 복잡한 3D 결정질 재료의 설계 및 이해에 필요한 다면적인 표현 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLM #Metal-Organic Frameworks (MOFs)#Materials Discovery #Crystal Representation Learning #Instruction Tuning #Structure-Property Prediction #Knowledge Generation

2025년 10월 31일

[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture

표준 트랜스포머의 quadratic 시간 복잡도 와 선형적으로 증가하는 KV 캐시 의 비효율성을 극복하여, 장문 컨텍스트 및 강화 학습(RL) 환경에서 풀 어텐션(Full Attention)과 동등하거나 더 우수한 성능 을 달성하면서도 효율적인 하이브리드 선형 어텐션 아키텍처 를 개발하는 것입니다.

#Review #Linear Attention #Hybrid Architecture #Kimi Delta Attention (KDA)#Gating Mechanism #Long-Context Modeling #Efficient Inference #Transformer

2025년 10월 31일

[논문리뷰] FullPart: Generating each 3D Part at Full Resolution

기존 파트 기반 3D 생성 모델의 한계점인 불충분한 기하학적 디테일(implicit 방식)과 작은 파트의 해상도 저하(explicit global voxel grid 방식)를 극복하고, 각 3D 파트를 전체 해상도 로 상세하게 생성하며 전역적인 일관성을 유지하는 것을 목표로 합니다.

#Review #3D Part Generation #Full Resolution #Implicit Representation #Explicit Representation #Voxel Grid #Diffusion Models #PartVerse-XL #Center-Corner Encoding

2025년 10월 31일

[논문리뷰] Exploring Conditions for Diffusion models in Robotic Control

본 논문은 사전 훈련된 텍스트-투-이미지 diffusion 모델 을 로봇 제어에 활용하여 태스크 적응형 시각 표현 을 얻는 것을 목표로 합니다.

#Review #Diffusion Models #Robotic Control #Imitation Learning #Task-Adaptive Representations #Visual Prompts #Text-to-Image #Conditioning #Behavior Cloning

2025년 10월 31일

[논문리뷰] EnzyControl: Adding Functional and Substrate-Specific Control for Enzyme Backbone Generation

컴퓨테이셔널 단백질 엔지니어링에서 기질 특이적 기능성을 가진 효소 백본을 설계하는 핵심 과제를 해결하고자 합니다. 기존 생성 모델들이 바인딩 데이터, 기질 특이적 제어, 및 de novo 효소 백본 생성 유연성에서 한계를 보이는 문제점을 극복하는 것을 목표로 합니다.

#Review #Enzyme Design #Protein Engineering #Generative Models #Flow Matching #Substrate-Specific Control #Functional Site Prediction #Biomolecular AI #Deep Learning

2025년 10월 31일

[논문리뷰] Emu3.5: Native Multimodal Models are World Learners

본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Model #World Model #Vision-Language #Next-Token Prediction #Reinforcement Learning #Discrete Diffusion Adaptation #Image Generation #Any-to-Image

2025년 10월 31일

[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Electronic Health Records #Large Language Models #Reasoning Enhancement #Instruction Tuning #Reinforcement Learning #Data Synthesis #Medical AI #Clinical Decision Support

2025년 10월 31일

[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.

#Review #LVLMs #Self-Improvement #Matthew Effect #Data Bias Mitigation #Distribution Reshaping #Trajectory Resampling #Visual Reasoning

2025년 10월 31일

[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.

#Review #Urban Sensing #Socio-Economic Status #Vision-Language Models #Reinforcement Learning #Generalization #Interpretability #Multi-modal Data

2025년 10월 31일

[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.

#Review #Vision-Language Models (VLMs)#Chart Understanding #Visual Grounding #Dense Alignment #Benchmark #Robustness #Multimodal Learning

2025년 10월 31일

[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

논문은 OpenAI의 ChatGPT Atlas 에이전트 가 웹 환경에서 상호작용하는 능력을, 특히 웹 기반 게임을 통해 평가하는 것을 목표로 합니다.

#Review #Web Agent #Large Language Models #Multimodal AI #Browser Automation #Game AI #ChatGPT Atlas #Performance Evaluation #Human-Computer Interaction

2025년 10월 31일

[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

본 논문은 웨어러블 AI 시나리오를 위한 Multi-Modal Retrieval-Augmented Generation (MM-RAG) 시스템의 포괄적인 평가를 위한 벤치마크가 부족하다는 문제를 해결합니다.

#Review #Multi-modal RAG #Benchmark #Wearable AI #Multi-turn Conversation #Egocentric Images #Knowledge Graph #Web Search #Hallucination

2025년 10월 31일

[논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs

본 연구는 소규모 언어 모델(BabyLMs)이 명령어 튜닝(Instruction Tuning)을 통해 성능 향상을 얻을 수 있는지 탐구합니다.

#Review #Instruction Tuning #BabyLMs #Small-scale LMs #Curriculum Learning #Conversational AI #Question Answering #Zero-shot Evaluation #SuperGLUE

2025년 10월 31일

[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Video Generation Models #Zero-Shot Reasoning #Visual Reasoning #MME-COF Benchmark #Chain-of-Frame Reasoning #Temporal Coherence #Spatial Reasoning

2025년 10월 31일

[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.

#Review #LLM Evaluation #Mathematical Reasoning #Olympiad-level Math #Benchmark #Performance Saturation #Test-time Scaling #AMO-Bench

2025년 10월 31일

[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning

본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models #Reinforcement Learning #Chain-of-Thought #Video Understanding #Temporal Grounding #Video Captioning #Autonomous Tool Use

2025년 10월 30일

[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

기존 시각 효과(VFX) 생성 모델들이 겪는 자원 집약적인 '효과당 LoRA' 패러다임 과 미학습 효과에 대한 낮은 일반화 능력 이라는 근본적인 한계를 해결하고자 합니다.

#Review #VFX Generation #In-Context Learning #Diffusion Models #Video Generation #Generalization #Attention Mask #One-Shot Adaptation

2025년 10월 30일

[논문리뷰] TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling

본 논문은 기존 LLM 기반 상담 에이전트 가 가진 임상적 한계, 특히 장기 기억 부족 과 전략적 경직성 문제를 해결하는 것을 목표로 합니다.

#Review #Longitudinal Counseling #Adaptive Agent #Dual-Loop Architecture #Large Language Models #Psychotherapy #Mental Health AI #Dialogue Management

2025년 10월 30일

[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarking #Long-Horizon Tasks #Realistic Environments #Multi-Application #Execution-Based Evaluation #Model Context Protocol (MCP)

2025년 10월 30일

[논문리뷰] The Principles of Diffusion Models

본 논문(모노그래프)은 확산 모델(Diffusion Models)의 근본적인 원리를 심층적으로 분석하고, 다양한 정식화(formulations)들이 어떻게 공통된 수학적 아이디어에서 파생되었는지 추적하여 통일된 관점을 제시하는 것을 목표로 합니다.

#Review #Diffusion Models #Generative AI #Variational Autoencoder #Energy-Based Models #Normalizing Flows #Score-Based SDEs #Flow Matching #Fokker-Planck Equation

2025년 10월 30일

[논문리뷰] SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

텍스트 전용 대규모 언어 모델(LLMs)이 시각 정보를 직접 처리할 수 없는 한계를 극복하고, 멀티모달 추론 능력을 효율적이고 비용 효과적으로 활용할 수 있도록 하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Text-only LLM #Agentic AI #Information Flow #VQA #Structured Intermediate Representation #Decoupled Architecture #Tool Use

2025년 10월 30일

[논문리뷰] Scaling Latent Reasoning via Looped Language Models

본 논문은 현대 LLM이 명시적 텍스트 생성(Chain-of-Thought) 에 의존하는 추론 방식의 한계를 극복하고자 합니다.

#Review #Looped Language Models #Latent Reasoning #Parameter Efficiency #Adaptive Computation #Pre-training Scaling #Knowledge Manipulation #Early Exit Mechanisms #Transformer Architecture

2025년 10월 30일

[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.

#Review #Synthetic Data Generation #Autonomous Driving #Perception Tasks #Diffusion Models #3D Asset Editing #World Model #Data Augmentation #nuScenes

2025년 10월 30일

[논문리뷰] RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

본 논문은 Instruction-Based Image Editing (IIE) 작업에서 모델이 이미지 전체에 균일한 생성 프로세스를 적용하여 발생하는 공간적 및 시간적 중복성을 해결하고, 이를 통해 추론 속도를 획기적으로 가속화하는 것을 목표로 합니다.

#Review #Instruction-based Image Editing #Diffusion Models #Efficient Inference #Region-Aware Generation #Adaptive Caching #Spatial Redundancy #Temporal Redundancy

2025년 10월 30일

[논문리뷰] Reasoning-Aware GRPO using Process Mining

본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Process Mining #Policy Optimization #Mathematical Reasoning #GRPO #PM4GRPO

2025년 10월 30일

[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Autoformalization #Large Language Models #Reinforcement Learning #Self-Reflection #Semantic Consistency #Formal Mathematical Reasoning #Sequence Optimization

2025년 10월 30일

[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation Scaling

본 논문은 Looped Transformer의 고질적인 문제인 순차적인 루프 실행 으로 인한 높은 추론 지연 시간 과 선형적으로 증가하는 KV 캐시 메모리 요구사항 을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Looped Transformers #Inference Efficiency #Parallel Computation #KV Cache Optimization #Gated Sliding-Window Attention #Cross-Loop Parallelism

2025년 10월 30일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] ODesign: A World Model for Biomolecular Interaction Design

ODesign은 기존의 분자 설계 AI 모델들이 특정 분자 유형에만 전문화되어 상호작용 세부 사항에 대한 미세 조정이 부족하다는 한계를 해결하고자 합니다.

#Review #Biomolecular Interaction Design #Generative AI #World Model #Multimodal Molecular Design #All-atom Generation #Diffusion Models #Protein Design #Nucleic Acid Design

2025년 10월 30일

[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Survey #Benchmarks #3D Vision #Embodied AI #Vision-Language Navigation

2025년 10월 30일

[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

본 연구는 Ming-Omni 의 업그레이드 버전인 Ming-Flash-Omni 를 제안하여, 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 시각, 음성, 언어 전반에 걸쳐 더욱 강력하고 통합된 멀티모달 지능을 구현하는 것을 목표로 합니다.

#Review #Multimodal AI #Sparse MoE #Unified Architecture #Perception #Generation #Contextual ASR #Image Editing #Generative Segmentation

2025년 10월 30일

[논문리뷰] MASPRM: Multi-Agent System Process Reward Model

Multi-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Process Reward Model #MCTS #Inference-time Search #LLM Agents #Zero-shot Transfer #Reinforcement Learning #Compute-Aware Reasoning

2025년 10월 30일

[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.

#Review #Multimodal Code Intelligence #Visual-Programmatic Interface #Code Generation #Data Synthesis #Large Language Models #Visualizations #Web UI #Animation

2025년 10월 30일

[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite

논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.

#Review #Bilingual LLMs #Data Curation #Benchmark Contamination #Data Poisoning #Open Science #Reproducibility #Generative Models #French-English

2025년 10월 30일

[논문리뷰] Fortytwo: Swarm Inference with Peer-Ranked Consensus

중앙 집중식 AI 추론의 확장성 및 신뢰성 한계를 해결하기 위해, 분산형 AI 시스템 에서 swarm intelligence 와 peer-ranked consensus 를 활용하여 높은 정확도, 확장성, 견고성을 갖춘 추론 프로토콜을 개발하는 것을 목표로 합니다.

#Review #Decentralized AI #Swarm Intelligence #AI Inference #Consensus Mechanism #Peer-Ranking #Bradley-Terry Model #Reputation System #Sybil Defense

2025년 10월 30일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] Evolving Diagnostic Agents in a Virtual Clinical Environment

본 논문은 정적인 지시 튜닝(instruction-tuned) 모델의 한계를 넘어, 가상 임상 환경 에서 강화 학습(RL) 을 통해 다중 턴 진단 과정을 효과적으로 관리하고, 적응적으로 검사를 선택하며, 최종 진단을 내릴 수 있는 진단 에이전트(diagnostic agents) 를 훈련하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Diagnostic Agents #Reinforcement Learning (RL)#Virtual Clinical Environment #Medical AI #Multi-turn Diagnosis #EHR (Electronic Health Records)

2025년 10월 30일

[논문리뷰] ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

온라인 게임과 같이 지식이 지속적으로 업데이트되고 사용자 관심사가 변화하는 동적 도메인에서 RAG 시스템을 평가할 표준화된 벤치마크가 부재합니다.

#Review #Retrieval Augmented Generation (RAG)#Dynamic Benchmarks #Game AI #User Interest Drift #Knowledge Evolution #Automated Benchmark Generation #Authenticity #Large Language Models (LLMs)

2025년 10월 30일

[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Benchmark #Indic Languages #Multilingual Evaluation #Domain-Specific AI #India-centric Knowledge Systems #Zero-Shot Learning #Question Answering

2025년 10월 30일

[논문리뷰] WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

LLM 기반 정보 탐색(IS) 에이전트가 겪는 낮은 탐색 효율성 문제를 해결하는 것이 주된 목표입니다.

#Review #LLM-based Agents #Information Seeking #Search Efficiency #Task Synthesis #Reinforcement Learning #Tree-structured Reasoning #WebAgent

2025년 10월 29일

[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

컴퓨터 비전 분야에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Visualization Quality Assessment #MLLMs #Benchmark #Aesthetics #Fidelity #Expressiveness #Fine-tuning #Reinforcement Learning

2025년 10월 29일

[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents

본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.

#Review #Multi-Language Visualization #Code Generation #Self-Debugging #Instruction Tuning #Large Language Models #Visualization Benchmark #Coding Agents #Code-Feedback

2025년 10월 29일

[논문리뷰] VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

본 논문은 Vision-Language Models (VLMs)의 vision-language alignment 메커니즘 에 대한 해석 가능성 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Model Interpretability #Sparse Autoencoder (SAE)#Multi-modal Alignment #Concept Learning #Hallucination Elimination #Zero-shot Classification

2025년 10월 29일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

본 논문은 초고해상도(UHR) Text-to-Image (T2I) 생성 시 직면하는 두 가지 주요 문제, 즉 대규모 고품질 UHR 데이터셋의 부재 와 미세한 디테일 합성을 위한 맞춤형 훈련 전략의 부족 을 해결하는 것을 목표로 합니다.

#Review #Ultra-High-Resolution #Text-to-Image Generation #Diffusion Models #Large-Scale Dataset #Frequency-Aware Training #Detail Enhancement #Image Synthesis

2025년 10월 29일

[논문리뷰] Tongyi DeepResearch Technical Report

본 논문은 장기적인 정보 탐색 및 심층 연구 태스크를 위해 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch 를 소개하고 오픈소스화하는 것을 목표로 합니다.

#Review #Agentic LLM #Deep Research #Information Seeking #Reinforcement Learning #Synthetic Data #Context Management #Tool Use #Open-source AI

2025년 10월 29일

[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Audio Intelligence #Spatio-Temporal Reasoning #4D Audio #Benchmark #Large Audio-Language Models #Perceptual Reasoning #Multimodal LLMs

2025년 10월 29일

[논문리뷰] Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

본 논문은 Mixture-of-Experts(MoE)를 Diffusion Transformers(DiTs)에 적용할 때 발생하는 제한적인 성능 향상 문제를 해결하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Diffusion Transformers (DiTs)#Routing Guidance #Semantic Specialization #Contrastive Learning #Image Generation #Flow Matching

2025년 10월 29일

[논문리뷰] RoboOmni: Proactive Robot Manipulation in Omni-modal Context

본 논문은 기존 로봇 조작 모델이 명시적인 지시에 의존하며 실제 환경에서 인간의 의도를 능동적으로 파악하는 데 한계가 있다는 문제를 해결합니다.

#Review #Robotic Manipulation #Multimodal LLMs #Vision-Language-Action #Proactive AI #Omni-modal Learning #Intent Recognition #Contextual Instructions

2025년 10월 29일

[논문리뷰] Rethinking Visual Intelligence: Insights from Video Pretraining

Large Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.

#Review #Video Diffusion Models #Visual Intelligence #Pretraining #Foundation Models #Low-resource Learning #Inductive Biases #Visual Reasoning #Image-to-Image Tasks

2025년 10월 29일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.

#Review #AI Agents #Astrophysics Research #Reproducibility Benchmark #Large Language Models #Scientific Workflow #Code Execution #Evaluation Framework

2025년 10월 29일

[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Patent Text Embedding #Benchmark #Multi-task Learning #Patent Retrieval #Sentence Embeddings #Knowledge Distillation #Cross-Domain Retrieval #Prompt Engineering

2025년 10월 29일

[논문리뷰] PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding

기존 3D 파트 이해 데이터셋(예: PartNet) 의 비텍스처 기반 형상, 전문가 의존적 주석, 제한된 확장성 및 사용성을 극복하는 것을 목표로 합니다.

#Review #3D Part Segmentation #3D Dataset #Hierarchical Annotation #Fine-Grained Segmentation #Textured Meshes #3D Part Understanding #Part-Centric Question Answering #Crowdsourcing

2025년 10월 29일

[논문리뷰] ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking

본 논문은 심층 정보 탐색(Deep Information Seeking, IS) 에이전트의 기존 병렬 사고 방식이 지닌 비효율성(반복적인 롤아웃)과 장기 추론 궤적 통합의 어려움(제한된 컨텍스트)을 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Parallel Thinking #Information Seeking #LLM Agents #Context Window Optimization #Exploration Efficiency #Reasoning Aggregation #Tool Use

2025년 10월 29일

[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Tool Invocation #Benchmark #Model Context Protocol (MCP)#GUI Automation #Computer-Use Agents #Evaluation Metrics

2025년 10월 29일

[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

Multimodal Large Language Models (MLLMs)가 복잡한 시각적 계획과 상상력을 요구하는 시나리오에서 겪는 어려움을 해결하고, MLLM에 내부 시각적 스크래치패드(visual scratchpad) 를 부여하여 시각적 사고(visual thought) 를 통해 멀티모달 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Latent Space #Sketch Generation #Visual Thinking #Autoregressive Generation #Interpretability

2025년 10월 29일

[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries

본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.

#Review #Search Agents #Interactive AI #Ambiguous Queries #Benchmarking #Language Agents #Information Retrieval #Overconfidence #Reinforcement Learning

2025년 10월 29일

[논문리뷰] Group Relative Attention Guidance for Image Editing

본 논문은 Diffusion-in-Transformer ( DiT ) 모델 기반 이미지 편집 방법론이 편집 강도 제어에 있어 효과적인 수단을 결여하고 있어 맞춤형 결과 도출에 한계가 있음을 지적합니다.

#Review #Image Editing #Diffusion Transformers #Attention Mechanism #Guidance Mechanism #Controllability #Fine-grained Control #GRAG

2025년 10월 29일

[논문리뷰] Generalization or Memorization: Dynamic Decoding for Mode Steering

대규모 언어 모델(LLMs)이 보이는 예측 불가능한 일반화(Generalization)와 암기(Memorization) 간의 전환 문제를 해결하는 것이 목표입니다. 이러한 이중적인 추론 모드를 이해하고, 식별하며, 제어하는 통일된 프레임워크를 제시하여 LLM의 신뢰성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Generalization #Memorization #Information Bottleneck (IB)#Activation Steering #Decoding Strategy #Causal Intervention #LLM Reliability

2025년 10월 29일

[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

본 논문은 기존 API 또는 GUI 기반 접근 방식의 한계로 인한 확장성 및 일반화 능력 부족 문제를 해결하고자 합니다.

#Review #Generalist AI #Game Agents #Multimodal Learning #Foundation Models #ReAct #Sparse Thinking #Continual Pre-training #Human-Native Interaction

2025년 10월 29일

[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.

#Review #Function Calling #Multi-Turn Interaction #Large Language Models (LLMs)#Data Synthesis #Agentic AI #Tool Use #Chain-of-Thought (CoT)#Reinforcement Learning

2025년 10월 29일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일

[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Language Models #Critiquing #Two-Stage Optimization #Actor-Critic #Scalable Oversight #Discriminability #Helpfulness

2025년 10월 29일

[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.

#Review #LLM Agents #Data Synthesis #Zone of Proximal Development (ZPD)#Complex Reasoning #Tool Use #Automated Benchmarking #Agentic AI #Rejection Sampling Fine-Tuning

2025년 10월 29일

[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context Management

LLM 기반 웹 에이전트가 장기 태스크에서 겪는 컨텍스트 관리의 근본적인 문제(기존 ReAct 방식의 컨텍스트 포화 및 고정된 요약 방식의 비가역적 정보 손실)를 해결하는 것을 목표로 합니다.

#Review #Web Agents #Context Management #Long-Horizon Tasks #LLM #Deep Consolidation #Granular Condensation #ReAct Paradigm

2025년 10월 29일

[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

이 연구는 영어에 주로 집중되어 있던 기존 스케일링 법칙 연구의 한계를 넘어, 다국어 사전 학습, 미세 조정 및 추론 전반에 걸쳐 스케일링 법칙을 포괄적으로 이해하고 모델링하는 것을 목표로 합니다.

#Review #Multilingual LLMs #Scaling Laws #Transfer Learning #Curse of Multilinguality #Pretraining #Finetuning #Language Models #Adaptive Scaling

2025년 10월 29일

[논문리뷰] VoMP: Predicting Volumetric Mechanical Property Fields

본 논문은 3D 객체의 부피에 걸쳐 물리적으로 정확한 기계적 물성 필드(Young's modulus, Poisson's ratio, 밀도)를 다양한 3D 표현 방식에 상관없이 예측하는 최초의 feed-forward 모델 VoMP 를 제안하여, 사실적인 변형 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #Volumetric Properties #Mechanical Simulation #Material Prediction #3D Representation #Physics-based AI #Variational Autoencoder #Geometry Transformer #Gaussian Splats

2025년 10월 28일

[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.

#Review #Embodied AI #Human-Robot Interaction #Vision-Language Models #Concurrency #Interruption #Robotics Control #Dual-Model Architecture #Special Tokens

2025년 10월 28일

[논문리뷰] Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

기존 3D/4D 생성 모델들은 주로 사실성, 효율성, 미학에 초점을 맞추어 개발되었으나, 다양한 시점에서 대상의 의미론적 정체성(semantic identity)을 보존 하는 데 한계를 보였습니다.

#Review #Subject-driven 3D/4D Generation #Texture Infilling #Video Tracking #Image Inpainting #Multi-view Consistency #Identity Preservation #Generative Models #3D Gaussians

2025년 10월 28일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

본 논문은 로봇 정책의 평가에 대한 확장 가능하고 재현 가능한 벤치마킹 프레임워크인 RobotArena∞ 를 제안하여, 현실 세계 로봇 테스트의 비효율성(노동 집약적, 위험성, 낮은 재현성)과 기존 시뮬레이션 벤치마크의 한계(고립된 환경)를 극복하는 것을 목표로 합니다.

#Review #Robot Benchmarking #Real-to-Sim Translation #Vision-Language Models (VLMs)#Human Preference Learning #Domain Randomization #Robot Manipulation #Simulation Environments #Policy Evaluation

2025년 10월 28일

[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control

현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.

#Review #LLM Agents #Decision Granularity Control #Recursive Code Generation #Hierarchical Planning #Action Unification #Program Synthesis #Data Efficiency

2025년 10월 28일

[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.

#Review #MLLM #Region-level Understanding #Object-centric Reasoning #Spatio-temporal Referring #Video Understanding #Scale-Adaptive Tokenizer #Efficiency #Instruction Tuning

2025년 10월 28일

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.

#Review #Reward Modeling #Multimodal AI #Human Preferences #RLHF #Generalist AI #Benchmark #Dataset #Free-Form Preferences

2025년 10월 28일

[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.

#Review #Audio-Visual Speech Recognition #Large Language Models #Attention Sinks #Massive Activations #Decorrelation Loss #Fine-tuning #Multimodal AI

2025년 10월 28일

[논문리뷰] Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling

본 논문은 Transformer 기반 LLM 의 높은 계산 비용과 낮은 투명성 문제에 대한 대안으로, 효율적이고 설명 가능하며 친환경적인 메모리 기반 언어 모델링(Memory-based Language Modeling) 접근 방식을 제시하고 평가하는 것을 목표로 합니다.

#Review #Memory-based Language Model #k-Nearest Neighbor #Eco-friendly AI #Explainable AI #Next-token Prediction #Prefix Trie #Low-latency Inference #CPU-based AI

2025년 10월 28일

[논문리뷰] MARS-M: When Variance Reduction Meets Matrices

본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.

#Review #Variance Reduction #Matrix-based Optimizer #LLM Training #Deep Learning Optimization #Moonlight #MARS-M #Stochastic Gradient Descent

2025년 10월 28일

[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.

#Review #Audio-driven Animation #Identity Preservation #Diffusion Transformers #Long-form Video Generation #Temporal Autoregression #Keyframe Anchoring #Self-keyframing

2025년 10월 28일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking

본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.

#Review #Information Reranking #Large Language Models #Data Synthesis #Reasoning-Intensive Retrieval #Low-Resource Learning #Data Efficiency #Instruction Following

2025년 10월 28일

[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.

#Review #Unified Multimodal Models #Double Fusion #Lightweight AI #Text-to-Image Generation #Image Editing #Model Architecture #Efficient Training #Cross-modal Interaction

2025년 10월 28일

[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards

대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.

#Review #Language Agents #Language Server Protocol (LSP)#CLI #Process Rewards #Code Refactoring #Static Analysis #Reinforcement Learning #Deterministic Execution

2025년 10월 28일

[논문리뷰] Knocking-Heads Attention

본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.

#Review #Multi-Head Attention #Transformer #Large Language Models #Inter-Head Communication #Parameter Sharing #Training Stability #Diagonal Initialization

2025년 10월 28일

[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.

#Review #Semantic 3D Reconstruction #Instance Grounding #Geometry Transformer #Multi-view Consistency #Scene Understanding #InsScene-15K #Vision-Language Models #Cross-Modal Fusion

2025년 10월 28일

[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels

본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.

#Review #Normalizing Flows #Autoregressive Models #Generative Models #Image Synthesis #Tractable Likelihood #Dimension Reduction #Distillation #Classifier-Free Guidance

2025년 10월 28일

[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

본 논문은 단일 스텝 확산 모델(1-SDP) 의 개념 학습 능력 한계를 해결하고, 기존 T2I 모델의 느린 추론 속도와 제한된 개념 포착 능력을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #One-Step Generation #Model Personalization #Knowledge Distillation #Bidirectional Learning #Text-to-Image Generation #Concept Learning

2025년 10월 28일

[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.

#Review #Text Embedding #Listwise Reranking #Information Retrieval #Pseudo Relevance Feedback #Contrastive Learning #Multi-task Learning #Efficiency #LLM-based Ranking

2025년 10월 28일

[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

이미지 자기회귀(AR) 모델 의 느린 샘플링 속도 문제를 해결하고, 특히 원스텝 샘플링 시 발생하는 성능 저하 및 Distilled Decoding 1 (DD1) 의 사전 정의된 매핑 의존성 한계를 극복하는 것을 목표로 합니다.

#Review #Auto-regressive Models #Image Generation #One-step Sampling #Model Distillation #Conditional Score Distillation #Flow Matching #Generative Models

2025년 10월 28일

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Lane Detection #Diffusion Model #Denoising Diffusion #Hybrid Decoding #Anchor-based #Domain Adaptation #Computer Vision #Generative Models

2025년 10월 28일

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #2D-3D Fusion #Spatial Representation #Point Cloud #Image Features #Multimodal Learning #Semantic Segmentation #LoRA

2025년 10월 28일

[논문리뷰] Code Aesthetics with Agentic Reward Feedback

대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.

#Review #Code Aesthetics #Agentic Reward Feedback #Large Language Models #Reinforcement Learning #Instruction Tuning #Webpage Design #Multimodal Evaluation

2025년 10월 28일

[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models

본 논문은 모방 학습을 통해 훈련된 Vision-Language-Action (VLA) 모델, 특히 Diffusion 및 Flow Matching 모델 에서 발생하는 액션 불일치(jerks, pauses, jitter) 문제를 해결하여 안정성과 궤적 드리프트로 인한 정밀 조작 실패를 방지하는 것을 목표로 합니다.

#Review #Action Coherence #Flow Matching #VLA Models #Guidance #Robotics #Imitation Learning #Transformer #Self-Attention

2025년 10월 28일

[논문리뷰] A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

본 논문은 '데이터 에이전트' 용어의 종합적이고 체계적인 정의 및 분류 를 제공하고, 기능적 경계와 책임 분배를 명확히 하는 계층적 분류 체계를 제안하여 데이터 에이전트 연구의 개념적 모호성을 해소 하는 것을 목표로 합니다. 나아가 기존 연구를 검토하고 미래 연구 방향을 제시하여 이 분야의 건강한 발전을 돕고자 합니다.

#Review #Data Agents #LLMs #Autonomy Levels #Hierarchical Taxonomy #SAE J3016 #Data Management #Data Preparation #Data Analysis #Autonomous Orchestration

2025년 10월 28일

[논문리뷰] WorldGrow: Generating Infinite 3D World

논문은 무한히 확장 가능한(infinitely extendable) 3D 세계 를 일관된 기하학적 구조와 사실적인 외관으로 생성하는 핵심 과제를 해결하고자 합니다.

#Review #3D World Generation #Infinite Scene Synthesis #Block-wise Generation #Coarse-to-Fine #3D Inpainting #Structured Latent Representation #Virtual Environments #World Models

2025년 10월 27일

[논문리뷰] Visual Diffusion Models are Geometric Solvers

본 논문은 시각적 확산 모델(visual diffusion models)이 기하학적 문제를 해결하는 효과적인 솔루션으로 기능할 수 있음을 증명하는 것을 목표로 합니다.

#Review #Diffusion Models #Geometric Problem Solving #Inscribed Square Problem #Steiner Tree Problem #Maximum Area Polygonization #Image Generation #Pixel Space

2025년 10월 27일

[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video Generation

이 논문은 비디오 생성 분야에서 통합적이고 일반화 가능한 의미론적 제어라는 중요한 과제를 해결하고자 합니다. 기존 방법론들이 부적절한 픽셀 단위 사전 정보를 강요하여 아티팩트를 생성하거나, 특정 조건에 대한 파인튜닝이나 태스크별 아키텍처에 의존하여 일반화가 어렵다는 문제를 극복하는 것을 목표로 합니다.

#Review #Video Generation #Semantic Control #Diffusion Transformers #In-Context Learning #Mixture-of-Transformers #Video-As-Prompt #Controllable Generation #Large-scale Dataset

2025년 10월 27일

[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

본 논문은 GUI 그라운딩(grounding) 태스크에서 자연어 명령어의 다양성과 품질 이 모델 성능에 미치는 영향을 간과했던 기존 연구의 한계를 극복하고자 합니다. 명령어에 존재하는 23.3%의 오류율 을 개선하고, 추론 시 명령어 다양성 을 활용하여 최대 76%의 상대적 성능 향상 을 목표로 합니다.

#Review #GUI Grounding #Natural Language Instructions #Multi-Perspective Reasoning #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation #GUI Agents

2025년 10월 27일

[논문리뷰] Taming Modality Entanglement in Continual Audio-Visual Segmentation

본 논문은 미세한 수준의 모달리티 얽힘(modality entanglement)을 해결하기 위한 새로운 과제인 Continual Audio-Visual Segmentation (CAVS) 을 제안합니다.

#Review #Continual Learning #Audio-Visual Segmentation #Modality Entanglement #Semantic Drift #Co-occurrence Confusion #Rehearsal Strategy #Sample Selection

2025년 10월 27일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일

[논문리뷰] Sparser Block-Sparse Attention via Token Permutation

본 논문은 LLM에서 긴 컨텍스트 길이 처리 시 O(N^2) 복잡도 를 가진 self-attention 메커니즘 으로 인한 막대한 계산 비용과 메모리 병목 현상을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Self-Attention #Block-Sparse Attention #Token Permutation #Computational Efficiency #Prefilling #Long Context #Causal Attention

2025년 10월 27일

[논문리뷰] Soft Instruction De-escalation Defense

본 논문은 외부 환경과 상호작용하는 LLM 기반 에이전트 시스템 이 겪는 프롬프트 인젝션 공격에 대한 취약성을 해결하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 데이터 내의 악의적인 명령을 효과적으로 무력화하면서도 에이전트의 유용성을 저해하지 않는 방어 메커니즘을 제안합니다.

#Review #Prompt Injection #LLM Security #Agentic Systems #Iterative Sanitization #Instruction Control #Adversarial Robustness #Large Language Models

2025년 10월 27일

[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

본 논문은 flow-matching 기반 T2I(Text-to-Image) 생성 에서 GRPO(Group Relative Policy Optimization)의 두 가지 주요 한계, 즉 불정확한 이점 귀인(inaccurate advantage attribution) 과 생성 과정의 시간적 역학(temporal dynamics) 무시 를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #GRPO #Flow Matching #Chunk-level Optimization #Temporal Dynamics #Diffusion Models

2025년 10월 27일

[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think

본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.

#Review #LLMs #MCMC #Sampling #Reasoning #Distribution Sharpening #Reinforcement Learning (RL)#Inference-time Optimization #Training-free

2025년 10월 27일

[논문리뷰] RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging

대규모 언어 모델(LLMs)이 연속 학습 및 다중 도메인 환경에서 겪는 Catastrophic Forgetting (CF) 문제를 해결하는 것을 목표로 합니다.

#Review #Catastrophic Forgetting #Continual Learning #Model Merging #LLMs #Representation Learning #Data-free Learning #Hierarchical Parameter Fusion

2025년 10월 27일

[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Prompt Optimization #Large Language Models (LLM)#Test-Time Scaling #Retrieval-Augmented Generation #Diffusion Models #Data Alignment

2025년 10월 27일

[논문리뷰] PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

제한된 실제 비디오 데이터로부터 변형 가능한 물체의 물리 일관성 있는 동역학 모델을 학습하는 데 따르는 데이터 부족 문제를 해결하고, 정확하면서도 빠른 추론이 가능한 월드 모델을 구축하는 것을 목표로 합니다. 특히, 시공간적으로 변이하는 물리적 특성을 가진 물체에 대한 모델링을 중점적으로 다룹니다.

#Review #World Models #Deformable Objects #Physics Simulation #GNN #Digital Twin #Data Synthesis #Real-to-Sim #Physics-Aware Learning

2025년 10월 27일

[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.

#Review #Active Visual Reasoning #MLLM #Physical Environments #Partially Observable #Markov Decision Process #Chain-of-Thought #Embodied AI #CLEVR-AVR

2025년 10월 27일

[논문리뷰] Model Merging with Functional Dual Anchors

본 논문은 파운데이션 모델의 finetuned 체크포인트에서 지식을 통합하는 모델 병합(Model Merging) 과정에서 발생하는 파라미터 충돌 과 태스크별 지식 충돌 문제를 해결하는 것을 목표로 합니다.

#Review #Model Merging #Functional Dual Anchors #Input-Representation Space #Task Vectors #Knowledge Integration #Foundation Models #Gradient Matching #Post-training Strategy

2025년 10월 27일

[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

본 논문은 Video Large Language Models ( VideoLLMs )가 비디오-텍스트 정보(spatiotemporal inputs)를 어떻게 내부적으로 추출하고 전파하여 비디오 질의응답 (VideoQA) 태스크에서 Temporal Reasoning을 수행하는지 그 메커니즘을 밝히는 것을 목표로 합니다.

#Review #Video Large Language Models #VideoQA #Mechanistic Interpretability #Attention Knockout #Temporal Reasoning #Information Flow #Model Interpretability #Logit Lens

2025년 10월 27일

[논문리뷰] From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model

이 논문은 비전-언어 확산 모델에서 발생하는 train-inference 불일치 로 인한 오류 연쇄(error cascade) 문제를 해결하는 것을 목표로 합니다. 특히 병렬 디코딩 시 초기 토큰 오류가 전체 생성 컨텍스트를 오염시켜 구문 오류 및 의미론적 환각 을 유발하는 문제를 극복하고자 합니다.

#Review #Discrete Diffusion Models #Vision-Language Models #Error Cascades #Self-Correction #Refinement Framework #Parallel Generation #Image Captioning #Hallucination Mitigation

2025년 10월 27일

[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.

#Review #Text-to-Audio #Video-to-Audio #Foley Synthesis #Diffusion Models #Cross-Attention #Frozen Backbones #Video Embeddings #Rotary Position Embeddings

2025년 10월 27일

[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory

본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Category Theory #Document Understanding #Large Language Models #Information Theory #Rhetorical Structure Theory #Document Summarization #Rate Distortion Analysis #Self-supervised Learning

2025년 10월 27일

[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets

기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Agents #Large Language Models #Tool Use #Reinforcement Learning #Memory Management #Tool Retrieval #Agentic Reasoning

2025년 10월 27일

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일

[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Reasoning Models #LLM-as-a-judge #MQM #Fine-tuning #Thinking Calibration #Computational Efficiency #Meta-evaluation

2025년 10월 27일

[논문리뷰] ARC-Encoder: learning compressed text representations for large language models

본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.

#Review #Context Compression #Large Language Models #Encoder-Decoder Architecture #Text Representation #In-Context Learning #Parameter Efficiency #Retrieval-Augmented Generation

2025년 10월 27일

[논문리뷰] ALICE-LRI: A General Method for Lossless Range Image Generation for Spinning LiDAR Sensors without Calibration Metadata

본 논문은 회전형 LiDAR 센서 로부터 제조사 보정 메타데이터 없이 손실 없는 레인지 이미지(Range Image)를 생성 하는 범용적인 방법을 제시하는 것을 목표로 합니다.

#Review #LiDAR #Range Image #Lossless Projection #Sensor Calibration #Intrinsic Parameters #Point Cloud Reconstruction #Hough Transform #Weighted Least Squares

2025년 10월 27일

[논문리뷰] A Definition of AGI

본 논문은 모호한 AGI(인공 일반 지능) 개념을 명확히 정의하고, 현재의 특수화된 AI와 인간 수준의 인지 능력 간의 격차를 해소하기 위한 정량적 프레임워크 를 제시하는 것을 목표로 합니다. 잘 교육받은 성인의 인지적 다재다능함과 숙련도에 필적하는 AI를 AGI로 정의하며, 이를 측정 가능한 기준으로 설정하고자 합니다.

#Review #AGI Definition #Cognitive Assessment #Cattell-Horn-Carroll Theory #AI Evaluation #Multimodal AI #Cognitive Domains #Psychometrics

2025년 10월 27일

[논문리뷰] Thought Communication in Multiagent Collaboration

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템(MAS)에서 자연어 통신의 내재적 한계(손실, 모호성)를 극복하고자 합니다.

#Review #Multiagent Systems #LLM Communication #Latent Variable Models #Identifiability Theory #Thought Communication #Sparse Autoencoder #Prefix Tuning

2025년 10월 24일

[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)

이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Legal Information Retrieval #Embedding Models #Benchmark Dataset #Natural Language Processing #Retrieval-Augmented Generation #Jurisdictional Diversity #Legal Tech

2025년 10월 24일

[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.

#Review #3D Asset Generation #Simulation-Ready Assets #Diffusion Models #Physically Based Rendering (PBR)#Embodied AI #Robotic Simulation #Image-to-3D #Foundation Model

2025년 10월 24일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.

#Review #Knowledge Editing #Audio-Language Models #Auditory Attributes #Benchmark #Reliability #Generality #Locality #Portability

2025년 10월 24일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일

[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Sampling Wall #Loopholing #Self-Conditioning #Non-Autoregressive Generation #Text Generation #Language Modeling #Reasoning Tasks

2025년 10월 24일

[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.

#Review #Text-to-Image Generation #Personalization #Diffusion Models #Interactive Control #Multi-Subject Composition #Layered Canvas #Spatial Control #Image Editing

2025년 10월 24일

[논문리뷰] Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

본 논문은 대규모 오디오-언어 모델(LALMs)의 안전성 취약성을 탐구하며, 특히 화자의 감정 변화 가 모델의 안전성 정렬에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다.

#Review #LALM Safety #Speaker Emotion #Safety Alignment #Jailbreaking #Audio-Language Models #Emotional Variation #Unsafe Rate #Non-refusal Rate

2025년 10월 24일

[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.

#Review #LLM Evaluation #Reward Hacking #Benchmark Reliability #Test Exploitation #Prompt Engineering #LLM Safety #Code Generation

2025년 10월 24일

[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.

#Review #Human-Agent Collaboration #Project Page Generation #Multi-Agent System #LLM #VLM #Webpage Automation #PageBench #Scientific Communication #Cost-Effective AI

2025년 10월 24일

[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Multi-Shot Video #Narrative Coherence #Diffusion Models #Self-Attention #Cinematic AI #Video Consistency #Directorial Control

2025년 10월 24일

[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models

이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.

#Review #World Models #Generative AI #Multimodal Learning #Masked Modeling #Interactive AI #Memory Systems #Autonomous Agents #AI Roadmap

2025년 10월 24일

[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.

#Review #Reinforcement Learning #LLM Alignment #Human Values #Reward Shaping #Value-Weighted Reward #Termination Policy #RLVR

2025년 10월 24일

[논문리뷰] Emergence of Linear Truth Encodings in Language Models

언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.

#Review #Language Models #Truth Encoding #Linear Subspaces #Mechanistic Interpretability #Transformer Models #Learning Dynamics #Truth Co-occurrence Hypothesis #Hallucinations

2025년 10월 24일

[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

본 논문은 Diffusion Transformer (DiT) 모델을 재훈련 없이 초고해상도 이미지(예: 16M+ 픽셀 )를 생성할 수 있도록 하는 것을 목표로 합니다.

#Review #Diffusion Models #Transformer Architecture #Positional Encoding #High-Resolution Image Generation #Extrapolation #Dynamic Adaptation #Training-Free

2025년 10월 24일

[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding

본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.

#Review #Diff Understanding #Code Diff #Benchmark #LLMs #Code Editing #Software Engineering #Unified Diff Format #Search-Replace

2025년 10월 24일

[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 순수 텍스트 추론이나 부정확한 증거 지역화로 인해 종종 발생시키는 근거 없는/환각적 결론의 문제를 해결하고, 다단계 비디오 추론 능력을 강화하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding #Multi-step Reasoning #Frame Retrieval #Dataset Construction #Progressive Learning

2025년 10월 24일

[논문리뷰] ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

본 논문은 과학 문헌에서 화학 조성-물성 구조 데이터와 합성 정보를 추출하기 위한 자동화되고 사용자 친화적인 멀티 에이전트 기반 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Large Language Models (LLMs)#Information Extraction #Scientific Literature #Materials Science #Data Curation #Piezoelectric Materials #RAG (Retrieval-Augmented Generation)

2025년 10월 24일

[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow Models

본 논문은 MeanFlow 모델의 성공 원리를 심층적으로 분석하고, MeanFlow 훈련 목표 내에 존재하는 trajectory flow matching 및 trajectory consistency 두 구성 요소 간의 음의 상관관계 로 인한 최적화 충돌 및 수렴 지연 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Models #Flow Matching #Consistency Models #MeanFlow #Curriculum Learning #Few-Step Generation #Image Generation

2025년 10월 24일

[논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

본 논문은 대규모 언어 모델(LLM) 추론 속도 향상을 위한 Speculative Decoding (SD) 과정에서 드래프트 모델과 타겟 모델 간의 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Speculative Decoding #Knowledge Distillation #LLM Inference #Model Acceleration #Token Filtering #Draft Model #Acceptance Rate

2025년 10월 24일

[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.

#Review #Image Segmentation #Autoregressive Generation #Multimodal Large Language Models (MLLMs)#Visual Understanding #VQ-VAE #Multi-scale Prediction #Referring Expression Segmentation #Image Generation

2025년 10월 24일

[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCR

본 논문은 인쇄된 문서를 깨끗하고 자연스럽게 정렬된 일반 텍스트로 변환하는 OCR 시스템인 OLMOCR 2 를 제안합니다. 특히, 강화 학습(RL) 과 검증 가능한 보상(RLVR) 을 활용하여 수학 공식, 테이블 파싱, 다단 레이아웃과 같은 복잡한 문서 구조 처리 성능을 대폭 개선하는 것을 목표로 합니다.

#Review #Document OCR #Vision Language Model #Reinforcement Learning #Unit Tests #Synthetic Data Generation #RLVR #Document Parsing #State-of-the-Art OCR

2025년 10월 23일

[논문리뷰] VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

본 연구는 GUI(Graphical User Interface) 에이전트 훈련에 필요한 대규모의 수동 주석된 상호작용 데이터 확보의 어려움을 해결하고자 합니다.

#Review #GUI Agents #Video Pretraining #Inverse Dynamics #Action Recognition #Computer Use Automation #Data Synthesis #Multimodal Learning

2025년 10월 23일

[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models

본 논문은 대규모 Vision-Language Models (VLMs) 의 비효율성을 해결하기 위해, 리소스가 제한된 환경에서도 강력하고 경량화된 VLM을 구축하는 효율적인 훈련 알고리즘 Unified Reinforcement and Imitation Learning (RIL) 을 제안합니다.

#Review #Vision-Language Models #Reinforcement Learning #Imitation Learning #Model Distillation #Lightweight VLMs #LLM-as-a-Judge #Multimodal Learning

2025년 10월 23일

[논문리뷰] RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling

본 논문은 반향음 제거, 강건한 음성 인식, 음원 위치 추정, 음향 환경 추정 등 다양한 AI/ML 태스크를 위한 대규모 시뮬레이션된 Room Impulse Response (RIR) 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Room Impulse Response #Dataset #Room Acoustics #Machine Learning #Dereverberation #Speech Recognition #Simulation #Hugging Face

2025년 10월 23일

[논문리뷰] ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

본 논문은 기존 LLM 평가 벤치마크가 쉬운 검증 태스크에 국한되어 있다는 한계를 극복하고, 전문가 수준의 지식 을 요구하는 복잡한 실세계 다중 도메인 태스크 에 대한 LLM 성능을 평가하기 위한 ProfBench 벤치마크를 제안합니다.

#Review #LLM Evaluation #Rubric-based Benchmark #Professional Knowledge #Multi-domain Tasks #LLM-Judge Bias Mitigation #Cost Reduction #Reasoning Assessment #Open-weight Models

2025년 10월 23일

[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.

#Review #Text-Guided Image Editing #Large-Scale Dataset #Multimodal Models #Dataset Curation #Quality Control #Prompt Engineering #Preference Learning #Multi-Turn Editing

2025년 10월 23일

[논문리뷰] OmniNWM: Omniscient Driving Navigation World Models

본 논문은 기존 자율주행 월드 모델이 가진 제한된 상태 모달리티, 짧은 시퀀스 길이, 부정확한 액션 제어, 보상 인식 부족 등의 문제를 해결하여, 자율주행을 위한 종합적이고 전지적인(omniscient) 파노라마 내비게이션 월드 모델 을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #World Models #Multi-modal Generation #3D Occupancy #Plücker Ray-maps #Action Control #Dense Rewards #Long-term Forecasting

2025년 10월 23일

[논문리뷰] Machine Text Detectors are Membership Inference Attacks

본 연구는 멤버십 추론 공격(MIAs)과 기계 생성 텍스트 감지(MGTD)라는 두 가지 관련 연구 분야가 독립적으로 연구되어 발생하는 비효율성을 해결하고자 합니다.

#Review #Membership Inference Attacks #Machine-Generated Text Detection #Transferability #Likelihood Ratio Test #Large Language Models #Zero-Shot Detection #Model Security #AI Safety

2025년 10월 23일

[논문리뷰] MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models

본 연구는 대규모 멀티모달 모델(LMM)이 시간에 따라 변화하는 사실적 지식을 정확하게 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Time-Sensitive Knowledge #Temporal Reasoning #Knowledge Editing #Multimodal Benchmarking #Temporal Awareness #Dynamic Knowledge

2025년 10월 23일

[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Long Context Reasoning #Large Language Models #Multi-hop QA #Data Synthesis #Retrieval-Augmented Generation #Chain-of-Thought

2025년 10월 23일

[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.

#Review #Data Selection #Large Language Models (LLMs)#Data Diversity #Data Quality #Principal Component Analysis (PCA)#Orthogonal Dimensions #Pre-training

2025년 10월 23일

[논문리뷰] Language Models are Injective and Hence Invertible

논문은 비선형 활성화 함수와 정규화 등으로 인해 Transformer 언어 모델이 정보를 손실하고, 입력 텍스트를 숨겨진 표현에서 정확하게 복구하기 어렵다는 기존의 인식을 비판합니다.

#Review #Language Models #Injectivity #Invertibility #Transformer #Representation Learning #Exact Recovery #SIPIT Algorithm #Real Analysis

2025년 10월 23일

[논문리뷰] KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

대규모 멀티모달 모델(LMM)의 고정적이고 제한적인 지식 문제를 해결하고, 새로운 지식 주입 시 발생하는 치명적 망각(Catastrophic Forgetting)을 완화하는 것을 목표로 합니다.

#Review #Knowledge Injection #Large Multimodal Models #Catastrophic Forgetting #Data Augmentation #Parameter-Efficient Fine-Tuning #Null Space #Continual Learning

2025년 10월 23일

[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #World Model #Data Augmentation #Robot Generalization #Embodied AI #RGBD #Chain-of-Thought

2025년 10월 23일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일

[논문리뷰] FinSight: Towards Real-World Financial Deep Research

본 논문은 기존 AI 시스템이 완전 자동화하기 어려웠던 전문 금융 보고서 생성의 문제를 해결하는 것을 목표로 합니다. 특히, 노동 집약적이고 지적인 노력이 많이 드는 금융 리서치 보고서 작업을 사람 전문가 수준으로 수행할 수 있는 고품질의 멀티모달 금융 보고서 를 생성하는 프레임워크 FinSight 를 제안합니다.

#Review #Financial Research #Multi-Agent System #Code Generation #Multimodal Reports #Iterative Visualization #Variable Memory #Deep Learning

2025년 10월 23일

[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.

#Review #Long-Context LLM #Hybrid Attention #Linear Attention #Mixture-of-Experts #FP8 Training #GPU Optimization #Training-Inference Alignment #Reinforcement Learning

2025년 10월 23일

[논문리뷰] Directional Reasoning Injection for Fine-Tuning MLLMs

논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 능력이 텍스트 전용 LLM에 비해 현저히 떨어진다는 문제에 주목합니다. 대규모 멀티모달 추론 데이터셋이나 강화 학습 없이도, 텍스트 전용 추론 전문가 모델 의 추론 지식을 비추론 멀티모달 LLM 으로 효율적으로 전이하는 경량화된 방법을 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reasoning Transfer #Gradient-based Fine-tuning #Model Merging #Parameter-Efficient Learning #Supervised Fine-tuning #Directional Prior

2025년 10월 23일

[논문리뷰] DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

본 논문은 Text-to-Image (T2I) 모델에서 발생하는 의도치 않은 의미적 누출(semantic leakage) 문제를 해결하는 것을 목표로 합니다. 이는 서로 다른 개체 간에 의미론적으로 관련된 특징이 잘못 전달되는 현상으로, 기존 방법론의 최적화 비용 및 외부 입력 의존성 문제를 극복하고자 합니다.

#Review #Semantic Leakage #Text-to-Image Models #Attention Control #Inference-time Mitigation #Diffusion Models #Evaluation Dataset #Self-Attention

2025년 10월 23일

[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

본 논문은 Multimodal Large Language Models (MLLMs)의 다중 작업 지도 미세 조정(SFT)에서 최적의 데이터 혼합 전략을 찾아 성능을 극대화하는 문제를 해결합니다. 특히, 모바일 폰 에이전트(MPA)의 다양한 기능을 동시에 처리하는 MLLM의 효율성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Fine-tuning #Data Mixing Optimization #Mobile Phone Agents #Downstream Task Prediction #Benchmark #Neural Networks

2025년 10월 23일

[논문리뷰] ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

본 논문은 명령어 기반 인터페이스에서 AI 에이전트 상호작용으로 변화하는 인간-운영체제 상호작용의 흐름 속에서, 사용자의 지시를 정확히 따르고 사용자 의도를 충실히 반영하는 강건하고 개인화된 대화형 OS 에이전트 인 ColorAgent 를 구축하는 것을 목표로 합니다.

#Review #OS Agent #Reinforcement Learning #Multi-agent Systems #Personalization #Proactive Interaction #GUI Agents #Self-Evolving Training

2025년 10월 23일

[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.

#Review #Off-Policy Reinforcement Learning #Large Language Models #Adaptive Clipping #Policy Optimization #PPO #Entropy Preservation #RL Stabilization

2025년 10월 23일

[논문리뷰] Attention Sinks in Diffusion Language Models

Diffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Attention Sinks #Transformer Architecture #Masked Language Modeling #Bidirectional Attention #Generative Models #Robustness #Dynamic Attention

2025년 10월 23일

[논문리뷰] AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library

본 논문은 최적화 모델링 자동화의 어려움, 즉 비공식적 언어를 정밀한 수학적 공식 및 실행 가능한 솔버 코드로 변환하는 문제에 주목합니다.

#Review #Optimization Modeling #Large Language Models (LLMs)#Experience Library #Self-Improving Systems #Continual Learning #Out-of-Distribution Generalization #Operations Research #Knowledge Representation

2025년 10월 23일

[논문리뷰] World-in-World: World Models in a Closed-Loop World

본 논문은 기존 세계 모델(World Models, WM) 평가 프로토콜이 시각적 품질에만 치중하여 실제 환경에 대한 embodied agent의 태스크 성공 여부 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #World Models #Embodied AI #Closed-Loop Evaluation #Online Planning #Data Scaling #Controllability #Robotic Manipulation

2025년 10월 22일

[논문리뷰] Video Reasoning without Training

본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Inference-Time Optimization #Entropy-Based Objective #Training-Free #KV-Cache Steering #Micro-Exploration #Macro-Exploitation

2025년 10월 22일

[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.

#Review #Scientific Reasoning #Bio-experimental Protocol Generation #LLM #Structured Reward #SciRecipe Dataset #Sketch-and-Fill #Reinforcement Learning #Thoth

2025년 10월 22일

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.

#Review #Text-to-Image Generation #Semantic Evaluation #Benchmark #Multilingual Evaluation #Fine-grained Assessment #Large Language Models #Model Evaluation #Prompt Engineering

2025년 10월 22일

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #High-Resolution #Diffusion Transformer #Hierarchical Attention #Global-Local Attention #Computational Efficiency #4K Synthesis

2025년 10월 22일

[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.

#Review #LLM Personalization #Reinforcement Learning #Generative Reward Model #Critique-Post-Edit #Reward Hacking #Controllable AI

2025년 10월 22일

[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #CLIP #LLM-based Embedder #Knowledge Distillation #Contrastive Learning #Curriculum Learning #Multimodal Alignment #Progressive Alignment

2025년 10월 22일

[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.

#Review #Deep Research Agent #Reinforcement Learning from AI Feedback #RLOO Algorithm #Large Language Models #Tool Use #Self-Correction #Reasoning Scaffold #Agent Alignment

2025년 10월 22일

[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Scientific Document Analysis #Multimodal Inconsistencies #Peer Review #Benchmark #Debiasing #JSON-based Representation #Reasoning

2025년 10월 22일

[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.

#Review #Long Video Generation #Sparse Attention #Diffusion Transformers #Mixture-of-Groups Attention #Token Routing #Computational Efficiency #Context Length

2025년 10월 22일

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Large-scale Training #Megatron-Core #Video VAE #E-commerce AI #High-efficiency Pipeline #Preference Optimization

2025년 10월 22일

[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

기존 MLLM 평가 벤치마크가 주로 단일 턴 질의응답과 비디오 내용의 사실적 인지에만 초점을 맞춘 한계를 해결합니다.

#Review #Multimodal LLMs #Video Understanding #Benchmark #Multi-Turn Dialogues #Perceptivity #Interactivity #Evaluation

2025년 10월 22일

[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?

비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.

#Review #Video Captioning #Instruction Following #MLLMs #Benchmark #Controllable Generation #Multimodal Evaluation #Fine-tuning

2025년 10월 22일

[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

본 논문은 기존 MLLM 이 전체적인 이해에는 뛰어나지만, 복잡한 장면의 미세한 디테일과 객체 간의 복잡한 관계를 파악하는 데 한계가 있음을 지적합니다.

#Review #Multimodal LLMs #Region Understanding #Contextual Pixel Understanding #RoI-aligned Feature Replay #Compositional Reasoning #GAR-Bench #Zero-shot Video Understanding

2025년 10월 22일

[논문리뷰] Extracting alignment data in open models

본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.

#Review #Alignment Data Extraction #Large Language Models #Memorization #Neural Embeddings #Semantic Similarity #Chat Templates #Model Distillation #Reinforcement Learning #Supervised Finetuning

2025년 10월 22일

[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.

#Review #Verifiable Learning #Data Synthesis #Evolutionary Algorithm #Large Language Models #Reinforcement Learning #Model Distillation #Test Generation

2025년 10월 22일

[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

논문은 관찰자와 객체가 동시에 움직이는 동적 3D 시나리오 에서 최신 Vision-Language Models (VLMs)의 제한적인 이해 능력을 해결하고자 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models (VLMs)#Benchmark #Video Understanding #Motion Perception #3D Spatial Intelligence #Hallucinations #Bias

2025년 10월 22일

[논문리뷰] Chem-R: Learning to Reason as a Chemist

현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.

#Review #Chemical Reasoning #Large Language Models #Chem-R #Structured Reasoning #Multi-task Optimization #Chain-of-Thought #Chemical Discovery

2025년 10월 22일

[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.

#Review #Automated Trading #Reinforcement Learning #LLM Agents #Tool Orchestration #Financial Markets #Algorithmic Trading #Interpretable AI #ReAct

2025년 10월 22일

[논문리뷰] When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

본 논문은 LLM(Large Language Model) 앙상블이 장문(long-form) 생성에서 겪는 불안정성과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Ensembling #Token-level Ensembling #Speculative Decoding #Tokenization Mismatch #Probability Sharpening #Long-form Generation #KV Cache Management

2025년 10월 21일

[논문리뷰] Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

본 연구는 대규모 언어 모델(LLMs)에서 성공적인 추론 시간 스케일링(search) 전략이 연속적인 잠재 공간을 사용하는 확산 모델(Diffusion Models)에서는 제한적인 이점을 보이는 문제를 해결하고자 합니다.

#Review #Visual Autoregressive Models #Diffusion Models #Inference Time Scaling #Beam Search #Image Generation #Text-to-Image Synthesis #Discrete Latent Space

2025년 10월 21일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

본 연구는 기존 RAG 시스템이 단일 모드 텍스트나 제한된 다중 모드 설정에만 초점을 맞춰, 실제 환경의 혼합 모드(mixed-modal) 질의 및 문서 처리에 한계가 있다는 문제를 해결하고자 합니다.

#Review #Universal RAG #Multimodal Retrieval #Mixed-Modal Data Generation #Vision-Language Models #Contrastive Learning #Matryoshka Representation Learning

2025년 10월 21일

[논문리뷰] RL makes MLLMs see better than SFT

본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.

#Review #Multimodal Language Models #Reinforcement Learning #Supervised Finetuning #Vision Encoder #Visual Representations #Direct Preference Optimization #Preference Alignment #PIVOT

2025년 10월 21일

[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems

본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.

#Review #LLM #Problem Generation #Competitive Programming #Synthetic Data #Difficulty Estimation #Rejection Fine-tuning #Graph Sampling

2025년 10월 21일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일

[논문리뷰] On Non-interactive Evaluation of Animal Communication Translators

이 논문은 AI 기반 동물 언어 번역기(예: 고래-영어 번역기)의 작동 여부를 상호작용 없이 검증하는 방법을 제시하는 것을 목표로 합니다.

#Review #Machine Translation Quality Evaluation #Reference-Free Evaluation #Animal Communication #Language Models #Shuffle Test #Conlangs #Non-interactive Evaluation

2025년 10월 21일

[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Turn Conversation #VLM Evaluation #Benchmark #Vision and Language Models #Contextual Understanding #Checklist-based Evaluation #Interactive AI

2025년 10월 21일

[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Question Answering #Retrieval-Augmented Generation #Multimodal AI #Reinforcement Learning #Knowledge Base #Tool Learning #Information Filtering

2025년 10월 21일

[논문리뷰] GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

본 논문은 입력 3D 객체와 외형 객체 간의 기하학적 차이가 클 때, 기존 3D 외형 전이 방법론이 실패하는 문제를 해결하고자 합니다.

#Review #3D Appearance Transfer #Rectified Flow #Generative Models #Optimization-Guided Sampling #Neural Latent Representations #Training-Free #GPT-Based Evaluation

2025년 10월 21일

[논문리뷰] Glyph: Scaling Context Windows via Visual-Text Compression

논문은 대규모 언어 모델(LLM)의 컨텍스트 창을 수백만 토큰 수준으로 확장할 때 발생하는 막대한 계산 및 메모리 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Context Modeling #Visual Compression #Vision-Language Models #Token Efficiency #Genetic Algorithms #Multimodal AI #LLM Scaling

2025년 10월 21일

[논문리뷰] FineVision: Open Data Is All You Need

파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.

#Review #Multimodal Datasets #VLM #Data Curation #Data Hygiene #De-duplication #Human-in-the-loop #GUI Automation #Test-set Decontamination

2025년 10월 21일

[논문리뷰] Executable Knowledge Graphs for Replicating AI Research

AI 연구 재현은 LLM 에이전트 에게 중요한 도전 과제이며, 기존 방법론은 불충분한 배경 지식, RAG 방식의 한계, 구조화된 지식 표현 부족으로 실행 가능한 코드를 생성하는 데 어려움을 겪습니다.

#Review #AI Research Replication #Large Language Models (LLMs)#Knowledge Graphs (KGs)#Executable Code Generation #Retrieval-Augmented Generation (RAG)#PaperBench #Automated AI Research

2025년 10월 21일

[논문리뷰] Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics

본 논문은 기업이 비정형 데이터를 실용적인 통찰력으로 전환하는 과정에서 직면하는 어려움, 특히 기존 자율 에이전트의 도메인 특이성, 의도 정렬, 엔터프라이즈 통합 한계를 해결하고자 합니다.

#Review #Multi-Agent Systems #Deep Research #Enterprise AI #Human-in-the-Loop #Steerable AI #LLM Agents #Context Engineering #Enterprise Analytics

2025년 10월 21일

[논문리뷰] Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset

기존 2D 및 3D 모션 데이터셋이 가진 스케일, 품질, 완전성, 도메인 특화 문제점을 해결하는 것을 목표로 합니다. 특히, 사람의 행동 및 상호작용에 대한 포괄적인 이해와 합성을 가능하게 하는 대규모 고품질 멀티모달 3D 모션 데이터셋을 구축하고자 합니다.

#Review #3D Motion Dataset #Multimodal Data #Human Behavior #Pose Tracking #Hand Tracking #Audio-Visual Data #Large-scale Dataset #SMPL-X

2025년 10월 21일

[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#Prompt Injection #Adversarial Attack #Reasoning Distraction #Chain-of-Thought #Robustness #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)

2025년 10월 21일

[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Autonomous Data Science #Agentic LLM #Curriculum Learning #Reinforcement Learning #Data Agents #End-to-end Data Science

2025년 10월 21일

[논문리뷰] Deep Self-Evolving Reasoning

본 연구는 개방형 소형 언어 모델(LLM)이 어려운 추론 작업에서 취약한 검증 및 교정 능력으로 인해 한계에 부딪히는 문제를 해결하고자 합니다.

#Review #Deep Self-Evolving Reasoning #LLMs #Iterative Reasoning #Markov Chain #Self-Verification #Self-Refinement #Mathematical Reasoning #AIME Benchmark

2025년 10월 21일

[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.

#Review #Image Editing #Video Editing #Diffusion Transformer #Attention Control #Training-free #Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation

2025년 10월 21일

[논문리뷰] Chronos-2: From Univariate to Universal Forecasting

기존 사전 훈련된 시계열 모델이 주로 단변량 예측에 국한되어 실제 다변량 데이터 및 공변량 활용에 한계가 있다는 문제점을 해결하고자 합니다. Chronos-2 는 단변량, 다변량, 공변량 정보 기반 예측 태스크 를 제로샷 방식 으로 처리할 수 있는 범용적인 사전 훈련 모델을 개발하는 것을 목표로 합니다.

#Review #Time Series Forecasting #Foundation Models #Pretrained Models #Transformer #In-Context Learning #Multivariate Forecasting #Covariates #Group Attention

2025년 10월 21일

[논문리뷰] Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

이 논문은 사전 훈련된 모델 없이 위성 이미지 분류를 위한 맞춤형 CNN 아키텍처 를 체계적으로 연구하여 EuroSAT 데이터셋 에서 높은 정확도를 달성하는 것을 목표로 합니다. 위성 이미지 분류의 특정 실패 모드를 식별하고 해결하며, 공간 및 스펙트럼 특징 모달리티에 대한 균형 잡힌 어텐션의 필요성을 탐구합니다.

#Review #Satellite Image Classification #Multi-Task Attention #From-Scratch Training #EuroSAT Dataset #Squeeze-Excitation Networks #Coordinate Attention #CNN #Deep Learning Architecture

2025년 10월 21일

[논문리뷰] AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 과정(Chain-of-Thought, CoT)이 현재 모놀리식 텍스트 기반으로 제공되어, 음성 인터페이스에서 실시간 상호작용과 사용자 개입을 어렵게 하는 문제를 해결하고자 합니다.

#Review #Real-Time Interaction #Asynchronous Agents #LLM Explanation #Human-AI Collaboration #Voice Interface #Planning and Reasoning #Context Management #Interruption Handling

2025년 10월 21일

[논문리뷰] Annotation-Efficient Universal Honesty Alignment

본 논문은 대규모 언어 모델(LLM)이 지식 경계를 인식하고 보정된 자신감을 표현하는 Honesty Alignment 를 달성하는 것을 목표로 합니다.

#Review #LLM Honesty Alignment #Confidence Calibration #Annotation Efficiency #Self-Consistency #Elicitation-Then-Calibration (EliCal)#HonestyBench #LoRA #Trustworthy AI

2025년 10월 21일

[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe

본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.

#Review #Agentic Reinforcement Learning #LLM Safety #Tool Use #Search Models #Jailbreaking #Instruction Tuning #Vulnerability

2025년 10월 21일

[논문리뷰] VISTA: A Test-Time Self-Improving Video Generation Agent

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 사용자 프롬프트에 매우 민감 하여 고품질 비디오를 얻기 위한 반복적인 프롬프트 수정과 필터링이 필요하다는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Prompt Optimization #Multi-Agent System #Test-Time Improvement #MLLM-as-a-Judge #Video Evaluation #Audio-Video Synthesis

2025년 10월 20일

[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data

멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.

#Review #Multimodal Data Quality #MLLM #Synthetic Data #Data Filtering #Image-Text Captioning #Interleaved Document Analysis #Pre-training

2025년 10월 20일

[논문리뷰] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

본 논문은 대규모의 탐색 가능하며 기하학적으로 정확한 3D 도시 장면을 합성하는 문제를 해결하는 데 중점을 둡니다. 특히, 제한된 위성 이미지 시차로 인한 불완전한 기하학과 부정확한 텍스처, 그리고 3D/거리 수준 훈련 데이터 부족으로 인해 발생하는 기존 방법론의 한계를 극복하고자 합니다.

#Review #3D Scene Synthesis #Gaussian Splatting #Satellite Imagery #Diffusion Models #Urban Modeling #Novel View Synthesis #Curriculum Learning #Real-time Rendering

2025년 10월 20일

[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.

#Review #Video Editing #Instruction-Based Editing #Synthetic Data Generation #Dataset #Curriculum Learning #Diffusion Models #Vision-Language Models

2025년 10월 20일

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

본 논문은 Maximal-update Parameterization (µP)이 현대 스케일 불변 아키텍처에서 훈련의 정상 상태(steady state)에 도달했을 때 발생하는 학습률 전이(transfer) 저하 문제를 해결하고자 합니다.

#Review #Weight Decay Scaling #Maximal-Update Parameterization (µP)#AdamW #Transformer #Hyperparameter Transfer #Scaling Laws #Singular Value Spectrum #Steady State Training

2025년 10월 20일

[논문리뷰] Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

MoE(Mixture-of-Experts) 모델이 배포 시 발생하는 분포 변화(distribution shifts) 로 인해 차선적인 라우팅 결정(suboptimal routing decisions) 을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Online Adaptation #Test-Time Adaptation (TTA)#Expert Routing #Large Language Models (LLMs)#Self-Supervision #Computational Efficiency #Context Shift Robustness

2025년 10월 20일

[논문리뷰] Paper2Web: Let's Make Your Paper Alive!

이 논문은 학술 논문을 레이아웃 인식적이고 상호작용적이며 멀티미디어 가 풍부한 웹 페이지로 변환하는 PAPER2WEB 이라는 새로운 태스크를 제안합니다.

#Review #Academic Webpage Generation #Multi-Agent Systems #Large Language Models #Model Context Protocol #Interactive Content #Multimedia Dissemination #Evaluation Benchmark #Human-Computer Interaction

2025년 10월 20일

[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

본 연구는 인간처럼 여러 모달리티에 걸쳐 세상을 인지하고 추론할 수 있는 강력한 오픈소스 옴니모달 LLM(Omni-Modal LLM) 인 OmniVinci 를 구축하는 것을 목표로 합니다.

#Review #Omni-Modal LLM #Multimodal Understanding #Vision-Audio Alignment #Temporal Reasoning #Data Curation #Foundation Models #Contrastive Learning #Rotary Time Embedding

2025년 10월 20일

[논문리뷰] NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

본 논문은 기존 3D 객체 편집 방법들이 비효율적이고 일관성이 부족하며, 편집되지 않은 영역을 보존하는 데 실패하는 문제를 해결하고자 합니다.

#Review #3D Object Editing #Training-Free #FlowEdit #Mask-Free #Deep Generative Models #TRELLIS #Data Generation #Geometric Consistency

2025년 10월 20일

[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

기존 대규모 모델 평가 벤치마크의 제한된 범위와 난이도 적응성 부족 문제를 해결하는 것이 목표입니다. 모델의 추론 능력에 따라 난이도를 조정하고 업데이트할 수 있는 다학제적 질문을 포함하는 새로운 벤치마크 MORPHOBENCH 를 제안하여 모델의 추론 능력 평가의 포괄성과 유효성을 향상하고자 합니다.

#Review #LLM Evaluation #Reasoning Benchmark #Difficulty Adaptation #Multimodal AI #Proof Graph #Agent Recognition #Automated Question Generation

2025년 10월 20일

[논문리뷰] LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

본 연구는 불완전하거나 프레임 외부의 광원이 존재할 때 기존 단일 이미지 플레어 제거(SIFR) 모델 의 성능이 저하되는 문제를 해결하고자 합니다. 완전한 광원 정보를 재구성함으로써 SIFR 모델의 성능을 크게 향상시키고 시각적 사실성을 높이는 것을 목표로 합니다.

#Review #Lens Flare Removal #Diffusion Models #Image Outpainting #Deep Learning #Image Restoration #Preprocessing #LoRA

2025년 10월 20일

[논문리뷰] Latent Diffusion Model without Variational Autoencoder

기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.

#Review #Latent Diffusion Model #Variational Autoencoder #Self-supervised Learning #DINO Features #Generative Models #Image Generation #Training Efficiency #Unified Representation

2025년 10월 20일

[논문리뷰] Language Models Model Language

전통적인 언어학적 비판(예: Chomsky, de Saussure)에 맞서 LLM이 언어를 모델링하는 능력을 재평가하고, Witold Mańczak의 경험주의적 원칙에 기반한 대안적인 이론적 프레임워크를 제시하는 것을 목표로 합니다. 이를 통해 LLM의 설계, 평가 및 해석을 위한 건설적인 가이드를 제공하고자 합니다.

#Review #Large Language Models #Linguistics #Witold Mańczak #Frequency Hypothesis #Empirical Validation #Usage-Based Linguistics #Semantic Embeddings

2025년 10월 20일

[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.

#Review #LLMs #Reinforcement Learning #Rubric-Based Training #Medical Dialogue #Open-Ended Tasks #HealthBench #RAG

2025년 10월 20일

[논문리뷰] Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

본 논문은 기존의 수동 최적화 방법론, 심층 생성 모델, 대규모 언어 모델(LLM) 기반 접근법의 한계(예: 복잡한 공간 관계 처리의 어려움, 다양성 부족, 낮은 품질)를 극복하여, 시각적으로 일관되고 심미적으로 매력적인 고품질 3D 장면 레이아웃을 생성 하는 시스템을 개발하는 것을 목표로 합니다.

#Review #3D Scene Layout Generation #Vision-guided #Diffusion Models #Scene Graph #Asset Retrieval #Pose Estimation #High-Quality Assets #AI Content Creation

2025년 10월 20일

[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

본 논문은 GPT-4 및 AlphaFold와 같은 파운데이션 모델(FMs) 이 과학 연구의 기존 방법론을 단순히 개선하는 것을 넘어, 새로운 과학 패러다임으로의 전환을 촉진하고 있다는 주장을 제시합니다.

#Review #Foundation Models #Scientific Discovery #Paradigm Shift #Human-AI Collaboration #Autonomous Agents #Meta-Science #Experimental Design #Hypothesis Generation

2025년 10월 20일

[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.

#Review #LLM Trustworthiness #Finance Domain #Benchmark #Alignment Evaluation #Financial AI #Hallucination #Privacy #Fairness

2025년 10월 20일

[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

기존 웹 에이전트 시스템들이 정보 탐색 기능에만 중점을 두고 정보 집계 능력을 간과하여 심층적인 연구 결과 생성을 제한하는 문제를 해결하고자 합니다.

#Review #Web Agents #Information Aggregation #Data Synthesis #Online Exploration #Foundation Models #Multi-hop QA #Deep Research

2025년 10월 20일

[논문리뷰] Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

본 논문은 기존 파인튜닝(fine-tuning) 및 활성화 조종(activation steering)에서 관찰된 ' emergent misalignment (EM)' 현상이 인컨텍스트 학습(In-Context Learning, ICL) 환경에서도 발생하는지 여부를 탐구합니다.

#Review #Emergent Misalignment #In-Context Learning #LLM Safety #Persona Rationalization #Prompt Engineering #Model Alignment

2025년 10월 20일

[논문리뷰] ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

논문은 다중 턴 대화에서 Large Language Models (LLMs) 의 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 특히, 정보가 점진적으로 주어질 때 LLM이 대화 맥락을 '잃어버려' 발생하는 정확도 감소 및 신뢰성 하락을 개선하고자 합니다.

#Review #Multi-turn Conversation #Large Language Models (LLMs)#Context Management #Entropy-guided Resetting #Uncertainty Quantification #Performance Degradation #Prompt Engineering #Conversational AI

2025년 10월 20일

[논문리뷰] DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

본 논문은 기존 방법론의 한계인 긴 시간 동안의 비디오 생성에 대한 과도한 계산 요구, 3D 표현 없는 장기 비디오 합성 집중, 또는 정적 단일 장면 재구성에 대한 제약을 해결합니다.

#Review #Driving Scene Generation #Video Diffusion #3D Reconstruction #Gaussian Splatting #Feed-Forward Models #Temporal Coherence #Multimodal Control

2025년 10월 20일

[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Length Penalty #Reasoning Efficiency #Large Language Models #RL Optimization #Accuracy-Efficiency Trade-off #Chain-of-Thought

2025년 10월 20일

[논문리뷰] Build Your Personalized Research Group: A Multiagent Framework for Continual and Interactive Science Automation

과학 자동화를 위한 기존 에이전트 시스템의 고정된 워크플로우 와 불충분한 컨텍스트 관리 라는 한계를 극복하는 것입니다. 궁극적으로는 동적이고 상호작용적인 다중 에이전트 프레임워크를 통해 지속적인 장기 연구 프로그램 을 자율적으로 수행하고, 아이디어 구상부터 출판까지 종단 간 과학 연구 자동화 를 실현하고자 합니다.

#Review #Multiagent Systems #Science Automation #Dynamic Workflows #Workspace-based Communication #Context Compaction #Human-in-the-loop AI #Open-source Framework

2025년 10월 20일

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.

#Review #Image Generation #Image Editing #Autoregressive Model #Diffusion Model #Reinforcement Learning #Multimodal AI #Foundation Model #Open-source

2025년 10월 20일

[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.

#Review #Adaptive Agent #Foundation Model #Hybrid Reasoning #Tool-Aware LLM #Mode Selection #Reinforcement Learning #Cost Efficiency #LLM Agent

2025년 10월 20일

[논문리뷰] pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

이 논문은 기존 few-step 확산 및 흐름 기반 생성 모델의 증류 과정에서 발생하는 품질-다양성 트레이드오프 와 복잡한 훈련 절차 문제를 해결하고자 합니다.

#Review #Diffusion Models #Flow Matching #Generative Models #Model Distillation #Imitation Learning #Few-Step Generation #Policy-Based AI #Text-to-Image

2025년 10월 17일

[논문리뷰] WithAnyone: Towards Controllable and ID Consistent Image Generation

본 논문은 텍스트-투-이미지 생성 모델에서 레퍼런스 인물의 ID(Identity)를 일관성 있게 유지하면서도, 레퍼런스 이미지를 단순히 복사하는 듯한 'copy-paste' 아티팩트 를 줄이고 생성된 이미지의 표현, 포즈, 조명 등의 다양성 및 제어 가능성 을 높이는 것을 목표로 합니다.

#Review #Identity-Consistent Generation #Text-to-Image Diffusion #Copy-Paste Artifacts #Contrastive Learning #Multi-Identity Dataset #Controllable Generation #ID-Preservation

2025년 10월 17일

[논문리뷰] When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 핵심 과제인 환각(hallucination) 탐지를 목표로 합니다.

#Review #Hallucination Detection #Multilingual LLMs #Span-Level Annotation #Synthetic Data Generation #Question Answering (QA)#Encoder Models #Uncertainty Quantification #GPT-4o

2025년 10월 17일

[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.

#Review #Video Reward Models #Multimodal Reasoning #Thinking-with-Image #Visual Reasoning #Reinforcement Learning #Chain-of-Thought #Context Management

2025년 10월 17일

[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Agentic Framework #Unseen Concept Manipulation #Out-of-Distribution Generalization #Tool Use #Web Retrieval #Object Detection #LIBERO Simulation

2025년 10월 17일

[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification

본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #VLA-0 #Zero Modification #Text-based Action Prediction #Robot Manipulation #Large Language Models #Fine-tuning #State-of-the-Art

2025년 10월 17일

[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.

#Review #Text-to-3D #Model Stitching #Multi-view Reconstruction #Video Generation #Latent Diffusion Models #Gaussian Splats #Pointmaps #Reward Finetuning

2025년 10월 17일

[논문리뷰] TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

본 논문은 Code LLM 이 사용하는 서브워드 토크나이저 와 프로그래밍 언어(PL) 문법 간의 불일치 문제를 해결하고자 합니다.

#Review #Code LLMs #Subword Tokenization #Grammar-aware Tokenization #Semantic Preservation #Rewrite Rules #Model Robustness #Tokenization Misalignment

2025년 10월 17일

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일

[논문리뷰] SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis

본 연구는 동적 3D 장면 모델링에서 정확한 변형을 포착하면서도 계산 효율성을 유지하는 데 따른 어려움을 해결합니다.

#Review #4D Novel View Synthesis #Dynamic Scenes #3D Gaussian Splatting #Cascaded Optimization #Deformation Modeling #Point Tracking #Object Segmentation

2025년 10월 17일

[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.

#Review #RAG Systems #Selective Refusal #Generative Evaluation #Linguistic Perturbations #LLM Evaluation #Informational Uncertainty #Model Calibration #AI Safety

2025년 10월 17일

[논문리뷰] RealDPO: Real or Not Real, that is the Preference

본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Direct Preference Optimization #Preference Learning #Real Data #Human Motion Synthesis #RealDPO #RealAction-5K

2025년 10월 17일

[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Large Language Models #Retrieval Augmented Generation #Agentic Systems #Benchmarking #Intermediate Tasks #Error Analysis #LLM Evaluation

2025년 10월 17일

[논문리뷰] Qwen3Guard Technical Report

본 연구는 기존 가드레일 모델의 이진 분류 한계와 스트리밍 LLM 추론과의 비호환성 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety #Guardrail Models #Multilingual AI #Real-time Moderation #Tri-class Classification #Instruction Tuning #Streaming Inference

2025년 10월 17일

[논문리뷰] Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

본 연구는 기존 상호작용 애니메이션 모델이 근접 상호작용의 동적 맥락을 파악하고 다양한 입력 유형에 대한 일반화 능력이 부족하다는 문제점을 해결하고자 합니다.

#Review #Human-human Interaction #Pose Animation #Diffusion Models #Generative AI #Motion Synthesis #Interactive Poses #Temporal Priors #Spatial Priors

2025년 10월 17일

[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

본 논문은 다국어 문서 파싱을 위한 SOTA(State-of-the-Art) 및 자원 효율적인 모델인 PaddleOCR-VL을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Vision-Language Model #Multilingual OCR #Layout Analysis #Resource-Efficient AI #Table Recognition #Formula Recognition #Chart Recognition

2025년 10월 17일

[논문리뷰] On Pretraining for Project-Level Code Completion

본 연구는 코드 언어 모델(Code LLMs)이 코드베이스 전체의 컨텍스트를 활용하여 정확하고 컨텍스트를 인지하는 코드 완성을 생성하도록 돕기 위해, 저장소 수준(repository-level) 사전 훈련 전략이 OpenCoder 1.5B 모델의 컨텍스트 내 학습 능력에 미치는 영향을 조사하는 것을 목표로 합니다.

#Review #Code LLMs #Project-level Context #Code Completion #Context Window Extension #RoPE Scaling #Repository Pretraining #Long Code Arena

2025년 10월 17일

[논문리뷰] MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

기존 RAG 패러다임의 수동적인 텍스트 청킹 방식이 지식 내부화 및 추론 능력을 제한하는 문제를 해결합니다. 인간의 인지 과정을 모방하여 텍스트 처리를 수동적인 청킹에서 사전 이해 기반의 문서 메모리 추출 로 전환하고, SLM이 이러한 심층 이해 능력을 습득하도록 하는 것이 목표입니다.

#Review #Retrieval-Augmented Generation (RAG)#Document Memory #Text Chunking #Small Language Models (SLMs)#Large Language Models (LLMs)#Scenario-Aware Processing #Multi-Layer Retrieval #Cognitive Simulation

2025년 10월 17일

[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning #Diagram Generation #Dataset #Benchmark

2025년 10월 17일

[논문리뷰] LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

본 연구는 소규모 LLM에서 다단계 추론 시 발생하는 높은 레이턴시 문제를 해결하고자 합니다.

#Review #Layer Skipping #Multi-stage Reasoning #Latency Optimization #Early Exit #Small Language Models (LLMs)#Adaptive Computation #Confidence-based Decoding

2025년 10월 17일

[논문리뷰] Learning an Image Editing Model without Image Editing Pairs

본 논문은 대규모 입력-편집 쌍 데이터 에 대한 의존성을 제거하여 이미지 편집 모델 훈련의 주요 병목 현상을 해결하고자 합니다. 특히, 합성 데이터의 아티팩트 전파 문제를 피하고, 쌍 데이터 없이도 자연어 지침에 따라 이미지를 편집하는 모델을 학습하는 새로운 훈련 패러다임을 제안합니다.

#Review #Image Editing #Diffusion Models #Vision-Language Models (VLMs)#No-Pair Training #Few-step Generation #Distribution Matching #Gradient-based Optimization

2025년 10월 17일

[논문리뷰] Large Language Models Do NOT Really Know What They Don't Know

본 논문은 대규모 언어 모델(LLMs)이 사실적 오류를 생성할 때 내부적으로 어떻게 처리하는지 기계적으로 분석하여, LLMs가 진정으로 '무엇을 모르는지 아는지' 여부를 밝히는 것을 목표로 합니다.

#Review #LLMs #Hallucination Detection #Mechanistic Interpretability #Internal States #Knowledge Recall #Refusal Tuning #Factual Associations #Associated Hallucinations

2025년 10월 17일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

본 논문은 디지털 에이전트 훈련에 필요한 대규모, 고품질 UI 환경 훈련 궤적 데이터의 부족 문제 를 해결하고자 합니다. 기존 데이터 수집 방식의 높은 비용과 확장성 한계를 극복하기 위해, LLM 기반 시뮬레이터 를 활용하여 다양한 UI 상태와 전환을 합성하는 확장 가능한 패러다임을 제안하는 것을 목표로 합니다.

#Review #LLM #Digital Agents #UI Simulation #Synthetic Data Generation #Targeted Data Synthesis #World Models

2025년 10월 17일

[논문리뷰] LLM-guided Hierarchical Retrieval

기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.

#Review #Information Retrieval #Large Language Models #Hierarchical Retrieval #Semantic Tree #Tree Traversal #Zero-shot Performance #Reasoning-based Retrieval #Computational Efficiency

2025년 10월 17일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일

[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

본 연구는 기존 비디오 생성 모델들이 상상적인 시나리오 나 장거리 의미론적 관계 를 포함하는 프롬프트에서 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Video Generation #Test-Time Search #Diffusion Models #Semantic Dependency #Adaptive Reward #Evaluation Benchmark #Prompt-Guided

2025년 10월 17일

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

본 논문은 기존의 모듈형 Vision-Language Models (VLMs)이 가진 강한 시각적 인코딩 편향과 복잡한 인프라 문제를 해결하고, 초기 퓨전 방식의 단일(monolithic) VLM 아키텍처인 '네이티브 VLM'의 근본적인 제약을 극복하는 것을 목표로 합니다.

#Review #Vision-Language Models #Native VLMs #Early Fusion #Multimodal Learning #Transformer Architecture #Rotary Position Embeddings #Pixel-Word Alignment #End-to-End Training

2025년 10월 17일

[논문리뷰] Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

본 연구는 클라우드부터 엣지 기기까지 모든 스케일에서 정보 검색을 지원하기 위해, 현대적인 아키텍처와 높은 효율성을 갖춘 소형 ColBERT 모델(mxbai-edge-colbert-v0) 을 개발하는 것을 목표로 합니다.

#Review #ColBERT #Retrieval Models #Small Models #Distillation #Long Context #Edge AI #Information Retrieval #RAG

2025년 10월 17일

[논문리뷰] Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

본 연구는 Vision-Language-Action (VLA) 모델 스케일링의 두 가지 주요 과제, 즉 사전 훈련된 VLA 모델 가중치 활용을 통한 효율적인 스케일업과 실시간 제어를 위한 모델 용량 및 연산 효율성 균형을 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Mixture of Experts (MoE)#Robotic Manipulation #Expert Specialization #Decoupled Routing #Load Balancing #Transfer Learning

2025년 10월 17일

[논문리뷰] Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

본 논문은 반복적 깊이(recurrent-depth)를 가진 언어 모델의 느린 추론 속도를 해결하기 위해, 이러한 모델과 확산(diffusion) 언어 모델 간의 유사성을 활용한 효율적인 병렬 샘플링 기법을 개발하는 것을 목표로 합니다.

#Review #Recurrent-Depth Models #Diffusion Forcing #Parallel Sampling #LLM Inference Acceleration #Transformer Architectures #Generative AI #Latent Space Diffusion

2025년 10월 17일

[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

현재 다중 모달 생성 모델이 다양한 영어 방언 텍스트 입력에 대해 효과적으로 콘텐츠를 생성할 수 있는지 평가하고, 방언 사용자들이 겪는 성능 저하 문제를 해결하는 것이 주요 목표입니다.

#Review #Multimodal Generation #Dialect Robustness #Text-to-Image #Text-to-Video #Benchmarking #Diffusion Models #Text Encoder Tuning #Low-Resource Dialects

2025년 10월 17일

[논문리뷰] COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

대규모 언어 모델(LLM)이 비영어권, 특히 중국어 창의적 글쓰기에서 겪는 체계적인 결함(예: 예측 가능한 내러티브, 스타일 다양성 부족, 문화적 비정합성)을 해결하는 것을 목표로 합니다.

#Review #Chinese Creative Writing #Process Supervision #LLM Training #Dataset Creation #Cross-Lingual Transfer #Narrative Logic #Linguistic Expression #Type-Token Ratio

2025년 10월 17일

[논문리뷰] BitNet Distillation

본 논문은 기존의 풀-정밀도 LLM (예: Qwen )을 특정 다운스트림 태스크를 위해 1.58비트 정밀도 (삼진 가중치: {-1, 0, 1}) 로 미세 조정하여, 최소한의 계산 비용으로 풀-정밀도 모델에 필적하는 성능을 달성하는 것을 목표로 합니다.

#Review #Low-bit Quantization #LLM Compression #Knowledge Distillation #Ternary Weights #Inference Optimization #Memory Efficiency #SubLN #Continual Pre-training

2025년 10월 17일

[논문리뷰] Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

본 연구는 대규모 언어 모델(LLMs)이 버전별 캐릭터 , 특히 다양한 코믹 및 영화 세계관에 걸쳐 슈퍼히어로 역할을 얼마나 충실하고 일관성 있게 수행하는지 평가하는 것을 목표로 합니다. LLMs가 캐릭터의 고유한 지식, 가치관, 도덕적 코드를 유지하면서 다중 우주적 맥락에서 일관성을 보이는지 탐구하고자 합니다.

#Review #Role-playing LLMs #Multiversal Consistency #Character Benchmarking #Moral Dilemmas #Canon Events #Reasoning-Acting Alignment #Chain-of-Thought #Superheroes

2025년 10월 17일

[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

본 논문은 기존 RLHF 보상 모델이 객관적인 품질 신호(문법 오류, 사실 정확성 등)를 제거했을 때 주관적인 쓰기 선호도 평가에서 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Subjective Preference Learning #Writing Evaluation #Reward Models #RLHF #Cross-Cultural AI #Generative Models #Language Model Judges #Genre Instability

2025년 10월 17일

[논문리뷰] Attention Is All You Need for KV Cache in Diffusion LLMs

본 논문은 확산 대규모 언어 모델(DLMs)의 추론 과정에서 발생하는 과도한 Key-Value (KV) 캐시 재계산으로 인한 높은 지연 시간을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #KV Cache #Adaptive Caching #Inference Optimization #Attention Mechanism #Latency Reduction #Generative AI

2025년 10월 17일

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일

[논문리뷰] AI for Service: Proactive Assistance with AI Glasses

기존의 수동적이고 사용자 명령에 의존하는 AI 서비스의 한계를 극복하고, 사용자의 필요를 예측하여 선제적으로 지원하는 'AI for Service' 라는 새로운 패러다임을 제안하는 것이 목표입니다.

#Review #AI for Service #Proactive AI #AI Glasses #Multi-agent System #Human-AI Interaction #Context-aware AI #Wearable AI

2025년 10월 17일

[논문리뷰] X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

다양한 로봇 플랫폼과 이질적인 데이터셋 전반에서 효과적인 훈련을 통해 일반화된 Vision-Language-Action (VLA) 모델을 구축하는 것이 목표입니다.

#Review #Vision-Language-Action (VLA) Models #Soft Prompts #Transformer #Cross-Embodiment #Robotics #Pretraining #Domain Adaptation #Flow Matching

2025년 10월 16일

[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification

본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.

#Review #Universal Image Restoration #Pre-training #Masked Image Modeling #Degradation Classification #Deep Learning #Computer Vision #Self-supervised Learning #Low-level Vision

2025년 10월 16일

[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

본 연구는 음성 및 음악 생성의 통합이라는 오랜 과제를 해결하는 것을 목표로 합니다.

#Review #Mixture of Experts #Speech Generation #Music Generation #Multimodal AI #Dynamic Routing #Training Curriculum #Data Imbalance #Audio Synthesis

2025년 10월 16일

[논문리뷰] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

기존 multimodal 임베딩 모델의 한계인 hard negative 샘플의 다양성 부족 과 의미적 미묘한 차이 포착 능력 부족 을 해결하여, discriminative ability 를 향상시키는 보편적인 multimodal 임베딩 모델을 개발하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #MLLM-as-a-Judge #Hard Negative Mining #Semantic Alignment #Representation Learning #Reranking #Contrastive Learning

2025년 10월 16일

[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal AI #Unified Models #Benchmark #Generation #Understanding #Reasoning #Evaluation #Cross-modal Synergy

2025년 10월 16일

[논문리뷰] Trace Anything: Representing Any Video in 4D via Trajectory Fields

본 논문은 비디오의 동적 장면을 모델링하고 이해하는 데 필수적인 효과적인 시공간 표현 문제를 해결하고자 합니다.

#Review #4D Video Representation #Trajectory Fields #Neural Networks #Spatio-temporal Modeling #3D Point Tracking #Motion Forecasting #Computer Vision #B-splines

2025년 10월 16일

[논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research

본 논문은 GPU, 데이터, 인적 자원과 같은 컴퓨팅 리소스가 파운데이션 모델(FM) 연구의 과학적 발전 및 출판에 미치는 영향을 평가합니다. 특히 이러한 리소스 접근성이 연구 성과, 출판율, 인용 수에 어떤 상관관계를 가지는지 분석하고, 리소스 불균형이 AI 연구 생태계에 미치는 영향을 탐구하는 것을 목표로 합니다.

#Review #Foundation Models #Computing Resources #GPU Disparity #AI Research #Publication Bias #Resource Allocation #Research Transparency

2025년 10월 16일

[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs

본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Compute Efficiency #Predictability #Sigmoidal Curves #ScaleRL #Off-Policy RL

2025년 10월 16일

[논문리뷰] Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

본 논문은 대규모 언어 모델(LLM) 에이전트의 성능 향상을 위해 다중 에이전트 시스템(MAS) 과 강화 학습(RL) 을 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Multi-Agent Systems (MAS)#On-Policy RL #Collaborative AI #Agentic LLMs #Group-based Optimization

2025년 10월 16일

[논문리뷰] Revisiting Model Interpolation for Efficient Reasoning

이 논문은 대규모 언어 모델(LLM)의 복잡한 연쇄적 사고(Chain-of-Thought, CoT) 추론에서 발생하는 과도한 사고(over-thinking) 및 높은 지연 시간 문제를 해결하기 위한 효율적인 추론 방법을 모색합니다.

#Review #Model Interpolation #Efficient Reasoning #Large Language Models #Chain-of-Thought #Model Merging #Performance Dynamics #Ablation Study

2025년 10월 16일

[논문리뷰] Reasoning in Space via Grounding in the World

기존 3D LLM이 통일된 3D 표현 부재 및 외부 모듈 의존으로 인해 3D 시각적 그라운딩과 공간 추론을 원활하게 통합하지 못하는 문제를 해결하는 것이 목표입니다. 본 연구는 LLM이 자율회귀적 방식으로 자연스럽고 효과적인 그라운딩을 수행하여 공간 추론 능력을 향상시킬 수 있는 방법을 모색합니다.

#Review #3D Visual Grounding #Spatial Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Hybrid Representation #Multi-modal LLMs #Point Clouds

2025년 10월 16일

[논문리뷰] Point Prompting: Counterfactual Tracking with Video Diffusion Models

본 논문은 사전 학습된 비디오 확산 모델(video diffusion models) 이 추가 훈련 없이 제로-샷(zero-shot) 방식으로 시점 추적(point tracking)을 수행할 수 있는지 탐구합니다.

#Review #Video Diffusion Models #Point Tracking #Zero-Shot Learning #Counterfactual Modeling #Visual Prompting #SDEdit #Negative Prompting #Object Permanence

2025년 10월 16일

[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.

#Review #Video Generation #Physical Plausibility #Reinforcement Learning #Direct Preference Optimization #Physical Representation #Diffusion Models #World Models #Image-to-Video

2025년 10월 16일

[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

본 논문은 Diffusion LLM (dLLM)의 병렬 디코딩이 토큰 의존성 을 무시하여 발생하는 생성 품질 저하 문제와 그로 인한 속도-품질 트레이드오프를 심층적으로 이해하고 정량화하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Parallel Decoding #Speed-Quality Trade-off #Benchmark #Token Dependencies #Unmasking Strategies #Information Theory

2025년 10월 16일

[논문리뷰] NOSA: Native and Offloadable Sparse Attention

본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 디코딩 시 발생하는 메모리 병목 현상, 특히 KV 캐시 크기 가 배치 크기 및 디코딩 처리량을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Sparse Attention #KV Cache Offloading #LLMs #Decoding Throughput #Locality Constraint #Memory Optimization #Trainable Sparse Attention

2025년 10월 16일

[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.

#Review #Multi-turn Text-to-SQL #Agentic Training #Reinforcement Learning #Large Language Models #Dialogue Systems #Semantic Parsing #Database Interaction #Self-correction

2025년 10월 16일

[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Mathematical Reasoning #Benchmark #Large Language Models (LLMs)#Exploration #Boundary Expansion #MATH-Beyond

2025년 10월 16일

[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.

#Review #Vision-Language-Action Models #Robotics #Robustness Analysis #Generalization #Perturbations #Benchmark #LIBERO-Plus #Multimodal AI

2025년 10월 16일

[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.

#Review #Robotics #Vision-Language-Action (VLA)#Spatial Grounding #Generalist Policy #Multimodal Learning #Instruction Following #Simulation-to-Real #Diffusion Models

2025년 10월 16일

[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.

#Review #Omni-modal LLM #Audio-Visual Dialogue #Multi-turn Interaction #Speech Generation #Long-term Memory #Multimodal Understanding #End-to-end Training

2025년 10월 16일

[논문리뷰] HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템에서 발생하는 비효율적인 그룹 협업 모델링(단순한 쌍별 관계) 및 제한적인 태스크 적응성으로 인한 통신 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Model #Multi-agent Systems #Multi-agent Communication #Graph Neural Networks #Hypergraph #Topology Optimization #Variational Autoencoder #Sparsity Regularization

2025년 10월 16일

[논문리뷰] Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain

본 논문은 대규모 언어 모델(LLM)이 인간 수준의 언어 능력을 보여주지만 구문 구조를 모델링하는 특정 연산 모듈이 불분명하다는 문제에 주목합니다.

#Review #Large Language Models #Syntactic Structure #Human Brain #Frequency Tagging #Neuroscience #Model Interpretability #Representational Similarity Analysis #Intracranial EEG

2025년 10월 16일

[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.

#Review #LLM Verification #Math Reasoning #Step-Level Verification #Benchmark #Open-Ended Problems #Process Reward Models #Generative Critics

2025년 10월 16일

[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Multi-Agent Systems #Failure Tracing #Root Cause Analysis #Information Dependency Graph #Reinforcement Learning #Deep Search

2025년 10월 16일

[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner

본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.

#Review #Multimodal AI #Visual Verification #Generative Models #Self-Refinement #Vision-Language Models #Test-Time Scaling #Reasoning

2025년 10월 16일

[논문리뷰] FlashWorld: High-quality 3D Scene Generation within Seconds

논문은 기존 3D 장면 생성 방법론의 한계인 긴 생성 시간(수분~수시간)과 시각적 품질 저하, 3D 일관성 부족 문제를 해결하고자 합니다. 단일 이미지 또는 텍스트 프롬프트로부터 수초 내에 고품질의 3D 장면을 생성 하여 이전 방식보다 10~100배 빠른 속도 와 우수한 렌더링 품질을 달성하는 것을 목표로 합니다.

#Review #3D Scene Generation #Diffusion Models #Multi-View Synthesis #3D Gaussian Splatting #Knowledge Distillation #Real-time Generation #High-Quality Rendering #Cross-modal Training

2025년 10월 16일

[논문리뷰] FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

기존 비전-언어 모델(VLM)이 대규모 전역 정렬에는 능숙하지만, 객체 속성, 공간 관계, 미묘한 언어 표현 등 세분화된 디테일 을 포착하고 비영어권 환경(특히 중국어) 에서 다국어 지원이 부족하다는 문제점을 해결하는 것을 목표로 합니다.

#Review #Vision-Language Alignment #Fine-grained Understanding #Bilingual Model #Contrastive Learning #Multimodal Retrieval #Open-Vocabulary Detection #Region-Text Matching

2025년 10월 16일

[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.

#Review #LLM #Inference-Time Scaling #Entropy-Aware Generation #Adaptive Budget Allocation #Reasoning Benchmarks #Computational Efficiency #Chain-of-Thought

2025년 10월 16일

[논문리뷰] Direct Multi-Token Decoding

본 논문은 대규모 언어 모델(LLM)의 비효율적인 계층 활용을 해결하여 추론 속도를 가속화하는 것을 목표로 합니다.

#Review #LLM Inference #Multi-token Decoding #Transformer Architecture #Layer Specialization #Cyclical Refilling #Inference Speedup #Model Scaling

2025년 10월 16일

[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

LLM 기반 비플레이어 캐릭터(NPC)가 게임 내에서 기능적 작업 실행과 페르소나 일관성 있는 대화 생성을 동시에 수행할 때 발생하는 'Flanderization' (과도한 역할극) 문제를 해결하는 것을 목표로 합니다. 이를 통해 캐릭터의 진정성 과 작업 실행의 정확성 사이의 균형을 효과적으로 맞추는 방안을 모색합니다.

#Review #LLM #NPC #Game Dialogue #Persona-Grounded Dialogue #Task Execution #Prompt Engineering #Fine-tuning #Deflanderization

2025년 10월 16일

[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #Imitation Learning #Reinforcement Learning #World Models #Latent Space #Dual-Policy #Competitive Learning

2025년 10월 16일

[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.

#Review #Autonomous Driving #Video Generation #Diffusion Models #Spatial-Temporal Reconstruction #3D Gaussian Splatting #Variational Autoencoder #World Modeling #Multi-View Video

2025년 10월 16일

[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Data Curation #Supervised Fine-tuning #Chain-of-Thought #Open-source AI #Data Quality #MLLM Training

2025년 10월 16일

[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Attention Mechanisms #Reinforcement Learning #Credit Assignment #Policy Optimization #Interpretability #Preplan-and-Anchor Rhythm #Generative Models

2025년 10월 16일

[논문리뷰] What If : Understanding Motion Through Sparse Interactions

논문은 물리적 장면의 동역학을 이해하는 것을 목표로 하며, 특히 국부적인 상호작용('pokes')의 결과로 발생할 수 있는 잠재적인 변화의 다중 모드 분포 를 예측하고자 합니다.

#Review #Motion Understanding #Sparse Interactions #Multimodal Prediction #Flow Poke Transformer #Physical Scene Dynamics #Uncertainty Quantification #Generative Models #Computer Vision

2025년 10월 15일

[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Dynamic Resolution #Token Compression #Semantic Awareness #Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization

2025년 10월 15일

[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation

기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Model #Unified Encoder #Image Generation #Diffusion Models #Multimodal Learning #Text-to-Image #Image Editing #Zero-shot Learning

2025년 10월 15일

[논문리뷰] Tensor Logic: The Language of AI

AI 분야의 발전이 프로그래밍 언어의 한계로 인해 저해되고 있다는 문제의식에서 출발합니다. PyTorch나 TensorFlow와 같은 라이브러리가 자동 미분과 GPU 가속을 제공하지만, 자동 추론 및 지식 습득 기능이 부족하며, LISP나 Prolog 같은 심볼릭 AI 언어는 확장성과 학습 지원이 미비합니다.

#Review #Tensor Logic #Neurosymbolic AI #Logic Programming #Tensor Algebra #Deep Learning #Automated Reasoning #Embedding Space

2025년 10월 15일

[논문리뷰] Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models

논문은 Diffusion 모델이 외부 가이던스(guidance)를 적용할 때 발생하는 'off-manifold' 현상으로 인해 생성된 샘플이 실제 데이터 manifold에서 벗어나 품질이 저하되는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Generative Models #Guidance #On-Manifold Sampling #Temporal Alignment #Score Approximation Error #Training-Free Guidance

2025년 10월 15일

[논문리뷰] SynthID-Image: Image watermarking at internet scale

본 논문은 AI 생성 이미지의 출처(provenance)를 인터넷 규모로 확립하기 위한 SynthID-Image 라는 딥러닝 기반의 비가시적 이미지 워터마킹 시스템을 소개합니다.

#Review #Image Watermarking #AI-Generated Content #Provenance #Robustness #Security #Deep Learning #Internet Scale #Post-hoc

2025년 10월 15일

[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Spatial Perception #Implicit Representation Alignment #3D Foundation Models #Robotics #Data Efficiency #Representation Learning

2025년 10월 15일

[논문리뷰] Scaling Language-Centric Omnimodal Representation Learning

본 논문은 MLLM(Multimodal Large Language Model) 기반 임베딩 모델의 우수한 성능이 전통적인 CLIP-스타일 모델 에 비해 가지는 근본적인 이유를 탐구합니다.

#Review #Multimodal Embeddings #MLLMs #Contrastive Learning #Cross-modal Alignment #Generative Pretraining #Representation Learning #Scaling Laws

2025년 10월 15일

[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

본 논문은 Unified Multimodal Models ( UMMs )이 이미지 이해 능력에 비해 이미지 생성 능력에서 현저한 격차를 보이는 문제에 주목합니다. 모델이 사용자 지침에 따라 이미지를 정확하게 이해하더라도, 동일한 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못하는 역설을 해결하고자 합니다.

#Review #Unified Multimodal Models #Self-Rewarding #Text-to-Image Generation #Image Understanding #Post-Training #Global-Local Reward #Compositional Reasoning

2025년 10월 15일

[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

기존 멀티모달 임베딩 모델의 한계인 제한된 모달리티 지원, 불안정한 학습 메커니즘, 산업 도메인 간극을 해결하는 것을 목표로 합니다. 이를 통해 다양한 실세계 시나리오에서 효과적인 옴니모달 임베딩(omni-modal embedding) 을 제공하는 SAIL-Embedding 이라는 파운데이션 모델을 제안합니다.

#Review #Omni-modal Embedding #Multimodal Learning #Recommendation Systems #Hard Negative Mining #Contrastive Learning #Large Language Models (LLMs)#Data Balancing #Multitask Learning

2025년 10월 15일

[논문리뷰] Robot Learning: A Tutorial

이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.

#Review #Robot Learning #Reinforcement Learning #Imitation Learning #Behavioral Cloning #Vision-Language-Action Models #Diffusion Models #Transformers #LeRobot

2025년 10월 15일

[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.

#Review #Trustworthy AI #Large Reasoning Models (LRMs)#Interpretability #Faithfulness #Reliability #Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO

2025년 10월 15일

[논문리뷰] One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

본 논문은 복잡하고 확률적인 환경에서 제한된 상호작용 예산('one life')과 인간의 보상/목표와 같은 외부 안내 없이 기호적 월드 모델을 학습하는 어려운 문제를 해결하는 것을 목표로 합니다. 이전 연구들이 주로 결정론적 환경, 풍부한 데이터, 인간의 지시에 의존했던 한계를 극복하고자 합니다.

#Review #Symbolic World Models #Stochastic Environments #Unguided Exploration #Probabilistic Programming #Law Synthesis #Crafter-OO #Program Synthesis

2025년 10월 15일

[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.

#Review #Long-Horizon Tasks #Agentic AI #Context Curation #Working Memory #Reinforcement Learning #Policy Optimization #Large Language Models #Memory-as-Action

2025년 10월 15일

[논문리뷰] MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces

본 논문은 사용자 인터페이스(UI) 디자인 평가 과정에서 발생하는 리소스 제약을 해결하기 위해 Multimodal Large Language Models (MLLMs) 이 인간의 UI 인식과 선호도를 얼마나 정확하게 예측할 수 있는지 벤치마킹하는 것을 목표로 합니다.

#Review #Multimodal LLMs #UI Evaluation #Human Perception #Benchmarking #UX Research #MLLM-as-a-Judge #Cognitive Factors #Pairwise Comparison

2025년 10월 15일

[논문리뷰] LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

대규모 추론 모델(LRM)의 '사고 토큰' 생성이 기계 번역(MT) 성능에 미치는 영향을 탐구하고, 표준 CoT 증류 방식과 MT 특정 모듈식 프롬프트 전략을 비교하여 어떤 형태의 중간 정보가 MT에 유익한지 밝히는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Machine Translation (MT)#Chain-of-Thought (CoT)#Knowledge Distillation #Fine-tuning #Prompt Engineering #Synthetic Data

2025년 10월 15일

[논문리뷰] Information-Preserving Reformulation of Reasoning Traces for Antidistillation

대규모 언어 모델(LLMs)의 추론 흔적(reasoning traces)이 복잡한 작업에서 성능을 향상시키지만, 무단 지식 증류(distillation)에 취약하다는 문제를 해결하고자 합니다.

#Review #Antidistillation #Reasoning Traces #Large Language Models #Knowledge Distillation #Information Preservation #Trace Reformulation #Supervised Fine-Tuning

2025년 10월 15일

[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners

본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Data Curation #Chain-of-Thought #VL Reasoning #Dataset Scaling #Supervised Finetuning #HONEYBEE #Test-Time Scaling

2025년 10월 15일

[논문리뷰] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

본 논문은 확산 모델 기반 비디오 초해상도(VSR) 기술을 현실 세계에 적용 가능하도록 효율성, 확장성 및 실시간 성능을 확보하는 것을 목표로 합니다. 특히 높은 지연 시간, 과도한 연산량, 초고해상도 비디오에 대한 일반화 능력 부족 등의 기존 확산 기반 VSR 모델의 한계를 극복하고자 합니다.

#Review #Video Super-Resolution (VSR)#Diffusion Models #Real-time VSR #Streaming VSR #Sparse Attention #Distillation #Conditional Decoder #High-resolution

2025년 10월 15일

[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.

#Review #Experiment Video Understanding #Multimodal Large Language Models (MLLMs)#Scientific Reasoning #Benchmark #Wet-Lab Experiments #Procedural Understanding #Fine-grained Perception #Video QA

2025년 10월 15일

[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.

#Review #Embodied AI #Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning #Supervised Fine-tuning (SFT)#Embodied Agents

2025년 10월 15일

[논문리뷰] Dr.LLM: Dynamic Layer Routing in LLMs

대규모 언어 모델(LLM)이 모든 입력 토큰을 고정된 모든 레이어에 통과시키면서 발생하는 비효율성(쉬운 작업 시 연산 낭비)과 복잡한 추론 작업 시 유연성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Dynamic Routing #LLMs #Adaptive Depth #Computational Efficiency #Monte Carlo Tree Search (MCTS)#Retrofittable Framework #Supervised Learning #Accuracy Improvement

2025년 10월 15일

[논문리뷰] Detect Anything via Next Point Prediction

본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Object Detection #Coordinate Prediction #Reinforcement Learning #Supervised Fine-tuning #Visual Perception #Zero-shot Learning #Spatial Reasoning

2025년 10월 15일

[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.

#Review #Multimodal LLM #Web Search #Visual Question Answering #Reinforcement Learning #Image Cropping #Self-Correction #Tool Use

2025년 10월 15일

[논문리뷰] DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

본 연구는 웹 소설 번역에 대한 기존 기계 번역(MT) 평가 벤치마크들이 표면적 지표에 의존하여 서사적 일관성, 문체적 충실도, 문화적 뉘앙스를 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Language Models (LLMs)#Web Novel Translation #Multi-Agent Systems #Cultural Nuance #Benchmark Dataset #Natural Language Generation

2025년 10월 15일

[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Reinforcement Learning #Memory Efficiency #Monte Carlo Sampling #Log-Likelihood Approximation #Policy Optimization #ELBO

2025년 10월 15일

[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

본 연구는 픽셀 공간(pixel-space) 기반 생성 모델이 잠재 공간(latent-space) 기반 모델에 비해 훈련이 어렵고 성능이 낮은 문제점을 해결하여, 성능 및 효율성 격차를 해소하는 것을 목표로 합니다.

#Review #Pixel-space Generative Models #Diffusion Models #Consistency Models #Self-supervised Pre-training #End-to-end Training #Image Generation #FID #Representation Learning

2025년 10월 15일

[논문리뷰] A Survey of Vibe Coding with Large Language Models

본 논문은 대규모 언어 모델(LLM)의 발전에 따라 등장한 '바이브 코딩(Vibe Coding)' 이라는 새로운 개발 방법론을 심층적으로 탐구합니다.

#Review #Vibe Coding #Large Language Models #Coding Agents #Human-AI Collaboration #Software Engineering #Development Models #Context Engineering

2025년 10월 15일

[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.

#Review #KV Cache Compression #Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models #Attention Heads #Chain-of-Thought (CoT)#Memory Efficiency

2025년 10월 13일

[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline #Web-scale Data #Question-Answering (QA)#Data Generation #Data Diversity #Data Efficiency

2025년 10월 13일

[논문리뷰] Understanding DeepResearch via Reports

본 논문은 지식 집약적 연구 작업을 수행하는 DeepResearch 에이전트 의 복합적인 평가 문제에 주목합니다.

#Review #DeepResearch Agents #LLM-as-a-Judge #Report Evaluation #Agentic AI #Factuality #Redundancy #Research Automation #Benchmark

2025년 10월 13일

[논문리뷰] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

카메라 중심의 장면 이해와 생성을 별개의 문제로 다루던 기존 방식의 한계를 극복하고, 이를 단일 멀티모달 모델 로 통합하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Camera-Centric #Image Understanding #Image Generation #Spatial Reasoning #Camera Parameters #Instruction Tuning #Multimodal Spatial Intelligence

2025년 10월 13일

[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.

#Review #Referring Video Object Segmentation #Foundation Models #Prompt Engineering #Object Tracking #SAM #Video Analysis #Prompt Preference Learning

2025년 10월 13일

[논문리뷰] TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

기존의 controllable diffusion model이 고정된 아키텍처와 정적인 컨디셔닝 전략을 사용하여 동적인 denoising 과정에 비효율적이라는 문제를 해결합니다.

#Review #Diffusion Models #Conditional Generation #LoRA #Hypernetwork #Dynamic Weight Adaptation #Generative AI #Controllable Generation

2025년 10월 13일

[논문리뷰] StreamingVLM: Real-Time Understanding for Infinite Video Streams

본 논문은 near-infinite 비디오 스트림 을 이해하는 데 있어 기존 VLM이 겪는 높은 지연 시간과 메모리 사용량 증가 문제를 해결하는 것을 목표로 합니다.

#Review #Video Stream Understanding #Real-Time VLM #Attention Sink #KV Cache Management #Contiguous RoPE #Supervised Fine-tuning #Long-Context Video

2025년 10월 13일

[논문리뷰] StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

본 논문은 수학적 및 논리적 추론에 비해 통계 분야 에서 벤치마킹 노력이 부족하다는 점을 지적하며, 이 간극을 해소하고자 합니다. 통계학 전반의 깊이와 난이도를 포괄하는 최초의 포괄적 벤치마크인 StatEval 을 도입하여 LLM의 통계적 추론 능력과 이론적 증명 역량을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Statistical Reasoning #LLM Benchmark #Statistics Education #Proof Verification #Multi-agent Pipeline #Automated Extraction #Evaluation Framework

2025년 10월 13일

[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

본 논문은 순차적인 토큰별 디코딩 과정으로 인해 수천 번의 모델 포워드 패스를 요구하는 자율회귀 텍스트-투-이미지 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다. 병렬 토큰 디코딩을 통해 자율회귀 텍스트-투-이미지 생성 모델의 추론을 가속화하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Inference Acceleration #Jacobi Decoding #Denoising Diffusion Models #Speculative Decoding #Multi-token Prediction #Fine-tuning

2025년 10월 13일

[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.

#Review #Spatial Reasoning #Multi-Scale Vision #MLLM #Dataset #Scale Experts #Reinforcement Learning #Computer Vision #Robotics

2025년 10월 13일

[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.

#Review #Peer Review #AI-Assisted Review #Large Language Models #LLM Agents #Meta-Review #Conference Submissions #Reviewer Personas #Evaluation Metrics

2025년 10월 13일

[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.

#Review #Long-Horizon Reasoning #Query Composition #Large Reasoning Models #Reinforcement Learning #Benchmark Evaluation #Thinking Budget #Performance Degradation #Chain-of-Thought

2025년 10월 13일

[논문리뷰] Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

본 논문은 ASR 도메인 적응 시 타겟 도메인의 실제 레이블(ground truth)이 없는 상황에서 pseudo-labeling 으로 인해 발생하는 체계적인 오류 패턴을 완화하는 것을 목표로 합니다.

#Review #ASR #Pseudo-labeling #Domain Adaptation #Task Arithmetic #Correction Vector #Accent Adaptation #Speaker Clustering #Model Editing

2025년 10월 13일

[논문리뷰] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

본 논문은 기존 3D 점유 예측 방법론이 고정된 카테고리에 국한되거나, 희소한 가우시안 표현이 세밀한 객체 묘사에 한계가 있고, 조밀한 표현은 높은 연산 비용을 수반하는 문제를 해결하고자 합니다.

#Review #3D Occupancy Prediction #Open Vocabulary #Gaussian Splatting #Transformer #Progressive Densification #Anisotropy-aware Sampling #Autonomous Driving

2025년 10월 13일

[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Physical Tool Understanding #Benchmarking #Embodied AI #Visual Question Answering (VQA)#Tool Affordances #Reasoning

2025년 10월 13일

[논문리뷰] Parallel Test-Time Scaling for Latent Reasoning Models

본 논문은 latent reasoning models 가 연속적인 벡터 공간에서 추론을 수행함에도 불구하고, 기존 token-based models 처럼 parallel Test-Time Scaling (TTS) 의 이점을 활용하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Latent Reasoning #Test-Time Scaling #Parallel Inference #Stochastic Sampling #Monte Carlo Dropout #Additive Gaussian Noise #Latent Reward Model #Trajectory Aggregation

2025년 10월 13일

[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.

#Review #Zero-Shot Captioning #Region-Level Captioning #Vision Transformers #DINOv2 #Patch-Centric #Modality Gap Mitigation #Visual-Language Models

2025년 10월 13일

[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Prompt Optimization #MLLMs #Bayesian Optimization #Cross-modal Alignment #Prompt Engineering #Generative AI #Exploration-Exploitation

2025년 10월 13일

[논문리뷰] Mitigating Overthinking through Reasoning Shaping

본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#RLVR #Overthinking Mitigation #Reasoning Shaping #Segment-level Penalization #Computational Efficiency #Training Stability #Length-aware Weighting

2025년 10월 13일

[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Benchmark #Reasoning #Multidisciplinary #Expert-Level #Image-Text Interleaving #Contradiction Retrieval

2025년 10월 13일

[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone

본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.

#Review #Large Language Model #Korean #Bilingual #Synthetic Data #Fully Open Model #Tokenizer #Reasoning #Pretraining #Instruction Tuning

2025년 10월 13일

[논문리뷰] Instant4D: 4D Gaussian Splatting in Minutes

본 논문은 보정되지 않은 단안 비디오 에서 동적 3D 장면을 재구성하는 데 있어 느린 최적화와 복잡한 파라미터 추정으로 인한 문제를 해결하는 것을 목표로 합니다.

#Review #4D Gaussian Splatting #Dynamic View Synthesis #Monocular Reconstruction #Visual SLAM #Grid Pruning #Real-time Rendering #GPU Memory Optimization

2025년 10월 13일

[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

이 논문은 자기 지도(self-supervised) 단안 깊이 추정(MDE)에서 기존 방법론의 한계를 극복하고자 합니다.

#Review #Self-supervised Monocular Depth Estimation #Foundation Models #CLIP #DINO #Language Guidance #Coarse-to-fine Learning #Feature Aggregation #3D Perception

2025년 10월 13일

[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.

#Review #Large Language Models #LLM Alignment #Game Theory #Reinforcement Learning #Mutual Welfare #Payoff Matrix #Strategic Decision Making #Human-AI Interaction

2025년 10월 13일

[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

AI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.

#Review #AI Agents #Reinforcement Learning #World Models #Simulation #Reasoning #Language Models #Planning #Interactive AI

2025년 10월 13일

[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning Tasks #GRPO #Negative Samples #Reward Modeling #Confidence Reweighting #Mathematical Reasoning

2025년 10월 13일

[논문리뷰] DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

최신 머신러닝 모델, 특히 대규모 언어 모델(LLM) 의 평가에 소요되는 막대한 시간과 비용(수천 시간의 GPU 사용) 문제를 해결하는 것을 목표로 합니다.

#Review #Efficient Evaluation #Sample Condensation #Model Disagreement #Predictive Diversity #Performance Prediction #Large Language Models #Model Signatures #Meta-modeling

2025년 10월 13일

[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.

#Review #Embodied AI #Vision-Action Pretraining #Desktop Data #Inverse Dynamics Model (IDM)#Pseudo-labeling #Robotics #Generalization #Data Compression

2025년 10월 13일

[논문리뷰] Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization

본 논문은 AI, 특히 System-2 유형의 추론 능력 을 정의하고 측정할 명확한 프레임워크가 부족하다는 문제를 제기합니다. 기존의 평가 방식이 주로 System-1 유형의 패턴 인식 에 초점을 맞춰 진정한 추론 능력을 제대로 평가하지 못하는 한계를 극복하고자 합니다.

#Review #Complexity OoD Generalization #System-1 Thinking #System-2 Reasoning #Kolmogorov Complexity #Inductive Biases #Large Language Models (LLMs)#Reasoning Evaluation

2025년 10월 13일

[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.

#Review #Code Generation #Human Preference #LLM Evaluation #Execution Feedback #Benchmarking #Crowdsourcing #Software Engineering #Large Language Models

2025년 10월 13일

[논문리뷰] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

본 논문은 기존 멀티모달 학습이 paired datasets 에 크게 의존하는 한계를 해결하고자 합니다.

#Review #Unpaired Multimodal Learning #Unimodal Representation #Weight Sharing #Cross-modal Transfer #Fisher Information #Self-supervised Learning #Multimodal Neurons #Data Efficiency

2025년 10월 13일

[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!

최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.

#Review #Academic Promotion #Large Language Models #Multi-Agent Systems #Scholarly Communication #Multimodal Processing #Benchmark #Content Generation #Social Media Marketing

2025년 10월 13일

[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.

#Review #AI Control Protocols #LLM Monitors #Adaptive Attacks #Prompt Injection #Jailbreaking #Red Teaming #Scalable Oversight

2025년 10월 13일

[논문리뷰] ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

멀티모달 대규모 추론 모델(MLRMs)이 쉬운 문제에 대해 과도하게 추론하여 비효율적인 반면, 어려운 문제에는 불충분한 탐색으로 해답을 놓치는 불균형을 해결하는 것이 목표입니다. 문제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론 프레임워크 ARES 를 제시하여 MLRM의 효율성과 성능을 개선하고자 합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Reinforcement Learning #Entropy Shaping #Difficulty-Aware #Chain-of-Thought #Token-Level Analysis

2025년 10월 13일

[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

대규모 언어 모델(LLMs)의 지식 편집(KE) 과정에서 다중 홉 사실 회상(multi-hop factual recall) 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #LLMs #Multi-hop Reasoning #Mechanistic Interpretability #Neuron-level Attribution #Factual Recall #Transformer Networks

2025년 10월 13일

[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.

#Review #Long-Horizon Tasks #LLM Agents #Global Planning #Reinforcement Learning #Supervised Fine-tuning #Homologous Consensus Filtering #Executor Capability Gain Reward #Plan-and-Execute

2025년 10월 13일

[논문리뷰] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

본 논문은 Long-Context Language Models (LCLMs) 이 방대한 문맥을 처리할 수 있음에도 불구하고, 복잡한 다중 홉(multi-hop) 추론을 위해 증거를 효과적으로 구조화하고 연결하는 데 어려움 을 겪는 문제를 해결하고자 합니다.

#Review #Long-Context LMs #Multi-hop Reasoning #Thought Templates #Retrieval-Augmented Generation #Natural Language Feedback #Knowledge-intensive QA #Reasoning Reuse

2025년 10월 10일

[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.

#Review #Video Completion #Spatio-Temporal Control #In-Context Conditioning #Video Diffusion Models #RoPE Interpolation #VAE #Unified Framework #Video Generation

2025년 10월 10일

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Video Generation #Video Editing #MLLM #Diffusion Transformer #In-Context Learning #Zero-shot Generalization #Multimodal AI

2025년 10월 10일

[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Multi-Modal Generation #Latent Diffusion Models #Cascaded Framework #Condition Injection #Text-to-Video #Video Editing #4K Video

2025년 10월 10일

[논문리뷰] UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections

논문은 제약 없는(unconstrained) 2D 사진 컬렉션 으로부터 고품질의 3D 의상 착용 인물 재구성 을 위한 튜닝-프리(tuning-free) 솔루션을 개발하는 것을 목표로 합니다.

#Review #3D Human Reconstruction #Unconstrained Photos #Data Rectifier #Multi-View Generation #Pose-Correlated Feature Aggregation #SMPL-X #Diffusion Models #Virtual Try-On

2025년 10월 10일

[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.

#Review #Multimodal RAG #Document AI #Benchmark #Information Retrieval #Large Language Models #Multimodal Embeddings #PDF Processing #Question Answering

2025년 10월 10일

[논문리뷰] Training-Free Group Relative Policy Optimization

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Parameter-Free Optimization #Experiential Knowledge #Token Prior #Group Relative Policy Optimization #In-Context Learning #Cost-Effective AI

2025년 10월 10일

[논문리뷰] Towards Scalable and Consistent 3D Editing

3D 에셋의 기하학적 형태나 외관을 로컬하게 수정하는 3D 편집 태스크에서 발생하는 주요 난제들을 해결하는 것을 목표로 합니다.

#Review #3D Editing #Generative Models #Transformer Architecture #Dataset Generation #Multimodal Learning #Conditional Generation #Image-to-3D

2025년 10월 10일

[논문리뷰] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

대규모 언어 모델(LLM)이 유용하면서도 안전하게 작동하는 것 사이의 근본적인 긴장을 해소하는 것을 목표로 합니다. 특히, 적대적 공격에 취약하여 위험한 콘텐츠를 생성하거나, 양성이지만 민감한 프롬프트에 대해 과도하게 거절(overrefusal)하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Multi-agent Reinforcement Learning #Safety Alignment #Overrefusal #Adversarial Attacks #Feedback Agent #Conversation Agent #Dynamic Improvement Reward

2025년 10월 10일

[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.

#Review #Text-to-Sounding Video Generation #Diffusion Models #Dual-tower Architecture #Cross-modal Fusion #Visual Grounding #Hierarchical Captioning #Cross-Attention

2025년 10월 10일

[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Sentence Embedding #Retrieval-Augmented Generation #Chain-of-Thought #Information Retrieval #Supervised Fine-tuning

2025년 10월 10일

[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

기존 비디오 벤치마크들이 일반 시나리오와 단순 추론에 집중하여 최신 대규모 멀티모달 모델(LMM) 의 고급 인지 능력을 평가하는 데 한계가 있음을 지적하며, 과학 분야에서의 복잡한 비디오 추론 능력을 종합적으로 평가할 수 있는 엄격한 벤치마크인 SciVideoBench 를 구축하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal AI #Scientific Research #Large Multimodal Models #Benchmark #Quantitative Reasoning #Domain Knowledge #Visual Grounding

2025년 10월 10일

[논문리뷰] SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

본 논문은 단일 이미지로부터 다중 시점 일관성 있는 PBR(Physically Based Rendering) 재질(알베도, 러프니스, 메탈릭, 표면 노멀) 을 예측하는 프레임워크를 제시하며, 이는 단일 이미지 기반 역렌더링 의 고질적인 난제를 해결하고자 합니다.

#Review #Single Image 3D Reconstruction #Material Prediction #Video Diffusion Models #Physically Based Rendering (PBR)#Inverse Rendering #Novel View Synthesis #Camera Control #Latent Diffusion

2025년 10월 10일

[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization

본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.

#Review #Diffusion Models #Reinforcement Learning #Preference Optimization #Group Preference #Direct Preference Optimization #ODE Samplers #Efficient Training

2025년 10월 10일

[논문리뷰] Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

본 논문은 대규모 언어 모델(LLM) 사전 훈련의 급증하는 계산 비용 문제를 해결하기 위해, 기존의 사전 훈련된 체크포인트에 투자된 '매몰 비용(sunk cost)'을 효율적으로 재활용하여 모델을 성장시키는 방법을 제안합니다.

#Review #Mixture-of-Experts #Large Language Models #Checkpoint Recycling #Model Growth #Efficient Pretraining #Depth Growth #Width Growth #Sunk Cost

2025년 10월 10일

[논문리뷰] R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

본 연구는 로봇 매니퓰레이션에서 공간적 일반화 를 위한 방대한 인간 시연 데이터 의 필요성을 해결하고자 합니다.

#Review #Robotic Manipulation #Data Augmentation #Spatial Generalization #3D Data Generation #Imitation Learning #Point Cloud #Real-to-Real #Mobile Manipulation

2025년 10월 10일

[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Scientific Law Discovery #Benchmarking #Metaphysical Shifts #Interactive Environments #Exploration-Exploitation #Tool Use

2025년 10월 10일

[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

본 논문은 기존 Compositional MLLMs의 분리된 훈련으로 인한 불분명한 멀티모달 스케일링 속성 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Native MLLMs #Scaling Laws #Data Constraints #Visual Encoder #LLM Initialization #Mixture-of-Experts #End-to-end Training

2025년 10월 10일

[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.

#Review #Meta-Awareness #Reinforcement Learning #Self-Alignment #LLM Reasoning #Training Efficiency #Generalization #Predictive Gating

2025년 10월 10일

[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens

본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Interpretability #Function Tokens #Memory Retrieval #Memory Consolidation #Sparse Autoencoders #Pre-training

2025년 10월 10일

[논문리뷰] MemMamba: Rethinking Memory Patterns in State Space Model

본 논문은 기존 Mamba와 같은 State Space Model (SSM) 이 가지는 장거리 메모리 지수적 감쇠 문제를 체계적으로 분석하고, 이러한 한계를 극복하여 선형 복잡도를 유지하면서도 초장문맥에서 효과적으로 정보를 유지하고 활용하는 새로운 아키텍처를 제안하는 것을 목표로 합니다.

#Review #State Space Models #Mamba #Long-sequence modeling #Memory decay #State summarization #Cross-layer attention #Perplexity #Linear complexity

2025년 10월 10일

[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.

#Review #Multimodal LLMs #Reflective Reasoning #Long-Chain Reasoning #Benchmark #Policy Optimization #Data Generation #Reinforcement Learning #Backtracking

2025년 10월 10일

[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Exploration #Verifiable Reward #Low-Probability Regularization #Reasoning Sparks #Policy Entropy #KL Divergence #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.

#Review #Reward Model #Long Context #LLM Alignment #Multi-stage Training #Context Window Scaling #Preference Learning #Long-RewardBench

2025년 10월 10일

[논문리뷰] Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

대규모 LLM 배포 환경에서 각 쿼리당 최적의 LLM을 효율적으로 선택하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Routing #Contextual Bandits #Bandit Feedback #Multi-objective Optimization #Preference-tuning #Policy Gradient #Cost-efficiency

2025년 10월 10일

[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.

#Review #LLM Agents #Continuous Learning #Self-Evolving #Memory Module #Long-Horizon Planning #Productivity Tasks #Test-Time Learning #Experience Replay

2025년 10월 10일

[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.

#Review #Diffusion Distillation #Consistency Models #Score Regularization #Large-Scale Generative Models #Text-to-Image #Text-to-Video #Model Acceleration #JVP

2025년 10월 10일

[논문리뷰] LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

본 논문은 대규모 언어 모델(LLM)에서 발생하는 ' emergent misalignment' 현상이 윤리적 또는 규범적 행동을 넘어 고위험 시나리오에서의 비정직성(dishonesty) 및 기만(deception) 영역으로 확장되는지 탐구합니다.

#Review #LLM Misalignment #Dishonesty #Deception #Finetuning #Human-AI Interaction #Biased Feedback #Emergent Behavior

2025년 10월 10일

[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance

컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.

#Review #Visual Editing #MLLM Guidance #Diffusion Models #Image Editing #Video Editing #Unified Framework #Multimodal AI #Instruction-based Editing

2025년 10월 10일

[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Reward Modeling #Large Language Models (LLMs)#Mathematical Reasoning #Sparse Rewards #Dense Rewards #Hybrid Reinforcement #Verifier-based Rewards

2025년 10월 10일

[논문리뷰] GCPO: When Contrast Fails, Go Gold

본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs Reasoning #Policy Optimization #Contrastive Learning #Chain of Thought #Reference Answers #Math Reasoning #Gold-Standard Answer

2025년 10월 10일

[논문리뷰] From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

본 논문은 화학 반응 조건 추천에서 단순히 '무엇(what)'을 예측하는 것을 넘어 '왜(why)' 특정 조건이 적절한지에 대한 설명 가능한 근거 를 제공하는 것을 목표로 합니다.

#Review #Multi-Agent System #Chemical Reaction Prediction #Explainable AI #Evidence-Based Reasoning #Large Language Models #Tool-Augmented LLMs #Scientific Discovery

2025년 10월 10일

[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.

#Review #Large Language Models (LLMs)#Reasoning #Chain-of-Thought (CoT)#Reflection #Early Stopping #Supervised Fine-tuning (SFT)#Token Efficiency #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] Fidelity-Aware Data Composition for Robust Robot Generalization

본 논문은 대규모 시각적으로 균질한 데이터셋으로 훈련된 로봇 정책이 Shortcut Learning 에 취약하여 Out-of-Distribution (OOD) 일반화 가 저해되는 문제를 해결하고자 합니다.

#Review #Robot Generalization #Data Augmentation #Out-of-Distribution (OOD)#Shortcut Learning #Information Fidelity #Data Composition #Diffusion Models #Multi-View Video Synthesis

2025년 10월 10일

[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.

#Review #Entropy Regularization #Activation Functions #Continuous Control #Large Language Models #Image Classification #Reinforcement Learning #Policy Stochasticity #Entropy Constraints

2025년 10월 10일

[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.

#Review #Dexterous Manipulation #In-Hand Rotation #Sim-to-Real Transfer #Neural Dynamics Model #Joint-Wise Learning #Autonomous Data Collection #Reinforcement Learning #Robotics

2025년 10월 10일

[논문리뷰] DeepPrune: Parallel Scaling without Inter-trace Redundancy

논문은 LLM의 병렬 추론(parallel reasoning)에서 발생하는 심각한 inter-trace redundancy 문제 를 해결하고, 높은 성능을 유지하면서도 계산 효율성을 대폭 향상 시키는 것을 목표로 합니다.

#Review #Parallel Scaling #Chain-of-Thought #LLM Reasoning #Dynamic Pruning #Inter-trace Redundancy #Judge Model #Resource Efficiency #Answer Diversity

2025년 10월 10일

[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #LLM Agents #Self-Evolution #Reinforcement Learning #Interaction Rewards #LLM-as-a-Judge #Decentralized Learning

2025년 10월 10일

[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Deep Search Agents #Dynamic Context Window #Reinforcement Learning #Long-horizon Interaction #Context Management #High-difficulty Tasks #Multi-turn Reasoning #Web Agents

2025년 10월 10일

[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization

대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Quantization #Optimizers #LLM #Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation #Scaling Laws #Shampoo

2025년 10월 10일

[논문리뷰] Agent Learning via Early Experience

본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.

#Review #Language Agents #Early Experience #Reward-Free Learning #World Modeling #Self-Reflection #Imitation Learning #Reinforcement Learning #Out-of-Domain Generalization

2025년 10월 10일

[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.

#Review #3D Reconstruction #Monocular SLAM #Gaussian Splatting #Level of Detail (LoD)#Feed-Forward Models #Structured Scene Representation #Real-time #High-Fidelity

2025년 10월 10일

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일

[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

로봇 조작을 위한 VLA(Vision-Language-Action) 모델 은 미세한 손-객체 상호작용을 포착하는 손목 시점(wrist-view) 관찰에 크게 의존하지만, 대규모 데이터셋에서는 이러한 손목 시점 데이터가 부족합니다.

#Review #4D World Models #Robotic Manipulation #Video Generation #Multi-view Synthesis #Visual-Language-Action (VLA)#Geometric Consistency #Diffusion Models #Wrist-View

2025년 10월 9일

[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.

#Review #Low-Precision Training #Flash Attention #Transformer #Numerical Stability #BF16 #Rounding Error #Gradient Bias #Deep Learning Optimization

2025년 10월 9일

[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.

#Review #LLM Factuality Evaluation #Benchmark Aging #Temporal Misalignment #Information Retrieval #Question Answering #Evaluation Metrics #GPT-4o-mini #Qwen2.5

2025년 10월 9일

[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference

본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Code Evaluation #Instruction Following #Human Preference #Large Language Models #Vibe Check #Non-functional Requirements #VeriCode

2025년 10월 9일

[논문리뷰] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking

의료 영상 분할 분야에서 수천 가지의 U-Net 변형 모델이 제안되었음에도 불구하고, 이들의 성능과 실용성을 포괄적으로, 통계적으로 엄격하게, 그리고 효율성을 고려하여 평가하는 종합적인 벤치마크의 부재를 해결하는 것이 목표입니다.

#Review #U-Net #Medical Image Segmentation #Benchmarking #Performance Evaluation #Efficiency Metrics #Zero-shot Generalization #U-Score

2025년 10월 9일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

본 연구는 전 세계 언어의 거의 3분의 1을 차지함에도 불구하고 현대 NLP 기술에서 심각하게 소외된 아프리카 언어 의 기술적 격차를 해소하는 것을 목표로 합니다. 체계적인 데이터 수집, 모델 개발 및 역량 강화를 통해 저자원 아프리카 언어 NLP 를 발전시키고자 합니다.

#Review #Low-Resource NLP #African Languages #Data Collection #Multilingual Models #Fine-Tuning #Speech Data #Text Data #Capacity Building

2025년 10월 9일

[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models

이 논문은 기존의 Vision-Language Models (VLMs) 이 훈련 후 정적인 상태로 남아 레이블링된 데이터 없이 환경과 상호작용하며 추론 시점에 즉시 적응할 수 없다는 한계를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Test-Time Adaptation #Unsupervised Learning #Image Recognition #Visual Question Answering (VQA)#Group Relative Policy Optimization (GRPO)#Entropy Regularization

2025년 10월 9일

[논문리뷰] StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

로봇 시스템에서 효율적인 세계 모델링과 의사 결정을 위해 표현적이고 압축적인 상태 표현 을 개발하는 것이 핵심 목표입니다. 기존 방법론들이 과도한 중복성이나 핵심 정보 부족으로 겪던 한계를 극복하고, 로봇의 시각적 정보를 효과적으로 요약하여 행동에 직접 연결될 수 있는 표현을 학습하고자 합니다.

#Review #Robot Learning #State Representation #Motion Representation #Diffusion Models #Unsupervised Learning #World Modeling #Vision-Language Models #Latent Action

2025년 10월 9일

[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.

#Review #Spoken Language Models #Real-time Interaction #Thinking While Listening #Chain-of-Thought #Interruption #Tool Calling #Streaming ASR

2025년 10월 9일

[논문리뷰] Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces

본 논문은 대규모 언어 모델(LLM)의 CoT(Chain-of-Thought) 추론 과정에서 효과적인 추론이 단순히 피상적인 일관성을 넘어섰는지 판단하는 방법을 모색합니다.

#Review #LLM Reasoning #Chain-of-Thought #Uniform Information Density #Information Theory #Reasoning Trace Analysis #Entropy #Mathematical Reasoning #Model Evaluation

2025년 10월 9일

[논문리뷰] Revisiting Long-context Modeling from Context Denoising Perspective

본 연구는 Long-context Models (LCMs)가 컨텍스트 내의 불필요한 토큰(contextual noise)에 취약하여 모델의 어텐션을 잘못 유도하고 성능을 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Long-context Models #Context Denoising #Integrated Gradient #LLM Training #Context Window Scaling #Information Flow #Attention Mechanism

2025년 10월 9일

[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #VLA Models #Robotics #GPU Management #PPO #GRPO #Sim-to-Real

2025년 10월 9일

[논문리뷰] Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

본 논문은 중간 자원 언어(mid-resource language)에서 언어별 추론의 격차를 해소하고, 번역으로 인한 품질 저하 및 일상 표현에 대한 취약성을 극복하는 것을 목표로 합니다. 특히 한국어를 사례 연구로 하여, 다국어 추론 모델의 성능을 향상시키기 위한 효과적인 방법론을 제시하고자 합니다.

#Review #Multilingual Reasoning #Chain-of-Thought (CoT)#Language-Mixed CoT #Instruction Tuning #Korean LLMs #Data Curation #Supervised Fine-tuning (SFT)

2025년 10월 9일

[논문리뷰] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

기존 MLLM이 시각 작업을 위해 텍스트로 좌표를 생성하는 등 간접적인 표현 방식 에 의존하여 성능이 제한되고 분할(Segmentation)과 같은 밀집 예측(Dense Prediction) 작업 이 어려웠던 문제를 해결하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Reference Tokens (VRTs)#Dense Prediction #Referring Expression Comprehension (REC)#Open-Vocabulary Detection (OVD)#Image Captioning #Unified Architecture #Autoregressive Generation

2025년 10월 9일

[논문리뷰] Online Generic Event Boundary Detection

본 논문은 기존 오프라인(offline) GEBD(Generic Event Boundary Detection)의 한계를 극복하고, 인간의 인지 과정에 더 가까운 온라인 GEBD(On-GEBD) 라는 새로운 태스크를 제안합니다.

#Review #Online Video Analysis #Event Boundary Detection #Event Segmentation Theory #Real-time AI #Anomaly Detection #Transformer Architecture

2025년 10월 9일

[논문리뷰] OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

대규모 텍스트-이미지 확산 모델의 과도한 연산 비용 문제를 해결하고, 기존 원샷 네트워크 가지치기(pruning) 방법론이 확산 모델의 반복적인 노이즈 제거 특성 과 복잡한 아키텍처 에 직접 적용하기 어려운 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Network Pruning #One-Shot Pruning #Optimal Brain Surgeon (OBS)#Model Compression #Timestep-Aware Hessian #Structured Pruning

2025년 10월 9일

[논문리뷰] NorMuon: Making Muon more efficient and scalable

대규모 언어 모델(LLM) 훈련 효율성 향상을 위해 기존 Muon 옵티마이저의 한계를 극복하는 것이 목표입니다. Muon이 업데이트의 컨디셔닝을 개선하지만 뉴런별 업데이트 노름의 분산이 크다는 문제를 해결하고, 이를 통해 훈련 동역학을 더욱 균형 있게 만들어 전반적인 수렴 속도와 확장성을 높이고자 합니다.

#Review #LLM Training #Optimizer #Muon #Orthogonalization #Adaptive Learning Rates #Distributed Training #FSDP2 #NorMuon

2025년 10월 9일

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.

#Review #Sequence Modeling #Hybrid Attention #Transformer Architecture #Linear Attention #Sliding Window Attention #Long Context #Large Language Models (LLMs)#Efficiency

2025년 10월 9일

[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization

본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.

#Review #Multi-Agent RL #Tool-Integrated Planning #Large Language Models (LLMs)#Policy Optimization #Credit Assignment #Reinforcement Learning #MATPO

2025년 10월 9일

[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

기존 autoregressive 시각 모델에서 이산 잠재 공간 토크나이저 의 양자화 오류가 의미 표현력과 시각-언어 이해 능력을 저해하는 문제를 해결하고자 합니다.

#Review #Unified Vision-Language Model #Continuous Tokenizer #Autoregressive Generation #Image Understanding #Image Generation #Multimodal AI #In-context Editing

2025년 10월 9일

[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #MLE (Machine Learning Engineering)#Automated Task Generation #Multi-Agent System #LLM Agents #Benchmark #Data Curation #Hybrid Verification #Kaggle

2025년 10월 9일

[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation

본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformers #Human-Object Interaction #Attention Alignment #Mask Tracking #Semantic Grounding #Semantic Propagation #Text-to-Video

2025년 10월 9일

[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.

#Review #Multi-modal LLM #Discrete Diffusion #Image Generation #Image Understanding #Omni-modal #Interactive Retouching #Generative AI #Reinforcement Learning

2025년 10월 9일

[논문리뷰] Heptapod: Language Modeling on Visual Signals

이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.

#Review #Autoregressive Models #Image Generation #Language Modeling #Causal Transformer #2D Distribution Prediction #Visual Tokenization #Self-Supervised Learning #Generative Models

2025년 10월 9일

[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models

본 논문은 확산 및 플로우 모델에서 인간 선호도에 맞춰 생성 모델을 정렬하는 기존 GRPO(Group Relative Policy Optimization) 방법론의 한계, 즉 희소하고 부정확한 보상 신호 및 불완전한 평가 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Models #Generative Models #Human Preference Alignment #Stochastic Differential Equations (SDE)#Reward Signal #Multi-Granularity

2025년 10월 9일

[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.

#Review #Agentic Reinforcement Learning #Travel Planning #Large Language Models #Sandbox Environment #Hierarchical Reward Modeling #Experience Replay #Autonomous Agents

2025년 10월 9일

[논문리뷰] D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

본 논문은 시각적 자기회귀(AR) 모델 이 생성한 이미지의 탐지라는 새로운 도전 과제를 해결하는 것을 목표로 합니다. 기존 GAN이나 Diffusion 모델 탐지 방법론과 달리, AR 모델의 이산 토큰 예측 및 코드북 의 독특한 패턴과 빈도 분포 편향을 활용하여 실제 이미지와 생성된 이미지 간의 차이를 식별하고자 합니다.

#Review #Autoregressive Models #Image Detection #Discrete Distribution Discrepancy #Quantization Error #Transformer #Generative AI #Deepfake Detection

2025년 10월 9일

[논문리뷰] Cache-to-Cache: Direct Semantic Communication Between Large Language Models

본 연구는 기존 멀티-LLM 시스템에서 텍스트 기반(Text-to-Text, T2T) 통신 이 야기하는 정보 손실, 모호성, 토큰 단위 생성 지연과 같은 한계를 극복하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Inter-model Communication #KV-Cache #Semantic Transfer #Multi-LLM Systems #Cache Fusion #Latency Reduction #Knowledge Sharing

2025년 10월 9일

[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Optimization Modeling #Reflective Generation #Supervised Fine-tuning #Reinforcement Learning #Human-in-the-Loop #Code Generation #Domain Adaptation

2025년 10월 9일

[논문리뷰] Bridging Text and Video Generation: A Survey

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 발전 과정을 포괄적으로 분석하고, 초기 GANs 및 VAEs 기반 모델부터 최신 확산 기반 아키텍처까지 주요 혁신과 한계를 조명하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Generative Models #Diffusion Models #GANs #VAEs #Video Synthesis #Survey #Evaluation Metrics

2025년 10월 9일

[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.

#Review #Code-switching #Multilingual NLP #Large Language Models #NLP Survey #Data Augmentation #Evaluation Metrics #Low-Resource Languages

2025년 10월 9일

[논문리뷰] Artificial Hippocampus Networks for Efficient Long-Context Modeling

본 논문은 RNN의 효율적인 고정 크기 메모리와 Transformer의 손실 없는 확장 가능 메모리 사이의 근본적인 트레이드오프를 해결하여, 장문 컨텍스트 모델링에서 효율성과 정확도를 동시에 달성하는 것을 목표로 합니다.

#Review #Long-Context Modeling #Transformer #RNN #Memory Management #Self-Distillation #Attention Mechanism #Artificial Hippocampus Networks #Cognitive Science

2025년 10월 9일

[논문리뷰] Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods

현재 멀티모달 대규모 언어 모델(MLLMs) 의 시각 토큰 압축 방법론 평가에 사용되는 벤치마크들이 압축 기술 평가에 부적합하여, 단순 이미지 다운샘플링 이 종종 고급 압축 방법보다 우수한 성능을 보이는 잘못된 결과를 초래하는 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Token Compression #MLLMs #Evaluation Framework #Benchmarking #Downsampling #Data Filtering #Model Efficiency

2025년 10월 9일

[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

재단 모델(FMs)의 제한된 내재적 추론 능력과 불안정한 테스트 시간 반복이라는 두 가지 핵심 병목 현상을 해결하고자 합니다. 이 연구는 FM이 복잡한 벤치마크에서 겪는 어려움을 극복하고, 신뢰할 수 있는 심층 에이전트 추론을 위한 자가 진화 시스템을 구축하는 것을 목표로 합니다.

#Review #Foundation Models #Agentic Reasoning #Tool Use #Self-Evolving System #Retrieval-Augmented Generation #Computational Tools #Error Correction

2025년 10월 9일

[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation

본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.

#Review #LLM Agents #Safety #Formal Verification #Code Generation #Runtime Monitoring #Security #Guardrails #Policy Enforcement

2025년 10월 8일

[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness

본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.

#Review #Post-Training Quantization #Quantization Robustness #Training Dynamics #Learning Rate Schedules #Weight Averaging #Large Language Models #LLMs #Hyperparameter Tuning

2025년 10월 8일

[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

본 논문은 현대 자연어 처리 모델의 평가 도구가 특히 훈련 중 평가 지표(in-training evaluation metrics) 에서 연산 병목 현상을 일으켜 연구 속도를 저해하는 문제를 해결하고자 합니다.

#Review #BLEU Score #GPU Acceleration #PyTorch #Natural Language Processing #Reinforcement Learning #Vectorization #In-Training Evaluation #N-gram Counting

2025년 10월 8일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.

#Review #4D Shape Generation #Video-conditioned #Dynamic 3D Meshes #Latent Diffusion Model #Spatiotemporal Attention #Temporal Consistency #Pre-trained 3D Models #VAE

2025년 10월 8일

[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Code-Assisted Reasoning #Chain-of-Thought (CoT)#Instruction Tuning #Data Augmentation #LLMs #Mathematical Reasoning #Self-Verification #Code Generation

2025년 10월 8일

[논문리뷰] Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions

본 논문은 기존 음성 감정 인식(SER) 연구의 한계를 극복하고, 실제 환경에 더 적합한 SER 시스템을 구축하는 것을 목표로 합니다.

#Review #Speech Emotion Recognition #Annotator Subjectivity #Emotion Ambiguity #Soft Labels #Multi-label Classification #Evaluation Metrics #Loss Functions

2025년 10월 8일

[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.

#Review #Safety Alignment #Large Reasoning Models #Mechanistic Interpretability #Refusal Cliff #Attention Heads #Data Selection #Linear Probing

2025년 10월 8일

[논문리뷰] Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

이 논문은 기존 자동화된 학술 발표 자료 생성 방법론이 가진 제한된 스토리텔링, 낮은 미적 품질, 그리고 자체 조정 능력 부족 문제를 해결하고자 합니다.

#Review #Self-Improvement Agent #Academic Presentation #Aesthetic Evaluation #Reinforcement Learning #Multi-task Learning #Presentation Generation #LLM-based Agents #Human Feedback

2025년 10월 8일

[논문리뷰] OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows

이 논문은 오토회귀(AR) 모델 의 엄격한 순차적 생성과 확산(Diffusion) 모델 의 고정 길이 생성이라는 근본적인 한계를 극복하는 것을 목표로 합니다.

#Review #Non-Autoregressive #Multimodal Generation #Edit Flows #Flow Matching #Interleaved Generation #Text-to-Image Synthesis #Unified Models

2025년 10월 8일

[논문리뷰] No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models

본 논문은 기존 VLM(Vision-Language Model)의 짧은 텍스트 컨텍스트 길이(일반적으로 77 토큰)로 인해 발생하는 바이오메디컬 이미지 캡션의 토큰 손실 문제 를 해결하고, 긴 컨텍스트 캡션이 모델 성능에 미치는 영향을 탐구하는 것을 목표로 합니다.

#Review #Biomedical Vision-Language Models #Long-context Modeling #Contrastive Learning #Token Efficiency #Zero-shot Classification #Medical Image Retrieval

2025년 10월 8일

[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

기존 연구에서 언어 모델(LM)이 인-컨텍스트(in-context) 엔티티 바인딩(entity binding)을 주로 위치 메커니즘 으로 수행한다고 보았으나, 엔티티 수가 증가하는 복잡한 시나리오에서는 이 메커니즘이 중간 위치에서 불안정해지는 'lost-in-the-middle' 문제를 발견했습니다.

#Review #Language Models #In-Context Learning #Entity Binding #Mechanistic Interpretability #Causal Abstraction #Long-Context Reasoning #Positional Encoding #Information Retrieval

2025년 10월 8일

[논문리뷰] MixReasoning: Switching Modes to Think

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 비효율성과 과도한 중복성 을 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Efficiency #LoRA #Adaptive Reasoning #Token Uncertainty #Dynamic Switching #Reasoning Compression

2025년 10월 8일

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일

[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #Memory Efficiency #Inference Acceleration #Training-Free #Cache Mechanism #GPU Optimization

2025년 10월 8일

[논문리뷰] Less is More: Recursive Reasoning with Tiny Networks

이 논문은 기존의 Hierarchical Reasoning Model (HRM) 이 복잡하고 비효율적이라는 문제점을 해결하기 위해, 더욱 단순하면서도 효율적인 Tiny Recursive Model (TRM) 을 제안합니다.

#Review #Recursive Reasoning #Tiny Networks #Deep Supervision #Hierarchical Reasoning Model (HRM)#Sudoku-Extreme #ARC-AGI #Generalization #Parameter Efficiency

2025년 10월 8일

[논문리뷰] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

이 논문은 기존의 도구 증강 LLM 접근 방식이 긴 추론 과정과 다양한 도구 사용에서 확장성이 떨어지고 새로운 시나리오에 대한 일반화 능력이 약하다는 문제를 제기합니다.

#Review #Agentic Systems #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#On-policy Optimization #Flow-based Group Refined Policy Optimization (Flow-GRPO)#Multi-turn Reasoning

2025년 10월 8일

[논문리뷰] Human3R: Everyone Everywhere All at Once

본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.

#Review #4D Human-Scene Reconstruction #Online Reconstruction #Multi-person #SMPL-X #Transformer #Visual Prompt Tuning #Real-time #Foundation Model

2025년 10월 8일

[논문리뷰] HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video

기존 3D 재구성 방법론의 한계(불완전한 기하학, 낮은 상호작용성, 물리적 비현실성 등)를 극복하고, 단일 비디오 입력 으로부터 시뮬레이션 준비가 완료된(simulation-ready) , 물리적으로 정확하며 상호작용 가능한 3D 디지털 트윈을 생성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Digital Twin #Scene Graph #Physical Simulation #Interactive Environments #Single Video Reconstruction #Neural Rendering

2025년 10월 8일

[논문리뷰] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation

대규모 언어 모델(LLM)과 소형 언어 모델(SLM)이 RAG 애플리케이션에서 흔히 겪는 환각(Hallucination) 문제를 해결하고, 사용자 신뢰도와 설명 가능성을 저해하는 문제를 완화하는 것이 주요 목표입니다.

#Review #Hallucination Detection #Retrieval-Augmented Generation (RAG)#Small Reasoning Model (SRM)#Preference Fine-tuning #ORPO #Evidence Grounding #Fact-checking

2025년 10월 8일

[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.

#Review #DeepResearch Agents #Tool-integrated Reasoning #Reinforcement Learning #Information Retrieval #Information Synthesis #Multi-agent Self-play #Reward Shaping #LLM

2025년 10월 8일

[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLM

본 논문은 Autoregressive (AR) 대규모 언어 모델(LLMs) 의 본질적인 순차적 디코딩으로 인한 추론 비효율성을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Inference Acceleration #Parallel Decoding #Autoregressive Models #Caching #Fine-tuning #Block-wise Attention

2025년 10월 8일

[논문리뷰] Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

기존 확산(Diffusion) 및 플로우(Flow) 기반 생성 모델의 비평형, 시간-조건부 동역학 의 한계를 극복하고, 단일 시간 불변 평형 기울기 를 학습하는 새로운 생성 모델링 프레임워크인 Equilibrium Matching (EqM) 을 제안하는 것이 목표입니다.

#Review #Generative Models #Equilibrium Dynamics #Energy-Based Models (EBMs)#Flow Matching #Diffusion Models #Optimization-Based Sampling #Image Generation

2025년 10월 8일

[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

대부분의 기존 egocentric vision 벤치마크가 주간 시나리오에 집중하여 야간의 저조도 환경을 간과하는 문제를 해결하고자 합니다.

#Review #Egocentric Vision #Nighttime Conditions #Visual Question Answering (VQA)#Day-Night Alignment #Multimodal Large Language Models (MLLMs)#Depth Estimation #Correspondence Retrieval #Benchmark

2025년 10월 8일

[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching

자동 음성 인식(ASR) 분야에서 순차적 디코딩 방식의 자기회귀(AR) 모델 이 가진 효율성 병목 현상과 높은 지연 시간을 해결하는 것이 주요 목표입니다.

#Review #Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models #Tri-mixture Probability Path #Parallel Decoding #Accuracy-Efficiency Trade-off #Speech Synthesis

2025년 10월 8일

[논문리뷰] Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 환각 현상이 발생하는 내재적이고 아키텍처적 원인 을 규명하는 것을 목표로 합니다.

#Review #LLM Hallucinations #Mechanistic Interpretability #Distributional Semantics Tracing (DST)#Dual-Process Theory #Semantic Drift #Commitment Layer #Faithfulness Score

2025년 10월 8일

[논문리뷰] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

본 논문은 기존 의료 AI 모델의 모달리티별 단편화 문제를 해결하고, 의료 이미지(방사선, 병리학)와 임상 보고서 간의 통합적인 생성 능력 을 갖춘 범용 의료 AI 에이전트를 개발하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Multimodal Large Language Models (MLLMs)#Medical Image Generation #Medical Report Generation #Multimodal Generation #Medical AI #Cross-modal Alignment

2025년 10월 8일

[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.

#Review #Deep Search #Multi-hop Reasoning #Evaluation Benchmark #Retrieval-Augmented Generation #Web Agents #Diagnostic Metrics #Knowledge Utilization #Hint-Free Questions

2025년 10월 8일

[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

기존 Referring Video Object Segmentation (RVOS) 패러다임인 'locate-then-segment' 방식이 정보 병목 현상과 시간적 일관성 부족으로 복잡한 언어 및 동적 비디오 처리에 한계를 보이는 문제를 해결하는 것입니다.

#Review #Referring Video Object Segmentation #Flow Matching #Video Segmentation #Generative Models #Text-to-Video #Continuous Flow #Diffusion Models

2025년 10월 8일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] CoDA: Coding LM via Diffusion Adaptation

논문은 AR(Autoregressive) 코드 생성 모델의 한계점, 즉 순차적 오류 전파, 양방향 컨텍스트 활용의 어려움, 코드 채우기(infilling) 기능의 부족을 해결하고자 합니다.

#Review #Diffusion Language Models #Code Generation #Bidirectional Decoding #Text Infilling #Instruction Tuning #Lightweight Models #TPU Training

2025년 10월 8일

[논문리뷰] CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

본 연구는 방사선학 MLLM 에서 시각적 입력과 불일치하는 의료 환각(medical hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Radiology Report Generation (RRG)#Medical Hallucinations #Contrastive Decoding #Training-free Inference #Clinical AI #Visual Question Answering (VQA)

2025년 10월 8일

[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation

감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.

#Review #Emotional Support Conversation #Cognitive Reasoning #Reinforcement Learning #Dialogue Generation #Natural Language Processing #Large Language Models #Psychological Support

2025년 10월 8일

[논문리뷰] Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks

본 연구는 기존 벤치마크들이 산점도(scatterplot) 관련 태스크를 충분히 다루지 못하여 AI 모델의 성능을 평가하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #Scatterplot Analysis #AI Benchmarking #Multimodal LLMs #Synthetic Data Generation #Cluster Detection #Outlier Detection #Data Visualization #Prompt Engineering

2025년 10월 8일

[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-SQL #LLM Evaluation #Multi-turn Interaction #Dynamic Environment #User Simulator #Ambiguity Resolution #LLM Agents

2025년 10월 8일

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일

[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.

#Review #LLM #Scientific Problem Solving #AI Research #Iterative Refinement #Autonomous Agents #Generative AI #Evaluation Framework #Problem Extraction

2025년 10월 8일

[논문리뷰] A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

현재 선호도 정렬 기법인 Best-of-N (BoN) 샘플링 이 단순히 '더 나은' 응답을 선택할 뿐, '충분히 좋은' 응답의 절대적 허용 가능성을 판단하지 못하는 문제를 해결하고자 합니다.

#Review #Reward Model #Best-of-N Sampling #Preference Alignment #Contextual Acceptability #Discrete Choice Model #Alignment Guardrail #Inference Accelerator

2025년 10월 8일

[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos

컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.

#Review #Computer Use Agents #Inverse Dynamics Model #UI Trajectories #Web Videos #In-Context Learning #Supervised Fine-Tuning #Large Language Models #OSWorld Benchmark

2025년 10월 7일

[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Post-training #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)

2025년 10월 7일

[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.

#Review #Video Generation #Chain-of-Thought #Multimodal Models #Reasoning #Inference-Time Tuning #Sparse Supervision #Diffusion Models #Keyframe Generation

2025년 10월 7일

[논문리뷰] Utility-Learning Tension in Self-Modifying Agents

본 연구는 고도화된 AI 에이전트가 학습 메커니즘 자체를 변경하는 자기 수정(self-modification) 능력에 주목하여, 이러한 변화가 학습 가능성을 보존하는지 혹은 파괴하는지에 대한 학습 이론적 설명을 제공하는 것을 목표로 합니다.

#Review #Self-Modifying Agents #PAC Learnability #VC Dimension #Capacity Bounds #Metacognition #Architectural Search #Algorithmic Stability #Generalization Theory

2025년 10월 7일

[논문리뷰] Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

이 논문은 실시간 음성 에이전트를 위한 태국어 텍스트 전용 EOT(End-of-Turn) 감지 에 대한 최초의 체계적인 연구를 수행하는 것을 목표로 합니다.

#Review #End-of-Turn Detection #Thai NLP #Voice Agents #Real-time Inference #Transformer Models #Few-shot Learning #Fine-tuning #Latency Optimization

2025년 10월 7일

[논문리뷰] SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

본 연구는 훈련 없이 잠재 공간 추론을 사용하는 대규모 언어 모델(LLMs)이 겪는 두 가지 주요 문제점을 해결하고자 합니다.

#Review #LLM Reasoning #Latent Thinking #Explicit Thinking #Training-Free #Token Efficiency #Accuracy Improvement #Dynamic Switching #Entropy-based Control

2025년 10월 7일

[논문리뷰] Self-Reflective Generation at Test Time

본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.

#Review #Large Language Models #Self-Reflection #Test-Time Optimization #Uncertainty Monitoring #Proactive Error Prevention #Reasoning Tasks #Chain-of-Thought

2025년 10월 7일

[논문리뷰] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

이 논문은 대규모 텍스트-투-이미지 확산 모델의 이미지 편집 시 미세하고 연속적인 제어 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Sparse Autoencoder (SAE)#Text-to-Image #Disentangled Control #Continuous Control #Token-level Manipulation #Text Embeddings

2025년 10월 7일

[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

LLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling #Policy Gradient #Reward Optimization #Signal Collapse #Variance Reduction

2025년 10월 7일

[논문리뷰] Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

이 논문은 기존 Large Language Model (LLM) 의 stateless 특성과 quadratic한 계산 복잡성(O(L²)) 이 긴 대화에서 발생하는 비효율성(높은 비용, 지연 시간)을 해결하는 것을 목표로 합니다.

#Review #Reactive Transformer #Stateful LLM #Event-Driven AI #Asynchronous Memory #Conversational AI #Linear Scaling #Short-Term Memory (STM)#Memory Attention

2025년 10월 7일

[논문리뷰] Optimal Scaling Needs Optimal Norm

이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.

#Review #Optimal Scaling #Norm-Based Optimizers #Hyperparameter Transfer #Learning Rate Scaling #Batch Size Scaling #Transformer Models #Scion Optimizer #Large Language Models

2025년 10월 7일

[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.

#Review #Audio-Visual Speech Recognition #Mixture of Experts #Matryoshka Representation Learning #Large Language Models #Elastic Inference #Token Compression #Multimodal AI

2025년 10월 7일

[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information

대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.

#Review #LLM Reasoning #Tree Search #Pointwise Mutual Information (PMI)#Dynamic Sampling #Beam Search #Weighted Voting #Information Theory #Computational Efficiency

2025년 10월 7일

[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.

#Review #Test-Time Curriculum #Reinforcement Learning #Large Language Models #Self-Curated Learning #Continual Learning #Reasoning Benchmarks #Adaptive Training

2025년 10월 7일

[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.

#Review #Text-to-SQL #WikiSQL #LLM #Dataset Curation #Natural Language Processing #Benchmark #SQL Generation #Data Cleaning

2025년 10월 7일

[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions

이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.

#Review #Large Language Models #Autoraters #Calibration #Preference Distributions #Reinforcement Learning #Supervised Fine-tuning #Positional Bias

2025년 10월 7일

[논문리뷰] Imperceptible Jailbreaking against Large Language Models

본 논문은 기존의 가시적인 텍스트 수정 방식과 달리 눈에 보이지 않는(imperceptible) 방식으로 LLM의 안전 장치를 우회하는 새로운 제일브레이크 공격 기법을 제안합니다.

#Review #Large Language Models #Jailbreaking #Imperceptible Attacks #Unicode Variation Selectors #Adversarial Suffixes #Safety Alignment #Prompt Injection

2025년 10월 7일

[논문리뷰] Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

기존 대규모 언어 모델(LLM)에서 Transformer 의 quadratic 복잡성과 Mamba 의 장문 컨텍스트 처리 한계를 극복하고자 합니다.

#Review #Hybrid LLM #Transformer Architecture #Mamba #State Space Models (SSM)#Computational Efficiency #Long-Context #Language Model Architectures #Scaling Laws

2025년 10월 7일

[논문리뷰] HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition

본 연구는 한국어-영어 코드 스위칭(CS) 음성 인식(ASR) 분야의 심각한 연구 부족을 해결하고, 다국어 ASR 모델의 정밀한 평가를 위한 최초의 공개적인 계층적 평가 프레임워크인 HiKE 를 제시하는 것을 목표로 합니다.

#Review #Code-Switching #Speech Recognition #Korean-English ASR #Evaluation Framework #Multilingual ASR #Loanword Processing #Fine-tuning #Hierarchical Labeling

2025년 10월 7일

[논문리뷰] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

본 논문은 정적 데이터셋 기반의 평가가 LLM 기반 에이전트 의 실제 역량(특히 동적 환경 및 다단계 상호작용)을 적절히 측정하지 못하는 문제점을 해결하고자 합니다.

#Review #Agent Evaluation #Task Generation #Knowledge Graphs #Multimodal AI #Web Interaction #Document Comprehension #LLM-driven Agents

2025년 10월 7일

[논문리뷰] Good Intentions Beyond ACL: Who Does NLP for Social Good, and Where?

본 연구는 NLP4SG (NLP for Social Good) 연구의 저자 및 게재지별 분포를 분석하여 그 현황을 파악하는 것을 목표로 합니다.

#Review #NLP for Social Good #ACL Community #Scientometrics #Venue Analysis #Author Classification #Sustainable Development Goals #Neural Methods #Research Landscape

2025년 10월 7일

[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.

#Review #Large Language Models #Pretraining #Supervised Fine-tuning #Reasoning Data #Data Allocation #Diversity #Quality #Reinforcement Learning

2025년 10월 7일

[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

본 연구는 최신 시각 생성 모델들이 차트, 다이어그램, 수학 도형과 같은 구조화된 시각 자료 생성 및 편집에서 보이는 한계를 해결하고자 합니다. 이러한 자료들은 구성 계획 , 텍스트 렌더링 , 멀티모달 추론 을 통한 사실적 정확성 을 요구하며, 이 분야에 대한 체계적인 탐구가 부족하다는 문제를 인식했습니다.

#Review #Structured Visuals #Image Generation #Image Editing #Multimodal Reasoning #Factual Fidelity #Chain-of-Thought #Evaluation Benchmark #Diffusion Models

2025년 10월 7일

[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty

본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Data Augmentation #Large Language Models #Formal Mathematics #Symmetry #Difficulty Evolution #Abstract Syntax Tree #Generalizability

2025년 10월 7일

[논문리뷰] Epistemic Diversity and Knowledge Collapse in Large Language Models

대규모 언어 모델(LLM)이 생성하는 텍스트의 동질성이 지식 붕괴(knowledge collapse)로 이어질 수 있다는 문제에 주목합니다.

#Review #Large Language Models #Epistemic Diversity #Knowledge Collapse #Homogenization #Retrieval-Augmented Generation #LLM Evaluation #Information Diversity #Cultural Bias

2025년 10월 7일

[논문리뷰] Code4MeV2: a Research-oriented Code-completion Platform

AI 기반 코드 완성 도구의 사용자 상호작용 데이터가 독점적으로 관리되는 문제를 해결하여, 연구자들이 재현 가능한 대규모 데이터 분석을 수행할 수 있도록 연구 지향적인 오픈 소스 코드 완성 플랫폼인 Code4Me V2 를 개발하는 것을 목표로 합니다.

#Review #Code Completion #Research Platform #Human-AI Interaction #Software Engineering #Open Science #JetBrains IDE Plugin #Telemetry #AI4SE

2025년 10월 7일

[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

본 논문은 기존 이미지 편집 모델의 물리적 일관성 부족 문제를 해결하고, 특히 월드 시뮬레이션 관련 작업에서 편집된 객체가 장면의 맥락과 물리적으로 일관되게 유지되도록 하는 것을 목표로 합니다.

#Review #Image Editing #Video Generation #Temporal Reasoning #World Simulation #Physical Consistency #Diffusion Models #Generative Models

2025년 10월 7일

[논문리뷰] Character Mixing for Video Generation

이 논문은 비디오 생성에서 비공존 캐릭터 간의 자연스러운 상호작용 을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Character Mixing #Style Preservation #Multi-character Interaction #Text-to-Video #Cross-Domain Synthesis #Identity Preservation

2025년 10월 7일

[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.

#Review #LLM Agents #Alignment #Self-Evolution #Behavioral Drift #Reinforcement Learning #Multi-Agent Systems #Alignment Tipping Process

2025년 10월 7일

[논문리뷰] Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

이 논문은 기존 대규모 언어 모델(LLM)의 컨텍스트 적응 방법론이 가지는 '간결성 편향(brevity bias)'과 '컨텍스트 붕괴(context collapse)' 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Context Adaptation #Agentic AI #Self-Improving Systems #Prompt Engineering #Context Management #Dynamic Playbooks #Incremental Learning

2025년 10월 7일

[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

LLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Adversarial Co-evolution #LLM Safety #Jailbreak Attacks #Internalized Safety #Public Baseline #System Robustness

2025년 10월 7일

[논문리뷰] Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

본 논문은 자율적으로 진화하는 LLM 에이전트에서 발생하는 예기치 않거나 유해한 행동인 ' Misevolution ' 현상을 개념화하고 체계적으로 조사하는 것을 목표로 합니다. 에이전트의 자기 개선 과정이 기존 안전 연구에서 간과된 새로운 유형의 위험을 어떻게 초래하는지 밝히고자 합니다.

#Review #Self-evolving Agents #LLM Safety #Misevolution #Emergent Risks #Model Evolution #Memory Evolution #Tool Evolution #Workflow Evolution

2025년 10월 6일

[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

이 논문은 웹 에이전트를 대상으로 하는 프롬프트 인젝션 공격에 대한 탐지 방법들을 체계적으로 벤치마킹하여, 웹 에이전트 환경에서의 탐지 성능을 종합적으로 평가하고 이해하는 것을 목표로 합니다.

#Review #Prompt Injection #Web Agents #Multimodal AI #Adversarial Attacks #Detection Benchmarking #Large Language Models #Image-based Detection #Text-based Detection

2025년 10월 6일

[논문리뷰] Triangle Splatting+: Differentiable Rendering with Opaque Triangles

기존 Neural Radiance Fields (NeRF) 나 3D Gaussian Splatting (3DGS) 과 같은 연속적 볼륨 또는 가우시안 프리미티브 기반의 3D 재구성 방법들이 메시 기반 그래픽스 파이프라인(예: 게임 엔진, VR 헤드셋)과 비호환적인 문제를 해결하는 것을 목표로 합니다.

#Review #Differentiable Rendering #3D Reconstruction #Novel View Synthesis #Triangles #Opaque Primitives #Game Engines #Gaussian Splatting #Mesh-based Rendering

2025년 10월 6일

[논문리뷰] TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling

본 논문은 기존 대규모 언어 모델(LLM) 기반 추천 시스템의 제한적인 추천 행동과 단일 검색 방법론의 한계를 극복하고자 합니다. 사용자의 복잡한 의도를 해석하고 다양한 데이터 소스를 통합하여 정교한 음악 추천을 제공하는 통합 검색-재순위화 파이프라인 을 목표로 합니다.

#Review #Conversational Recommendation #LLM Tool Calling #Music Recommendation #Multimodal Retrieval #Information Retrieval #Retrieval-Reranking #Semantic IDs

2025년 10월 6일

[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.

#Review #LLM #LLM Agents #Academic Survey Generation #Evaluation Framework #Benchmark #Quiz-driven Evaluation #Content Quality Metrics

2025년 10월 6일

[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.

#Review #Medical AI #Spine Diagnosis #Multimodal LLM #Benchmark #Dataset #Clinical Reasoning #Spine Surgery #Vision-Language Model

2025년 10월 6일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일

[논문리뷰] Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces

본 논문은 대규모 언어 모델(LLM)이 인간 전문가처럼 정책 준수 여부를 평가하는 데 필요한 체계적인 추론 과정을 모방하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Policy Compliance #Large Language Models (LLMs)#Reasoning Traces #In-Context Learning (ICL)#Supervised Finetuning (SFT)#HIPAA #GDPR #ModelSpec

2025년 10월 6일

[논문리뷰] REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

본 논문은 대규모 언어 모델(LLMs)의 사후 훈련 과정에서 발생하는 높은 비용, 의도치 않은 부작용, 순차적 편집의 불안정성 및 제한된 일반화 문제들을 해결하고자 합니다.

#Review #Model Editing #Lifelong Learning #LLMs #Continual Learning #Knowledge Distillation #Error Feedback #Memory Management #Parameter Merging

2025년 10월 6일

[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

본 논문은 기존 Sparse Autoencoders (SAEs)가 겪는 피쳐 흡수(feature absorption) 및 피쳐 구성(feature composition) 문제를 해결하여, LLM 내부 활성화에서 추출되는 피쳐의 해석 가능성과 원자성을 높이는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Mechanistic Interpretability #Feature Disentanglement #Orthogonality #LLM Features #Feature Absorption #Feature Composition

2025년 10월 6일

[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Visual Question Answering (VQA)#Autonomous Driving #Risk Assessment #Spatio-Temporal Reasoning #Large Vision Models (VLMs)#Dataset #Bird-Eye-View (BEV)#Fine-tuning

2025년 10월 6일

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일

[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

본 논문은 제한된 레이블 데이터와 풍부한 비레이블 이미지를 활용하여 Multimodal Large Language Models (MLLMs) 가 의료 영상이나 기술 콘텐츠와 같은 Out-of-Distribution (OOD) 특화 도메인 의 시각 질의응답 (VQA) 태스크에 효율적으로 적응하도록 하는 것을 목표로 합니다.

#Review #Multimodal LLM #OOD Adaptation #Label Efficiency #VQA #Semi-Supervised Learning #Neuron Distillation #Pseudo Labeling #Medical Imaging

2025년 10월 6일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일

[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Uncertainty Quantification #Aleatoric Uncertainty #Epistemic Uncertainty #Model Calibration #Text-to-Video #Generative AI #VMF Distribution

2025년 10월 6일

[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Diffusion Models #Preference Optimization #LLMs #RLHF #Prompt Editing #Free Lunch Alignment #TDPO #TKTO

2025년 10월 6일

[논문리뷰] FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

대규모 언어 모델(LLM) 기반 웹 에이전트가 긴 웹 페이지 관찰(수만 개의 토큰)로 인해 발생하는 컨텍스트 한계, 높은 계산 비용, 그리고 프롬프트 주입 공격과 같은 보안 위험을 해결하는 것을 목표로 합니다.

#Review #Web Agents #LLM Context Pruning #Accessibility Tree #Prompt Injection #Retrieval Augmented Generation #Web Navigation #Agent Security #Efficient LLM

2025년 10월 6일

[논문리뷰] Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

본 논문은 멀티모달 대규모 언어 모델(MLLMs)에서 시각 토큰이 소모하는 막대한 계산 자원으로 인한 효율성 저하 문제를 해결하고자 합니다. 특히, 시각 토큰 압축 과정에서 발생하는 학습 난이도 증가 와 특징 공간 교란 문제를 해결하여, 효율성을 높이면서도 성능 저하를 최소화하는 것을 목표로 합니다.

#Review #Multi-modal LLMs #Token Compression #Efficiency #Knowledge Distillation #Progressive Learning #Consistency Distillation #MLLM Training

2025년 10월 6일

[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Unit Test Generation #Acceleration #Repetitive Patterns #Abstract Syntax Tree #Software Testing #Code Generation

2025년 10월 6일

[논문리뷰] Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

본 논문의 핵심 목표는 추가적인 모델 훈련 없이 확산(diffusion) 또는 플로우(flow) 기반 로봇 정책의 성능을 향상시키는 것입니다.

#Review #Diffusion Models #Flow-based Models #Robotics Control #Policy Composition #Test-time Optimization #Score-based Models #Training-free

2025년 10월 6일

[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization

본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Data Visualization #LLM #Automation #Self-reflection #Code Generation #Natural Language to Visualization

2025년 10월 6일

[논문리뷰] Apriel-1.5-15b-Thinker

본 연구는 대규모 언어 모델(LLM)의 성능과 접근성 사이의 근본적인 한계를 극복하고, 150억 개 파라미터 의 비교적 작은 오픈-웨이트 모델인 Apriel-1.5-15B-Thinker 가 순수한 규모 대신 훈련 디자인 을 통해 최첨단 멀티모달 추론 성능을 달성하는 것을 목표로 합니다.

#Review #Multimodal Reasoning Model #Open-Weights Model #Continual Pretraining (CPT)#Supervised Fine-Tuning (SFT)#Training Design #Efficiency #Frontier Performance

2025년 10월 6일

[논문리뷰] Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

본 연구는 Consistency Models (CMs) 의 느린 수렴 문제와 높은 배치 사이즈 요구 사항을 해결하는 것을 목표로 합니다.

#Review #Consistency Models #Generative Models #Manifold Learning #Tangent Alignment #Diffusion Models #Training Dynamics #Manifold Feature Distance

2025년 10월 6일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일

[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.

#Review #Transformers #Multiplication #Long-Range Dependencies #Implicit Chain-of-Thought #Attention Mechanisms #Inductive Bias #Reverse Engineering

2025년 10월 2일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일

[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.

#Review #Vision-Language-Action Models #Reinforcement Learning #World Models #Fine-tuning #Embodied AI #Robotics #Reward Design #Distribution Shift

2025년 10월 2일

[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning #Test-Time Scaling (TTS)#Process Supervision #Dataset Construction #Perception Errors #MCTS

2025년 10월 2일

[논문리뷰] ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

본 논문은 분포 매칭(distribution matching)에서 널리 사용되는 Sliced Wasserstein Distance (SWD) 의 Monte Carlo 추정기가 겪는 높은 분산 문제를 해결하고자 합니다.

#Review #Sliced Wasserstein Distance #Reservoir Sampling #Variance Reduction #Distribution Matching #Diffusion Guidance #Color Correction #Monte Carlo Estimation

2025년 10월 2일

[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning

소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.

#Review #Environment Setup #LLMs #Reinforcement Learning #Supervised Fine-tuning #On-device AI #Software Engineering #Verifiable Rewards

2025년 10월 2일

[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Parameter Dynamics #Rank-1 Dominance #Linear Dynamics #SVD #Model Acceleration #Predictability

2025년 10월 2일

[논문리뷰] Making, not Taking, the Best of N

본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.

#Review #LLM Aggregation #Generative Fusion #Best-of-N #Synthetic Data Generation #Test-Time Scaling #Multilingual Models #Ensemble Learning

2025년 10월 2일

[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation #Knapsack Problem #Group Relative Policy Optimization (GRPO)#Mathematical Reasoning #Resource Optimization

2025년 10월 2일

[논문리뷰] JoyAgent-JDGenie: Technical Report on the GAIA

본 논문은 LLM 기반 에이전트 시스템들이 복잡한 실세계 태스크를 해결하는 데 있어 견고성, 적응성, 재현성이 부족하다는 문제를 제기합니다. 기존 시스템들이 툴킷 확장, 프롬프트 개선 등 개별적인 측면에만 집중하여 통합 프레임워크가 부재했기 때문입니다.

#Review #Generalist Agent #Multi-Agent System #Plan-Execute #ReAct #Hierarchical Memory #Tool Integration #GAIA Benchmark #LLM Agent

2025년 10월 2일

[논문리뷰] Infusing Theory of Mind into Socially Intelligent LLM Agents

본 논문은 대화형 LLM(Large Language Model) 기반 소셜 에이전트가 타인의 정신 상태 이해 능력(Theory of Mind, ToM) 을 통합함으로써 사회적 지능과 목표 달성 능력을 향상시키는 것을 목표로 합니다.

#Review #Theory of Mind #Large Language Models #Social Agents #Dialogue Systems #Mental State Modeling #Look-ahead Planning #Supervised Fine-tuning #Sotopia Benchmark

2025년 10월 2일

[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Feedback #Multi-turn Reasoning #In-place Editing #Token Efficiency #Error Correction #Human-AI Interaction #Reasoning Tasks

2025년 10월 2일

[논문리뷰] Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

대규모 언어 모델(LLM)의 불투명한 내부 표현에 대한 제한적인 이해를 극복하고, LLM 벡터 공간 에서 사람이 해석할 수 있는 정보를 디코딩 하는 새로운 패러다임을 제안하는 것을 목표로 합니다. 기존 직접 로짓 기여(DLA) 및 희소 오토인코더(SAE) 와 같은 해석 가능성 방법론의 한계를 극복하고자 합니다.

#Review #LLM Interpretability #Vector Symbolic Architectures #Neural Probing #Information Decoding #Hyperdimensional Computing #Latent Representations

2025년 10월 2일

[논문리뷰] GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

본 논문은 Vision-Language Model (VLM) 기반 GUI 에이전트가 고해상도 스크린샷 시퀀스 및 장기 작업을 처리할 때 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agents #KV Cache Compression #Spatio-Temporal Awareness #Vision-Language Models #Efficiency #Attention Sparsity #QR Decomposition

2025년 10월 2일

[논문리뷰] GEM: A Gym for Agentic LLMs

대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.

#Review #Agentic LLMs #Reinforcement Learning #Environment Simulator #Multi-turn Interactions #Return Batch Normalization #Tool Integration #Benchmarking

2025년 10월 2일

[논문리뷰] Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

본 논문은 기존 LLM 에이전트 프레임워크의 고질적인 문제인 비효율적인 순차적 처리 방식 을 해결하여, 복잡한 웹 기반 추론 작업에서 발생하는 과도한 실행 단계와 긴 지연 시간을 단축하는 것을 목표로 합니다. 특히 광범위한 도구 상호작용이 필요한 태스크에서 에이전트의 효율성과 확장성을 근본적으로 개선하고자 합니다.

#Review #LLM Agents #Parallel Execution #DAG-based Planning #Tool Orchestration #Web Agents #Reasoning Framework #Efficiency

2025년 10월 2일

[논문리뷰] Eliciting Secret Knowledge from Language Models

이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.

#Review #Language Models #Secret Elicitation #Mechanistic Interpretability #Black-box Methods #White-box Methods #AI Auditing #Model Organisms #Prefill Attacks

2025년 10월 2일

[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning #Large Language Models (LLMs)#Systematic Exploration #Adaptive Training #Tree-GRPO

2025년 10월 2일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일

[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation

최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.

#Review #Educational Video Generation #Code-centric AI #Multi-agent Framework #Manim #Vision-Language Models #Knowledge Transfer #Code Generation #MMMC Benchmark

2025년 10월 2일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일

[논문리뷰] Boolean Satisfiability via Imitation Learning

본 논문은 CDCL(Conflict-Driven Clause Learning) SAT solver 의 핵심 구성 요소인 브랜칭 정책의 비효율성을 개선하는 것을 목표로 합니다.

#Review #Boolean Satisfiability #Imitation Learning #CDCL Solvers #Branching Policy #KeyTrace #Transformer Architecture #Perceiver AR

2025년 10월 2일

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.

#Review #Video Generation #Subject Consistency #Cross-Modal Integration #Diffusion Models #Multimodal LLM #Diffusion Transformer #Text-to-Video

2025년 10월 2일

[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.

#Review #LLM Bias Mitigation #Benchmark #Evaluation Metrics #Prompt Engineering #Fine-tuning #Bias-Free Score #Fairness

2025년 10월 2일

[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.

#Review #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives #Negative Log Likelihood (NLL)#Model Capability Continuum #Generalization #Probability-based Loss Functions

2025년 10월 2일

[논문리뷰] An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

본 연구는 FM(Foundation Model) 기반 AI 에이전트 의 본질적인 비결정론적 특성과 재현 불가능성으로 인한 테스팅 및 품질 보증 문제를 해결하고자 합니다.

#Review #AI Agent #LLM Agent #Testing #Empirical Study #Software Quality #Agent Frameworks #Agentic Applications #Non-Determinism

2025년 10월 2일

[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents

본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.

#Review #LLM Agents #Context Compression #Long-horizon Tasks #Prompt Optimization #Knowledge Distillation #Memory Efficiency #Task Performance #Failure Analysis

2025년 10월 2일

[논문리뷰] jina-reranker-v3: Last but Not Late Interaction for Document Reranking

본 논문은 문서 리랭킹에서 효율성과 효과성 사이의 근본적인 트레이드오프를 해결하고자 합니다.

#Review #Document Reranking #Last but Not Late Interaction #Multilingual #Transformer Architecture #Cross-Encoder #InfoNCE Loss #Contextual Embedding #Qwen3

2025년 10월 1일

[논문리뷰] dParallel: Learnable Parallel Decoding for dLLMs

본 연구는 확산 언어 모델(dLLMs)이 가진 병렬 디코딩 잠재력 을 충분히 활용하지 못하는 문제, 즉 기존 dLLMs가 성능 유지를 위해 거의 토큰 길이만큼의 디코딩 스텝을 요구하는 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Parallel Decoding #Inference Acceleration #Certainty Distillation #Self-Distillation #Masked Language Models #LLaDA

2025년 10월 1일

[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Large Language Models (LLMs)#Inference Acceleration #KV Cache #Bidirectional Attention #Adaptive Caching #Token Selection

2025년 10월 1일

[논문리뷰] Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

본 논문은 대규모 언어 모델(LLMs)의 Supervised Fine-Tuning (SFT) 과정에서 발생하는 데이터 비효율성 문제를 해결하고자 합니다.

#Review #LLM SFT #Data Pruning #Sample Pruning #Token Pruning #Error-Uncertainty Plane #Q-Tuning #Data Efficiency #Dynamic Pruning

2025년 10월 1일

[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated Judgments

본 논문은 LLM이 생성한 평가(judgment)를 인간의 평가와 구별하는 판단 탐지(judgment detection) 태스크를 제안하고, 그 탐지 가능성을 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Judgment Detection #Bias Quantification #Feature Engineering #Interpretability #Peer Review #AI Ethics #Evaluation

2025년 10월 1일

[논문리뷰] Who invented deep residual learning?

이 논문은 깊은 잔여 학습(deep residual learning) 의 발명 및 진화에 대한 명확한 연대기를 확립하고, 그 핵심 원리와 주요 개발을 주로 Schmidhuber 연구실의 연구, 특히 Sepp Hochreiter의 1991년 학위 논문 과 이후의 LSTM 및 Highway Network 작업을 통해 이루어졌다고 주장하는 것을 목표로 합니다.

#Review #Deep Learning History #Residual Connections #Recurrent Neural Networks (RNN)#Long Short-Term Memory (LSTM)#Feedforward Neural Networks (FNN)#Highway Networks #ResNet #Vanishing Gradient

2025년 10월 1일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일

[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.

#Review #LLM Agents #Benchmarking #Interactive Tasks #Real-world Applications #Tool Use #Multi-turn Conversation #Task Complexity

2025년 10월 1일

[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.

#Review #Visual Question Answering #Multimodal Models #Dense Scenes #Fine-Grained Perception #Benchmark #Error Analysis #Counting #OCR

2025년 10월 1일

[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Vision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Self-Play #Reinforcement Learning #Gamification #Data Efficiency #Strategic Reasoning #Multimodal AI #Self-Improvement

2025년 10월 1일

[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.

#Review #LLM Hallucination #Truthfulness #Reinforcement Learning #Ternary Reward #Abstention #Knowledge Boundary #GRPO #RLHF

2025년 10월 1일

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.

#Review #Mechanistic Interpretability #Attention Heads #Post-Training #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis #Reasoning Models #Transformer Architecture

2025년 10월 1일

[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

본 논문은 기존 Transformer 모델이 CoT (Chain-of-Thought) 추론 의 일반화와 뇌 기능에 대한 미시적 해석을 제공하지 못하는 한계를 지적합니다.

#Review #Large Language Models #Brain-Inspired AI #Graph Neural Networks #Hebbian Learning #Scale-Free Networks #Model Interpretability #Transformer Architecture

2025년 10월 1일

[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.

#Review #Large Language Models #Multi-turn Interaction #Test-Time Adaptation #Reinforcement Learning from Human Feedback #Policy Optimization #Online Learning #Self-Correction

2025년 10월 1일

[논문리뷰] TTT3R: 3D Reconstruction as Test-Time Training

본 논문은 최신 RNN 기반 3D 재구성 모델 이 긴 시퀀스에 적용될 때 발생하는 길이 일반화(length generalization) 부족 과 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #3D Reconstruction #Test-Time Training (TTT)#Recurrent Neural Networks (RNN)#Online Learning #Length Generalization #Associative Memory #State Update Rule

2025년 10월 1일

[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

AI 모델이 지역별 문화적 맥락을 이해하고 비의미론적(non-semantic) 음향 신호를 해석하는 능력의 부족을 해결하는 것을 목표로 합니다.

#Review #Audio Language Models #Cultural Sound Understanding #Localized Benchmark #Non-semantic Audio #Human-in-the-loop #Multimodal AI #Taipei Soundscape

2025년 10월 1일

[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generation #Evaluation Framework #Cinematic Control #Taxonomy #Human Annotation #Vision-Language Models #Text-to-Video

2025년 10월 1일

[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

본 논문은 대규모 파운데이션 모델에서 Test-Time Training (TTT) 의 효과를 심층적으로 이해하고, 특히 모델이 이미 학습한 in-distribution 데이터 에 대해서도 TTT가 성능 향상을 가져올 수 있는지 규명하는 것을 목표로 합니다.

#Review #Test-Time Training (TTT)#Foundation Models #Underparameterization #Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization #Scaling Laws #In-Distribution Data

2025년 10월 1일

[논문리뷰] Regression Language Models for Code

본 논문은 다양한 프로그래밍 언어 및 컴파일 수준의 코드 실행으로부터 메모리 사용량, 지연 시간, 신경망 정확도 와 같은 수치적 메트릭을 예측하는 문제를 다룹니다.

#Review #Regression Language Model #Code Performance Prediction #Static Analysis #Neural Architecture Search #Text-to-Text Regression #Multi-task Learning #T5Gemma #ONNX

2025년 10월 1일

[논문리뷰] ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation

본 논문은 기존의 블랙박스 비디오 분류기가 다중 시점(multi-view) 컨텍스트를 무시하고 설명 가능성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Video-Language Model #Proficiency Estimation #Multi-View Video #Action Quality Assessment #Lightweight Model #Generative Feedback

2025년 10월 1일

[논문리뷰] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

본 연구는 대규모 언어 모델(LLM)이 고등학교 수준의 수학 및 코딩 과제에서는 진전을 보였지만, 현대 물리학 연구에서 발생하는 복잡하고 개방형의 난제들을 얼마나 효과적으로 추론하고 해결할 수 있는지 평가하는 것을 목표로 합니다.

#Review #AI Reasoning #Physics Research #LLM Evaluation #Scientific Benchmark #Frontier Physics #Problem Solving #Model Reliability #Auto-grading

2025년 10월 1일

[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.

#Review #Large Language Models (LLMs)#Operational Safety #Out-of-Domain (OOD)#Prompt Steering #Jailbreak Attacks #Evaluation Benchmark #Refusal Rate

2025년 10월 1일

[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents

본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.

#Review #Underwater Robotics #Embodied AI #Benchmark Environment #Multi-modal Large Language Models #Autonomous Underwater Vehicles #Perception #Decision-Making #Simulation

2025년 10월 1일

[논문리뷰] MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

본 연구는 기존 이미지-투-비디오(Image-to-Video) 생성 모델이 시각적 충실도는 높지만, 물리적으로 그럴듯하고 의미론적으로 일관된 동작을 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Image-to-Video Generation #Motion Transfer #Retrieval-Augmented Generation (RAG)#In-Context Learning #Diffusion Models #Video Diffusion #Motion Realism

2025년 10월 1일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일

[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning

대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #External Memory #Reinforcement Learning #Memory Management #Long-Context Understanding #Tool Learning #RAG #Memory Architecture

2025년 10월 1일

[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.

#Review #LLM Agents #Model Context Protocol #Benchmark #Tool Use #CRUD Operations #Workflow Automation #Stress Testing #Evaluation

2025년 10월 1일

[논문리뷰] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification

기존 확산 모델 기반의 적대적 정화(Adversarial Purification, AP) 방식이 균일한 노이즈 주입으로 인해 이미지의 의미론적 구조를 손상시키고 강건성을 저해하는 문제를 해결하는 것이 목표입니다.

#Review #Adversarial Purification #Diffusion Models #Frequency Domain #Adaptive Noise Injection #Robustness #Image Security #Magnitude Spectrum

2025년 10월 1일

[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

본 논문은 텍스트 전용 사전 훈련을 통해 대규모 언어 모델(LLM)이 시각적 세계에 대해 습득하는 내재된 시각적 사전 지식(visual priors)의 구조와 기원 을 체계적으로 밝히는 것을 목표로 합니다.

#Review #LLM Visual Priors #Language Pre-training #Multimodal LLM #Data Mixture Optimization #Reasoning Prior #Perception Prior #VQA #MLE-Bench

2025년 10월 1일

[논문리뷰] Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

본 연구는 AI-생성 비디오에서 인간이 인지하는 '딥페이크 흔적'을 식별하고 그 이유를 근거 있게 설명할 수 있는가에 대한 문제를 해결하고자 합니다.

#Review #AI-Generated Videos #Deepfake Detection #Multimodal LLMs #Human Perception #Video Generation Evaluation #Spatiotemporal Annotation #Reward Modeling

2025년 10월 1일

[논문리뷰] LayerD: Decomposing Raster Graphic Designs into Layers

본 논문은 합성된 래스터 그래픽 디자인 이미지에서 레이어 정보를 복원하여 디자이너가 편집하기 어려운 문제를 해결하고자 합니다. 래스터 그래픽 디자인을 재편집 가능한 레이어 시퀀스로 자동 분해함으로써, 기존 래스터 아트워크 자산을 활용하여 새로운 아트워크를 생성하는 창의적인 워크플로우를 가능하게 하는 것을 목표로 합니다.

#Review #Graphic Design #Image Decomposition #Layer Extraction #Image Matting #Background Completion #Deep Learning #Creative AI #Dynamic Time Warping

2025년 10월 1일

[논문리뷰] Knowledge Homophily in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 인간의 뇌와 유사하게 지식 동질성(Knowledge Homophily) 패턴을 보이는지 탐구하고, 이를 통해 LLM 내 지식의 구조적 조직을 이해하며 지식 주도형(knowledge-intensive) 태스크 의 효율성을 개선하는 것을 목표로 합니다.

#Review #LLM #Knowledge Homophily #Graph Neural Networks #Knowledge Graph #Knowledge Injection #Question Answering #Fine-tuning #Knowledge Retrieval

2025년 10월 1일

[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents

본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Information Seeking #Reinforcement Learning #Data Synthesis #Web Search Tools #Tool Use #Deep Research Agents

2025년 10월 1일

[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.

#Review #Diffusion Models #Multimodal Alignment #MLLM #Image Re-generation #Preference Learning #Implicit Guidance #Text-to-Image

2025년 10월 1일

[논문리뷰] Humanline: Online Alignment as Perceptual Loss

본 논문은 온라인 정렬(예: GRPO )이 오프라인 정렬(예: DPO )보다 성능이 뛰어난 이유를 행동 경제학의 전망 이론(prospect theory) 에 기반한 인간 중심적 관점에서 설명하고자 합니다.

#Review #LLM Alignment #Online RLHF #Offline RLHF #Prospect Theory #Perceptual Loss #Human-Centric AI #Reinforcement Learning

2025년 10월 1일

[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.

#Review #GUI Agents #On-Device AI #Multimodal LLM #GUI Grounding #GUI Navigation #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data

2025년 10월 1일

[논문리뷰] Estimating Time Series Foundation Model Transferability via In-Context Learning

이 논문은 증가하는 시계열 파운데이션 모델(TSFM) 중에서 특정 하위 태스크에 가장 적합한 모델을 효율적으로 식별하는 문제를 해결하고자 합니다.

#Review #Time Series Foundation Models #Transferability Estimation #In-Context Learning #Tabular Foundation Models #Model Selection #Entropy Profile #Meta-learning #Forecasting

2025년 10월 1일

[논문리뷰] EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

기존 Transformer 기반 시계열 예측 모델들이 사용하는 temporal-agnostic 패칭 방식은 시간적 일관성을 해치고 단기 종속성을 파괴하며 훈련-추론 불일치를 야기하는 문제를 해결하고자 합니다.

#Review #Time Series Forecasting #Transformer #Dynamic Patching #Entropy #Predictive Uncertainty #Adaptive Encoding #Attention Mechanisms #Causal Transformer

2025년 10월 1일

[논문리뷰] Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

오디오-비주얼 음성 분리(AVSS) 분야에서 기존 모델들의 높은 연산 비용과 파라미터 수로 인해 발생하는 실용적 배포의 한계를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Speech Separation #Deep Learning #Efficiency #Discrete Lip Semantics #Global-Local Attention #Lightweight Models #VQ-VAE

2025년 10월 1일

[논문리뷰] DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively

본 논문은 기존 AI 과학자 시스템의 한계, 특히 인간이 정의한 문제에 대한 과학적으로 가치 있는 기여 부족을 해결하고자 합니다.

#Review #AI Scientist #Autonomous Scientific Discovery #Bayesian Optimization #LLM-based Agents #SOTA-Surpassing #Findings Memory #Exploration-Exploitation

2025년 10월 1일

[논문리뷰] DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

본 논문은 기존 비디오 확산 모델의 높은 훈련 및 추론 비용 문제를 해결하여, 고해상도 및 장시간 비디오 생성의 효율성을 대폭 향상시키는 것을 목표로 합니다. 특히, 사전 훈련된 모델의 품질을 유지하면서 깊은 압축 잠재 공간 으로 효율적으로 전환하는 프레임워크를 개발하는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Video Autoencoder #Deep Compression #Model Acceleration #Fine-tuning #Latent Space #Temporal Modeling

2025년 10월 1일

[논문리뷰] DA^2: Depth Anything in Any Direction

파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.

#Review #Panoramic Depth Estimation #Zero-shot Generalization #Data Curation #SphereViT #Spherical Geometry #360-degree Imaging #Vision Transformer

2025년 10월 1일

[논문리뷰] Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs

이 논문은 대규모 언어 모델(LLM) 공급자가 홍보하는 최대 컨텍스트 윈도우(MCW) 와 실제 사용 환경에서의 최대 유효 컨텍스트 윈도우(MECW) 간의 불일치를 해결하고자 합니다.

#Review #Large Language Models #Context Window #Effective Context Window #Model Performance #Hallucination Rates #RAG Systems #Token Limits

2025년 10월 1일

[논문리뷰] BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

본 논문은 오픈소스 소프트웨어(OSS) 프로젝트의 자동 컴파일이라는 복잡하고 노동 집약적인 문제를 해결하기 위해 LLM 에이전트 의 성능을 평가하고 개선하는 것을 목표로 합니다.

#Review #LLM Agents #Open-Source Software #Compilation #Benchmarking #Software Engineering #Error Resolution #Retrieval-Augmented Generation

2025년 10월 1일

[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Planning #Policy Gradient #Q-learning #Supervised Fine-Tuning #Diversity Collapse #Reward Hacking

2025년 10월 1일

[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Process-Supervised RL #Large Language Models #Reasoning Models #Attention Mechanism #Efficient Exploration #Adaptive Sampling #Off-Policy Training

2025년 10월 1일

[논문리뷰] A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects

오픈 대규모 언어 모델(LLM) 프로젝트에서 협업 방식, 동기, 거버넌스에 대한 포괄적인 이해를 구축하는 것이 목표입니다. 특히 LLM 개발 및 재사용 수명 주기 전반에 걸쳐 협업이 어떻게 시작되고, 조직되며, 관리되는지 파악하고, 이 생태계를 더욱 육성할 기회를 모색하고자 합니다.

#Review #Open Source AI #LLM Development #Open Collaboration #Governance Models #Developer Motivations #Community Engagement #AI Ecosystem

2025년 10월 1일