최신 포스트

[논문리뷰] InstanceControl: Controllable Complex Image Generation without Instance Labeling

본 논문은 기존의 Controllable Image Generation 방법론들이 복잡한 다중 인스턴스 환경에서 겪는 Attribute Confusion 문제를 해결하기 위해 InstanceControl을 제안합니다 .

#Review #Controllable Image Generation #Multi-instance #Vision-Language Models #Instance-level Correspondence #Mask Refinement #Diffusion Transformers

2026년 7월 2일

[논문리뷰] From SRA to Self-Flow: Data Augmentation or Self-Supervision?

본 연구는 SRA 기법이 단순한 데이터 증강(Data Augmentation) 메커니즘인지, 혹은 더 근본적인 자기 지도 학습(Self-Supervision)의 형태인지를 규명하는 것을 핵심 문제로 삼습니다.

#Review #SRA #Self-Flow #Data Augmentation #Self-Supervision #Representation Learning #Knowledge Distillation

2026년 7월 2일

[논문리뷰] EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

본 논문은 현대의 자율 에이전트가 단순히 정적인 출력을 생성하는 것을 넘어, 환경 피드백을 통해 실행 가능한 정책을 반복적으로 개선해야 하는 도전 과제를 다룹니다. 기존 벤치마크는 최종 점수만을 평가하거나 복잡한 엔지니어링 작업과 섞여 있어, 에이전트의 '정책 진화' 능력을 독립적으로 측정하기 어렵다는 한계가 있습니다.

#Review #Autonomous Policy Evolution #Interactive Environments #Benchmark #Agentic Systems #Policy Optimization #Trajectory Analysis

2026년 7월 2일

[논문리뷰] Discrete Diffusion Language Models for Interactive Radiology Report Drafting

본 논문은 의료 분야의 Radiology Report Generation(RRG)이 여전히 Autoregressive(AR) 기반 모델에 의존하고 있으며, 이로 인해 발생하는 상호작용적 drafting의 한계를 극복하고자 합니다.

#Review #Discrete Diffusion Language Models #Radiology Report Generation #Any-Order Infill #Medical Foundation Models #LoRA #Vision-Language Models #Inference Speed

2026년 7월 2일

[논문리뷰] Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

본 연구는 Continual Post-Training 과정에서 온-폴리시(On-policy) 학습이 망각을 완화한다는 기존의 낙관적 견해를 비판적으로 재검토하고, 특히 SDPO와 같은 토큰 수준의 밀집 증류 기법이 오히려 모델의 성능 저하와 붕괴를 초래할 수 있음을 입증합니다.

#Review #Continual Post-Training #Self-Distillation #On-Policy Reinforcement Learning #Catastrophic Forgetting #Policy Optimization #Token-Level Supervision

2026년 7월 2일

[논문리뷰] Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

본 논문은 의료 분야의 MLLM(Multimodal Large Language Model)이 추론 과정에서 겪는 Sparse Credit Assignment 문제와 그로 인한 Failure Cascades 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Medical Reasoning #Reinforcement Learning #Process Supervision #Failure Cascades #Advantage Shaping #VQA

2026년 7월 2일

[논문리뷰] AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

본 논문은 기존의 STVG 평가 방식이 일반적인 일상 데이터에만 국한되어 있어, 실제 산업 현장이나 전문 분야에서 요구되는 고차원적 인식 능력을 측정하지 못한다는 문제를 제기합니다 .

#Review #Spatio-Temporal Video Grounding #Vision-Language Models #Domain Adaptation #In-Context Learning #Benchmark #Video Understanding

2026년 7월 2일

[논문리뷰] AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

본 연구는 Long-Horizon LLM 에이전트가 겪는 'Context Growth' 문제를 해결하고, 에이전트의 메모리 인터페이스를 체계적으로 평가할 수 있는 통제된 환경을 제공하기 위해 수행되었습니다.

#Review #Long-Horizon LLM Agents #Bounded-Memory Contract #Typed Retrieval #AgenticSTS #Slay the Spire 2 #Loop Engineering

2026년 7월 2일

[논문리뷰] AgenticDataBench: A Comprehensive Benchmark for Data Agents

본 연구는 기존 데이터 에이전트 벤치마크가 복잡한 실제 비즈니스 시나리오를 충분히 반영하지 못하고, 세부적인 작업 수준의 성능 분석을 제공하지 못한다는 한계점을 해결하고자 합니다.

#Review #Data Agent #Benchmark #Skill Extraction #Data Science #LLM #Task Generation #Evaluation Pipeline

2026년 7월 2일

[논문리뷰] AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

본 논문은 정맥 인식 분야에서 자연 이미지용으로 개발된 기존 데이터 증강 기법들이 정맥 구조의 미세한 지형(Topology)과 질감을 훼손할 수 있다는 문제점을 해결하고자 합니다. 기존의 연구들은 특정 모델이나 데이터셋에 한정된 평가를 수행하여, 다양한 신경망 아키텍처와 증강 전략 간의 체계적인 비교가 부족했습니다 .

#Review #Vein Recognition #Data Augmentation #Biometrics #Reliability #Deep Learning #Benchmark #Robustness

2026년 7월 2일

[sglang] Intel XPU를 위한 고성능 그래프 캡처 및 리플레이 지원 구현

SGLang에 Intel XPU 그래프 캡처 기능을 도입하여 커널 실행 오버헤드를 줄이고 추론 성능을 최적화했습니다.

#SGLang #XPU #LLM #Optimization #CUDA-Graph

2026년 7월 2일

[ultralytics] RT-DETR의 CoreML 추론 성능 최적화: ComputeUnit.ALL 전략 도입

RT-DETR 모델의 CoreML 추론 시 발생하는 FP16 정확도 저하와 속도 문제를 메타데이터 기반의 ComputeUnit.ALL 라우팅으로 해결했습니다.

#Ultralytics #CoreML #RT-DETR #Optimization #Apple Silicon

2026년 7월 2일

[triton] Triton 커널 최적화: 불필요한 텐서 메모리 할당 제거하기

Triton의 reduce_launch_metadata에서 발생하는 대규모 중간 텐서 생성 문제를 해결하여 메모리 효율성을 개선한 사례를 분석합니다.

#Triton #GPU #Optimization #MemoryManagement #DeepLearning

2026년 7월 2일

[axolotl] Axolotl: Long-Context 학습을 위한 Hidden State Offloading 최적화 (Non-Reentrant Checkpointing 지원)

Axolotl의 새로운 Hidden State Offloading은 메모리 효율과 성능을 동시에 개선합니다.

#Axolotl #PyTorch #Gradient Checkpointing #Activation Offloading #LLM Training #Memory Optimization

2026년 7월 2일

[논문리뷰] When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors

본 논문은 LLM이 표 기반 작업에서 구조를 이해하더라도 데이터를 인용하는 과정에서 '부주의'하게 오류를 범하는 Data Referencing Errors (DREs) 문제를 해결하고자 합니다 .

#Review #Large Language Models #Table Reasoning #Data Referencing Errors #Rejection Sampling #Critic Model #Reinforcement Learning

2026년 7월 1일

[논문리뷰] Valdi: Value Diffusion World Models

제공해주신 URL (https://arxiv.org/html/2607.00917)은 현재 외부 접근이 차단되어 있거나 기술적인 제약으로 인해 해당 논문의 전체 텍스트 및 Figure 데이터에 직접 접근할 수 없습니다. 따라서 논문의 핵심 내용을 상세히 분석하고 요구하신 형식에 맞추어 요약하는 것이 불가능합니다.

2026년 7월 1일

[논문리뷰] TurboServe: Serving Streaming Video Generation Efficiently and Economically

본 논문은 스트리밍 비디오 생성 워크로드에서 발생하는 세션의 상태 유지와 동적 자원 수요라는 이중 과제를 해결하기 위해 TurboServe를 제안한다.

#Review #Streaming Video Generation #Online Scheduling #Autoscaling #GPU Resource Management #Load Balancing #Latency-Optimized Serving

2026년 7월 1일

[논문리뷰] The State-Prediction Separation Hypothesis

본 논문은 표준 Transformer가 단일 연산 스트림 내에서 다음 토큰 예측과 상태 저장을 동시에 수행함으로써 발생하는 'Present-Future Tension' 문제를 해결하고자 합니다.

#Review #Large Language Models #State-Prediction Separation #Transformer Architecture #Compute Efficiency #Data Efficiency #Gradient Analysis

2026년 7월 1일

[논문리뷰] Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

본 연구는 기존 LLM 에이전트 시스템이 competition-level의 문제 해결 능력은 갖추었으나, 실세계의 복잡하고 긴 호흡의 과업을 end-to-end로 완수하지 못하는 비대칭성 문제를 해결하고자 합니다.

#Review #LLM #Agentic Paradigm #Multi-step Instruction Execution #Vision-Language Models #Scientific Discovery #Cost Efficiency

2026년 7월 1일

[논문리뷰] PixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking

본 논문은 기존 MLLM 기반 시각 추론 에이전트들이 인지와 추론을 단일 모델 내에서 결합함으로써 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Active Visual Search #Perception-Reasoning Decoupling #Referring Segmentation #Inattentional Blindness

2026년 7월 1일