최신 포스트

[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Iterative Reasoning #Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following #Critique-Refine-Repeat Cycle #Think-while-Edit

2025년 12월 7일

[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Perception Enhancement #Auxiliary Modalities #Adaptive Interleaved Reasoning #Reinforcement Learning #Chain-of-Thought

2025년 12월 7일

[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence

이 논문은 AI가 스스로 개선하는 자율적 자기 개선(Self-Improving AI)의 목표가 위험하고 최적의 경로가 아니라고 주장하며, 대신 인간과 AI의 협력적 공동 개선(Co-Improvement) 을 통해 더 안전하고 빠른 공동 초지능(Co-Superintelligence) 달성을 제안합니다.

#Review #AI Safety #Superintelligence #Human-AI Collaboration #Self-Improving AI #Co-Improvement #Alignment #AI Research Agents

2025년 12월 7일

[triton] 손상된 캐시 파일에 대한 방어적 처리 추가

JSON 캐시 파일 읽기 시 발생할 수 있는 파싱 오류를 try-except로 처리하여 손상된 캐시로 인한 크래시를 방지한 사례를 분석합니다.

#Triton #Cache #Robustness #BugFix

2025년 12월 6일

[CPython] CPython RemoteUnwinder 프레임 캐싱으로 메모리 읽기 최적화

last_profiled_frame 포인터와 프레임 캐시로 원격 프로파일링 시 메모리 읽기를 대폭 줄이는 최적화

#Python #CPython #Profiling #Performance

2025년 12월 6일

[triton] 벤치마크에서 symmetric memory 해제

분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.

#Triton #Benchmark #Distributed #Memory Management

2025년 12월 5일

[llm-compressor] Disable LM Head - 불필요한 LM Head 연산 비활성화

양자화 캘리브레이션에서 LM Head 레이어의 forward pass를 비활성화하여 시간과 메모리 절약

#llm-compressor #Performance

2025년 12월 5일

[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Resolution Extrapolation #Positional Encoding #Frequency Analysis #Adaptive Attention #High-Resolution Image Generation #Image Quality #Content Repetition

2025년 12월 4일

[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation

본 논문은 복잡한 시맨틱 추론이나 반복적인 고수준 계획이 필요한 비디오 생성에서 기존 모델들이 겪는 한계를 극복하고자 합니다. 비디오 생성을 텍스트와 비디오 생성의 교차 프로세스로 분해함으로써 시각적 품질과 사용자 제어 가능성을 획기적으로 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Language Modeling #Multimodal AI #Interleaved Generation #Flow Matching #Transformer #Controllability #World Models

2025년 12월 4일

[논문리뷰] Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

본 논문의 핵심 목표는 단안 카메라로 촬영된 불완전한 마네킹 챌린지(Mannequin-Challenge, MC) 영상 에서 미세한 움직임으로 인해 발생하는 고스팅(ghosting) 및 블러(blur) 아티팩트를 제거하고, 고품질의 완벽하게 정지된 3D 장면(freeze-time video) 을 합성하는 것입니다.

#Review #Monocular 3D Reconstruction #Mannequin Challenge #Dynamic Gaussian Splatting #Freeze-Time Video #Temporal Consistency #Artifact Suppression #Regularization

2025년 12월 4일

[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization #Mixed-Precision Quantization #Sensitivity Metric #Quantization Scale Initialization #Accuracy Preservation

2025년 12월 4일

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Asynchronous Denoising #Semantic Modeling #Texture Modeling #Image Generation #Vision Transformer #VAE #Fast Convergence

2025년 12월 4일

[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.

#Review #Vision-Language Navigation #Large Vision-Language Models #Visual Prompt #Reinforcement Fine-Tuning #Policy Optimization #Embodied AI #Spatial Reasoning #Perception Errors

2025년 12월 4일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.

#Review #Streaming Video Generation #Video Diffusion Models #Distribution Matching Distillation #Reinforcement Learning #Autoregressive Models #Attention Sink #Real-time

2025년 12월 4일

[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.

#Review #Fact-Checking #Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement #Latent Space #Disentanglement #Steering Vectors #Misinformation

2025년 12월 4일

[논문리뷰] QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory

본 연구는 기존 LSTM 모델 의 높은 파라미터 중복성과 제한된 비선형 표현력 문제를 해결하고, 특히 도시 통신 예측과 같은 복잡한 시계열 모델링 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Quantum Machine Learning #Kolmogorov-Arnold Networks #Long Short-Term Memory (LSTM)#Time Series Forecasting #Hybrid Quantum-Classical Learning #Quantum-inspired #Recurrent Neural Networks

2025년 12월 4일

[논문리뷰] PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

기존 LLM 기반 글쓰기 보조 도구가 편집기 외부에 존재하여 발생하는 컨텍스트 전환, 상호작용 기록 단절, 문서 상태와의 심층적 상호작용 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Academic Writing #In-editor Assistant #Multi-agent System #Overleaf Integration #Chrome Extension #Kubernetes #XtraMCP

2025년 12월 4일

[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO #Training Stability #Lazy Likelihood Displacement (LLD)#Regularization #Search-R1

2025년 12월 4일

[논문리뷰] Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

본 논문은 LLM이 수동적 응답자에서 자율 에이전트로 발전 하는 데 필요한 확장 가능한 고품질 상호작용 신호 인프라의 부족 문제를 해결하고자 합니다.

#Review #Agentic Models #Large Language Models (LLMs)#Agentic Scaling #Environment Construction #NexAU #NexA4A #NexGAP #Interactive Environments

2025년 12월 4일