Review

[논문리뷰] SageBwd: A Trainable Low-bit Attention

저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.

#Review #Low-bit Attention #Quantization #Model Training #Pre-training #Backward Pass #QK-norm #SageBwd #Deep Learning Optimization

2026년 3월 5일

[논문리뷰] STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

본 논문은 기존 다중 모달 객체 재식별(ReID) 방법론들이 직면한 배경 노이즈 증가 및 식별 특징 손실 문제(하드 토큰 필터링 또는 단순 융합 전략으로 인해 발생)를 해결하는 것을 목표로 합니다.

#Review #Multi-modal Re-Identification #Segmentation-Guided Feature Modulation #Token Modulation #Cross-Modal Interaction #Hypergraph Neural Networks #Object ReID #Transformer #SAM

2026년 3월 5일

[논문리뷰] RoboPocket: Improve Robot Policies Instantly with Your Phone

이 논문은 로봇 모방 학습의 핵심 제약인 비효율적인 데이터 수집과 느린 정책 반복 과정을 해결하고자 합니다.

#Review #Robot Learning #Imitation Learning #Policy Iteration #Augmented Reality #Visual Foresight #Data Collection #Human-in-the-Loop #Smartphone

2026년 3월 5일

[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation

본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.

#Review #Video Generation #Physics Simulation #Real-Time #Action-Conditioned #3D Scene Reconstruction #Diffusion Models #Optical Flow

2026년 3월 5일

[논문리뷰] On-Policy Self-Distillation for Reasoning Compression

본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.

#Review #Reasoning Compression #Self-Distillation #On-Policy Learning #Large Language Models #Mathematical Reasoning #Knowledge Distillation #Efficient Inference

2026년 3월 5일

[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents

약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.

#Review #LLM Agents #Drug Discovery #Governed Autonomy #Multi-Agent System #Workflow Orchestration #Human-in-the-Loop #Computational Biology #Reproducibility

2026년 3월 5일

[논문리뷰] MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

본 논문은 대규모 언어 모델(LLM)을 활용한 과학적 발견 과정, 특히 P(hypothesis|background)의 직접적인 모델링이 지닌 조합론적 복잡성(O(Nk)) 으로 인한 비실용성을 해결하는 것을 목표로 합니다.

#Review #Scientific Discovery #LLM Training #Combinatorial Complexity #Hierarchical Search #Bounded Composition #Motivation Planning #Tractable Training #TOMATO-STAR Dataset

2026년 3월 5일

[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

다중 모달리티 대규모 언어 모델(MLLMs)에서 채널별 스무딩 양자화(channel-wise smoothing quantization) 기법이 시각 및 텍스트 토큰 활성화의 큰 차이로 인해 실패하는 문제를 해결하는 것이 목표입니다.

#Review #Multimodal LLMs #Post-Training Quantization #Modality-Aware Smoothing #Cross-Modal Compensation #Quantization #Model Compression #SVD-based Whitening

2026년 3월 5일

[논문리뷰] Locality-Attending Vision Transformer

본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.

#Review #Vision Transformer #Semantic Segmentation #Attention Mechanism #Locality Bias #Gaussian Kernel #Patch Representation #Foundation Models

2026년 3월 5일

[논문리뷰] Large Multimodal Models as General In-Context Classifiers

본 논문은 대규모 멀티모달 모델(LMMs)이 이미지 분류 작업에서 대조 학습 기반 시각-언어 모델(VLMs)보다 성능이 떨어진다는 기존 인식을 재고하고, 인컨텍스트 학습(ICL)이 LMMs의 분류 능력을 얼마나 향상시킬 수 있는지 탐구합니다.

#Review #Large Multimodal Models #In-Context Learning #Image Classification #Open-World Classification #Zero-Shot Learning #Vision-Language Models #CLIP

2026년 3월 5일

[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning

본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.

#Review #Reinforcement Learning #Knowledge Agents #Enterprise Search #Grounded Reasoning #Multi-task Learning #Off-policy RL #Test-time Compute #Agentic Synthesis

2026년 3월 5일

[논문리뷰] HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

본 논문은 인간-제품 이미지 생성 시 제품 디테일의 높은 충실도(high-fidelity) 보존 을 보장하는 문제를 해결하고자 합니다.

#Review #Reference-Based Inpainting #High-Fidelity Image Generation #Human-Product Images #Diffusion Models #Detail Preservation #Attention Mechanisms #Loss Functions #Dataset Construction

2026년 3월 5일

[논문리뷰] DreamWorld: Unified World Modeling in Video Generation

기존 비디오 생성 모델들이 시각적 사실성만을 추구하고 세계에 대한 일관된 이해가 부족한 한계를 해결하는 것이 목표입니다. 물리적 상식, 3D 및 시간적 일관성과 같은 이질적인 세계 지식 을 비디오 생성기에 통합하고, 이로 인해 발생하는 시각적 불안정성과 시간적 깜빡임 문제를 완화하고자 합니다.

#Review #Video Generation #World Modeling #Diffusion Models #Multi-modal Integration #Temporal Consistency #Spatial Geometry #Semantic Consistency #Constraint Annealing

2026년 3월 5일

[논문리뷰] Distribution-Conditioned Transport

본 논문은 기계 학습에서 흔히 발생하는, 훈련 중 관찰되지 않은 소스 및 타겟 분포로 전이 모델을 일반화 하는 문제를 해결하는 것을 목표로 합니다.

#Review #Distribution-Conditioned Transport #Generative Distribution Embeddings #Optimal Transport #Flow Matching #Semi-Supervised Learning #Generalization #Single-cell Genomics #Batch Effect Transfer

2026년 3월 5일

[논문리뷰] DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

본 논문은 LLM 에이전트가 Python 중심의 학습 데이터로 인해 R 통계 생태계의 풍부한 통계 방법론을 활용하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #LLM Agents #R Statistical Ecosystem #Retrieval-Augmented Generation #Distribution-Aware Retrieval #R Package Knowledge Base #Statistical Analysis #Embedding Models

2026년 3월 5일

[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Agents #Visual Reasoning #Tool Use #Benchmark #Long-Horizon Tasks #Realistic Scenarios #Agentic Intelligence

2026년 3월 5일

[논문리뷰] T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

본 논문은 대규모 언어 모델(LLM)이 복잡한 텍스트 처리, 특히 장문 컨텍스트 환경에서 겪는 어려움을 해결하고자 합니다.

#Review #Benchmarking #Text-to-Structure #LLM Prompting #Structure-of-Thought #Multihop Reasoning #Graph Extraction #Scientific Documents #Text Processing

2026년 3월 4일

[논문리뷰] Specificity-aware reinforcement learning for fine-grained open-world classification

본 논문은 오픈 월드 환경에서 미세 분류를 수행할 때, 대규모 멀티모달 모델(LMMs) 이 지나치게 일반적인 예측을 내놓는 경향을 해결하고자 합니다. 모델의 정확성 을 저해하지 않으면서 예측의 구체성(specificity) 을 향상시키는 것이 주된 연구 목표입니다.

#Review #Open-World Classification #Fine-Grained Classification #Reinforcement Learning #LMMs #Specificity-Aware Reward #GRPO #LLM-as-a-Judge #Cross-Domain Generalization

2026년 3월 4일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs

대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Real-time Interaction #Video Understanding #Benchmark #Temporal Reasoning #Long-term Memory #Proactive Response

2026년 3월 4일