Review

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.

#Review #Video Understanding #Multimodal Large Language Models #Benchmark #Reasoning Coherence #Capability Consistency #Evaluation Hierarchy #Non-linear Scoring

2026년 4월 7일

[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .

#Review #Virtual Try-On #Human Image Animation #Diffusion Transformer #Synthetic Triplet Supervision #Dual Module Architecture #Zero-shot Garment Interpolation

2026년 4월 7일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Tianwei Lin이 arXiv에 게시한 'Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Graphics Program Synthesis #TikZ #Reinforcement Learning #Multimodal Large Language Models #Self-Consistency #Round-Trip Verification

2026년 4월 7일

[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

Li Ding이 arXiv에 게시한 'QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #Program Repair #Over-editing #LLMs #Reinforcement Learning #EA-GRPO #Speculative Edits #Code Maintainability

2026년 4월 7일

[논문리뷰] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

본 논문은 문헌 탐색부터 분석, 비평까지 연구 전 과정을 지원하는 다중 에이전트 플랫폼인 Paper Circle을 제안한다. 시스템은 Discovery Pipeline과 Analysis Pipeline으로 구성되며, 연구자는 CodeAgent(CoA) 기반의 오케스트레이션 프레임워크를 통해 결정론적이고 추적 가능한 결과를 얻을 수 있다 , .

#Review #Multi-agent Systems #Research Discovery #Knowledge Graph #Large Language Models #Academic Literature Review

2026년 4월 7일

[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .

#Review #Large Language Models #Memory-Centric #CPU-GPU Offloading #Parameter Streaming #Stateless Execution #Pipelined Execution #Single-GPU Training

2026년 4월 7일

[논문리뷰] MedGemma 1.5 Technical Report

본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .

#Review #MedGemma #Multimodal Learning #Medical Imaging #Foundation Models #Volumetric Analysis #Histopathology #Clinical Reasoning

2026년 4월 7일

[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

arXiv에 게시된 'MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Embedding #Large Language Models #Chain-of-Thought #Reinforcement Learning #Latent Variable #Causal Inference

2026년 4월 7일

[논문리뷰] In-Place Test-Time Training

Di He이 arXiv에 게시한 'In-Place Test-Time Training' 논문에 대한 자세한 리뷰입니다.

#Review #In-Place Test-Time Training #Large Language Models #Fast Weights #Next-Token Prediction #Chunk-Wise Update #Continual Learning

2026년 4월 7일

[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

arXiv에 게시된 'How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Agentic Skills #Skill Retrieval #Skill Refinement #Benchmarking #Test-time Adaptation

2026년 4월 7일

[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Zhiyang Chen이 arXiv에 게시한 'GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers' 논문에 대한 자세한 리뷰입니다.

#Review #Autonomous Bug Discovery #Large Language Models #Game Benchmark #Quality Assurance #Multi-agent System #Software Engineering

2026년 4월 7일

[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

arXiv에 게시된 'FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification' 논문에 대한 자세한 리뷰입니다.

#Review #Peer Review #Evidence-Grounded #Claim Verification #Reproducibility #LLM Agent

2026년 4월 7일

[논문리뷰] Experience Transfer for Multimodal LLM Agents in Minecraft Game

본 논문은 Echo 프레임워크를 통해 환경 지식을 5가지 전이 차원으로 분해하고 CSD를 통해 이를 통일된 의미론적 형태로 변환하여 관리합니다 . CSD는 시각적 및 텍스트 정보를 벡터화된 임베딩과 결합하여 메모리 뱅크에 저장하며, 이를 통해 ICAL 알고리즘이 관련 경험을 정밀하게 검색할 수 있도록 지원합니다 .

#Review #Multimodal LLM Agent #Experience Transfer #In-Context Analogy Learning (ICAL)#Minecraft #Contextual State Descriptor (CSD)#Embodied Intelligence

2026년 4월 7일

[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies

arXiv에 게시된 'Demystifying When Pruning Works via Representation Hierarchies' 논문에 대한 자세한 리뷰입니다.

#Review #Network Pruning #Large Language Models #Representation Hierarchy #Autoregressive Decoding #Softmax Nonlinearity

2026년 4월 7일

[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .

#Review #Diffusion Large Language Models #Post-Training #Reinforcement Learning #Unified Framework #Systems Optimization

2026년 4월 7일

[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents

arXiv에 게시된 'Context-Value-Action Architecture for Value-Driven Large Language Model Agents' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Value Alignment #Behavioral Fidelity #S-O-R Model #Value-Driven Reasoning #CVABench

2026년 4월 7일

[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

arXiv에 게시된 'Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents' 논문에 대한 자세한 리뷰입니다.

#Review #Autonomous Agents #Benchmark #Trajectory-aware Grading #Safety Evaluation #Robustness Testing #Multimodal Perception

2026년 4월 7일

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.

#Review #fMRI #Transformer #Tokenization #Deep Compression Autoencoder #Self-supervised Learning #Long-range Dynamics

2026년 4월 7일