[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .#Review#Large Language Models#Reinforcement Learning#Reasoning#Self-Refinement#RLVR#Policy Optimization#Implicit Curriculum2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning본 논문은 정적인 과학 그래픽을 편집 가능한 TikZ 코드로 역공학(Reverse-engineering)하는 과정에서 발생하는 엄격한 공간적 제약 문제를 해결하고자 합니다.#Review#Graphics Program Synthesis#TikZ#Reinforcement Learning#Multimodal Large Language Models#Self-Consistency#Round-Trip Verification2026년 4월 7일댓글 수 로딩 중
[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization본 논문은 LLM 기반의 자동 프로그램 복구 기법에서 빈번하게 발생하는 Over-editing 문제를 해결하고자 합니다. 기존 모델들은 복구의 정확성(Correctness)만을 최적화하기 때문에, 버그를 정교하게 식별하지 못하고 전체 코드를 과도하게 수정하는 경향이 있습니다.#Review#Program Repair#Over-editing#LLMs#Reinforcement Learning#EA-GRPO#Speculative Edits#Code Maintainability2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework본 논문은 문헌 탐색부터 분석, 비평까지 연구 전 과정을 지원하는 다중 에이전트 플랫폼인 Paper Circle을 제안한다. 시스템은 Discovery Pipeline과 Analysis Pipeline으로 구성되며, 연구자는 CodeAgent(CoA) 기반의 오케스트레이션 프레임워크를 통해 결정론적이고 추적 가능한 결과를 얻을 수 있다 , .#Review#Multi-agent Systems#Research Discovery#Knowledge Graph#Large Language Models#Academic Literature Review2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPUMegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .#Review#Large Language Models#Memory-Centric#CPU-GPU Offloading#Parameter Streaming#Stateless Execution#Pipelined Execution#Single-GPU Training2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MedGemma 1.5 Technical Report본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .#Review#MedGemma#Multimodal Learning#Medical Imaging#Foundation Models#Volumetric Analysis#Histopathology#Clinical Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.#Review#Multimodal Embedding#Large Language Models#Chain-of-Thought#Reinforcement Learning#Latent Variable#Causal Inference2026년 4월 7일댓글 수 로딩 중
[논문리뷰] In-Place Test-Time Training본 논문은 정적인 'train then deploy' 패러다임이 LLM의 동적 적응 능력을 제한하는 문제를 해결하기 위해 In-Place TTT 를 제안합니다.#Review#In-Place Test-Time Training#Large Language Models#Fast Weights#Next-Token Prediction#Chunk-Wise Update#Continual Learning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.#Review#LLM Agents#Agentic Skills#Skill Retrieval#Skill Refinement#Benchmarking#Test-time Adaptation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.#Review#Autonomous Bug Discovery#Large Language Models#Game Benchmark#Quality Assurance#Multi-agent System#Software Engineering2026년 4월 7일댓글 수 로딩 중
[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.#Review#Peer Review#Evidence-Grounded#Claim Verification#Reproducibility#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Experience Transfer for Multimodal LLM Agents in Minecraft Game본 논문은 Echo 프레임워크를 통해 환경 지식을 5가지 전이 차원으로 분해하고 CSD를 통해 이를 통일된 의미론적 형태로 변환하여 관리합니다 . CSD는 시각적 및 텍스트 정보를 벡터화된 임베딩과 결합하여 메모리 뱅크에 저장하며, 이를 통해 ICAL 알고리즘이 관련 경험을 정밀하게 검색할 수 있도록 지원합니다 .#Review#Multimodal LLM Agent#Experience Transfer#In-Context Analogy Learning (ICAL)#Minecraft#Contextual State Descriptor (CSD)#Embodied Intelligence2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다.#Review#Network Pruning#Large Language Models#Representation Hierarchy#Autoregressive Decoding#Softmax Nonlinearity2026년 4월 7일댓글 수 로딩 중
[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .#Review#Diffusion Large Language Models#Post-Training#Reinforcement Learning#Unified Framework#Systems Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents본 논문은 LLM 기반 에이전트가 인간의 행동을 시뮬레이션할 때 발생하는 Behavioral Rigidity 와 양극화 문제를 해결하고자 합니다.#Review#LLM Agents#Value Alignment#Behavioral Fidelity#S-O-R Model#Value-Driven Reasoning#CVABench2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.#Review#Autonomous Agents#Benchmark#Trajectory-aware Grading#Safety Evaluation#Robustness Testing#Multimodal Perception2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.#Review#fMRI#Transformer#Tokenization#Deep Compression Autoencoder#Self-supervised Learning#Long-range Dynamics2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .#Review#World Action Model#Robot Policy Learning#Multiview Video Generation#Pixel-grounded Representation#Zero-shot Policy2026년 4월 7일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중