Review

[논문리뷰] Agent-as-a-Judge

본 논문은 LLM-as-a-Judge의 한계(내재된 편향, 피상적인 추론, 실제 관찰에 대한 검증 불가능성)를 극복하기 위해 Agent-as-a-Judge 패러다임으로의 전환을 포괄적으로 탐구하는 것을 목표로 합니다.

#Review #Agent-as-a-Judge #LLM Evaluation #Multi-Agent Systems #Tool Integration #AI Alignment #Automated Assessment #Survey

2026년 1월 8일

[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Agentic RL #Multi-turn Tasks #Policy Optimization #Tree Search #Credit Assignment #Exploration Diversity #LLM Agents

2026년 1월 8일

[논문리뷰] Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

본 논문은 최신 추론형 LLM(Large Language Models)이 최소한의 코드 스캐폴딩과 기본적인 도구를 사용하여 연구 아이디어 구상부터 최종 연구 논문 작성까지 높은 자율성 을 가지고 수행할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Machine Learning Research #Autonomous Research #LLM Agents #Scientific Workflow #Failure Modes #Experimental Design #AI Scientist #Agentic Systems

2026년 1월 7일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization

기존 3D Gaussian Splatting (3DGS) SLAM 시스템의 residual-driven densification 방식이 초래하는 불안정한 수렴과 불균일한 지오메트리 문제를 해결하는 것입니다.

#Review #Gaussian Splatting #SLAM #Dense Initialization #Real-Time Tracking #Differentiable Rendering #DINOv3

2026년 1월 7일

[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.

#Review #Molecular Dynamics #LAMMPS #Code Generation #Knowledge Q&A #Large Language Models #Reinforcement Learning #Multi-agent System #Domain Adaptation

2026년 1월 7일

[논문리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

기존 Memory-Augmented Generation (MAG) 시스템들이 단일 메모리 저장소에서 의미론적 유사성에 의존하여 시간, 인과, 엔티티 정보를 얽히게 하여 발생하는 해석 가능성 및 추론 정확도 한계를 해결하고자 합니다.

#Review #Agentic Memory #Large Language Models #Retrieval-Augmented Generation #Knowledge Graphs #Multi-Graph Architecture #Long-Context Reasoning #Memory Evolution

2026년 1월 7일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.

#Review #Supervised Fine-Tuning (SFT)#Catastrophic Forgetting #Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation #Reinforcement Learning (RL)#Confident Conflicts

2026년 1월 7일

[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Flow Models #Entropy-aware Sampling #Group Relative Policy Optimization #SDE #Human Preference Alignment #Image Generation

2026년 1월 7일

[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.

#Review #Hate Speech Detection #Explainable AI (XAI)#Multilingual NLP #Large Language Models (LLMs)#Attention Mechanism #N-gram Explanations #Human Rationales #Benchmark Dataset

2026년 1월 6일

[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Self-Supervised Learning #Text-to-Image Generation #Multi-Agent Framework #Cognitive Pattern Reconstruction #Cycle-Consistency #Conduction Aphasia

2026년 1월 6일

[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs

본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.

#Review #LLM Steerability #Instrumental Convergence #AI Safety #AI Security #Open-Weight Models #Prompt Engineering #Model Control #Behavioral Alignment

2026년 1월 6일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] Parallel Latent Reasoning for Sequential Recommendation

순차 추천 시스템에서 희소한 사용자 행동 시퀀스로부터 복잡한 사용자 선호를 포착하는 문제를 해결하는 것이 목표입니다.

#Review #Sequential Recommendation #Latent Reasoning #Parallel Processing #Computational Scaling #Mixture of Experts #Contrastive Learning #Transformer Architecture

2026년 1월 6일

[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents

논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.

#Review #Generalist Agents #Foundation Models #Behavior Cloning #Video Games #Action Extraction #Multi-game #Embodied AI

2026년 1월 6일

[논문리뷰] MiMo-V2-Flash Technical Report

본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sliding Window Attention #Multi-Token Prediction #Multi-Teacher On-Policy Distillation #Reinforcement Learning #Long-Context Modeling #Agentic AI

2026년 1월 6일

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Audio-Video #Diffusion Transformer #Cross-Modal Attention #Classifier-Free Guidance #Efficient Inference #Foundation Model

2026년 1월 6일

[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

기존의 이산적인 이미지 그리드 기반 깊이 추정 방식이 가지는 해상도 확장성 및 기하학적 세부 정보 복구의 한계를 극복하는 것을 목표로 합니다.

#Review #Depth Estimation #Neural Implicit Fields #Arbitrary Resolution #Fine-Grained #Novel View Synthesis #Vision Transformer #Synth4K Benchmark

2026년 1월 6일

[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.

#Review #Video Editing #First-Frame Propagation (FFP)#Large-Scale Dataset #Generative Models #Temporal Consistency #Spatio-Temporal RoPE #Self-Distillation

2026년 1월 6일