[논문리뷰] Agent-as-a-Judge본 논문은 LLM-as-a-Judge의 한계(내재된 편향, 피상적인 추론, 실제 관찰에 대한 검증 불가능성)를 극복하기 위해 Agent-as-a-Judge 패러다임으로의 전환을 포괄적으로 탐구하는 것을 목표로 합니다.#Review#Agent-as-a-Judge#LLM Evaluation#Multi-Agent Systems#Tool Integration#AI Alignment#Automated Assessment#Survey2026년 1월 8일댓글 수 로딩 중
[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.#Review#Agentic RL#Multi-turn Tasks#Policy Optimization#Tree Search#Credit Assignment#Exploration Diversity#LLM Agents2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts본 논문은 최신 추론형 LLM(Large Language Models)이 최소한의 코드 스캐폴딩과 기본적인 도구를 사용하여 연구 아이디어 구상부터 최종 연구 논문 작성까지 높은 자율성 을 가지고 수행할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Machine Learning Research#Autonomous Research#LLM Agents#Scientific Workflow#Failure Modes#Experimental Design#AI Scientist#Agentic Systems2026년 1월 7일댓글 수 로딩 중
[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reasoning#Chain-of-Thought#Multimodal Generative Models#Reward Modeling#VLM2026년 1월 7일댓글 수 로딩 중
[논문리뷰] RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization기존 3D Gaussian Splatting (3DGS) SLAM 시스템의 residual-driven densification 방식이 초래하는 불안정한 수렴과 불균일한 지오메트리 문제를 해결하는 것입니다.#Review#Gaussian Splatting#SLAM#Dense Initialization#Real-Time Tracking#Differentiable Rendering#DINOv32026년 1월 7일댓글 수 로딩 중
[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.#Review#Molecular Dynamics#LAMMPS#Code Generation#Knowledge Q&A#Large Language Models#Reinforcement Learning#Multi-agent System#Domain Adaptation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents기존 Memory-Augmented Generation (MAG) 시스템들이 단일 메모리 저장소에서 의미론적 유사성에 의존하여 시간, 인과, 엔티티 정보를 얽히게 하여 발생하는 해석 가능성 및 추론 정확도 한계를 해결하고자 합니다.#Review#Agentic Memory#Large Language Models#Retrieval-Augmented Generation#Knowledge Graphs#Multi-Graph Architecture#Long-Context Reasoning#Memory Evolution2026년 1월 7일댓글 수 로딩 중
[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.#Review#Epidemiological Question Answering#Large Language Models#Benchmark#Multi-step Inference#Evidence Grounding#LLM Evaluation#Public Health AI#Chain-of-Thought2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.#Review#Supervised Fine-Tuning (SFT)#Catastrophic Forgetting#Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation#Reinforcement Learning (RL)#Confident Conflicts2026년 1월 7일댓글 수 로딩 중
[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Flow Models#Entropy-aware Sampling#Group Relative Policy Optimization#SDE#Human Preference Alignment#Image Generation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.#Review#Hate Speech Detection#Explainable AI (XAI)#Multilingual NLP#Large Language Models (LLMs)#Attention Mechanism#N-gram Explanations#Human Rationales#Benchmark Dataset2026년 1월 6일댓글 수 로딩 중
[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.#Review#Unified Multimodal Models#Self-Supervised Learning#Text-to-Image Generation#Multi-Agent Framework#Cognitive Pattern Reconstruction#Cycle-Consistency#Conduction Aphasia2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.#Review#LLM Steerability#Instrumental Convergence#AI Safety#AI Security#Open-Weight Models#Prompt Engineering#Model Control#Behavioral Alignment2026년 1월 6일댓글 수 로딩 중
[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Online Post-training#Scalable Robot Learning#Distributed Systems#Multi-task Learning#Imitation Learning#Reinforcement Learning2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Parallel Latent Reasoning for Sequential Recommendation순차 추천 시스템에서 희소한 사용자 행동 시퀀스로부터 복잡한 사용자 선호를 포착하는 문제를 해결하는 것이 목표입니다.#Review#Sequential Recommendation#Latent Reasoning#Parallel Processing#Computational Scaling#Mixture of Experts#Contrastive Learning#Transformer Architecture2026년 1월 6일댓글 수 로딩 중
[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.#Review#Generalist Agents#Foundation Models#Behavior Cloning#Video Games#Action Extraction#Multi-game#Embodied AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] MiMo-V2-Flash Technical Report본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sliding Window Attention#Multi-Token Prediction#Multi-Teacher On-Policy Distillation#Reinforcement Learning#Long-Context Modeling#Agentic AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields기존의 이산적인 이미지 그리드 기반 깊이 추정 방식이 가지는 해상도 확장성 및 기하학적 세부 정보 복구의 한계를 극복하는 것을 목표로 합니다.#Review#Depth Estimation#Neural Implicit Fields#Arbitrary Resolution#Fine-Grained#Novel View Synthesis#Vision Transformer#Synth4K Benchmark2026년 1월 6일댓글 수 로딩 중
[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.#Review#Video Editing#First-Frame Propagation (FFP)#Large-Scale Dataset#Generative Models#Temporal Consistency#Spatio-Temporal RoPE#Self-Distillation2026년 1월 6일댓글 수 로딩 중