[논문리뷰] Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs대규모 LLM 배포 환경에서 각 쿼리당 최적의 LLM을 효율적으로 선택하는 문제를 해결하는 것이 목표입니다.#Review#LLM Routing#Contextual Bandits#Bandit Feedback#Multi-objective Optimization#Preference-tuning#Policy Gradient#Cost-efficiency2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.#Review#LLM Agents#Continuous Learning#Self-Evolving#Memory Module#Long-Horizon Planning#Productivity Tasks#Test-Time Learning#Experience Replay2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.#Review#Diffusion Distillation#Consistency Models#Score Regularization#Large-Scale Generative Models#Text-to-Image#Text-to-Video#Model Acceleration#JVP2025년 10월 10일댓글 수 로딩 중
[논문리뷰] LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions본 논문은 대규모 언어 모델(LLM)에서 발생하는 ' emergent misalignment' 현상이 윤리적 또는 규범적 행동을 넘어 고위험 시나리오에서의 비정직성(dishonesty) 및 기만(deception) 영역으로 확장되는지 탐구합니다.#Review#LLM Misalignment#Dishonesty#Deception#Finetuning#Human-AI Interaction#Biased Feedback#Emergent Behavior2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.#Review#Visual Editing#MLLM Guidance#Diffusion Models#Image Editing#Video Editing#Unified Framework#Multimodal AI#Instruction-based Editing2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Reward Modeling#Large Language Models (LLMs)#Mathematical Reasoning#Sparse Rewards#Dense Rewards#Hybrid Reinforcement#Verifier-based Rewards2025년 10월 10일댓글 수 로딩 중
[논문리뷰] GCPO: When Contrast Fails, Go Gold본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#LLMs Reasoning#Policy Optimization#Contrastive Learning#Chain of Thought#Reference Answers#Math Reasoning#Gold-Standard Answer2025년 10월 10일댓글 수 로딩 중
[논문리뷰] From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning본 논문은 화학 반응 조건 추천에서 단순히 '무엇(what)'을 예측하는 것을 넘어 '왜(why)' 특정 조건이 적절한지에 대한 설명 가능한 근거 를 제공하는 것을 목표로 합니다.#Review#Multi-Agent System#Chemical Reaction Prediction#Explainable AI#Evidence-Based Reasoning#Large Language Models#Tool-Augmented LLMs#Scientific Discovery2025년 10월 10일댓글 수 로딩 중
[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.#Review#Large Language Models (LLMs)#Reasoning#Chain-of-Thought (CoT)#Reflection#Early Stopping#Supervised Fine-tuning (SFT)#Token Efficiency#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Fidelity-Aware Data Composition for Robust Robot Generalization본 논문은 대규모 시각적으로 균질한 데이터셋으로 훈련된 로봇 정책이 Shortcut Learning 에 취약하여 Out-of-Distribution (OOD) 일반화 가 저해되는 문제를 해결하고자 합니다.#Review#Robot Generalization#Data Augmentation#Out-of-Distribution (OOD)#Shortcut Learning#Information Fidelity#Data Composition#Diffusion Models#Multi-View Video Synthesis2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.#Review#Entropy Regularization#Activation Functions#Continuous Control#Large Language Models#Image Classification#Reinforcement Learning#Policy Stochasticity#Entropy Constraints2025년 10월 10일댓글 수 로딩 중
[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.#Review#Dexterous Manipulation#In-Hand Rotation#Sim-to-Real Transfer#Neural Dynamics Model#Joint-Wise Learning#Autonomous Data Collection#Reinforcement Learning#Robotics2025년 10월 10일댓글 수 로딩 중
[논문리뷰] DeepPrune: Parallel Scaling without Inter-trace Redundancy논문은 LLM의 병렬 추론(parallel reasoning)에서 발생하는 심각한 inter-trace redundancy 문제 를 해결하고, 높은 성능을 유지하면서도 계산 효율성을 대폭 향상 시키는 것을 목표로 합니다.#Review#Parallel Scaling#Chain-of-Thought#LLM Reasoning#Dynamic Pruning#Inter-trace Redundancy#Judge Model#Resource Efficiency#Answer Diversity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.#Review#Multi-Agent Systems#LLM Agents#Self-Evolution#Reinforcement Learning#Interaction Rewards#LLM-as-a-Judge#Decentralized Learning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Deep Search Agents#Dynamic Context Window#Reinforcement Learning#Long-horizon Interaction#Context Management#High-difficulty Tasks#Multi-turn Reasoning#Web Agents2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Quantization#Optimizers#LLM#Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation#Scaling Laws#Shampoo2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Agent Learning via Early Experience본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.#Review#Language Agents#Early Experience#Reward-Free Learning#World Modeling#Self-Reflection#Imitation Learning#Reinforcement Learning#Out-of-Domain Generalization2025년 10월 10일댓글 수 로딩 중
[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.#Review#3D Reconstruction#Monocular SLAM#Gaussian Splatting#Level of Detail (LoD)#Feed-Forward Models#Structured Scene Representation#Real-time#High-Fidelity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.#Review#Question Answering#Reinforcement Learning#Large Language Models#Ambiguity Resolution#Multi-hop QA#Automated Data Generation#Tool-Augmented LLMs#AnsF1 Reward2025년 10월 10일댓글 수 로딩 중
[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation로봇 조작을 위한 VLA(Vision-Language-Action) 모델 은 미세한 손-객체 상호작용을 포착하는 손목 시점(wrist-view) 관찰에 크게 의존하지만, 대규모 데이터셋에서는 이러한 손목 시점 데이터가 부족합니다.#Review#4D World Models#Robotic Manipulation#Video Generation#Multi-view Synthesis#Visual-Language-Action (VLA)#Geometric Consistency#Diffusion Models#Wrist-View2025년 10월 9일댓글 수 로딩 중