[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models기존 비디오 벤치마크들이 일반 시나리오와 단순 추론에 집중하여 최신 대규모 멀티모달 모델(LMM) 의 고급 인지 능력을 평가하는 데 한계가 있음을 지적하며, 과학 분야에서의 복잡한 비디오 추론 능력을 종합적으로 평가할 수 있는 엄격한 벤치마크인 SciVideoBench 를 구축하는 것을 목표로 합니다.#Review#Video Reasoning#Multimodal AI#Scientific Research#Large Multimodal Models#Benchmark#Quantitative Reasoning#Domain Knowledge#Visual Grounding2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SViM3D: Stable Video Material Diffusion for Single Image 3D Generation본 논문은 단일 이미지로부터 다중 시점 일관성 있는 PBR(Physically Based Rendering) 재질(알베도, 러프니스, 메탈릭, 표면 노멀) 을 예측하는 프레임워크를 제시하며, 이는 단일 이미지 기반 역렌더링 의 고질적인 난제를 해결하고자 합니다.#Review#Single Image 3D Reconstruction#Material Prediction#Video Diffusion Models#Physically Based Rendering (PBR)#Inverse Rendering#Novel View Synthesis#Camera Control#Latent Diffusion2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.#Review#Diffusion Models#Reinforcement Learning#Preference Optimization#Group Preference#Direct Preference Optimization#ODE Samplers#Efficient Training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training본 논문은 대규모 언어 모델(LLM) 사전 훈련의 급증하는 계산 비용 문제를 해결하기 위해, 기존의 사전 훈련된 체크포인트에 투자된 '매몰 비용(sunk cost)'을 효율적으로 재활용하여 모델을 성장시키는 방법을 제안합니다.#Review#Mixture-of-Experts#Large Language Models#Checkpoint Recycling#Model Growth#Efficient Pretraining#Depth Growth#Width Growth#Sunk Cost2025년 10월 10일댓글 수 로딩 중
[논문리뷰] R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation본 연구는 로봇 매니퓰레이션에서 공간적 일반화 를 위한 방대한 인간 시연 데이터 의 필요성을 해결하고자 합니다.#Review#Robotic Manipulation#Data Augmentation#Spatial Generalization#3D Data Generation#Imitation Learning#Point Cloud#Real-to-Real#Mobile Manipulation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.#Review#LLM Agents#Scientific Law Discovery#Benchmarking#Metaphysical Shifts#Interactive Environments#Exploration-Exploitation#Tool Use2025년 10월 10일댓글 수 로딩 중
[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints본 논문은 기존 Compositional MLLMs의 분리된 훈련으로 인한 불분명한 멀티모달 스케일링 속성 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Native MLLMs#Scaling Laws#Data Constraints#Visual Encoder#LLM Initialization#Mixture-of-Experts#End-to-end Training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.#Review#Meta-Awareness#Reinforcement Learning#Self-Alignment#LLM Reasoning#Training Efficiency#Generalization#Predictive Gating2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#LLM Interpretability#Function Tokens#Memory Retrieval#Memory Consolidation#Sparse Autoencoders#Pre-training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MemMamba: Rethinking Memory Patterns in State Space Model본 논문은 기존 Mamba와 같은 State Space Model (SSM) 이 가지는 장거리 메모리 지수적 감쇠 문제를 체계적으로 분석하고, 이러한 한계를 극복하여 선형 복잡도를 유지하면서도 초장문맥에서 효과적으로 정보를 유지하고 활용하는 새로운 아키텍처를 제안하는 것을 목표로 합니다.#Review#State Space Models#Mamba#Long-sequence modeling#Memory decay#State summarization#Cross-layer attention#Perplexity#Linear complexity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.#Review#Multimodal LLMs#Reflective Reasoning#Long-Chain Reasoning#Benchmark#Policy Optimization#Data Generation#Reinforcement Learning#Backtracking2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Exploration#Verifiable Reward#Low-Probability Regularization#Reasoning Sparks#Policy Entropy#KL Divergence#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.#Review#Reward Model#Long Context#LLM Alignment#Multi-stage Training#Context Window Scaling#Preference Learning#Long-RewardBench2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs대규모 LLM 배포 환경에서 각 쿼리당 최적의 LLM을 효율적으로 선택하는 문제를 해결하는 것이 목표입니다.#Review#LLM Routing#Contextual Bandits#Bandit Feedback#Multi-objective Optimization#Preference-tuning#Policy Gradient#Cost-efficiency2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.#Review#LLM Agents#Continuous Learning#Self-Evolving#Memory Module#Long-Horizon Planning#Productivity Tasks#Test-Time Learning#Experience Replay2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.#Review#Diffusion Distillation#Consistency Models#Score Regularization#Large-Scale Generative Models#Text-to-Image#Text-to-Video#Model Acceleration#JVP2025년 10월 10일댓글 수 로딩 중
[논문리뷰] LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions본 논문은 대규모 언어 모델(LLM)에서 발생하는 ' emergent misalignment' 현상이 윤리적 또는 규범적 행동을 넘어 고위험 시나리오에서의 비정직성(dishonesty) 및 기만(deception) 영역으로 확장되는지 탐구합니다.#Review#LLM Misalignment#Dishonesty#Deception#Finetuning#Human-AI Interaction#Biased Feedback#Emergent Behavior2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.#Review#Visual Editing#MLLM Guidance#Diffusion Models#Image Editing#Video Editing#Unified Framework#Multimodal AI#Instruction-based Editing2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Reward Modeling#Large Language Models (LLMs)#Mathematical Reasoning#Sparse Rewards#Dense Rewards#Hybrid Reinforcement#Verifier-based Rewards2025년 10월 10일댓글 수 로딩 중
[논문리뷰] GCPO: When Contrast Fails, Go Gold본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#LLMs Reasoning#Policy Optimization#Contrastive Learning#Chain of Thought#Reference Answers#Math Reasoning#Gold-Standard Answer2025년 10월 10일댓글 수 로딩 중