[논문리뷰] Can Predicted Dynamics Exist in the Physical World?본 논문은 시뮬레이션 환경에서 학습된 Predicted Dynamics가 실제 Physical World로 전이될 때 발생하는 성능 저하 및 불일치 문제를 해결하고자 한다.#Review#Physical Dynamics#Predictive Modeling#System Identification#Generalization#Real-world Deployment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration실세계 이미지 복원(IR) 모델은 학습 데이터 부족으로 인해 실제 환경에서의 일반화 성능이 현저히 떨어지는 고질적인 병목 현상을 겪고 있습니다. 합성 데이터는 실세계의 복잡한 열화(degradation) 과정을 제대로 모델링하지 못하며, 실제 촬영된 데이터는 비용과 확장성 및 장면 다양성 확보에 한계가 있습니다.#Review#Image Restoration#Generative Ground Truth#Multimodal Foundation Models#Generalization#Dataset Construction#Quality Control2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models본 논문은 기존의 Chart QA 벤치마크가 VLM의 진정한 시각적 추론 능력을 정확히 측정하지 못하고, 단순한 시각적 패턴 매칭이나 사전 학습된 파라메트릭 지식에 의한 '지름길(Shortcut)'을 활용하고 있다는 문제를 제기합니다.#Review#Vision-Language Models#Chart QA#Counterfactual Generation#Visual Reasoning#Shortcut Learning#Generalization2026년 5월 27일댓글 수 로딩 중
[논문리뷰] A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook본 논문은 LALMs 분야의 급격한 발전에도 불구하고, 모델의 성능 평가 기준과 범용적 활용에 대한 통합적인 체계가 부족하다는 점을 해결하고자 한다.#Review#Large Audio Language Models#Audio-Language Pretraining#Multimodal Foundation Models#Audio Reasoning#Model Alignment#Generalization#Trustworthiness2026년 5월 20일댓글 수 로딩 중
[논문리뷰] AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents본 연구는 GPU 커널 최적화 작업이 딥러닝 시스템의 효율성에 핵심적임에도 불구하고, 기존 벤치마크들이 이를 충분히 포괄하지 못한다는 문제 의식에서 출발합니다.#Review#GPU Kernel Optimization#AI Coding Agents#Generalization#Performance Benchmarking#Triton#HIP#LLM Evaluation2026년 5월 18일댓글 수 로딩 중
[논문리뷰] FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction본 논문은 기존 3D avatar 재구성 기법들이 요구하는 과도한 연산 시간과 복잡한 사전 처리의 한계를 극복하기 위해 FFAvatar를 제안한다.#Review#3D Gaussian Splatting#Feed-Forward#Few-Shot#Avatar Reconstruction#FLAME#Multi-View#Generalization2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Context Training with Active Information Seeking본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.#Review#Context Training#Active Information Seeking#Beam Search#Working Memory#LLM Optimization#Context Pollution#Generalization2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.#Review#Web Agent#Knowledge Distillation#Synthetic Data#Trajectory Synthesis#Agent-as-Annotators#Supervised Fine-Tuning#Generalization2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.#Review#Supervised Fine-Tuning#Chain-of-Thought#Generalization#Model Capability#Optimization Dynamics#Safety Degradation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .#Review#Knowledge Distillation#Dense Retrieval#Stratified Sampling#Score Distribution#Information Retrieval#Generalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] PLDR-LLMs Reason At Self-Organized Criticality본 연구는 Large Language Models (LLMs)에서 reasoning 능력이 어떻게 발현되며 이를 어떻게 효과적으로 정량화할 수 있는지에 대한 핵심 문제를 다룬다.#Review#PLDR-LLMs#Self-Organized Criticality#Reasoning#Deductive Outputs#Order Parameter#Phase Transitions#Generalization#Attention Mechanism2026년 3월 25일댓글 수 로딩 중
[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View SynthesisNovel View Synthesis (NVS)는 기존 뷰들을 기반으로 새로운 시점 이미지를 생성하는 중요한 태스크이다.#Review#Novel View Synthesis (NVS)#Latent Geometry#Real-time Rendering#3D Inductive Biases#Encoder-Decoder#VGGT#Generalization#Diffusion Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.#Review#Agentic Task Synthesis#Diversity Scaling#Tool Use#Generalization#Reinforcement Learning#Supervised Fine-tuning2026년 3월 12일댓글 수 로딩 중
[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization#Large Language Models (LLMs)#Generalization#Robustness#Reasoning Tasks2026년 3월 11일댓글 수 로딩 중
[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.#Review#Vision-Language Models#Prompt Tuning#Foreground Attention#Adaptive Learning#Generalization#Base-to-New Trade-off#Attention Guidance2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Demystifying Action Space Design for Robotic Manipulation Policies로봇 조작 정책 학습에서 액션 공간 설계가 주로 경험적 휴리스틱에 의해 이루어져 최적화 및 안정성에 대한 체계적인 이해가 부족한 문제를 해결하는 것입니다. 이 연구는 시간적(절대값 vs. 델타) 및 공간적(조인트-공간 vs.#Review#Robotic Manipulation#Action Space Design#Imitation Learning#Delta Actions#Joint Space Control#Task Space Control#Generalization#Control Stability2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Distribution-Conditioned Transport본 논문은 기계 학습에서 흔히 발생하는, 훈련 중 관찰되지 않은 소스 및 타겟 분포로 전이 모델을 일반화 하는 문제를 해결하는 것을 목표로 합니다.#Review#Distribution-Conditioned Transport#Generative Distribution Embeddings#Optimal Transport#Flow Matching#Semi-Supervised Learning#Generalization#Single-cell Genomics#Batch Effect Transfer2026년 3월 5일댓글 수 로딩 중
[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.#Review#Synthetic Data#LLM Reasoning#Chain-of-Thought#Data Efficiency#Post-training#Generalization#Quality Control#Domain Coverage2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.#Review#Agentic AI#Long-Horizon Search#Parallel Execution#Data Synthesis#Reinforcement Learning#Generalization#Efficiency#LLM Agent2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.#Review#End-to-End Autonomous Driving#World Model Predictive Control#Risk-Aware#Generalization#Self-Supervised Learning#Scenario Exploration#Autonomous Systems2026년 2월 26일댓글 수 로딩 중
[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.#Review#World Model#Action Generation#Vision-Language-Action Models (VLA)#Condition Space#Imitation Learning#Robotics#Generalization#Human Manipulation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Foundation Models#Ablation Study#Generalization#LIBERO Benchmark#Time-Series Forecasting2026년 2월 23일댓글 수 로딩 중
[논문리뷰] A Very Big Video Reasoning Suite본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.#Review#Video Reasoning#Large-scale Dataset#Benchmark#Cognitive Architecture#Scaling Studies#Video Generation#Generalization#Rule-based Evaluation2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.#Review#Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition#Data Scaling#LLM Training#Generalization#Overfitting#Reasoning Models2026년 2월 11일댓글 수 로딩 중
[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.#Review#Vision-Language-Action (VLA)#Latent World Model#JEPA#Pretraining#Robot Learning#Generalization#Robustness#Human Videos2026년 2월 10일댓글 수 로딩 중
[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.#Review#Environment Synthesis#Tool-Use Agents#Reinforcement Learning#Generalization#Procedural Generation#LLM Agents#Interactive Environments#Data Scaling2026년 2월 10일댓글 수 로딩 중
[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning본 논문은 정적 이미지에 운전 비디오의 움직임을 적용하여 고품질 애니메이션 비디오를 생성하는 캐릭터 이미지 애니메이션의 두 가지 근본적인 문제점을 해결하고자 합니다.#Review#Character Animation#Image Animation#Spatiotemporal Learning#In-Context Learning#Diffusion Models#Motion Transfer#Generalization#Video Generation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Tool Orchestration#Visual Reasoning#Reinforcement Learning#Adaptive Learning#Generalization#Tool Use2026년 1월 27일댓글 수 로딩 중
[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.#Review#LLM-in-Sandbox#Agentic Intelligence#Code Sandbox#Reinforcement Learning#Generalization#Tool Use#Multi-Modal Generation#Long-Context Processing2026년 1월 22일댓글 수 로딩 중
[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Computer-Using Agent (CUA)#Multi-Agent Framework#Long-horizon Tasks#Memory Management#Multimodal Retrieval#Reflection#Generalization2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.#Review#3D Shape Generation#Memorization#Generative Models#Diffusion Models#Evaluation Framework#Generalization#Data Augmentation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.#Review#LLM Agents#Memory Systems#Meta-Evolution#Self-Evolving AI#Memory Architecture#EvolveLab#Generalization2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Stronger Normalization-Free Transformers본 논문은 트랜스포머 아키텍처에서 필수적이었던 정규화 계층(Normalization Layers)의 의존성을 제거 하고, 단순히 기존 정규화 계층의 성능에 필적하는 것을 넘어 이를 능가하는 새로운 점별 함수(point-wise function)를 발견 하는 것을 목표로 합니다.#Review#Normalization-Free Transformers#Point-wise Functions#Error Function#Deep Learning#Transformer Architecture#Generalization#Normalization Layers2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Modular Neural Image Signal Processing본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.#Review#Neural ISP#Modular Architecture#Raw Image Processing#Photo-Editing#Camera Agnostic#Generalization#Deep Learning#Image Enhancement2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.#Review#Vision-Language Navigation#Dual-System Architecture#Foundation Models#Diffusion Policies#Robotics#Real-time Control#Generalization#Autonomous Navigation2025년 12월 9일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Pre-training#Mid-training#Reasoning LMs#Generalization#Synthetic Reasoning Tasks#Process-level Supervision2025년 12월 8일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.#Review#Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning#Generalization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT#Maze Solving2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.#Review#GUI Agents#Screen Navigation#Reinforcement Learning#Multi-Turn RL#Simulation#Supervised Fine-tuning#Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.#Review#3D Gaussian Splatting#Generalization#Sharpness-Aware Minimization#Regularization#Novel View Synthesis#Sparse View Reconstruction#Loss Landscape#Frequency-Adaptive2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMsMoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.#Review#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization#Manifold Regularization#Generalization#Post-training Fine-tuning#Task Embedding Alignment2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.#Review#Reinforcement Learning#LLMs#Generalization#Overfitting#Catastrophic Forgetting#Iterative Policy Optimization#Policy Diversity2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Language Models#Adaptive Environments#Verifiable Environments#Procedural Generation#Curriculum Learning#Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Contamination Detection for VLMs using Multi-Modal Semantic Perturbation본 연구는 Vision-Language Models(VLMs)에서 데이터 오염(test-set leakage) 으로 인한 성능 과대평가 문제를 해결하기 위한 신뢰성, 실용성, 일관성 있는 탐지 방법론 을 개발하는 것을 목표로 합니다.#Review#VLM Contamination#Test-set Leakage#Multi-modal Perturbation#Generative Models#Generalization#Model Memorization#VLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.#Review#Robotics#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Reward Modeling#Human-in-the-Loop#Dense Rewards#Generalization#Autoregressive Models2025년 9월 22일댓글 수 로딩 중
[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Robotic Manipulation#Data Scarcity#Generalization#Sim-to-Real Transfer#Online RL#Long-Horizon Planning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Visual Foresight#Predictive Inverse Dynamics#Mixture-of-Transformer#Robot Manipulation#Multi-stage Training#Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.#Review#LLM Evaluation#Model Robustness#Benchmark Reliability#Paraphrasing#Linguistic Variability#Generalization#Question Answering2025년 9월 8일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.#Review#Embodied AI#Robot Control#Vision-Language-Action Models#Multimodal Pretraining#Flow Matching#Foundation Models#Generalization#Real-world Robotics2025년 9월 1일댓글 수 로딩 중
[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement LearningGUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.#Review#GUI Agents#Reinforcement Learning#Planner-Executor Architecture#Decoupled Training#Large Vision-Language Models#Specialization#Generalization#Computer Use Agent2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.#Review#Reasoning Depth#Cellular Automata#Transformer Architectures#Recurrence#Adaptive Computation Time#Chain-of-Thought#Reinforcement Learning#Generalization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.#Review#Medical Image Segmentation#Model Merging#Training-Free#SAM#Generalization#Zero-Order Optimization#Bayesian Optimization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.#Review#Robot Learning#Generalization#Shortcut Learning#Dataset Diversity#Dataset Fragmentation#Data Augmentation#Imitation Learning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.#Review#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization#Reward Rectification#Dynamic Fine-Tuning (DFT)#LLM#Policy Gradient#Mathematical Reasoning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Multi-Task Learning#Visuomotor Agents#Spatial Reasoning#Generalization#Minecraft#Cross-View Goal Specification#Automated Task Synthesis2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Flow Equivariant Recurrent Neural Networks본 논문은 기존 정적 변환 및 피드포워드 네트워크 에 국한된 equivariance 이론을 확장하여, 시각적 움직임과 같은 시간 매개변수화된 흐름(flows)을 포착하는 순환 신경망(RNN) 에 적용하는 것을 목표로 합니다.#Review#Flow Equivariance#Recurrent Neural Networks#Sequence Models#Group Equivariance#Lie Subgroups#Generalization#Time-Parameterized Symmetries2025년 8월 2일댓글 수 로딩 중
[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.#Review#Motion Generation#Generalization#Diffusion Models#Transformer#Large-scale Dataset#Benchmark#Multimodal Learning#Video Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.#Review#Urban Sensing#Socio-Economic Status#Vision-Language Models#Reinforcement Learning#Generalization#Interpretability#Multi-modal Data2025년 10월 31일댓글 수 로딩 중
[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning기존 시각 효과(VFX) 생성 모델들이 겪는 자원 집약적인 '효과당 LoRA' 패러다임 과 미학습 효과에 대한 낮은 일반화 능력 이라는 근본적인 한계를 해결하고자 합니다.#Review#VFX Generation#In-Context Learning#Diffusion Models#Video Generation#Generalization#Attention Mask#One-Shot Adaptation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Generalization or Memorization: Dynamic Decoding for Mode Steering대규모 언어 모델(LLMs)이 보이는 예측 불가능한 일반화(Generalization)와 암기(Memorization) 간의 전환 문제를 해결하는 것이 목표입니다. 이러한 이중적인 추론 모드를 이해하고, 식별하며, 제어하는 통일된 프레임워크를 제시하여 LLM의 신뢰성을 향상시키고자 합니다.#Review#Large Language Models (LLMs)#Generalization#Memorization#Information Bottleneck (IB)#Activation Steering#Decoding Strategy#Causal Intervention#LLM Reliability2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.#Review#Embodied AI#Vision-Action Pretraining#Desktop Data#Inverse Dynamics Model (IDM)#Pseudo-labeling#Robotics#Generalization#Data Compression2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.#Review#Meta-Awareness#Reinforcement Learning#Self-Alignment#LLM Reasoning#Training Efficiency#Generalization#Predictive Gating2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Less is More: Recursive Reasoning with Tiny Networks이 논문은 기존의 Hierarchical Reasoning Model (HRM) 이 복잡하고 비효율적이라는 문제점을 해결하기 위해, 더욱 단순하면서도 효율적인 Tiny Recursive Model (TRM) 을 제안합니다.#Review#Recursive Reasoning#Tiny Networks#Deep Supervision#Hierarchical Reasoning Model (HRM)#Sudoku-Extreme#ARC-AGI#Generalization#Parameter Efficiency2025년 10월 8일댓글 수 로딩 중
[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#LLM Agents#Text-based Environments#Reward Shaping#Policy Optimization#Supervised Fine-tuning (SFT)#Generalization#Environment Complexity2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.#Review#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives#Negative Log Likelihood (NLL)#Model Capability Continuum#Generalization#Probability-based Loss Functions2025년 10월 2일댓글 수 로딩 중