#Generalization

77개의 포스트

[논문리뷰] Phone Segmentation and Recognition through Phonological Activation Mapping

본 논문은 현대의 음성학적 분석 모델이 분절(segmentation)과 인식(recognition)을 별도의 복잡한 모델로 다루며, 다량의 라벨링 데이터와 계산 자원을 요구하는 문제를 해결하고자 한다.

#Review #Self-supervised Speech Models #Phonological Activation Mapping #Phone Segmentation #Phone Recognition #Gradient-descent-free #Sample-efficiency #Generalization

2026년 7월 12일

[논문리뷰] Running the Gauntlet: Re-evaluating the Capabilities of Agents Beyond Familiar Environments

본 연구는 기존 에이전트 벤치마크들이 지나치게 단순한 작업이나 친숙한 웹 환경에만 치중하여 현대 에이전트의 잠재적 한계를 적절히 탐지하지 못한다는 문제의식에서 출발한다. 기존 벤치마크는 주로 온라인 쇼핑이나 단순 정보 검색과 같은 소비자 중심의 작업을 대상으로 하므로, 에이전트의 성능이 조기에 포화되는 현상을 보인다.

#Review #Agentic Systems #GauntletBench #Temporal Perception #Graphical Understanding #3D Reasoning #Generalization #Multimodal Large Language Models

2026년 6월 25일

[논문리뷰] In-Context World Modeling for Robotic Control

본 연구는 기존 VLA 모델들이 훈련 단계의 고정된 환경 컨텍스트에 지나치게 의존하여, 카메라 시점이나 로봇 형태가 변경되는 환경에서의 일반화(generalization) 실패 문제를 해결하고자 합니다.

#Review #In-Context World Modeling #VLA models #System Identification #Robotic Control #Generalization #Zero-shot Adaptation

2026년 6월 25일

[논문리뷰] How Post-Training Shapes Biological Reasoning Models

본 논문은 생물학적 추론 모델 개발에서 Post-Training 과정이 모델의 일반화 능력과 과잉 최적화(Over-specialization)에 미치는 영향을 체계적으로 규명한다.

#Review #Biological Reasoning #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Generalization #Foundation Models

2026년 6월 25일

[논문리뷰] EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

본 논문은 기존의 로봇 조작 벤치마크들이 단일 성공률(Success Rate) 스칼라 값에 의존하여 모델의 진정한 역량을 가리고 있다는 점을 해결하고자 합니다. 현재의 Generalist Manipulation 모델들은 유사한 성공률을 보고하지만, 실제 배포 시 성능이 크게 달라지는 구조적 한계를 가지고 있습니다.

#Review #EBench #Generalist Mobile Manipulation #VLA (Vision-Language-Action)#Capability Profiling #Embodied AI #Benchmark #Generalization

2026년 6월 24일

[논문리뷰] HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Embodied foundation model 학습의 핵심 병목 현상은 정밀하게 주석 처리된 고품질 로봇 데이터의 부족과 데이터 수집의 높은 비용입니다.

#Review #Embodied AI #Egocentric Video #Pretraining #Robot Learning #Scaling Laws #Generalization #World-Action Models

2026년 6월 18일

[논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?

본 연구는 기존 세계 모델 평가 방식이 파편화되어 있고 실제 물리적 환경에서의 복합적인 능력을 충분히 측정하지 못한다는 문제의식에서 출발합니다. 현재 대부분의 연구는 특정 태스크에만 최적화되어 있어, 변화하는 환경에서의 일반화(Generalization) 성능이나 복잡한 인과 관계 이해도를 확인하기 어렵습니다.

#Review #World Models #Benchmarking #Embodied AI #Generalization #Multimodal Evaluation #Simulator

2026년 6월 9일

[논문리뷰] U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

본 논문은 기존의 Supervised Learning 기반 PET Denoising 모델들이 훈련 데이터와 테스트 데이터 간의 Domain Shift가 발생할 경우 성능이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #PET Image Denoising #Test-Time Training #Generalization #Deep Learning #Unsupervised Learning #Medical Imaging

2026년 6월 9일

[논문리뷰] OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

본 논문은 기존 VLM Agent 벤치마크가 단일 시도(First-attempt) 점수만을 보고하고, Solo 플레이 위주로 구성되어 있어 에이전트의 학습 및 개선 능력을 측정하지 못한다는 문제를 지적한다.

#Review #VLM Agents #Benchmark #Unreal Engine 5 #Improvement Dynamics #Agentic Reflection #Cold-start #Generalization

2026년 6월 8일

[논문리뷰] Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

본 연구는 코드 스위칭 ASR 시스템이 소수의 학습된 언어 쌍을 넘어 보지 못한 언어 쌍으로 범용성을 확장할 수 있는지 검증합니다.

#Review #Automatic Speech Recognition (ASR)#Code-Switching (CS)#Model Merging #Domain Generalization #Multilingual ASR #Generalization

2026년 6월 4일

[논문리뷰] GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

실세계 이미지 복원(IR) 모델은 학습 데이터 부족으로 인해 실제 환경에서의 일반화 성능이 현저히 떨어지는 고질적인 병목 현상을 겪고 있습니다. 합성 데이터는 실세계의 복잡한 열화(degradation) 과정을 제대로 모델링하지 못하며, 실제 촬영된 데이터는 비용과 확장성 및 장면 다양성 확보에 한계가 있습니다.

#Review #Image Restoration #Generative Ground Truth #Multimodal Foundation Models #Generalization #Dataset Construction #Quality Control

2026년 5월 31일

[논문리뷰] Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

본 논문은 기존의 Chart QA 벤치마크가 VLM의 진정한 시각적 추론 능력을 정확히 측정하지 못하고, 단순한 시각적 패턴 매칭이나 사전 학습된 파라메트릭 지식에 의한 '지름길(Shortcut)'을 활용하고 있다는 문제를 제기합니다.

#Review #Vision-Language Models #Chart QA #Counterfactual Generation #Visual Reasoning #Shortcut Learning #Generalization

2026년 5월 27일

[논문리뷰] A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

본 논문은 LALMs 분야의 급격한 발전에도 불구하고, 모델의 성능 평가 기준과 범용적 활용에 대한 통합적인 체계가 부족하다는 점을 해결하고자 한다.

#Review #Large Audio Language Models #Audio-Language Pretraining #Multimodal Foundation Models #Audio Reasoning #Model Alignment #Generalization #Trustworthiness

2026년 5월 20일

[논문리뷰] AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

본 연구는 GPU 커널 최적화 작업이 딥러닝 시스템의 효율성에 핵심적임에도 불구하고, 기존 벤치마크들이 이를 충분히 포괄하지 못한다는 문제 의식에서 출발합니다.

#Review #GPU Kernel Optimization #AI Coding Agents #Generalization #Performance Benchmarking #Triton #HIP #LLM Evaluation

2026년 5월 18일

[논문리뷰] FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

본 논문은 기존 3D avatar 재구성 기법들이 요구하는 과도한 연산 시간과 복잡한 사전 처리의 한계를 극복하기 위해 FFAvatar를 제안한다.

#Review #3D Gaussian Splatting #Feed-Forward #Few-Shot #Avatar Reconstruction #FLAME #Multi-View #Generalization

2026년 5월 17일

[논문리뷰] Context Training with Active Information Seeking

본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.

#Review #Context Training #Active Information Seeking #Beam Search #Working Memory #LLM Optimization #Context Pollution #Generalization

2026년 5월 13일

[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization

본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.

#Review #Web Agent #Knowledge Distillation #Synthetic Data #Trajectory Synthesis #Agent-as-Annotators #Supervised Fine-Tuning #Generalization

2026년 4월 9일

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.

#Review #Supervised Fine-Tuning #Chain-of-Thought #Generalization #Model Capability #Optimization Dynamics #Safety Degradation

2026년 4월 9일

[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .

#Review #Knowledge Distillation #Dense Retrieval #Stratified Sampling #Score Distribution #Information Retrieval #Generalization

2026년 4월 8일

[논문리뷰] PLDR-LLMs Reason At Self-Organized Criticality

본 연구는 Large Language Models (LLMs)에서 reasoning 능력이 어떻게 발현되며 이를 어떻게 효과적으로 정량화할 수 있는지에 대한 핵심 문제를 다룬다.

#Review #PLDR-LLMs #Self-Organized Criticality #Reasoning #Deductive Outputs #Order Parameter #Phase Transitions #Generalization #Attention Mechanism

2026년 3월 25일

[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

Novel View Synthesis (NVS)는 기존 뷰들을 기반으로 새로운 시점 이미지를 생성하는 중요한 태스크이다.

#Review #Novel View Synthesis (NVS)#Latent Geometry #Real-time Rendering #3D Inductive Biases #Encoder-Decoder #VGGT #Generalization #Diffusion Models

2026년 3월 25일

[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.

#Review #Agentic Task Synthesis #Diversity Scaling #Tool Use #Generalization #Reinforcement Learning #Supervised Fine-tuning

2026년 3월 12일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.

#Review #Vision-Language Models #Prompt Tuning #Foreground Attention #Adaptive Learning #Generalization #Base-to-New Trade-off #Attention Guidance

2026년 3월 9일

[논문리뷰] Demystifying Action Space Design for Robotic Manipulation Policies

로봇 조작 정책 학습에서 액션 공간 설계가 주로 경험적 휴리스틱에 의해 이루어져 최적화 및 안정성에 대한 체계적인 이해가 부족한 문제를 해결하는 것입니다. 이 연구는 시간적(절대값 vs. 델타) 및 공간적(조인트-공간 vs.

#Review #Robotic Manipulation #Action Space Design #Imitation Learning #Delta Actions #Joint Space Control #Task Space Control #Generalization #Control Stability

2026년 3월 8일

[논문리뷰] Distribution-Conditioned Transport

본 논문은 기계 학습에서 흔히 발생하는, 훈련 중 관찰되지 않은 소스 및 타겟 분포로 전이 모델을 일반화 하는 문제를 해결하는 것을 목표로 합니다.

#Review #Distribution-Conditioned Transport #Generative Distribution Embeddings #Optimal Transport #Flow Matching #Semi-Supervised Learning #Generalization #Single-cell Genomics #Batch Effect Transfer

2026년 3월 5일

[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.

#Review #Synthetic Data #LLM Reasoning #Chain-of-Thought #Data Efficiency #Post-training #Generalization #Quality Control #Domain Coverage

2026년 3월 2일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.

#Review #End-to-End Autonomous Driving #World Model Predictive Control #Risk-Aware #Generalization #Self-Supervised Learning #Scenario Exploration #Autonomous Systems

2026년 2월 26일

[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation

본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.

#Review #World Model #Action Generation #Vision-Language-Action Models (VLA)#Condition Space #Imitation Learning #Robotics #Generalization #Human Manipulation

2026년 2월 25일

[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models

파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Foundation Models #Ablation Study #Generalization #LIBERO Benchmark #Time-Series Forecasting

2026년 2월 23일

[논문리뷰] A Very Big Video Reasoning Suite

본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #Video Reasoning #Large-scale Dataset #Benchmark #Cognitive Architecture #Scaling Studies #Video Generation #Generalization #Rule-based Evaluation

2026년 2월 23일

[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.

#Review #Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition #Data Scaling #LLM Training #Generalization #Overfitting #Reasoning Models

2026년 2월 11일

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.

#Review #Environment Synthesis #Tool-Use Agents #Reinforcement Learning #Generalization #Procedural Generation #LLM Agents #Interactive Environments #Data Scaling

2026년 2월 10일

[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

본 논문은 정적 이미지에 운전 비디오의 움직임을 적용하여 고품질 애니메이션 비디오를 생성하는 캐릭터 이미지 애니메이션의 두 가지 근본적인 문제점을 해결하고자 합니다.

#Review #Character Animation #Image Animation #Spatiotemporal Learning #In-Context Learning #Diffusion Models #Motion Transfer #Generalization #Video Generation

2026년 2월 1일

[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Tool Orchestration #Visual Reasoning #Reinforcement Learning #Adaptive Learning #Generalization #Tool Use

2026년 1월 27일

[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence

본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.

#Review #LLM-in-Sandbox #Agentic Intelligence #Code Sandbox #Reinforcement Learning #Generalization #Tool Use #Multi-Modal Generation #Long-Context Processing

2026년 1월 22일

[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agent (CUA)#Multi-Agent Framework #Long-horizon Tasks #Memory Management #Multimodal Retrieval #Reflection #Generalization

2026년 1월 12일

[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study

3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.

#Review #3D Shape Generation #Memorization #Generative Models #Diffusion Models #Evaluation Framework #Generalization #Data Augmentation

2026년 1월 8일

[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems

본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.

#Review #LLM Agents #Memory Systems #Meta-Evolution #Self-Evolving AI #Memory Architecture #EvolveLab #Generalization

2025년 12월 23일

[논문리뷰] Stronger Normalization-Free Transformers

본 논문은 트랜스포머 아키텍처에서 필수적이었던 정규화 계층(Normalization Layers)의 의존성을 제거 하고, 단순히 기존 정규화 계층의 성능에 필적하는 것을 넘어 이를 능가하는 새로운 점별 함수(point-wise function)를 발견 하는 것을 목표로 합니다.

#Review #Normalization-Free Transformers #Point-wise Functions #Error Function #Deep Learning #Transformer Architecture #Generalization #Normalization Layers

2025년 12월 11일

[논문리뷰] Modular Neural Image Signal Processing

본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.

#Review #Neural ISP #Modular Architecture #Raw Image Processing #Photo-Editing #Camera Agnostic #Generalization #Deep Learning #Image Enhancement

2025년 12월 9일

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.

#Review #Vision-Language Navigation #Dual-System Architecture #Foundation Models #Diffusion Policies #Robotics #Real-time Control #Generalization #Autonomous Navigation

2025년 12월 9일

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.

#Review #Robot Manipulation #Video Generation Models #Vision-Language-Action (VLA)#Diffusion Transformer #Generalization #Action Prediction #Visual Imagination

2025년 12월 8일

[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Pre-training #Mid-training #Reasoning LMs #Generalization #Synthetic Reasoning Tasks #Process-level Supervision

2025년 12월 8일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning #Generalization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT #Maze Solving

2025년 12월 2일

[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.

#Review #GUI Agents #Screen Navigation #Reinforcement Learning #Multi-Turn RL #Simulation #Supervised Fine-tuning #Generalization

2025년 12월 2일

[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization

본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.

#Review #3D Gaussian Splatting #Generalization #Sharpness-Aware Minimization #Regularization #Novel View Synthesis #Sparse View Reconstruction #Loss Landscape #Frequency-Adaptive

2025년 11월 26일

[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

MoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.

#Review #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization #Manifold Regularization #Generalization #Post-training Fine-tuning #Task Embedding Alignment

2025년 11월 10일

[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.

#Review #Reinforcement Learning #LLMs #Generalization #Overfitting #Catastrophic Forgetting #Iterative Policy Optimization #Policy Diversity

2025년 11월 10일

[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Language Models #Adaptive Environments #Verifiable Environments #Procedural Generation #Curriculum Learning #Generalization

2025년 11월 10일

[논문리뷰] Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

본 연구는 Vision-Language Models(VLMs)에서 데이터 오염(test-set leakage) 으로 인한 성능 과대평가 문제를 해결하기 위한 신뢰성, 실용성, 일관성 있는 탐지 방법론 을 개발하는 것을 목표로 합니다.

#Review #VLM Contamination #Test-set Leakage #Multi-modal Perturbation #Generative Models #Generalization #Model Memorization #VLMs

2025년 11월 9일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일

[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Visual Foresight #Predictive Inverse Dynamics #Mixture-of-Transformer #Robot Manipulation #Multi-stage Training #Generalization

2025년 9월 10일

[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.

#Review #LLM Evaluation #Model Robustness #Benchmark Reliability #Paraphrasing #Linguistic Variability #Generalization #Question Answering

2025년 9월 8일

[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.

#Review #Embodied AI #Robot Control #Vision-Language-Action Models #Multimodal Pretraining #Flow Matching #Foundation Models #Generalization #Real-world Robotics

2025년 9월 1일

[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

GUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #GUI Agents #Reinforcement Learning #Planner-Executor Architecture #Decoupled Training #Large Vision-Language Models #Specialization #Generalization #Computer Use Agent

2025년 8월 28일

[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.

#Review #Reasoning Depth #Cellular Automata #Transformer Architectures #Recurrence #Adaptive Computation Time #Chain-of-Thought #Reinforcement Learning #Generalization

2025년 8월 26일

[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation

의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.

#Review #Medical Image Segmentation #Model Merging #Training-Free #SAM #Generalization #Zero-Order Optimization #Bayesian Optimization

2025년 8월 20일

[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.

#Review #Robot Learning #Generalization #Shortcut Learning #Dataset Diversity #Dataset Fragmentation #Data Augmentation #Imitation Learning

2025년 8월 12일

[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization #Reward Rectification #Dynamic Fine-Tuning (DFT)#LLM #Policy Gradient #Mathematical Reasoning

2025년 8월 8일

[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Multi-Task Learning #Visuomotor Agents #Spatial Reasoning #Generalization #Minecraft #Cross-View Goal Specification #Automated Task Synthesis

2025년 8월 2일

[논문리뷰] Flow Equivariant Recurrent Neural Networks

본 논문은 기존 정적 변환 및 피드포워드 네트워크 에 국한된 equivariance 이론을 확장하여, 시각적 움직임과 같은 시간 매개변수화된 흐름(flows)을 포착하는 순환 신경망(RNN) 에 적용하는 것을 목표로 합니다.

#Review #Flow Equivariance #Recurrent Neural Networks #Sequence Models #Group Equivariance #Lie Subgroups #Generalization #Time-Parameterized Symmetries

2025년 8월 2일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.

#Review #Urban Sensing #Socio-Economic Status #Vision-Language Models #Reinforcement Learning #Generalization #Interpretability #Multi-modal Data

2025년 10월 31일

[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

기존 시각 효과(VFX) 생성 모델들이 겪는 자원 집약적인 '효과당 LoRA' 패러다임 과 미학습 효과에 대한 낮은 일반화 능력 이라는 근본적인 한계를 해결하고자 합니다.

#Review #VFX Generation #In-Context Learning #Diffusion Models #Video Generation #Generalization #Attention Mask #One-Shot Adaptation

2025년 10월 30일

[논문리뷰] Generalization or Memorization: Dynamic Decoding for Mode Steering

대규모 언어 모델(LLMs)이 보이는 예측 불가능한 일반화(Generalization)와 암기(Memorization) 간의 전환 문제를 해결하는 것이 목표입니다. 이러한 이중적인 추론 모드를 이해하고, 식별하며, 제어하는 통일된 프레임워크를 제시하여 LLM의 신뢰성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Generalization #Memorization #Information Bottleneck (IB)#Activation Steering #Decoding Strategy #Causal Intervention #LLM Reliability

2025년 10월 29일

[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.

#Review #Vision-Language-Action Models #Robotics #Robustness Analysis #Generalization #Perturbations #Benchmark #LIBERO-Plus #Multimodal AI

2025년 10월 16일

[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.

#Review #Embodied AI #Vision-Action Pretraining #Desktop Data #Inverse Dynamics Model (IDM)#Pseudo-labeling #Robotics #Generalization #Data Compression

2025년 10월 13일

[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.

#Review #Meta-Awareness #Reinforcement Learning #Self-Alignment #LLM Reasoning #Training Efficiency #Generalization #Predictive Gating

2025년 10월 10일

[논문리뷰] Less is More: Recursive Reasoning with Tiny Networks

이 논문은 기존의 Hierarchical Reasoning Model (HRM) 이 복잡하고 비효율적이라는 문제점을 해결하기 위해, 더욱 단순하면서도 효율적인 Tiny Recursive Model (TRM) 을 제안합니다.

#Review #Recursive Reasoning #Tiny Networks #Deep Supervision #Hierarchical Reasoning Model (HRM)#Sudoku-Extreme #ARC-AGI #Generalization #Parameter Efficiency

2025년 10월 8일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일

[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.

#Review #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives #Negative Log Likelihood (NLL)#Model Capability Continuum #Generalization #Probability-based Loss Functions

2025년 10월 2일