Review

[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.

#Review #Function Calling #Multi-Turn Interaction #Large Language Models (LLMs)#Data Synthesis #Agentic AI #Tool Use #Chain-of-Thought (CoT)#Reinforcement Learning

2025년 10월 29일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일

[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Language Models #Critiquing #Two-Stage Optimization #Actor-Critic #Scalable Oversight #Discriminability #Helpfulness

2025년 10월 29일

[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.

#Review #LLM Agents #Data Synthesis #Zone of Proximal Development (ZPD)#Complex Reasoning #Tool Use #Automated Benchmarking #Agentic AI #Rejection Sampling Fine-Tuning

2025년 10월 29일

[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context Management

LLM 기반 웹 에이전트가 장기 태스크에서 겪는 컨텍스트 관리의 근본적인 문제(기존 ReAct 방식의 컨텍스트 포화 및 고정된 요약 방식의 비가역적 정보 손실)를 해결하는 것을 목표로 합니다.

#Review #Web Agents #Context Management #Long-Horizon Tasks #LLM #Deep Consolidation #Granular Condensation #ReAct Paradigm

2025년 10월 29일

[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

이 연구는 영어에 주로 집중되어 있던 기존 스케일링 법칙 연구의 한계를 넘어, 다국어 사전 학습, 미세 조정 및 추론 전반에 걸쳐 스케일링 법칙을 포괄적으로 이해하고 모델링하는 것을 목표로 합니다.

#Review #Multilingual LLMs #Scaling Laws #Transfer Learning #Curse of Multilinguality #Pretraining #Finetuning #Language Models #Adaptive Scaling

2025년 10월 29일

[논문리뷰] VoMP: Predicting Volumetric Mechanical Property Fields

본 논문은 3D 객체의 부피에 걸쳐 물리적으로 정확한 기계적 물성 필드(Young's modulus, Poisson's ratio, 밀도)를 다양한 3D 표현 방식에 상관없이 예측하는 최초의 feed-forward 모델 VoMP 를 제안하여, 사실적인 변형 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #Volumetric Properties #Mechanical Simulation #Material Prediction #3D Representation #Physics-based AI #Variational Autoencoder #Geometry Transformer #Gaussian Splats

2025년 10월 28일

[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.

#Review #Embodied AI #Human-Robot Interaction #Vision-Language Models #Concurrency #Interruption #Robotics Control #Dual-Model Architecture #Special Tokens

2025년 10월 28일

[논문리뷰] Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

기존 3D/4D 생성 모델들은 주로 사실성, 효율성, 미학에 초점을 맞추어 개발되었으나, 다양한 시점에서 대상의 의미론적 정체성(semantic identity)을 보존 하는 데 한계를 보였습니다.

#Review #Subject-driven 3D/4D Generation #Texture Infilling #Video Tracking #Image Inpainting #Multi-view Consistency #Identity Preservation #Generative Models #3D Gaussians

2025년 10월 28일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

본 논문은 로봇 정책의 평가에 대한 확장 가능하고 재현 가능한 벤치마킹 프레임워크인 RobotArena∞ 를 제안하여, 현실 세계 로봇 테스트의 비효율성(노동 집약적, 위험성, 낮은 재현성)과 기존 시뮬레이션 벤치마크의 한계(고립된 환경)를 극복하는 것을 목표로 합니다.

#Review #Robot Benchmarking #Real-to-Sim Translation #Vision-Language Models (VLMs)#Human Preference Learning #Domain Randomization #Robot Manipulation #Simulation Environments #Policy Evaluation

2025년 10월 28일

[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control

현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.

#Review #LLM Agents #Decision Granularity Control #Recursive Code Generation #Hierarchical Planning #Action Unification #Program Synthesis #Data Efficiency

2025년 10월 28일

[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.

#Review #MLLM #Region-level Understanding #Object-centric Reasoning #Spatio-temporal Referring #Video Understanding #Scale-Adaptive Tokenizer #Efficiency #Instruction Tuning

2025년 10월 28일

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.

#Review #Reward Modeling #Multimodal AI #Human Preferences #RLHF #Generalist AI #Benchmark #Dataset #Free-Form Preferences

2025년 10월 28일

[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.

#Review #Audio-Visual Speech Recognition #Large Language Models #Attention Sinks #Massive Activations #Decorrelation Loss #Fine-tuning #Multimodal AI

2025년 10월 28일

[논문리뷰] Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling

본 논문은 Transformer 기반 LLM 의 높은 계산 비용과 낮은 투명성 문제에 대한 대안으로, 효율적이고 설명 가능하며 친환경적인 메모리 기반 언어 모델링(Memory-based Language Modeling) 접근 방식을 제시하고 평가하는 것을 목표로 합니다.

#Review #Memory-based Language Model #k-Nearest Neighbor #Eco-friendly AI #Explainable AI #Next-token Prediction #Prefix Trie #Low-latency Inference #CPU-based AI

2025년 10월 28일

[논문리뷰] MARS-M: When Variance Reduction Meets Matrices

본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.

#Review #Variance Reduction #Matrix-based Optimizer #LLM Training #Deep Learning Optimization #Moonlight #MARS-M #Stochastic Gradient Descent

2025년 10월 28일

[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.

#Review #Audio-driven Animation #Identity Preservation #Diffusion Transformers #Long-form Video Generation #Temporal Autoregression #Keyframe Anchoring #Self-keyframing

2025년 10월 28일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking

본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.

#Review #Information Reranking #Large Language Models #Data Synthesis #Reasoning-Intensive Retrieval #Low-Resource Learning #Data Efficiency #Instruction Following

2025년 10월 28일