[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.#Review#Function Calling#Multi-Turn Interaction#Large Language Models (LLMs)#Data Synthesis#Agentic AI#Tool Use#Chain-of-Thought (CoT)#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.#Review#Reinforcement Learning#Language Models#Critiquing#Two-Stage Optimization#Actor-Critic#Scalable Oversight#Discriminability#Helpfulness2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.#Review#LLM Agents#Data Synthesis#Zone of Proximal Development (ZPD)#Complex Reasoning#Tool Use#Automated Benchmarking#Agentic AI#Rejection Sampling Fine-Tuning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context ManagementLLM 기반 웹 에이전트가 장기 태스크에서 겪는 컨텍스트 관리의 근본적인 문제(기존 ReAct 방식의 컨텍스트 포화 및 고정된 요약 방식의 비가역적 정보 손실)를 해결하는 것을 목표로 합니다.#Review#Web Agents#Context Management#Long-Horizon Tasks#LLM#Deep Consolidation#Granular Condensation#ReAct Paradigm2025년 10월 29일댓글 수 로딩 중
[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality이 연구는 영어에 주로 집중되어 있던 기존 스케일링 법칙 연구의 한계를 넘어, 다국어 사전 학습, 미세 조정 및 추론 전반에 걸쳐 스케일링 법칙을 포괄적으로 이해하고 모델링하는 것을 목표로 합니다.#Review#Multilingual LLMs#Scaling Laws#Transfer Learning#Curse of Multilinguality#Pretraining#Finetuning#Language Models#Adaptive Scaling2025년 10월 29일댓글 수 로딩 중
[논문리뷰] VoMP: Predicting Volumetric Mechanical Property Fields본 논문은 3D 객체의 부피에 걸쳐 물리적으로 정확한 기계적 물성 필드(Young's modulus, Poisson's ratio, 밀도)를 다양한 3D 표현 방식에 상관없이 예측하는 최초의 feed-forward 모델 VoMP 를 제안하여, 사실적인 변형 시뮬레이션을 가능하게 하는 것을 목표로 합니다.#Review#Volumetric Properties#Mechanical Simulation#Material Prediction#3D Representation#Physics-based AI#Variational Autoencoder#Geometry Transformer#Gaussian Splats2025년 10월 28일댓글 수 로딩 중
[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.#Review#Embodied AI#Human-Robot Interaction#Vision-Language Models#Concurrency#Interruption#Robotics Control#Dual-Model Architecture#Special Tokens2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling기존 3D/4D 생성 모델들은 주로 사실성, 효율성, 미학에 초점을 맞추어 개발되었으나, 다양한 시점에서 대상의 의미론적 정체성(semantic identity)을 보존 하는 데 한계를 보였습니다.#Review#Subject-driven 3D/4D Generation#Texture Infilling#Video Tracking#Image Inpainting#Multi-view Consistency#Identity Preservation#Generative Models#3D Gaussians2025년 10월 28일댓글 수 로딩 중
[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Best-of-N Sampling#Max@k Optimization#Policy Gradients#Off-policy Learning#Code Generation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation본 논문은 로봇 정책의 평가에 대한 확장 가능하고 재현 가능한 벤치마킹 프레임워크인 RobotArena∞ 를 제안하여, 현실 세계 로봇 테스트의 비효율성(노동 집약적, 위험성, 낮은 재현성)과 기존 시뮬레이션 벤치마크의 한계(고립된 환경)를 극복하는 것을 목표로 합니다.#Review#Robot Benchmarking#Real-to-Sim Translation#Vision-Language Models (VLMs)#Human Preference Learning#Domain Randomization#Robot Manipulation#Simulation Environments#Policy Evaluation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.#Review#LLM Agents#Decision Granularity Control#Recursive Code Generation#Hierarchical Planning#Action Unification#Program Synthesis#Data Efficiency2025년 10월 28일댓글 수 로딩 중
[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.#Review#MLLM#Region-level Understanding#Object-centric Reasoning#Spatio-temporal Referring#Video Understanding#Scale-Adaptive Tokenizer#Efficiency#Instruction Tuning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.#Review#Audio-Visual Speech Recognition#Large Language Models#Attention Sinks#Massive Activations#Decorrelation Loss#Fine-tuning#Multimodal AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling본 논문은 Transformer 기반 LLM 의 높은 계산 비용과 낮은 투명성 문제에 대한 대안으로, 효율적이고 설명 가능하며 친환경적인 메모리 기반 언어 모델링(Memory-based Language Modeling) 접근 방식을 제시하고 평가하는 것을 목표로 합니다.#Review#Memory-based Language Model#k-Nearest Neighbor#Eco-friendly AI#Explainable AI#Next-token Prediction#Prefix Trie#Low-latency Inference#CPU-based AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MARS-M: When Variance Reduction Meets Matrices본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.#Review#Variance Reduction#Matrix-based Optimizer#LLM Training#Deep Learning Optimization#Moonlight#MARS-M#Stochastic Gradient Descent2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.#Review#Audio-driven Animation#Identity Preservation#Diffusion Transformers#Long-form Video Generation#Temporal Autoregression#Keyframe Anchoring#Self-keyframing2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical Report본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.#Review#Information Reranking#Large Language Models#Data Synthesis#Reasoning-Intensive Retrieval#Low-Resource Learning#Data Efficiency#Instruction Following2025년 10월 28일댓글 수 로딩 중