최신 포스트

[논문리뷰] Cambrian-S: Towards Spatial Supersensing in Video

본 논문은 현재 멀티모달 대규모 언어 모델(MLLM)이 비디오를 단편적인 프레임으로 처리하고 공간 구조를 제대로 이해하지 못하며, 언어적 기억에 과도하게 의존하는 한계를 지적합니다.

#Review #Spatial Supersensing #Video Understanding #Multimodal LLMs #Predictive Sensing #Memory Management #Event Segmentation #VSI-SUPER #Instruction Tuning

2025년 11월 9일

[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts

이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Benchmark Design #Non-Visual Shortcuts #Test-Set Stress-Test #Bias Mitigation #Model Evaluation #Benchmark Robustness

2025년 11월 9일

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Cross-Modal Interaction #Diffusion Transformer #Face-Aware Modulation #Classifier-Free Guidance #Multimodal AI #Generative Models

2025년 11월 9일

[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.

#Review #Sequential Reasoning #Parallel Self-Consistency #Inverse-Entropy Voting #LLM Reasoning #Test-Time Scaling #Inference Optimization #Iterative Refinement #Error Correction

2025년 11월 9일

[논문리뷰] TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models

본 연구는 테이블 형식 파운데이션 모델(Tabular Foundation Models, TFMs) 의 복잡한 전처리, 분산된 API, 비일관적인 미세 조정 절차 및 표준화되지 않은 평가(특히 보정 및 공정성 지표) 문제로 인해 실용적인 채택이 제한되는 것을 해결하는 것을 목표로 합니다.

#Review #Tabular Foundation Models #Fine-Tuning #PEFT #Meta-Learning #Calibration #Fairness #Unified Library #Benchmarking

2025년 11월 9일

[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning

본 논문은 기존의 테이블 인컨텍스트 학습(ICL) 모델들이 직면한 단일 스케일 피처 처리, 테이블 너비에 대한 Quadratic Scaling 의 조밀한 어텐션, 그리고 순차적 컴포넌트 처리의 한계를 해결하는 것을 목표로 합니다.

#Review #Tabular Data #In-Context Learning #Multi-Scale Attention #Sparse Attention #Foundation Models #Perceiver Architecture

2025년 11월 9일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language Models

본 논문은 기존의 정적 벤치마크로는 평가하기 어려운 LLM 에이전트의 실제 시장에서의 의사결정 능력 과 불확실성 하의 적응성 을 평가하기 위한 라이브 트레이딩 환경을 구축하는 것을 목표로 합니다. 특히, LLM의 일반적인 추론 능력이 실제 금융 시장에서의 성능으로 이어지는지 검증하고자 합니다.

#Review #LLM Evaluation #Live Trading #Portfolio Management #Financial AI #Prediction Markets #Real-World Uncertainty #Agent Benchmarking

2025년 11월 9일

[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

본 논문은 멀티모달 환경에서 쿼리 증강(query augmentation)으로 인한 과도한 임베딩 지연 시간 과 일부 쿼리에서의 성능 저하 문제를 해결하고, 쿼리 증강의 효과를 높이는 것을 목표로 합니다.

#Review #Multimodal Embedders #Query Augmentation #Adaptive Learning #Multimodal LLM #Information Retrieval #Generative AI #Embedding Latency

2025년 11월 9일

[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #3D Scene Synthesis #Fine-Grained Evaluation #Tool-Augmented LLMs #Embodied AI #Vision-Language Models #Benchmark #Multi-Hop Grounding

2025년 11월 9일

[논문리뷰] Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

본 논문은 높은 자유도(DoF)를 가진 복잡한 관절형 객체에 대해 정적 데이터 만으로도 정확한 운동학적 토폴로지 를 추론하고 관절 매개변수 를 추정하는 문제를 해결하는 것을 목표로 합니다.

#Review #Articulated Objects #Kinematics Inference #High-DoF #Monte Carlo Tree Search #Joint Parameter Optimization #SDF #Open-Vocabulary Synthesis #Robot Self-Modeling

2025년 11월 9일

[논문리뷰] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

본 논문은 기존 AI Scientist 시스템의 제한된 연구 품질, 모호한 목표, 소규모 코드 실험 위주의 한계를 극복하고, 실제 과학적 가치를 창출할 수 있는 자율적인 AI 과학자 시스템을 개발하는 것을 목표로 합니다.

#Review #AI Scientist #Autonomous Research #Scientific Automation #LLM for Research #Code Generation #Experimental Design #Risk Assessment

2025년 11월 9일

[논문리뷰] Grounded Misunderstandings in Asymmetric Dialogue: A Perspectivist Annotation Scheme for MapTask

본 논문은 비대칭 정보 환경에서 발생하는 대화 속 레퍼런스 표현(RE)에 대한 미묘한 오해를 파악하는 것을 목표로 합니다. 화자의 의도와 청자의 해석을 별도로 포착하는 관점 기반(perspectivist) 주석 스키마 를 개발하여, 대화 과정에서 이해가 어떻게 발생하고, 발산하며, 수정되는지를 추적하고자 합니다.

#Review #Dialogue Systems #Common Ground #Misunderstanding #Annotation Scheme #MapTask Corpus #Large Language Models #Perspective Taking #Reference Resolution

2025년 11월 9일

[논문리뷰] Diffusion Language Models are Super Data Learners

본 논문은 고품질 데이터 희소성이 LLM 훈련의 주요 병목이 되는 시대에, Autoregressive (AR) 모델 과 Diffusion Language Models (DLMs) 중 어떤 패러다임이 제한된 고유 데이터로부터 더 많은 신호를 추출하는지 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Autoregressive Models #Data Efficiency #Scaling Laws #Data-Constrained Learning #Crossover Phenomenon #Pre-training #Masked Diffusion

2025년 11월 9일

[논문리뷰] CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

기존 LLM 에이전트 평가가 태스크 완료에만 집중하고 자원 효율성 및 동적 환경에서의 적응성을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Tool Use #Cost-Optimal Planning #Dynamic Environments #Benchmarking #Multi-Turn Interaction #Economic Reasoning

2025년 11월 9일

[논문리뷰] iFlyBot-VLA Technical Report

iFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Latent Actions #Diffusion Models #Dual-Arm Manipulation #Pretraining #Flow-Matching

2025년 11월 9일

[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

본 논문은 중간 시각 이미지를 생성하는 것이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위한 새로운 벤치마크인 MIRA (Multimodal Imagination for Reasoning Assessment) 를 제안합니다.

#Review #Multimodal AI #Visual Reasoning #Chain-of-Thought (CoT)#Benchmark #Image Generation #MLLMs #Visual-CoT

2025년 11월 9일

[논문리뷰] When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

이 논문은 Multimodal Large Language Models (MLLMs)가 서로 다른 모달리티에서 모순되는 정보를 받았을 때 어떤 모달리티를 따를지 ( modality following ) 결정하는 과정을 이해하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Following #Unimodal Uncertainty #Modality Preference #Conflict Resolution #Internal Mechanism #Entropy #Controllable Dataset

2025년 11월 9일

[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.

#Review #VideoLLMs #Emotion Understanding #Affective-Tree Reasoning #Curriculum Learning #Reinforcement Learning #Fine-Grained Emotion #Attribute Perception #Expression Analysis

2025년 11월 9일

[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.

#Review #Multimodal AI #Code Generation #SVG #Visual Representation #Benchmark #Large Vision-Language Models #Agentic AI #Reasoning

2025년 11월 9일