Review

[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #World Model #Data Augmentation #Robot Generalization #Embodied AI #RGBD #Chain-of-Thought

2025년 10월 23일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일

[논문리뷰] FinSight: Towards Real-World Financial Deep Research

본 논문은 기존 AI 시스템이 완전 자동화하기 어려웠던 전문 금융 보고서 생성의 문제를 해결하는 것을 목표로 합니다. 특히, 노동 집약적이고 지적인 노력이 많이 드는 금융 리서치 보고서 작업을 사람 전문가 수준으로 수행할 수 있는 고품질의 멀티모달 금융 보고서 를 생성하는 프레임워크 FinSight 를 제안합니다.

#Review #Financial Research #Multi-Agent System #Code Generation #Multimodal Reports #Iterative Visualization #Variable Memory #Deep Learning

2025년 10월 23일

[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.

#Review #Long-Context LLM #Hybrid Attention #Linear Attention #Mixture-of-Experts #FP8 Training #GPU Optimization #Training-Inference Alignment #Reinforcement Learning

2025년 10월 23일

[논문리뷰] Directional Reasoning Injection for Fine-Tuning MLLMs

논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 능력이 텍스트 전용 LLM에 비해 현저히 떨어진다는 문제에 주목합니다. 대규모 멀티모달 추론 데이터셋이나 강화 학습 없이도, 텍스트 전용 추론 전문가 모델 의 추론 지식을 비추론 멀티모달 LLM 으로 효율적으로 전이하는 경량화된 방법을 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reasoning Transfer #Gradient-based Fine-tuning #Model Merging #Parameter-Efficient Learning #Supervised Fine-tuning #Directional Prior

2025년 10월 23일

[논문리뷰] DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

본 논문은 Text-to-Image (T2I) 모델에서 발생하는 의도치 않은 의미적 누출(semantic leakage) 문제를 해결하는 것을 목표로 합니다. 이는 서로 다른 개체 간에 의미론적으로 관련된 특징이 잘못 전달되는 현상으로, 기존 방법론의 최적화 비용 및 외부 입력 의존성 문제를 극복하고자 합니다.

#Review #Semantic Leakage #Text-to-Image Models #Attention Control #Inference-time Mitigation #Diffusion Models #Evaluation Dataset #Self-Attention

2025년 10월 23일

[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

본 논문은 Multimodal Large Language Models (MLLMs)의 다중 작업 지도 미세 조정(SFT)에서 최적의 데이터 혼합 전략을 찾아 성능을 극대화하는 문제를 해결합니다. 특히, 모바일 폰 에이전트(MPA)의 다양한 기능을 동시에 처리하는 MLLM의 효율성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Fine-tuning #Data Mixing Optimization #Mobile Phone Agents #Downstream Task Prediction #Benchmark #Neural Networks

2025년 10월 23일

[논문리뷰] ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

본 논문은 명령어 기반 인터페이스에서 AI 에이전트 상호작용으로 변화하는 인간-운영체제 상호작용의 흐름 속에서, 사용자의 지시를 정확히 따르고 사용자 의도를 충실히 반영하는 강건하고 개인화된 대화형 OS 에이전트 인 ColorAgent 를 구축하는 것을 목표로 합니다.

#Review #OS Agent #Reinforcement Learning #Multi-agent Systems #Personalization #Proactive Interaction #GUI Agents #Self-Evolving Training

2025년 10월 23일

[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.

#Review #Off-Policy Reinforcement Learning #Large Language Models #Adaptive Clipping #Policy Optimization #PPO #Entropy Preservation #RL Stabilization

2025년 10월 23일

[논문리뷰] Attention Sinks in Diffusion Language Models

Diffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Attention Sinks #Transformer Architecture #Masked Language Modeling #Bidirectional Attention #Generative Models #Robustness #Dynamic Attention

2025년 10월 23일

[논문리뷰] AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library

본 논문은 최적화 모델링 자동화의 어려움, 즉 비공식적 언어를 정밀한 수학적 공식 및 실행 가능한 솔버 코드로 변환하는 문제에 주목합니다.

#Review #Optimization Modeling #Large Language Models (LLMs)#Experience Library #Self-Improving Systems #Continual Learning #Out-of-Distribution Generalization #Operations Research #Knowledge Representation

2025년 10월 23일

[논문리뷰] World-in-World: World Models in a Closed-Loop World

본 논문은 기존 세계 모델(World Models, WM) 평가 프로토콜이 시각적 품질에만 치중하여 실제 환경에 대한 embodied agent의 태스크 성공 여부 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #World Models #Embodied AI #Closed-Loop Evaluation #Online Planning #Data Scaling #Controllability #Robotic Manipulation

2025년 10월 22일

[논문리뷰] Video Reasoning without Training

본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Inference-Time Optimization #Entropy-Based Objective #Training-Free #KV-Cache Steering #Micro-Exploration #Macro-Exploitation

2025년 10월 22일

[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.

#Review #Scientific Reasoning #Bio-experimental Protocol Generation #LLM #Structured Reward #SciRecipe Dataset #Sketch-and-Fill #Reinforcement Learning #Thoth

2025년 10월 22일

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.

#Review #Text-to-Image Generation #Semantic Evaluation #Benchmark #Multilingual Evaluation #Fine-grained Assessment #Large Language Models #Model Evaluation #Prompt Engineering

2025년 10월 22일

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #High-Resolution #Diffusion Transformer #Hierarchical Attention #Global-Local Attention #Computational Efficiency #4K Synthesis

2025년 10월 22일

[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.

#Review #LLM Personalization #Reinforcement Learning #Generative Reward Model #Critique-Post-Edit #Reward Hacking #Controllable AI

2025년 10월 22일

[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #CLIP #LLM-based Embedder #Knowledge Distillation #Contrastive Learning #Curriculum Learning #Multimodal Alignment #Progressive Alignment

2025년 10월 22일

[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.

#Review #Deep Research Agent #Reinforcement Learning from AI Feedback #RLOO Algorithm #Large Language Models #Tool Use #Self-Correction #Reasoning Scaffold #Agent Alignment

2025년 10월 22일

[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Scientific Document Analysis #Multimodal Inconsistencies #Peer Review #Benchmark #Debiasing #JSON-based Representation #Reasoning

2025년 10월 22일