Review

[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents

본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.

#Review #Multi-Language Visualization #Code Generation #Self-Debugging #Instruction Tuning #Large Language Models #Visualization Benchmark #Coding Agents #Code-Feedback

2025년 10월 29일

[논문리뷰] VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

본 논문은 Vision-Language Models (VLMs)의 vision-language alignment 메커니즘 에 대한 해석 가능성 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Model Interpretability #Sparse Autoencoder (SAE)#Multi-modal Alignment #Concept Learning #Hallucination Elimination #Zero-shot Classification

2025년 10월 29일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

본 논문은 초고해상도(UHR) Text-to-Image (T2I) 생성 시 직면하는 두 가지 주요 문제, 즉 대규모 고품질 UHR 데이터셋의 부재 와 미세한 디테일 합성을 위한 맞춤형 훈련 전략의 부족 을 해결하는 것을 목표로 합니다.

#Review #Ultra-High-Resolution #Text-to-Image Generation #Diffusion Models #Large-Scale Dataset #Frequency-Aware Training #Detail Enhancement #Image Synthesis

2025년 10월 29일

[논문리뷰] Tongyi DeepResearch Technical Report

본 논문은 장기적인 정보 탐색 및 심층 연구 태스크를 위해 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch 를 소개하고 오픈소스화하는 것을 목표로 합니다.

#Review #Agentic LLM #Deep Research #Information Seeking #Reinforcement Learning #Synthetic Data #Context Management #Tool Use #Open-source AI

2025년 10월 29일

[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Audio Intelligence #Spatio-Temporal Reasoning #4D Audio #Benchmark #Large Audio-Language Models #Perceptual Reasoning #Multimodal LLMs

2025년 10월 29일

[논문리뷰] Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

본 논문은 Mixture-of-Experts(MoE)를 Diffusion Transformers(DiTs)에 적용할 때 발생하는 제한적인 성능 향상 문제를 해결하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Diffusion Transformers (DiTs)#Routing Guidance #Semantic Specialization #Contrastive Learning #Image Generation #Flow Matching

2025년 10월 29일

[논문리뷰] RoboOmni: Proactive Robot Manipulation in Omni-modal Context

본 논문은 기존 로봇 조작 모델이 명시적인 지시에 의존하며 실제 환경에서 인간의 의도를 능동적으로 파악하는 데 한계가 있다는 문제를 해결합니다.

#Review #Robotic Manipulation #Multimodal LLMs #Vision-Language-Action #Proactive AI #Omni-modal Learning #Intent Recognition #Contextual Instructions

2025년 10월 29일

[논문리뷰] Rethinking Visual Intelligence: Insights from Video Pretraining

Large Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.

#Review #Video Diffusion Models #Visual Intelligence #Pretraining #Foundation Models #Low-resource Learning #Inductive Biases #Visual Reasoning #Image-to-Image Tasks

2025년 10월 29일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.

#Review #AI Agents #Astrophysics Research #Reproducibility Benchmark #Large Language Models #Scientific Workflow #Code Execution #Evaluation Framework

2025년 10월 29일

[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Patent Text Embedding #Benchmark #Multi-task Learning #Patent Retrieval #Sentence Embeddings #Knowledge Distillation #Cross-Domain Retrieval #Prompt Engineering

2025년 10월 29일

[논문리뷰] PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding

기존 3D 파트 이해 데이터셋(예: PartNet) 의 비텍스처 기반 형상, 전문가 의존적 주석, 제한된 확장성 및 사용성을 극복하는 것을 목표로 합니다.

#Review #3D Part Segmentation #3D Dataset #Hierarchical Annotation #Fine-Grained Segmentation #Textured Meshes #3D Part Understanding #Part-Centric Question Answering #Crowdsourcing

2025년 10월 29일

[논문리뷰] ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking

본 논문은 심층 정보 탐색(Deep Information Seeking, IS) 에이전트의 기존 병렬 사고 방식이 지닌 비효율성(반복적인 롤아웃)과 장기 추론 궤적 통합의 어려움(제한된 컨텍스트)을 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Parallel Thinking #Information Seeking #LLM Agents #Context Window Optimization #Exploration Efficiency #Reasoning Aggregation #Tool Use

2025년 10월 29일

[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Tool Invocation #Benchmark #Model Context Protocol (MCP)#GUI Automation #Computer-Use Agents #Evaluation Metrics

2025년 10월 29일

[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

Multimodal Large Language Models (MLLMs)가 복잡한 시각적 계획과 상상력을 요구하는 시나리오에서 겪는 어려움을 해결하고, MLLM에 내부 시각적 스크래치패드(visual scratchpad) 를 부여하여 시각적 사고(visual thought) 를 통해 멀티모달 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Latent Space #Sketch Generation #Visual Thinking #Autoregressive Generation #Interpretability

2025년 10월 29일

[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries

본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.

#Review #Search Agents #Interactive AI #Ambiguous Queries #Benchmarking #Language Agents #Information Retrieval #Overconfidence #Reinforcement Learning

2025년 10월 29일

[논문리뷰] Group Relative Attention Guidance for Image Editing

본 논문은 Diffusion-in-Transformer ( DiT ) 모델 기반 이미지 편집 방법론이 편집 강도 제어에 있어 효과적인 수단을 결여하고 있어 맞춤형 결과 도출에 한계가 있음을 지적합니다.

#Review #Image Editing #Diffusion Transformers #Attention Mechanism #Guidance Mechanism #Controllability #Fine-grained Control #GRAG

2025년 10월 29일

[논문리뷰] Generalization or Memorization: Dynamic Decoding for Mode Steering

대규모 언어 모델(LLMs)이 보이는 예측 불가능한 일반화(Generalization)와 암기(Memorization) 간의 전환 문제를 해결하는 것이 목표입니다. 이러한 이중적인 추론 모드를 이해하고, 식별하며, 제어하는 통일된 프레임워크를 제시하여 LLM의 신뢰성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Generalization #Memorization #Information Bottleneck (IB)#Activation Steering #Decoding Strategy #Causal Intervention #LLM Reliability

2025년 10월 29일

[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

본 논문은 기존 API 또는 GUI 기반 접근 방식의 한계로 인한 확장성 및 일반화 능력 부족 문제를 해결하고자 합니다.

#Review #Generalist AI #Game Agents #Multimodal Learning #Foundation Models #ReAct #Sparse Thinking #Continual Pre-training #Human-Native Interaction

2025년 10월 29일