[논문리뷰] VIBE: Visual Instruction Based Editor본 논문은 기존의 대규모 및 고비용 이미지 편집 모델의 한계를 극복하고, 오픈소스 기반의 초고속, 컴팩트한 시각적 지시 기반 이미지 편집 시스템을 개발하는 것을 목표로 합니다.#Review#Instruction-Based Image Editing#Diffusion Models#Vision-Language Models (VLM)#Model Efficiency#Multi-stage Training#Preference Alignment#Source Consistency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Urban Socio-Semantic Segmentation with Vision-Language Reasoning본 논문은 위성 이미지에서 건물이나 수역과 같은 물리적 속성이 아닌, 학교나 공원과 같은 사회적으로 정의된 도시의 의미론적 개체 를 정확하게 분할하는 새로운 도전 과제인 도시 사회-의미론적 분할(Urban Socio-Semantic Segmentation)을 해결하는 것을 목표로 합니다.#Review#Urban Segmentation#Socio-Semantic#Vision-Language Models (VLMs)#Reinforcement Learning#Geospatial Data#Multi-modal Reasoning#SAM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Transition Matching Distillation for Fast Video Generation대규모 비디오 Diffusion 모델이 고품질 비디오를 생성하지만, 다단계 샘플링 과정의 비효율성으로 인해 실시간 상호작용 애플리케이션에 적용하기 어렵다는 문제를 해결하고자 합니다.#Review#Video Generation#Diffusion Models#Model Distillation#Few-Step Sampling#Transition Matching#Flow Matching#DMD2#Efficiency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering본 논문은 에이전트 기반 과학에서 초장기 자율성(ultra-long-horizon autonomy) 의 핵심 병목 현상을 해결하고자 합니다.#Review#Agentic AI#Long-Horizon Autonomy#Cognitive Accumulation#Hierarchical Cognitive Caching (HCC)#Context Management#Machine Learning Engineering (MLE)#LLM Agents2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Tool Use Safety#Guardrail#Step-level Safety Detection#Prompt Injection#Reinforcement Learning#Feedback Framework2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders본 논문은 기존 텍스트-이미지(T2I) 확산 모델들이 대규모 언어 모델(LLM) 기반 텍스트 인코더 를 단순히 특징 추출기로 사용하여 추론 능력을 충분히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Text-to-Image#Diffusion Models#LLM Encoders#Reasoning-Aware AI#Reinforcement Learning#Dual-GRPO#Prompt Rewriting2026년 1월 15일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMsLLM의 RL 기반 학습에서 발생하는 탐색 붕괴(exploration collapse) 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Exploration Collapse#Strategy-level Diversity#Uniqueness-Aware Rewarding#Creative Problem Solving#Pass@k2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중
[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.#Review#Tool-Integrated Reasoning#LLMs#Reinforcement Learning#Fine-Grained Supervision#Bipartite Matching#Credit Assignment#Advantage Estimation2026년 1월 15일댓글 수 로딩 중
[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Instruction Following#Reinforcement Learning#Logical Structures#LLMs#Reward Modeling#Dataset Construction#Attention Mechanism2026년 1월 15일댓글 수 로딩 중
[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.#Review#Interactive Video Generation#Humanoid Synthesis#Real-time#Streaming Diffusion#MMDiT#Temporal Consistency#Multimodal Control#Low Latency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge본 논문은 금융 Q&A에서 회피성 답변(evasive answers) 을 탐지하는 데 필요한 대규모 고품질 벤치마크 부재 와 모호한 경계 사례에 대한 일관성 없는 레이블링 문제를 해결하고자 합니다. 특히 부분적으로 응답하는 답변과 완전한 회피성 답변 사이의 미묘한 경계에 대한 양질의 감독 데이터 확보를 목표로 합니다.#Review#Evasion Detection#Financial NLP#Large Language Models (LLMs)#Multi-Model Consensus#LLM-as-Judge#Data Annotation#Knowledge Distillation#Hard Sample Mining2026년 1월 15일댓글 수 로딩 중
[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset본 연구는 고품질의 중국어 이미지-텍스트 데이터 의 부족으로 인해 지연되었던 중국어 비전-언어 사전 훈련(VLP) 연구의 발전을 목표로 합니다. 최신 웹 데이터를 기반으로 한 대규모 고품질 중국어 크로스모달 데이터셋인 DanQing 을 구축하고, 이를 통해 중국어 VLP 모델의 성능을 향상시키는 것이 주된 목적입니다.#Review#Vision-Language Pre-training#Chinese Dataset#Data Filtering#Cross-modal Retrieval#Zero-shot Classification#Multimodal LLMs#SigLIP2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#Test-Time Adaptation#Large Language Models#Collaborative Reasoning#Credit Assignment#Textual Experience#Distribution Shift Robustness2026년 1월 15일댓글 수 로딩 중
[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation본 논문은 비디오 모델을 텍스트-투-이미지(T2I) 생성의 '순수한 시각적 추론기'로 활용하여, 기존 T2I 모델의 시각적 추론 시작점 부재와 중간 단계의 불명확성 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Video Models#Visual Reasoning#Chain-of-Frame (CoF)#Progressive Refinement#Diffusion Models#CoF-Evol-Instruct2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.#Review#Test-Time Tool Evolution#Scientific Reasoning#Large Language Models#Dynamic Tool Synthesis#Tool Adaptation#AI for Science#Autonomous Agents2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in Images이미지 내 객체의 색상, 질감, 재질, 심지어 모양과 같은 내재적 속성(Intrinsic Attributes) 을 변경하면서도 객체의 인지된 정체성(Identity)과 장면 맥락을 충실히 보존하는 새로운 방법을 개발하는 것입니다.#Review#Intrinsic Attributes#Object Editing#Diffusion Models#Identity Preservation#Visual Named Entities#Text-to-Image#VLM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Action100M: A Large-scale Video Action Dataset본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.#Review#Large-scale Dataset#Video Action Recognition#Open-Vocabulary#Temporal Segmentation#Vision-Language Models#Zero-shot Learning#Data Curation#Self-Refine2026년 1월 15일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.#Review#AI Safety#Large Language Models#Multimodal LLMs#Benchmark Evaluation#Adversarial Robustness#Multilingual Evaluation#Regulatory Compliance#Image Generation Safety2026년 1월 15일댓글 수 로딩 중