Review

[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.

#Review #Long Video Generation #Sparse Attention #Diffusion Transformers #Mixture-of-Groups Attention #Token Routing #Computational Efficiency #Context Length

2025년 10월 22일

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Large-scale Training #Megatron-Core #Video VAE #E-commerce AI #High-efficiency Pipeline #Preference Optimization

2025년 10월 22일

[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

기존 MLLM 평가 벤치마크가 주로 단일 턴 질의응답과 비디오 내용의 사실적 인지에만 초점을 맞춘 한계를 해결합니다.

#Review #Multimodal LLMs #Video Understanding #Benchmark #Multi-Turn Dialogues #Perceptivity #Interactivity #Evaluation

2025년 10월 22일

[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?

비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.

#Review #Video Captioning #Instruction Following #MLLMs #Benchmark #Controllable Generation #Multimodal Evaluation #Fine-tuning

2025년 10월 22일

[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

본 논문은 기존 MLLM 이 전체적인 이해에는 뛰어나지만, 복잡한 장면의 미세한 디테일과 객체 간의 복잡한 관계를 파악하는 데 한계가 있음을 지적합니다.

#Review #Multimodal LLMs #Region Understanding #Contextual Pixel Understanding #RoI-aligned Feature Replay #Compositional Reasoning #GAR-Bench #Zero-shot Video Understanding

2025년 10월 22일

[논문리뷰] Extracting alignment data in open models

본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.

#Review #Alignment Data Extraction #Large Language Models #Memorization #Neural Embeddings #Semantic Similarity #Chat Templates #Model Distillation #Reinforcement Learning #Supervised Finetuning

2025년 10월 22일

[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.

#Review #Verifiable Learning #Data Synthesis #Evolutionary Algorithm #Large Language Models #Reinforcement Learning #Model Distillation #Test Generation

2025년 10월 22일

[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

논문은 관찰자와 객체가 동시에 움직이는 동적 3D 시나리오 에서 최신 Vision-Language Models (VLMs)의 제한적인 이해 능력을 해결하고자 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models (VLMs)#Benchmark #Video Understanding #Motion Perception #3D Spatial Intelligence #Hallucinations #Bias

2025년 10월 22일

[논문리뷰] Chem-R: Learning to Reason as a Chemist

현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.

#Review #Chemical Reasoning #Large Language Models #Chem-R #Structured Reasoning #Multi-task Optimization #Chain-of-Thought #Chemical Discovery

2025년 10월 22일

[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.

#Review #Automated Trading #Reinforcement Learning #LLM Agents #Tool Orchestration #Financial Markets #Algorithmic Trading #Interpretable AI #ReAct

2025년 10월 22일

[논문리뷰] When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

본 논문은 LLM(Large Language Model) 앙상블이 장문(long-form) 생성에서 겪는 불안정성과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Ensembling #Token-level Ensembling #Speculative Decoding #Tokenization Mismatch #Probability Sharpening #Long-form Generation #KV Cache Management

2025년 10월 21일

[논문리뷰] Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

본 연구는 대규모 언어 모델(LLMs)에서 성공적인 추론 시간 스케일링(search) 전략이 연속적인 잠재 공간을 사용하는 확산 모델(Diffusion Models)에서는 제한적인 이점을 보이는 문제를 해결하고자 합니다.

#Review #Visual Autoregressive Models #Diffusion Models #Inference Time Scaling #Beam Search #Image Generation #Text-to-Image Synthesis #Discrete Latent Space

2025년 10월 21일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

본 연구는 기존 RAG 시스템이 단일 모드 텍스트나 제한된 다중 모드 설정에만 초점을 맞춰, 실제 환경의 혼합 모드(mixed-modal) 질의 및 문서 처리에 한계가 있다는 문제를 해결하고자 합니다.

#Review #Universal RAG #Multimodal Retrieval #Mixed-Modal Data Generation #Vision-Language Models #Contrastive Learning #Matryoshka Representation Learning

2025년 10월 21일

[논문리뷰] RL makes MLLMs see better than SFT

본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.

#Review #Multimodal Language Models #Reinforcement Learning #Supervised Finetuning #Vision Encoder #Visual Representations #Direct Preference Optimization #Preference Alignment #PIVOT

2025년 10월 21일

[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems

본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.

#Review #LLM #Problem Generation #Competitive Programming #Synthetic Data #Difficulty Estimation #Rejection Fine-tuning #Graph Sampling

2025년 10월 21일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일

[논문리뷰] On Non-interactive Evaluation of Animal Communication Translators

이 논문은 AI 기반 동물 언어 번역기(예: 고래-영어 번역기)의 작동 여부를 상호작용 없이 검증하는 방법을 제시하는 것을 목표로 합니다.

#Review #Machine Translation Quality Evaluation #Reference-Free Evaluation #Animal Communication #Language Models #Shuffle Test #Conlangs #Non-interactive Evaluation

2025년 10월 21일

[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Turn Conversation #VLM Evaluation #Benchmark #Vision and Language Models #Contextual Understanding #Checklist-based Evaluation #Interactive AI

2025년 10월 21일