[논문리뷰] DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models본 논문은 Text-to-Image (T2I) 모델에서 발생하는 의도치 않은 의미적 누출(semantic leakage) 문제를 해결하는 것을 목표로 합니다. 이는 서로 다른 개체 간에 의미론적으로 관련된 특징이 잘못 전달되는 현상으로, 기존 방법론의 최적화 비용 및 외부 입력 의존성 문제를 극복하고자 합니다.#Review#Semantic Leakage#Text-to-Image Models#Attention Control#Inference-time Mitigation#Diffusion Models#Evaluation Dataset#Self-Attention2025년 10월 23일댓글 수 로딩 중
[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents본 논문은 Multimodal Large Language Models (MLLMs)의 다중 작업 지도 미세 조정(SFT)에서 최적의 데이터 혼합 전략을 찾아 성능을 극대화하는 문제를 해결합니다. 특히, 모바일 폰 에이전트(MPA)의 다양한 기능을 동시에 처리하는 MLLM의 효율성을 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Fine-tuning#Data Mixing Optimization#Mobile Phone Agents#Downstream Task Prediction#Benchmark#Neural Networks2025년 10월 23일댓글 수 로딩 중
[논문리뷰] ColorAgent: Building A Robust, Personalized, and Interactive OS Agent본 논문은 명령어 기반 인터페이스에서 AI 에이전트 상호작용으로 변화하는 인간-운영체제 상호작용의 흐름 속에서, 사용자의 지시를 정확히 따르고 사용자 의도를 충실히 반영하는 강건하고 개인화된 대화형 OS 에이전트 인 ColorAgent 를 구축하는 것을 목표로 합니다.#Review#OS Agent#Reinforcement Learning#Multi-agent Systems#Personalization#Proactive Interaction#GUI Agents#Self-Evolving Training2025년 10월 23일댓글 수 로딩 중
[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.#Review#Off-Policy Reinforcement Learning#Large Language Models#Adaptive Clipping#Policy Optimization#PPO#Entropy Preservation#RL Stabilization2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Attention Sinks in Diffusion Language ModelsDiffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.#Review#Diffusion Language Models#Attention Sinks#Transformer Architecture#Masked Language Modeling#Bidirectional Attention#Generative Models#Robustness#Dynamic Attention2025년 10월 23일댓글 수 로딩 중
[논문리뷰] AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library본 논문은 최적화 모델링 자동화의 어려움, 즉 비공식적 언어를 정밀한 수학적 공식 및 실행 가능한 솔버 코드로 변환하는 문제에 주목합니다.#Review#Optimization Modeling#Large Language Models (LLMs)#Experience Library#Self-Improving Systems#Continual Learning#Out-of-Distribution Generalization#Operations Research#Knowledge Representation2025년 10월 23일댓글 수 로딩 중
[pydantic-ai] GoogleProvider에 http_client 옵션 추가 및 Vertex AI API 키 지원GoogleProvider에 커스텀 httpx 클라이언트, Vertex AI API 키 인증, 캐시된 기본 HTTP 클라이언트를 도입#Python#Pydantic AI#Google#Vertex AI#Feature2025년 10월 22일댓글 수 로딩 중
[논문리뷰] World-in-World: World Models in a Closed-Loop World본 논문은 기존 세계 모델(World Models, WM) 평가 프로토콜이 시각적 품질에만 치중하여 실제 환경에 대한 embodied agent의 태스크 성공 여부 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.#Review#World Models#Embodied AI#Closed-Loop Evaluation#Online Planning#Data Scaling#Controllability#Robotic Manipulation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Video Reasoning without Training본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Inference-Time Optimization#Entropy-Based Objective#Training-Free#KV-Cache Steering#Micro-Exploration#Macro-Exploitation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.#Review#Scientific Reasoning#Bio-experimental Protocol Generation#LLM#Structured Reward#SciRecipe Dataset#Sketch-and-Fill#Reinforcement Learning#Thoth2025년 10월 22일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.#Review#Video Generation#High-Resolution#Diffusion Transformer#Hierarchical Attention#Global-Local Attention#Computational Efficiency#4K Synthesis2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.#Review#LLM Personalization#Reinforcement Learning#Generative Reward Model#Critique-Post-Edit#Reward Hacking#Controllable AI2025년 10월 22일댓글 수 로딩 중
[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.#Review#Vision-Language Models#CLIP#LLM-based Embedder#Knowledge Distillation#Contrastive Learning#Curriculum Learning#Multimodal Alignment#Progressive Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.#Review#Deep Research Agent#Reinforcement Learning from AI Feedback#RLOO Algorithm#Large Language Models#Tool Use#Self-Correction#Reasoning Scaffold#Agent Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.#Review#Large Multimodal Models (LMMs)#Scientific Document Analysis#Multimodal Inconsistencies#Peer Review#Benchmark#Debiasing#JSON-based Representation#Reasoning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.#Review#Long Video Generation#Sparse Attention#Diffusion Transformers#Mixture-of-Groups Attention#Token Routing#Computational Efficiency#Context Length2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformer#Large-scale Training#Megatron-Core#Video VAE#E-commerce AI#High-efficiency Pipeline#Preference Optimization2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues기존 MLLM 평가 벤치마크가 주로 단일 턴 질의응답과 비디오 내용의 사실적 인지에만 초점을 맞춘 한계를 해결합니다.#Review#Multimodal LLMs#Video Understanding#Benchmark#Multi-Turn Dialogues#Perceptivity#Interactivity#Evaluation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.#Review#Video Captioning#Instruction Following#MLLMs#Benchmark#Controllable Generation#Multimodal Evaluation#Fine-tuning2025년 10월 22일댓글 수 로딩 중