최신 포스트

[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?

의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Vision Foundation Models #Self-supervised Learning #Vision Transformers (ViT)#Domain Adaptation #DINOv3 #CT Imaging

2025년 9월 3일

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.

#Review #Medical Image Retrieval #Self-Supervised Learning #Multimodal #Zero-shot #Foundation Models #MAE #SimDINO #Vision Transformer

2025년 9월 3일

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

본 논문은 critic 모델이 단순히 응답을 평가하는 것을 넘어 강력한 정책 모델로서 생성 능력까지 갖출 수 있다는 통념에 도전합니다. 최종 목표는 선호도 기반 critic 데이터를 활용한 강화 학습(RL) 을 통해, 평가와 생성 두 가지 역할을 동시에 탁월하게 수행하는 단일 멀티모달 모델을 개발하는 것입니다.

#Review #Vision-Language Models (VLMs)#Critic Models #Policy Models #Reinforcement Learning (RL)#Self-Criticism #Multimodal Reasoning #Preference Learning #Generative Models

2025년 9월 3일

[논문리뷰] Kwai Keye-VL 1.5 Technical Report

본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Slow-Fast Encoding #Long Context #Chain-of-Thought #Reinforcement Learning #Human Alignment #Native-Resolution Vision Encoder

2025년 9월 3일

[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations

대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.

#Review #Reinforcement Learning #Language Models #Diversity Optimization #Quality Enhancement #Semantic Clustering #Post-training #Generative AI

2025년 9월 3일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion Transformer

본 논문은 기존의 수동적이고 노동 집약적인 비디오 합성(Video Compositing) 과정을 생성형 모델 을 사용하여 자동화하는 것을 목표로 합니다.

#Review #Video Compositing #Diffusion Transformer #Generative Models #Video Editing #Position Embedding #Diffusion Models #Masked Token Injection #Video Harmonization

2025년 9월 3일

[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.

#Review #GUI Agents #Adventure Games #Benchmark #Full Story Arc #Observation-Behavior Gap #LLMs #Automated Evaluation

2025년 9월 3일

[논문리뷰] FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models

본 논문은 기존 가상 착용(Virtual Try-On) 기술이 다중 레퍼런스 의상 조합(가먼트 및 액세서리 포함)을 지원하지 못하고, 각 디노이징 단계에서 레퍼런스 피처의 중복 계산으로 인한 비효율성 문제를 해결하는 것을 목표로 합니다. 이를 통해 빠르고 일관된 다중 레퍼런스 가상 착용 프레임워크를 제공하고자 합니다.

#Review #Virtual Try-On #Diffusion Models #Cacheable Architecture #Multi-Reference #Semi-Attention #Efficiency #Image Synthesis

2025년 9월 3일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Video MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.

#Review #Long Video Understanding #Hallucination #Semantic Aggregation #Video MLLM #Benchmark #DPO #Positional Encoding #VideoQA

2025년 9월 3일

[논문리뷰] Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

본 연구는 시각적 자기회귀(VAR) 모델 에서 추가 훈련 없이 프롬프트 기반 이미지 편집 기능을 구현하는 것을 목표로 합니다. 기존 VAR 모델의 편집 능력 한계를 극복하고, 원본 이미지의 관련 없는 세부 사항을 보존하면서 텍스트 프롬프트에 따라 타겟 편집을 정확하고 제어 가능하게 수행하는 방법론을 개발하고자 합니다.

#Review #Image Editing #Autoregressive Models #Noise Inversion #Text-to-Image #Gumbel-max Trick #Training-free #Location-aware Argmax Inversion

2025년 9월 3일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

본 논문은 자동차 손상 평가와 같은 미세하고 컨텍스트에 의존적인 시나리오 에서 객체 탐지의 한계를 극복하는 것을 목표로 합니다. 특히, 기존 DiffusionDet 모델이 로컬 특징 조건화 에만 의존하여 발생하는 탐지 오류를 해결하고, 전역 장면 컨텍스트 를 활용하여 고정밀 탐지 성능을 달성하고자 합니다.

#Review #Object Detection #Diffusion Model #Global Scene Context #Context-Aware Fusion #Fine-grained Detection #Automotive Damage Assessment #Generative Denoising #Cross-Attention

2025년 9월 3일

[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining

대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.

#Review #LLM Optimizers #Benchmarking #Hyperparameter Tuning #AdamW #AdEMAMix #MARS #Mixture of Experts (MoE)#Weight Decay

2025년 9월 3일

[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System

의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.

#Review #Medical AI #LLM #Reinforcement Learning #Verifier System #Patient Simulator #Clinical Rubrics #Baichuan-M2 #HealthBench

2025년 9월 3일

[논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

본 논문은 대규모 언어 모델(LLM)을 활용한 합성 데이터 생성 시 품질과 다양성 확보의 어려움을 해결하는 것을 목표로 합니다. 특히, 하류 태스크 훈련의 견고성을 높이기 위해 데이터 다양성과 생성기 적응성을 자동으로 증폭할 수 있는 프레임워크를 제안합니다.

#Review #Synthetic Data Generation #Large Language Models (LLMs)#Genetic Algorithms #Textual Data Augmentation #Active Learning #NLP #Data Diversity

2025년 9월 3일

[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.

#Review #Bias Mitigation #Large Language Models #Speculative Decoding #Constitutional AI #Fairness #Inference-Time Control #Indian Sociocultural Context

2025년 9월 3일

[논문리뷰] UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat

본 연구는 영어 중심 LLM들이 아랍어의 언어적, 문화적 뉘앙스를 포착하는 데 어려움을 겪는 문제를 해결하기 위해 개발된 ALLaM 34B 모델에 대한 포괄적인 UI-레벨 평가를 수행하는 것을 목표로 합니다.

#Review #Arabic LLM #UI-level Evaluation #ALLaM 34B #HUMAIN Chat #Dialectal Arabic #LLM as a Judge #Safety Evaluation

2025년 9월 2일