최신 포스트

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Clinical AI #Medical Benchmarks #AI Evaluation #Medical Decision Support #MedQA #HealthBench #Generalist AI

2025년 12월 1일

[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Reinforcement Learning #Vision-Language-Action #Dexterous Control #Long-Horizon Tasks #Data Filtering #Data Augmentation #Foundation Models

2025년 12월 1일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Generation #Distillation #Reinforcement Learning #Few-Step Sampling #Timestep-Aware #Pixel-GAN #Model Efficiency

2025년 12월 1일

[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Multi-Image #Causal Reasoning #World Knowledge #Benchmarking #Spatiotemporal Consistency #Generative Models #Evaluation Metrics

2025년 12월 1일

[논문리뷰] Doppler-Enhanced Deep Learning: Improving Thyroid Nodule Segmentation with YOLOv5 Instance Segmentation

본 연구는 초음파 이미지에서 YOLOv5 알고리즘 을 활용하여 갑상선 결절의 정확한 인스턴스 분할(instance segmentation) 성능을 향상시키는 것을 목표로 합니다.

#Review #YOLOv5 #Instance Segmentation #Thyroid Nodule #Ultrasound Imaging #Doppler Imaging #Medical AI #Deep Learning

2025년 12월 1일

[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images

기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.

#Review #Remote Sensing #Vision-Language Models #Iterative Reasoning #Evidence-Seeking #Socratic Method #Reinforcement Learning #Multi-Agent System #VQA #Grounding

2025년 12월 1일

[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution

본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.

#Review #Reinforcement Learning #Large Language Models #Instruction Optimization #Policy Co-Evolution #Agentic AI #Tool-Integrated Reasoning #Self-Reflection

2025년 12월 1일

[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.

#Review #Streaming Video LLMs #Token Compression #ViT Encoding #LLM Prefilling #Causal Compression #Caching #Pruning #Low-latency

2025년 12월 1일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection

본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다.

#Review #Object Detection #YOLOv9 #Mixture-of-Experts #Adaptive Routing #Deep Learning #Computer Vision #Feature Specialization

2025년 11월 30일

[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.

#Review #Small Language Models #Data Efficiency #Reasoning #Maximal-Update Parameterization #FP8 Mixed Precision #Optimizer Scheduling #Long-Context Adaptation #Agent AI

2025년 11월 30일

[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Vision-Language Models #Culture Mixing #VQA #Synthetic Data Generation #Multicultural Understanding #Model Robustness #Fine-tuning #Cultural Bias

2025년 11월 30일

[논문리뷰] Vision Bridge Transformer at Scale

본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.

#Review #Vision Transformer #Bridge Models #Conditional Generation #Image Editing #Video Translation #Velocity Matching #Diffusion Models #Scalability

2025년 11월 30일

[논문리뷰] The Collapse of Patches

본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.

#Review #Patch Collapse #Image Generation #Image Classification #Masked Image Modeling #Vision Transformers #PageRank #Uncertainty Reduction #Computational Efficiency

2025년 11월 30일

[논문리뷰] Test-time scaling of diffusions with flow maps

본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Flow Maps #Test-time Adaptation #Reward Guidance #Generative Models #SMC #Vision-Language Models

2025년 11월 30일

[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Structural Output #Information Extraction #JSON Schema #SO-Bench #Visual Reasoning #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 30일

[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists

이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.

#Review #Language Models #Refinement Capability #Self-Refinement #Guided Refinement #Checklist Evaluation #Multi-turn Interaction #Benchmark

2025년 11월 30일

[논문리뷰] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models

이 논문은 감시 비디오에서 희귀하고 다양한 이상 이벤트(abnormal events) 를 비디오 수준의 약한 감독(video-level supervision) 만을 사용하여 효율적으로 탐지하는 것을 목표로 합니다.

#Review #Anomaly Detection #Surveillance Videos #Weakly Supervised Learning #Multiple Instance Learning #Dual-Encoder #I3D #TimeSformer #Top-k Pooling

2025년 11월 30일