[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.#Review#Code LLMs#Software Engineering Agents#Code Generation#Reinforcement Learning#Supervised Fine-tuning#Multimodal AI#Code Safety#Scaling Laws2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Image Generation#Distillation#Reinforcement Learning#Few-Step Sampling#Timestep-Aware#Pixel-GAN#Model Efficiency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Multi-Image#Causal Reasoning#World Knowledge#Benchmarking#Spatiotemporal Consistency#Generative Models#Evaluation Metrics2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Doppler-Enhanced Deep Learning: Improving Thyroid Nodule Segmentation with YOLOv5 Instance Segmentation본 연구는 초음파 이미지에서 YOLOv5 알고리즘 을 활용하여 갑상선 결절의 정확한 인스턴스 분할(instance segmentation) 성능을 향상시키는 것을 목표로 합니다.#Review#YOLOv5#Instance Segmentation#Thyroid Nodule#Ultrasound Imaging#Doppler Imaging#Medical AI#Deep Learning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.#Review#Remote Sensing#Vision-Language Models#Iterative Reasoning#Evidence-Seeking#Socratic Method#Reinforcement Learning#Multi-Agent System#VQA#Grounding2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.#Review#Reinforcement Learning#Large Language Models#Instruction Optimization#Policy Co-Evolution#Agentic AI#Tool-Integrated Reasoning#Self-Reflection2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다.#Review#Object Detection#YOLOv9#Mixture-of-Experts#Adaptive Routing#Deep Learning#Computer Vision#Feature Specialization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.#Review#Small Language Models#Data Efficiency#Reasoning#Maximal-Update Parameterization#FP8 Mixed Precision#Optimizer Scheduling#Long-Context Adaptation#Agent AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Vision-Language Models#Culture Mixing#VQA#Synthetic Data Generation#Multicultural Understanding#Model Robustness#Fine-tuning#Cultural Bias2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Vision Bridge Transformer at Scale본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.#Review#Vision Transformer#Bridge Models#Conditional Generation#Image Editing#Video Translation#Velocity Matching#Diffusion Models#Scalability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] The Collapse of Patches본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.#Review#Patch Collapse#Image Generation#Image Classification#Masked Image Modeling#Vision Transformers#PageRank#Uncertainty Reduction#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Test-time scaling of diffusions with flow maps본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Flow Maps#Test-time Adaptation#Reward Guidance#Generative Models#SMC#Vision-Language Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Structural Output#Information Extraction#JSON Schema#SO-Bench#Visual Reasoning#Supervised Fine-tuning#Reinforcement Learning2025년 11월 30일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models이 논문은 감시 비디오에서 희귀하고 다양한 이상 이벤트(abnormal events) 를 비디오 수준의 약한 감독(video-level supervision) 만을 사용하여 효율적으로 탐지하는 것을 목표로 합니다.#Review#Anomaly Detection#Surveillance Videos#Weakly Supervised Learning#Multiple Instance Learning#Dual-Encoder#I3D#TimeSformer#Top-k Pooling2025년 11월 30일댓글 수 로딩 중
[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Editing#Reasoning-Enhanced AI#Multimodal Large Language Models#Diffusion Transformers#Thinking#Reflection#Iterative Refinement#Instruction Following2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Image Refinement#Reinforcement Learning#Fine-Grained Editing#Reference-Guided Generation#Latent Diffusion#Visual Fidelity#Detail Restoration2025년 11월 30일댓글 수 로딩 중