최신 포스트

[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

본 연구는 고품질의 중국어 이미지-텍스트 데이터 의 부족으로 인해 지연되었던 중국어 비전-언어 사전 훈련(VLP) 연구의 발전을 목표로 합니다. 최신 웹 데이터를 기반으로 한 대규모 고품질 중국어 크로스모달 데이터셋인 DanQing 을 구축하고, 이를 통해 중국어 VLP 모델의 성능을 향상시키는 것이 주된 목적입니다.

#Review #Vision-Language Pre-training #Chinese Dataset #Data Filtering #Cross-modal Retrieval #Zero-shot Classification #Multimodal LLMs #SigLIP

2026년 1월 15일

[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #Test-Time Adaptation #Large Language Models #Collaborative Reasoning #Credit Assignment #Textual Experience #Distribution Shift Robustness

2026년 1월 15일

[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

본 논문은 비디오 모델을 텍스트-투-이미지(T2I) 생성의 '순수한 시각적 추론기'로 활용하여, 기존 T2I 모델의 시각적 추론 시작점 부재와 중간 단계의 불명확성 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Video Models #Visual Reasoning #Chain-of-Frame (CoF)#Progressive Refinement #Diffusion Models #CoF-Evol-Instruct

2026년 1월 15일

[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.

#Review #Test-Time Tool Evolution #Scientific Reasoning #Large Language Models #Dynamic Tool Synthesis #Tool Adaptation #AI for Science #Autonomous Agents

2026년 1월 15일

[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in Images

이미지 내 객체의 색상, 질감, 재질, 심지어 모양과 같은 내재적 속성(Intrinsic Attributes) 을 변경하면서도 객체의 인지된 정체성(Identity)과 장면 맥락을 충실히 보존하는 새로운 방법을 개발하는 것입니다.

#Review #Intrinsic Attributes #Object Editing #Diffusion Models #Identity Preservation #Visual Named Entities #Text-to-Image #VLM

2026년 1월 15일

[논문리뷰] Action100M: A Large-scale Video Action Dataset

본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.

#Review #Large-scale Dataset #Video Action Recognition #Open-Vocabulary #Temporal Segmentation #Vision-Language Models #Zero-shot Learning #Data Curation #Self-Refine

2026년 1월 15일

[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.

#Review #AI Safety #Large Language Models #Multimodal LLMs #Benchmark Evaluation #Adversarial Robustness #Multilingual Evaluation #Regulatory Compliance #Image Generation Safety

2026년 1월 15일

[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상

Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Decoder #Memory Optimization #Benchmark

2026년 1월 15일

[Triton] AMD fine-grained cluster barrier 추가 및 Gluon 노출

CTA 간 실행 동기화를 위한 cluster barrier arrive/wait 연산을 AMD 백엔드에 추가

#Triton #AMD #Gluon #Multi-CTA #Synchronization

2026년 1월 15일

[uvloop] deprecated asyncio.iscoroutinefunction을 inspect 모듈로 교체

Python 3.12에서 deprecated된 asyncio.iscoroutinefunction을 inspect.iscoroutinefunction으로 마이그레이션합니다.

#uvloop #Python #asyncio #Deprecation #Migration

2026년 1월 14일

[Triton] Proton에서 선택적 커널 메타데이터 기록 및 커스텀 메트릭 지원

LaunchHook에 include/exclude 필터와 임의 메트릭 지원을 추가하여 프로파일링 유연성 향상

#Triton #Proton #Profiler #Metadata #Performance

2026년 1월 15일

[논문리뷰] TranslateGemma Technical Report

본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.

#Review #Machine Translation #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Gemma 3 #Multimodal AI #Synthetic Data

2026년 1월 14일

[논문리뷰] The AI Hippocampus: How Far are We From Human Memory?

본 논문은 최신 Large Language Models (LLMs) 및 Multi-Modal LLMs (MLLMs) 의 추론, 적응성, 맥락적 충실도 향상을 위해 메모리 메커니즘을 통합하는 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Multi-Modal LLMs (MLLMs)#Memory Systems #Implicit Memory #Explicit Memory #Agentic Memory #Retrieval-Augmented Generation (RAG)#Contextual Understanding

2026년 1월 14일

[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

본 논문은 일반적인 Large Vision-Language Models (LVLMs) 이 피부과 진단에서 겪는 '확산 주의(diffuse attention)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 미묘한 병리학적 병변을 배경 노이즈로부터 분리하지 못해 정보 전달 효율성이 저하되는 현상입니다.

#Review #Dermatological Diagnosis #Multimodal LLM #Reinforcement Learning #Dynamic Visual Encoding #Information Transmission #Clinically Grounded Evaluation

2026년 1월 14일

[논문리뷰] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

기존 3D 장면 이해 방법론들이 훈련된 임베딩과 대규모 수동 주석, 긴 훈련 시간에 의존하는 한계를 극복하고자 합니다. OpenVoxel은 훈련 없이 희소 복셀을 그룹화하고 캡셔닝하여 오픈-vocabulary 3D 장면 이해 태스크를 수행하며, 특히 복잡한 자연어 질의에 효과적으로 대응하는 것을 목표로 합니다.

#Review #3D Scene Understanding #Open-Vocabulary Segmentation #Referring Expression Segmentation #Training-Free #Voxel Grouping #Vision-Language Models #Multi-modal Large Language Models #Sparse Voxel Rasterization

2026년 1월 14일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] Geometric Stability: The Missing Axis of Representations

논문은 학습된 표현(learned representations) 분석의 한계를 지적하며, 기존의 유사성(similarity) 측정 방식이 표현된 구조의 견고성(robustness)을 놓친다고 주장합니다.

#Review #Geometric Stability #Representation Analysis #Similarity Metrics #Shesha Framework #Drift Detection #Transfer Learning #Neural Representations #CRISPR Screens

2026년 1월 14일

[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

본 논문은 고해상도 UI 스크린샷에서 발생하는 수천 개의 시각 토큰으로 인한 Vision-Language Models (VLMs) 의 UI Grounding 작업의 높은 계산 오버헤드와 주의 분산 문제를 해결하는 것을 목표로 합니다.

#Review #UI Grounding #Visual Token Reduction #Position-Preserving #Vision-Language Models (VLMs)#Saliency Scoring #Computational Efficiency #Human-Computer Interaction

2026년 1월 14일

[논문리뷰] Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

본 논문은 Diffusion Transformer (DiT) 기반의 Image-to-Video (I2V) 모델에서 텍스트 프롬프트에 대한 제어력 부족 문제를 해결하고자 합니다.

#Review #Video Diffusion Models #Image-to-Video Generation #Diffusion Transformers (DiT)#Controllability #Semantic Alignment #Focal Guidance #Prompt Adherence

2026년 1월 14일

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Latent Planning #Chain-of-Thought #Distillation #Inference Efficiency #Robotic Manipulation #Preference Learning

2026년 1월 14일