최신 포스트

[논문리뷰] Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints

본 논문은 최신 에이전트 시스템에서 Tool Calling과 Structured Output 제약 조건이 동시에 활성화될 때 발생하는 의도치 않은 시스템 실패 모드를 규명합니다. 저자들은 기존의 평가 방식이 두 기능을 독립적으로 검증함에 따라, 통합 환경에서 발생하는 상호작용 문제를 간과하고 있음을 지적합니다.

#Review #Constraint Tax #Tool Suppression #Constraint Priority Inversion #Large Language Models #Agent Systems #Grammar-Constrained Decoding #Structured Output

2026년 6월 24일

[논문리뷰] Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

본 논문은 Autoregressive(AR) 비디오 확산 모델의 학습 효율성과 추론 품질 간의 불균형을 해결하기 위해 Causal-rCM을 제안한다.

#Review #Autoregressive Diffusion #Diffusion Distillation #Teacher-Forcing #Self-Forcing #Consistency Models #Streaming Video Generation #Interactive World Models

2026년 6월 24일

[논문리뷰] CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

대부분의 기존 연구는 입력 프롬프트 압축이나 출력 길이 제어 중 하나에만 집중하며, 이를 단순히 Task Accuracy 관점에서만 평가한다 .

#Review #Large Language Models #Inference Cost #Prompt Compression #Output Compression #Linguistic Reduction #Semantic Fidelity #Cost Asymmetry

2026년 6월 24일

[논문리뷰] Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

본 논문은 기존의 NL2Code 모델이 텍스트 중심의 명세에만 의존하여, 시각적 정보가 필수적인 실제 프로그래밍 작업의 복잡도를 완전히 해결하지 못한다는 점을 지적합니다.

#Review #Multimodal Code Intelligence #Large Language Models #Visual-to-Code #Program Synthesis #Graphical User Interface #Code-Centric Reasoning

2026년 6월 24일

[논문리뷰] Autodata: An agentic data scientist to create high quality synthetic data

본 연구는 고품질 데이터의 부족 문제를 해결하고, 인간의 개입을 최소화하면서 데이터 생성 파이프라인을 자동화하는 것을 목표로 합니다. 기존의 데이터 생성 방식은 데이터의 다양성이 부족하거나 품질 제어가 어렵다는 한계를 지니고 있으며, 단순히 양적인 데이터 확대만으로는 모델 성능의 비약적인 향상을 이끌어내기 어렵습니다.

#Review #Synthetic Data #Agentic Workflow #LLM #Data Curation #Model Training #Automated Discovery

2026년 6월 24일

[논문리뷰] Are We Ready For An Agent-Native Memory System?

본 논문은 기존 에이전트 메모리 시스템이 단일 블랙박스로 취급되면서 시스템 수준의 효율성, 아키텍처적 트레이드오프, 그리고 동적 지식 업데이트에 대한 견고성이 체계적으로 검증되지 않고 있다는 문제를 해결하고자 한다.

#Review #Agent Memory #Data Management #LLM Agents #Retrieval-Augmented Generation #Memory Architecture #Knowledge Graphs #System Evaluation

2026년 6월 24일

[논문리뷰] Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

본 논문은 예술적 텍스트(WordArt)가 가진 고도의 시각적 스타일화와 불규칙한 레이아웃으로 인해 기존 STR 모델들이 겪는 성능 한계를 해결하고자 합니다.

#Review #WordArt #Scene Text Recognition #Data Synthesis #Arbitrary-Shaped Input #Autoregressive Decoder #WATERec #WATER-S

2026년 6월 24일

[loki] Grafana Loki 엔진의 집계 성능 최적화: 메모리 할당 감소와 효율적인 라벨 처리

Loki 엔진의 집계 로직을 개선하여 메모리 할당을 줄이고, 라벨 캐싱 최적화 및 AddN 도입으로 성능을 약 25% 향상시켰습니다.

#Grafana Loki #Go #Performance Optimization #Memory Management #Engineering

2026년 6월 24일

[sglang] SGLang 성능 최적화: D2H 복사 연산의 비동기 오버랩 구현

SGLang에서 D2H(Device-to-Host) 복사를 별도 스트림으로 분리하여 추론 성능을 향상시킨 최적화 사례 분석.

#SGLang #CUDA #Performance #Optimization #LLM

2026년 6월 24일

[axolotl] Axolotl, 대규모 언어 모델 학습 시 메모리 부족 문제 해결: 효율적인 데이터셋 처리 개선

Axolotl 라이브러리에서 대규모 SFT 데이터셋 로딩 시 발생하는 RAM OOM 오류를 해결하는 코드 변경 사항을 분석합니다.

#Python #PyTorch #Hugging Face Datasets #Optimization #LLM

2026년 6월 24일

[onnxruntime] ONNX Runtime: MoE Router GEMV 최적화 및 Bias Fusion 구현

GPT-OSS-20B 모델의 MoE 라우터 성능 향상을 위해 MatMulNBits 커널에 특화된 GEMV 경로와 Bias Fusion을 도입했습니다.

#ONNX Runtime #CUDA #MoE #GEMV #Optimization

2026년 6월 24일

[논문리뷰] World Value Models for Robotic Manipulation

본 연구는 기존 로봇 가치 모델이 정적인 이미지 기반의 VLM 백본에 의존하여 장기적인 시간적 맥락과 미래 결과를 이해하는 데 한계가 있다는 문제점에서 출발합니다.

#Review #World Models #Robotic Manipulation #Value Estimation #Flow Matching #Distributional Value #Suboptimal-Value-Bench

2026년 6월 23일

[논문리뷰] ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

본 논문은 실제 소셜 미디어 환경의 복잡한 다중 모달 허위 정보(misinformation)를 탐지하기 위한 기존 벤치마크와 모델들의 한계를 해결하고자 합니다.

#Review #Multimodal Misinformation Detection #Agentic Verification #Multilingual Benchmark #Memory-Augmented Retrieval #Evidence Provenance

2026년 6월 23일

[논문리뷰] Qwen-AgentWorld: Language World Models for General Agents

본 연구는 대규모 언어 모델(LLM) 기반 에이전트가 효과적으로 작동하기 위해 필수적인 환경 시뮬레이션 능력, 즉 World Model의 부재를 해결하고자 합니다. 기존 연구는 에이전트의 정책(Policy) 결정에만 집중할 뿐, 환경의 동역학을 예측하는 World Model 구축에는 소홀했습니다.

#Review #Language World Model #Agentic Environment #Foundation Model #Reinforcement Learning #Chain-of-Thought #Agentic Agents #Simulation Fidelity

2026년 6월 23일

[논문리뷰] QG-MIL: A Gated Transformer Aggregator for Domain-Agnostic Multiple Instance Learning in Medical Imaging

본 논문은 기존의 Attention 기반 Multiple Instance Learning(MIL) 모델이 가진 고질적인 Attention Concentration 문제를 해결하고자 한다.

#Review #Multiple Instance Learning #Weakly Supervised Classification #Gated Transformer #Digital Pathology #Hematology #Attention Concentration

2026년 6월 23일

[논문리뷰] OpenThoughts-Agent: Data Recipes for Agentic Models

본 논문은 에이전트용 모델을 학습시키기 위한 데이터 큐레이션(Data Curation) 방법론이 공개적으로 거의 알려져 있지 않은 문제를 해결하고자 한다.

#Review #Agentic Models #Data Curation #Supervised Fine-Tuning #Reinforcement Learning #Scaling Laws #Agentic Benchmarks

2026년 6월 23일

[논문리뷰] NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

본 논문은 AI 코딩 에이전트가 단순한 논문 구현(reproduction)을 넘어, 실제 과학적 난제에 대해 기존 SOTA를 능가하는 독창적인 방법론을 발견(discovery)할 수 있는지 평가하는 것을 목표로 한다.

#Review #Coding Agents #NatureBench #NatureGym #AI for Science #Benchmark #SOTA-normalized #Autonomous Discovery

2026년 6월 23일

[논문리뷰] MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

본 논문은 모바일 GUI 에이전트의 타겟 앱 적응 과정에서 발생하는 비용과 비효율성 문제를 해결하기 위해 MobileForge를 제안한다. 기존 연구들은 사람이 작성한 작업 데이터나 전문가 시연, 보상 레이블에 의존해야 하므로 앱의 잦은 업데이트에 대응하기 어렵다 .

#Review #Mobile GUI Agents #Annotation-Free Adaptation #Hierarchical Feedback #Policy Optimization #MobileGym #HiFPO #GRPO

2026년 6월 23일

[논문리뷰] MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

본 논문은 기존 MLLM 기반 모바일 GUI 에이전트들이 장기 작업(long-horizon task)에서 나타내는 신뢰성 저하와 컨텍스트 관리의 비효율성 문제를 해결하고자 합니다.

#Review #Mobile GUI Agent #Context-as-Action #Proactive Context Management #Long-horizon Task #History Folding #UI Memory #End-to-End Model

2026년 6월 23일

[논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

본 논문은 기존 정신과 AI 벤치마크들이 실제 임상 현장의 다학제적 진단 요구를 반영하지 못하고 있다는 문제의식에서 출발한다 . 기존 연구들은 주로 정적인 Q&A 방식에 국한되어 있어, 실제 진단 과정에 필수적인 동적 대화와 정보 수집 전략을 평가하는 데 한계가 있었다.

#Review #Psychiatric Diagnosis #Large Language Models #Multi-Agent Framework #Clinical Dialogue Benchmark #Mental Health #LingxiDiag-16K

2026년 6월 23일