최신 포스트

[논문리뷰] POEMetric: The Last Stanza of Humanity

본 연구는 현존하는 LLM이 시 창작에서 문법적 완성도는 높으나, 인간 시인만이 가진 예술적 깊이와 창의성을 모방하는 데에는 한계가 있다는 문제의식에서 출발한다.

#Review #Large Language Models #Poetry Evaluation #POEMetric #Creative AI #Literary Criticism #Instruction-following

2026년 4월 6일

[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding

본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.

#Review #Universal Multimodal Embedding #Latent Reasoning #Multimodal Large Language Models #Chain-of-Thought #Semantic-Anchor-Guided #Curriculum Learning

2026년 4월 6일

[논문리뷰] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

본 논문은 월드 모델의 개념적 모호성을 해결하고 표준화된 정의 및 통합 프레임워크를 정립하기 위해 OpenWorldLib 을 제안한다.

#Review #World Models #Unified Inference Framework #Multimodal Reasoning #Vision-Language-Action #3D Generation #Interactive Video Generation

2026년 4월 6일

[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.

#Review #Document Parsing #Data-Centric AI #Vision-Language Model #Progressive Training #Data Engine

2026년 4월 6일

[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management

저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .

#Review #Large Language Models #Reasoning Compression #Memory Management #Agentic Reasoning #Context Optimization

2026년 4월 6일

[논문리뷰] Less Detail, Better Answers: Degradation-Driven Prompting for VQA

본 논문은 최신 Vision-Language Models (VLMs) 가 고해상도 이미지에서 오히려 불필요한 시각적 노이즈로 인해 환각(Hallucination)이나 추론 오류를 범하는 현상을 해결하고자 합니다.

#Review #Vision-Language Models #Visual Question Answering #Degradation-Driven Prompting #Agentic Perception #Structural Bottleneck

2026년 4월 6일

[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.

#Review #Test-Time Learning #Language Agents #Meta-Learning #Evolutionary Optimization #Adaptive Policy #LLM Agents #Prompt Engineering

2026년 4월 6일

[논문리뷰] LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

저자들은 로봇 조작 지시문의 핵심 구성 요소인 행동과 객체를 기반으로 43개의 정밀한 변형 유형을 포함하는 LIBERO-Para를 구축하였다. 또한, 모델의 성공 여부뿐만 아니라 원문 지시문과 파라프레이즈 간의 키워드 유사도(SKS_K)와 구조적 유사도(STS_T)를 결합한 PRIDE 메트릭을 제안하여 보다 해석 가능한 견고성 평가를 수행한다 .

#Review #Vision-Language-Action (VLA) Models #Paraphrase Robustness #Robotic Manipulation #Diagnostic Benchmark #PRIDE Metric #Object Grounding #Trajectory Divergence

2026년 4월 6일

[논문리뷰] HDP: A Lightweight Cryptographic Protocol for Human Delegation Provenance in Agentic AI Systems

본 논문은 에이전트 기반 AI 시스템에서 발생하는 구조적인 Accountability Gap 을 해결하기 위해 고안되었습니다.

#Review #Agentic AI #Delegation Provenance #Cryptographic Authorization #Multi-agent Systems #Ed25519 #Human-in-the-loop Security #IETF

2026년 4월 6일

[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral Traces

본 논문은 AI 에이전트가 개인화된 파일 시스템 환경에서 사용자와 원활히 협업하기 위해 필요한 행동 적응 능력의 부재 문제를 해결합니다. 기존 연구들은 주로 대화 기반의 요약에 의존하거나, 고립된 환경 내의 GUI 성공 여부만을 평가함으로써 사용자의 장기적인 행동 패턴을 파악하는 데 한계를 보입니다 .

#Review #Agent Personalization #File-System Behavioral Traces #Memory Framework #Multimodal Grounding #Benchmark

2026년 4월 6일

[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments

저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.

#Review #AI Agents #Benchmark #Information Environments #Multi-source Reasoning #Belief Revision #Implicit Personalization

2026년 4월 6일

[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.

#Review #RLVR #Noisy Label Learning #Online Label Refinement #Early Correctness Coherence #Large Language Models #Reasoning

2026년 4월 6일

[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

본 논문은 실세계의 이미지 훼손(blur, noise 등) 상황에서 Unified Multimodal Models가 생성 능력을 보유하고 있음에도 불구하고, 이를 활용하지 못하는 기능적 단절(functional disconnect) 문제를 해결한다.

#Review #Multimodal Models #Image Degradation #Latent Representation Bridge #Interleaved GRPO #Robust Understanding

2026년 4월 6일

[논문리뷰] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization

본 논문은 기존의 일회성(one-shot) 아바타 생성 방식이 가진 경직된 위상(fixed topology) 문제를 해결하고자 합니다.

#Review #4D Gaussian Avatar #Autoregressive Generation #Transformer #3D Gaussian Splatting #One-shot Generation #Identity-preserving

2026년 4월 6일

[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models

본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.

#Review #Large Language Models #Textual Frequency Law #Paraphrasing #Curriculum Learning #Frequency Distillation

2026년 4월 6일

[논문리뷰] AURA: Always-On Understanding and Real-Time Assistance via Video Streams

본 논문은 기존 VideoLLMs 가 대부분 오프라인 분석에 최적화되어 있어, 실시간으로 변화하는 비디오 스트림에 대한 연속적이고 즉각적인 대응에 한계가 있다는 문제점을 해결하고자 합니다.

#Review #VideoLLMs #Streaming Video Understanding #End-to-End #Context Management #Proactive Response #Real-Time Inference

2026년 4월 6일

[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상

CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.

#Python #CPython #Optimization #JIT #Compiler

2026년 4월 6일

[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선

Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.

#SGLang #Speculative Decoding #C++#Performance Optimization #Trie

2026년 4월 6일

[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화

SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.

#SGLang #Ngram #Speculative Decoding #Suffix Automaton #성능 최적화 #LLM #Python #C++

2026년 4월 6일

[논문리뷰] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

본 논문은 1,000명 이상의 현업 전문가가 참여하여 구축한 1,346개의 전문 작업으로 구성된 XpertBench 프레임워크를 제안한다. 평가 신뢰성을 위해 각 작업은 15~40개의 가중치가 부여된 원자적 체크포인트 기반의 Rubrics를 따르며, 이를 평가하기 위해 ShotJudge 패러다임을 도입했다.

#Review #XpertBench #LLM Evaluation #Expert-level Cognition #Rubrics-based Assessment #ShotJudge #Ecological Validity

2026년 4월 5일