Review

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일

[논문리뷰] SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis

본 연구는 동적 3D 장면 모델링에서 정확한 변형을 포착하면서도 계산 효율성을 유지하는 데 따른 어려움을 해결합니다.

#Review #4D Novel View Synthesis #Dynamic Scenes #3D Gaussian Splatting #Cascaded Optimization #Deformation Modeling #Point Tracking #Object Segmentation

2025년 10월 17일

[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.

#Review #RAG Systems #Selective Refusal #Generative Evaluation #Linguistic Perturbations #LLM Evaluation #Informational Uncertainty #Model Calibration #AI Safety

2025년 10월 17일

[논문리뷰] RealDPO: Real or Not Real, that is the Preference

본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Direct Preference Optimization #Preference Learning #Real Data #Human Motion Synthesis #RealDPO #RealAction-5K

2025년 10월 17일

[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Large Language Models #Retrieval Augmented Generation #Agentic Systems #Benchmarking #Intermediate Tasks #Error Analysis #LLM Evaluation

2025년 10월 17일

[논문리뷰] Qwen3Guard Technical Report

본 연구는 기존 가드레일 모델의 이진 분류 한계와 스트리밍 LLM 추론과의 비호환성 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety #Guardrail Models #Multilingual AI #Real-time Moderation #Tri-class Classification #Instruction Tuning #Streaming Inference

2025년 10월 17일

[논문리뷰] Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

본 연구는 기존 상호작용 애니메이션 모델이 근접 상호작용의 동적 맥락을 파악하고 다양한 입력 유형에 대한 일반화 능력이 부족하다는 문제점을 해결하고자 합니다.

#Review #Human-human Interaction #Pose Animation #Diffusion Models #Generative AI #Motion Synthesis #Interactive Poses #Temporal Priors #Spatial Priors

2025년 10월 17일

[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

본 논문은 다국어 문서 파싱을 위한 SOTA(State-of-the-Art) 및 자원 효율적인 모델인 PaddleOCR-VL을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Vision-Language Model #Multilingual OCR #Layout Analysis #Resource-Efficient AI #Table Recognition #Formula Recognition #Chart Recognition

2025년 10월 17일

[논문리뷰] On Pretraining for Project-Level Code Completion

본 연구는 코드 언어 모델(Code LLMs)이 코드베이스 전체의 컨텍스트를 활용하여 정확하고 컨텍스트를 인지하는 코드 완성을 생성하도록 돕기 위해, 저장소 수준(repository-level) 사전 훈련 전략이 OpenCoder 1.5B 모델의 컨텍스트 내 학습 능력에 미치는 영향을 조사하는 것을 목표로 합니다.

#Review #Code LLMs #Project-level Context #Code Completion #Context Window Extension #RoPE Scaling #Repository Pretraining #Long Code Arena

2025년 10월 17일

[논문리뷰] MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

기존 RAG 패러다임의 수동적인 텍스트 청킹 방식이 지식 내부화 및 추론 능력을 제한하는 문제를 해결합니다. 인간의 인지 과정을 모방하여 텍스트 처리를 수동적인 청킹에서 사전 이해 기반의 문서 메모리 추출 로 전환하고, SLM이 이러한 심층 이해 능력을 습득하도록 하는 것이 목표입니다.

#Review #Retrieval-Augmented Generation (RAG)#Document Memory #Text Chunking #Small Language Models (SLMs)#Large Language Models (LLMs)#Scenario-Aware Processing #Multi-Layer Retrieval #Cognitive Simulation

2025년 10월 17일

[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning #Diagram Generation #Dataset #Benchmark

2025년 10월 17일

[논문리뷰] LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

본 연구는 소규모 LLM에서 다단계 추론 시 발생하는 높은 레이턴시 문제를 해결하고자 합니다.

#Review #Layer Skipping #Multi-stage Reasoning #Latency Optimization #Early Exit #Small Language Models (LLMs)#Adaptive Computation #Confidence-based Decoding

2025년 10월 17일

[논문리뷰] Learning an Image Editing Model without Image Editing Pairs

본 논문은 대규모 입력-편집 쌍 데이터 에 대한 의존성을 제거하여 이미지 편집 모델 훈련의 주요 병목 현상을 해결하고자 합니다. 특히, 합성 데이터의 아티팩트 전파 문제를 피하고, 쌍 데이터 없이도 자연어 지침에 따라 이미지를 편집하는 모델을 학습하는 새로운 훈련 패러다임을 제안합니다.

#Review #Image Editing #Diffusion Models #Vision-Language Models (VLMs)#No-Pair Training #Few-step Generation #Distribution Matching #Gradient-based Optimization

2025년 10월 17일

[논문리뷰] Large Language Models Do NOT Really Know What They Don't Know

본 논문은 대규모 언어 모델(LLMs)이 사실적 오류를 생성할 때 내부적으로 어떻게 처리하는지 기계적으로 분석하여, LLMs가 진정으로 '무엇을 모르는지 아는지' 여부를 밝히는 것을 목표로 합니다.

#Review #LLMs #Hallucination Detection #Mechanistic Interpretability #Internal States #Knowledge Recall #Refusal Tuning #Factual Associations #Associated Hallucinations

2025년 10월 17일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

본 논문은 디지털 에이전트 훈련에 필요한 대규모, 고품질 UI 환경 훈련 궤적 데이터의 부족 문제 를 해결하고자 합니다. 기존 데이터 수집 방식의 높은 비용과 확장성 한계를 극복하기 위해, LLM 기반 시뮬레이터 를 활용하여 다양한 UI 상태와 전환을 합성하는 확장 가능한 패러다임을 제안하는 것을 목표로 합니다.

#Review #LLM #Digital Agents #UI Simulation #Synthetic Data Generation #Targeted Data Synthesis #World Models

2025년 10월 17일

[논문리뷰] LLM-guided Hierarchical Retrieval

기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.

#Review #Information Retrieval #Large Language Models #Hierarchical Retrieval #Semantic Tree #Tree Traversal #Zero-shot Performance #Reasoning-based Retrieval #Computational Efficiency

2025년 10월 17일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일

[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

본 연구는 기존 비디오 생성 모델들이 상상적인 시나리오 나 장거리 의미론적 관계 를 포함하는 프롬프트에서 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Video Generation #Test-Time Search #Diffusion Models #Semantic Dependency #Adaptive Reward #Evaluation Benchmark #Prompt-Guided

2025년 10월 17일

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

본 논문은 기존의 모듈형 Vision-Language Models (VLMs)이 가진 강한 시각적 인코딩 편향과 복잡한 인프라 문제를 해결하고, 초기 퓨전 방식의 단일(monolithic) VLM 아키텍처인 '네이티브 VLM'의 근본적인 제약을 극복하는 것을 목표로 합니다.

#Review #Vision-Language Models #Native VLMs #Early Fusion #Multimodal Learning #Transformer Architecture #Rotary Position Embeddings #Pixel-Word Alignment #End-to-End Training

2025년 10월 17일