#LLMs

118개의 포스트

[논문리뷰] You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

본 연구는 고비용의 RLVR 학습 과정에서 발생하는 막대한 컴퓨팅 자원 소비 문제를 해결하기 위해 고안되었습니다. 기존의 RLVR은 성능 향상을 위해 방대한 최적화 단계가 필수적이지만, 학습 궤적의 기하학적 구조에 대한 이해가 부족하여 효율적인 최적화가 어려웠습니다.

#Review #RLVR #LLMs #Low-rank #Extrapolation #SVD #Training-free #Parameter Trajectories

2026년 5월 20일

[논문리뷰] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

본 논문은 기존 벤치마크들이 실제 과학 연구의 핵심인 탐색적 성격과 절차적 복잡성을 제대로 평가하지 못하는 문제를 해결하고자 한다.

#Review #PRL-Bench #LLMs #Scientific Benchmarks #Physics Research #End-to-End Workflow #Long-horizon Reasoning #Agentic Science

2026년 4월 19일

[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

본 논문은 LLM 기반의 자동 프로그램 복구 기법에서 빈번하게 발생하는 Over-editing 문제를 해결하고자 합니다. 기존 모델들은 복구의 정확성(Correctness)만을 최적화하기 때문에, 버그를 정교하게 식별하지 못하고 전체 코드를 과도하게 수정하는 경향이 있습니다.

#Review #Program Repair #Over-editing #LLMs #Reinforcement Learning #EA-GRPO #Speculative Edits #Code Maintainability

2026년 4월 7일

[논문리뷰] Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

최근 Large Language Models (LLMs)은 뛰어난 일반 지능과 추론 능력을 보여주지만, 다국어 성능에서는 심각한 불균형을 보입니다.

#Review #LLMs #Multilinguality #Encoder-Decoder #Optimal Transport #Cross-Model Mapping #Language-on-Demand #NMT

2026년 3월 22일

[논문리뷰] Efficient Reasoning on the Edge

Large Language Models (LLMs)는 Chain-of-Thought (CoT) Reasoning을 통해 복잡한 문제 해결에서 최첨단 성능을 달성하지만, Edge Device 배포에는 여러 제약이 따릅니다.

#Review #LLMs #Edge Computing #LoRA #Quantization #Budget Forcing #Switcher Module #Parallel Reasoning

2026년 3월 17일

[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.

#Review #LLMs #Reasoning #Parametric Knowledge #Factual Recall #Hallucination #Computational Buffer #Factual Priming #Chain-of-Thought

2026년 3월 10일

[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.

#Review #Logical Reasoning #Situational Awareness #LLMs #Deceptive Alignment #AI Safety #RAISE Framework #Self-Modeling #Deduction #Induction #Abduction

2026년 3월 10일

[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs

현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.

#Review #LLMs #VLMs #Reasoning #Self-Correction #Reinforcement Learning #Confidence Estimation #Iterative Refinement #Think-Answer

2026년 3월 2일

[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Dense Retrieval #LLMs #Reasoning #Knowledge Distillation #Latent Space #Self-Distillation #Chain-of-Thought

2026년 3월 2일

[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection

본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Data Selection #Mutual Information #Epistemic Uncertainty #LLMs #RLVR #Training Efficiency

2026년 3월 2일

[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.

#Review #Context Parallelism #Memory Efficiency #Headwise Chunking #Transformer Training #DeepSpeed Ulysses #LLMs #Activation Memory #Flash Attention

2026년 2월 24일

[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

본 논문은 Sparse Autoencoders (SAEs)가 신경망의 활성화를 해석 가능한 희소 특징으로 분해하는 데 있어 실제로 의미 있는 특징을 학습하는지 여부를 체계적으로 평가하는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Interpretability #Neural Network Internals #Evaluation Baselines #Feature Decomposition #LLMs #Mechanistic Interpretability

2026년 2월 17일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale

본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #E-commerce #Vision-Language Models #Multimodal Understanding #Instruction Tuning #Attribute Extraction #Fine-tuning #Benchmarking #LLMs

2026년 2월 12일

[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Coding #Benchmarking #LLMs #Feature Development #Software Engineering #Test-Driven Development #Scalability

2026년 2월 11일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] Self-Improving World Modelling with Latent Actions

본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.

#Review #Distributed Training #Matrix-based Optimizers #Load Balancing #Asynchronous Compute #Data Parallelism #Tensor Parallelism #ZeRO-1 #LLMs

2026년 2월 8일

[논문리뷰] Semantic Search over 9 Million Mathematical Theorems

본 논문은 기존 검색 도구가 논문 단위로만 작동하여 특정 수학적 정리, 보조 정리, 명제 검색이 어려운 문제를 해결하고자 합니다. 대규모 수학적 정리 코퍼스에 대한 시맨틱 검색 시스템 을 구축하여, 연구자와 AI 에이전트가 특정 수학적 지식을 효율적으로 찾을 수 있도록 지원하는 것을 목표로 합니다.

#Review #Semantic Search #Theorem Retrieval #LLMs #Dense Retrieval #Mathematical Information Retrieval #Vector Embeddings #Mathematical Dataset #RAG

2026년 2월 5일

[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards #LLMs #Policy Optimization #Response Length Bias #Sequence-level Clipping #Length-Unbiased Optimization #Multimodal Reasoning

2026년 2월 5일

[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Kernel Generation #Triton #GPU Optimization #LLMs #Reward Hacking #Multi-turn Interaction #Code Generation

2026년 2월 5일

[논문리뷰] FASA: Frequency-aware Sparse Attention

대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.

#Review #Sparse Attention #KV Cache Optimization #Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs #Long-Context #Training-Free

2026년 2월 4일

[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.

#Review #Sparse Attention #Long-Context Inference #LLMs #Token Selection #Efficiency #Transformer #Dynamic Sparsity

2026년 2월 3일

[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Budget Allocation #Adaptive Learning #Capability-Oriented Value Function #Exploration-Exploitation #Resource Efficiency

2026년 2월 3일

[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.

#Review #Tool Use #Execution Errors #Error Recovery #Reinforcement Learning #LLMs #Agentic AI #GRPO #FISSION

2026년 2월 1일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

대규모 언어 모델(LLMs)이 모든 토큰에 균일하게 연산을 할당하여 비효율적인 연산 자원 사용을 초래하는 문제를 해결하는 것이 목표입니다.

#Review #MoE #LLMs #Adaptive Compression #Token Merging #Compute Allocation #Efficiency #Vision-Language Models #Continual Training

2026년 1월 29일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.

#Review #Deep Search #Agentic Data Generation #LLMs #Execution Feedback #Reinforcement Learning #Question Answering #Synthetic Data

2026년 1월 26일

[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

본 논문은 LLM(대규모 언어 모델)이 데이터 준비(Data Preparation) 작업에 미치는 변혁적인 영향을 체계적으로 검토하는 것을 목표로 합니다.

#Review #Data Preparation #LLMs #Data Cleaning #Data Integration #Data Enrichment #AI Agents #Semantic Reasoning #Workflow Automation

2026년 1월 26일

[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.

#Review #LLMs #Continual Adaptation #Reinforcement Learning #Supervised Fine-Tuning #Skill Transfer #Task Arithmetic #Tool Use

2026년 1월 25일

[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning

본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.

#Review #Agentic AI #World Models #Experience Learning #LLMs #Physical Hallucinations #Embodied AI #Predictive Coding #Knowledge Repository

2026년 1월 20일

[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.

#Review #RLVR #LLMs #Mechanistic Interpretability #Memorization Shortcuts #Data Contamination #Anchor-Adapter Circuit #Path Patching #Logit Lens

2026년 1월 19일

[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.

#Review #Tool-Integrated Reasoning #LLMs #Reinforcement Learning #Fine-Grained Supervision #Bipartite Matching #Credit Assignment #Advantage Estimation

2026년 1월 15일

[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Instruction Following #Reinforcement Learning #Logical Structures #LLMs #Reward Modeling #Dataset Construction #Attention Mechanism

2026년 1월 15일

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] Structured Episodic Event Memory

현재 LLM(Large Language Models)의 RAG (Retrieval-Augmented Generation) 가 겪는 산발적인 정보 검색 및 구조적 의존성 부족 문제를 해결하여, 자율 에이전트의 장기 기억(long-term memory) 성능과 추론 일관성(logical consistency) 을 향상시키는 것을 목표로 합니다.

#Review #LLMs #RAG #Episodic Memory #Graph Memory #Memory Architecture #Narrative Coherence #Long-term Reasoning #Event Frames

2026년 1월 12일

[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #PaCoRe #Test-Time Compute Scaling #LLMs #Parallel Reasoning #Reinforcement Learning #Reasoning Synthesis #Message Passing #Mathematical Reasoning

2026년 1월 12일

[논문리뷰] GenCtrl -- A Formal Controllability Toolkit for Generative Models

본 연구는 생성 모델의 제어 가능성(controllability)이 암묵적으로 가정되는 현 상황을 비판하며, 모델이 실제로 얼마나 제어 가능한지에 대한 이론적 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Generative Models #Controllability #Reachability #Control Theory #Dialogue Systems #LLMs #T2IMs #PAC Bounds #Formal Verification

2026년 1월 11일

[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-reward RL #Policy Optimization #Reward Normalization #GRPO #GDPO #LLMs #Training Stability

2026년 1월 8일

[논문리뷰] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

본 논문은 현재 RAG(Retrieval-Augmented Generation) 시스템이 인간의 '마인드스케이프(mindscape-aware)' 능력처럼 긴 문맥을 전체적으로 이해하는 능력이 부족하여 장문 컨텍스트(long-context) 태스크에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Long Context Understanding #Mindscape-Aware #Hierarchical Summarization #Context-Aware Embeddings #Integrative Reasoning #LLMs

2025년 12월 28일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.

#Review #Scientific General Intelligence (SGI)#LLMs #Benchmarking #Scientist-Aligned Workflows #Practical Inquiry Model #Multi-modal Reasoning #Code Generation #Test-Time Reinforcement Learning (TTRL)

2025년 12월 21일

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일

[논문리뷰] Memory in the Age of AI Agents

이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.

#Review #AI Agents #Memory Systems #LLMs #Taxonomy #Continual Learning #Self-Evolution #Multimodality #Reinforcement Learning

2025년 12월 15일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일

[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.

#Review #Test-Time Scaling #LLMs #Reasoning #Compute Efficiency #Inference Optimization #Decoding Strategies #Model Behavior

2025년 12월 1일

[논문리뷰] SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs

본 논문은 대규모 언어 모델(LLM)의 장문맥(long-context) 추론 시 발생하는 Key-Value (KV) 캐시 관련 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Long-context Reasoning #KV Cache Optimization #Speculative Sparsity #Knowledge Distillation #Adaptive Memory Management #Throughput

2025년 12월 1일

[논문리뷰] Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

본 논문은 현대 LLM 분석에 중요한 도구인 Intrinsic Dimension (ID) 의 텍스트 기반 결정 요인을 밝히는 것을 목표로 합니다.

#Review #Intrinsic Dimension #LLMs #Text Complexity #Sparse Autoencoders #Text Semantics #Genre Analysis #Embedding Space #Text Generation

2025년 11월 23일

[논문리뷰] Agent READMEs: An Empirical Study of Context Files for Agentic Coding

본 연구는 AI 코딩 에이전트의 작동 방식을 정의하고 안내하는 에이전트 컨텍스트 파일(Agent Context Files) 에 대한 체계적인 이해가 부족한 문제를 해결하고자 합니다.

#Review #Agentic Coding #Context Files #READMEs for Agents #Empirical Study #Software Engineering #Documentation Maintenance #Non-functional Requirements #LLMs

2025년 11월 18일

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Benchmark #LLMs #Scientific Reasoning #Multidisciplinary #AI4S #Data Contamination #Evaluation #LRM-as-Judge

2025년 11월 18일

[논문리뷰] Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

본 논문은 대규모 언어 모델(LLM)이 지식 그래프(KG)에서 예측 가능하고 관련성 높은 답변을 넘어, 예상치 못하고 가치 있는('serendipitous') 통찰력을 발견 하는 능력을 평가하는 것을 목표로 합니다.

#Review #Serendipity Discovery #Knowledge Graphs #Drug Repurposing #LLMs #KGQA #RNS Metric #Biomedical AI

2025년 11월 17일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일

[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.

#Review #Reinforcement Learning #LLMs #Generalization #Overfitting #Catastrophic Forgetting #Iterative Policy Optimization #Policy Diversity

2025년 11월 10일

[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.

#Review #LLMs #RLVR #Length Regularization #Mathematical Reasoning #Data Curation #Model Efficiency #Emergent Brevity

2025년 11월 9일

[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명(NLEs)을 생성할 때 내부의 매개변수 지식(Parametric Knowledge, PK) 과 외부의 문맥 지식(Context Knowledge, CK) 을 어떻게 통합하고 상호작용하는지 다단계에 걸쳐 분석하는 것을 목표로 합니다.

#Review #LLMs #Knowledge Interaction #Parametric Knowledge #Contextual Knowledge #Subspace Disentanglement #NLE Generation #Hallucination Detection #Chain-of-Thought

2025년 11월 9일

[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.

#Review #Test-Time Scaling #LLMs #Graph Optimization #REINFORCE #Multi-agent Systems #Adaptive Architectures #Compute-optimal Scaling #Probabilistic Graphs

2025년 11월 9일

[논문리뷰] SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

현재 암시적 CoT(implicit CoT) 방법론이 직면한 두 가지 핵심 문제, 즉 (1) 암시적 추론과 실제 추론 간의 의미적 정렬 부족 으로 인한 성능 저하와 (2) 개별 암시적 추론 토큰 생성에 필요한 높은 연산 비용 을 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Implicit Reasoning #LLMs #Semantic Alignment #Efficiency Optimization #Knowledge Distillation

2025년 11월 9일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.

#Review #3D Scene Synthesis #Agentic Framework #LLMs #Self-Reflection #Tool-Use #Physical Plausibility #Iterative Refinement #Embodied AI

2025년 9월 26일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Policy Optimization #Token Heterogeneity #Adaptive Sampling #Advantage Redistribution #Asymmetric Clipping #Entropy-based RL

2025년 9월 23일

[논문리뷰] EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

대규모 언어 모델(LLM) 기반의 장기 대화형 질문 답변(LongConvQA) 시스템에서 KV 캐시의 메모리 사용량이 대화 길이에 따라 선형적으로 증가 하는 문제를 해결하는 것이 목표입니다.

#Review #KV Cache Management #Long Conversational QA #LLMs #Memory Efficiency #Episodic Clustering #Block Prefill Eviction #Sensitivity-aware Allocation

2025년 9월 23일

[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.

#Review #Code Review #LLMs #Benchmark #Python Projects #End-to-End Evaluation #Context-Awareness #Software Engineering #LLM-as-a-Judge

2025년 9월 23일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Specification Alignment #Test-Time Deliberation #Safety-Behavior Trade-off #ALIGN3 #SPECBENCH #Prompt Engineering

2025년 9월 19일

[논문리뷰] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

논문은 LLM이 라벨이나 외부 평가 없이 스스로 개선하려는 라벨-프리(label-free) 학습 환경에서 겪는 엔트로피 붕괴(entropy collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Label-free Reinforcement Learning #LLMs #Self-improvement #Entropy Collapse #Novelty Reward #Test-Time RL #GRPO #Evolutionary Computing Principles

2025년 9월 19일

[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

WebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.

#Review #Web Agents #Reinforcement Learning #Synthetic Data #Knowledge Graphs #LLMs #Supervised Fine-Tuning #Sim-to-Real Transfer #Agentic AI

2025년 9월 17일

[논문리뷰] GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

본 연구는 대규모 언어 모델(LLM) 기반 임베딩 모델의 배포 문제를 해결하기 위해, 기존 가지치기(pruning) 방법론이 일반적인 의미론적 표현과 도메인 특화 패턴을 구분하지 못하여 발생하는 비최적화된 가지치기 결정 의 한계를 극복하고자 합니다.

#Review #Model Pruning #Domain Adaptation #Embedding Models #Gradient Alignment #Fisher Information #Model Compression #LLMs

2025년 9월 16일

[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs

본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.

#Review #Toxic Text Generation #LLMs #Text Detoxification #Lexical Diversity #Synthetic Data #Human Annotation #Style Transfer

2025년 9월 11일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] Reverse-Engineered Reasoning for Open-Ended Generation

개방형(open-ended) 및 창의적 생성과 같이 검증 불가능한 도메인에서 대규모 언어 모델(LLM)에 깊이 있는 추론 능력 을 부여하는 것이 이 연구의 핵심 목표입니다. 기존의 강화 학습(RL) 및 증류(distillation) 방식의 한계, 즉 명확한 보상 신호 부재 및 높은 비용 문제를 극복하고자 합니다.

#Review #Deep Reasoning #Open-Ended Generation #Reverse-Engineered Reasoning (REER)#LLMs #Synthetic Data #Iterative Refinement #Perplexity Minimization #DeepWriting-20K

2025년 9월 9일

[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.

#Review #LLMs #Instruction Following #Benchmark #Cognitive Inertia #Out-of-Distribution #Supervised Fine-Tuning #Evaluation #Robustness

2025년 9월 5일

[논문리뷰] The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

이 논문은 대규모 언어 모델(LLMs)이 언어 학습에서 인간과 유사한 메타언어적 추론 능력 을 진정으로 갖추고 있는지 평가하는 것을 목표로 합니다. LLM의 성공이 단순한 패턴 매칭이 아닌, 명시적인 문법 규칙과 어휘를 통해 낯선 언어를 학습하고 적용 하는 능력에서 비롯되는지 진단하고자 합니다.

#Review #LLMs #Metalinguistic Reasoning #Constructed Language #Camlang #Second Language Acquisition #Zero-shot Learning #Natural Language Understanding #Commonsense Reasoning

2025년 9월 3일

[논문리뷰] Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 능력을 습득하기 위해 필요한 값비싼 강화 학습(RL) 기반 최적화 과정을 대체하는 방법을 모색합니다.

#Review #Reasoning Vectors #Task Arithmetic #Chain-of-Thought #LLMs #Reinforcement Learning #Model Merging #Parameter Transfer

2025년 9월 3일

[논문리뷰] Metis: Training Large Language Models with Advanced Low-Bit Quantization

본 논문은 대규모 언어 모델(LLMs)을 저비트 양자화로 훈련할 때 발생하는 이방성 매개변수 분포 가 불안정한 훈련과 성능 저하의 주된 원인임을 식별하고, 이를 해결하여 견고하고 효율적인 저비트 훈련을 가능하게 하는 새로운 프레임워크인 Metis 를 제안합니다.

#Review #Low-Bit Quantization #LLMs #Spectral Decomposition #Anisotropy #Adaptive Learning Rate #Regularization #FP8 Training #FP4 Training

2025년 9월 3일

[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.

#Review #GUI Agents #Adventure Games #Benchmark #Full Story Arc #Observation-Behavior Gap #LLMs #Automated Evaluation

2025년 9월 3일

[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.

#Review #Memory Networks #Mixture of Experts (MoE)#Long-Context Learning #Sparse Models #Transformer Architecture #LLMs #Efficient Inference

2025년 8월 27일

[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.

#Review #LLMs #Controllable Reasoning #Computational Efficiency #Reinforcement Learning #Supervised Fine-tuning #Reasoning Compression #Budget-Aware Training

2025년 8월 27일

[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.

#Review #Semi-structured Tables #Question Answering #LLMs #Hierarchical Orthogonal Tree #Table Layout Understanding #Pipeline Generation #Verification Mechanism

2025년 8월 26일

[논문리뷰] CRISP: Persistent Concept Unlearning via Sparse Autoencoders

본 논문은 대규모 언어 모델(LLMs)에서 불필요하거나 유해한 지식을 영구적으로 제거(Persistent Concept Unlearning) 하면서도 모델의 일반적인 유용성과 생성 품질을 유지하는 것을 목표로 합니다.

#Review #Concept Unlearning #Sparse Autoencoders (SAEs)#LLMs #Parameter-Efficient Fine-Tuning #Model Interpretability #Safety-Critical AI #Feature Suppression #WMDP Benchmark

2025년 8월 25일

[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists

AI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #AI Agents #Open Access #Scientific Discovery #Peer Review #LLMs #Multi-agent Systems #Prompt Injection #Iterative Refinement

2025년 8월 22일

[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation

대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #LLMs #Confidence Estimation #Fine-Grained #Generation Process #Calibration #Monte Carlo Sampling #Backward Confidence Integration

2025년 8월 20일

[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.

#Review #Chain-of-Agents #Agent Foundation Models #Multi-Agent Systems #Tool-Integrated Reasoning #Multi-agent Distillation #Agentic Reinforcement Learning #LLMs #End-to-End Learning

2025년 8월 20일

[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them

대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.

#Review #Bias Mitigation #LLMs #Mechanistic Interpretability #Fine-tuning #Attention Steering #Stereotype Analysis #Safety Alignment

2025년 8월 13일

[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Sparse Attention #LLMs #Reasoning Tasks #Efficiency #Training-Free #Global Locality #KV Cache Optimization

2025년 8월 12일

[논문리뷰] Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

본 논문은 기존 MoE (Mixture of Experts) LLM의 한계인 고정된 파라미터 활성화와 이로 인한 비효율적인 계산 문제를 해결하는 것을 목표로 합니다.

#Review #Mixture of Experts #LLMs #MoE Architecture #Dynamic Activation #Adjugate Experts #Upcycling Strategy #Load Balancing

2025년 8월 12일

[논문리뷰] Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

본 논문은 오픈-웨이트 대규모 언어 모델(LLMs)이 이중 용도(dual-use) 지식(예: 바이오위협 프록시 지식)을 학습하는 것을 효과적으로 방지하고, adversarial fine-tuning 공격에 대한 변조 저항성을 높이는 새로운 방법을 제안합니다.

#Review #LLMs #데이터 필터링 #사전 학습 #변조 저항성 #바이오위협 #AI 안전 #서킷 브레이킹 #머신 언러닝

2025년 8월 12일

[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.

#Review #Benchmarking #Deep-Research Agents #LLMs #Retrieval #Curated Corpus #Evaluation #Fairness #Transparency #Reproducibility

2025년 8월 12일

[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.

#Review #Code Reasoning #CoT Compression #LLMs #Efficiency #Surprisal #Pruning #Fine-tuning #Large Reasoning Models

2025년 8월 11일

[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

본 연구는 기존 대규모 언어 모델(LLM) 기반의 3D 메시 처리 방식이 갖는 데이터셋 규모의 한계와 텍스트 직렬화 과정에서의 3D 구조 정보 손실 문제를 해결하여, LLM이 텍스트 직렬화된 3D 메시를 더욱 효과적으로 이해하고 생성할 수 있도록 돕는 것을 목표로 합니다.

#Review #3D Mesh Generation #LLMs #Mesh Understanding #Text-to-3D #Primitive-Mesh Decomposition #Progressive Training #Multimodal AI

2025년 8월 11일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭 일 가능성을 탐구합니다.

#Review #Chain-of-Thought #LLMs #OOD Generalization #Data Distribution Shift #Reasoning #Pattern Matching #DataAlchemy

2025년 8월 7일

[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.

#Review #Instruction Following #Reinforcement Learning #Reward Hacking #LLMs #Curriculum Learning #Data Flywheel #Verifiable Rewards

2025년 8월 7일

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일

[논문리뷰] A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

본 논문은 '데이터 에이전트' 용어의 종합적이고 체계적인 정의 및 분류 를 제공하고, 기능적 경계와 책임 분배를 명확히 하는 계층적 분류 체계를 제안하여 데이터 에이전트 연구의 개념적 모호성을 해소 하는 것을 목표로 합니다. 나아가 기존 연구를 검토하고 미래 연구 방향을 제시하여 이 분야의 건강한 발전을 돕고자 합니다.

#Review #Data Agents #LLMs #Autonomy Levels #Hierarchical Taxonomy #SAE J3016 #Data Management #Data Preparation #Data Analysis #Autonomous Orchestration

2025년 10월 28일

[논문리뷰] Large Language Models Do NOT Really Know What They Don't Know

본 논문은 대규모 언어 모델(LLMs)이 사실적 오류를 생성할 때 내부적으로 어떻게 처리하는지 기계적으로 분석하여, LLMs가 진정으로 '무엇을 모르는지 아는지' 여부를 밝히는 것을 목표로 합니다.

#Review #LLMs #Hallucination Detection #Mechanistic Interpretability #Internal States #Knowledge Recall #Refusal Tuning #Factual Associations #Associated Hallucinations

2025년 10월 17일

[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs

본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Compute Efficiency #Predictability #Sigmoidal Curves #ScaleRL #Off-Policy RL

2025년 10월 16일

[논문리뷰] NOSA: Native and Offloadable Sparse Attention

본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 디코딩 시 발생하는 메모리 병목 현상, 특히 KV 캐시 크기 가 배치 크기 및 디코딩 처리량을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Sparse Attention #KV Cache Offloading #LLMs #Decoding Throughput #Locality Constraint #Memory Optimization #Trainable Sparse Attention

2025년 10월 16일

[논문리뷰] Dr.LLM: Dynamic Layer Routing in LLMs

대규모 언어 모델(LLM)이 모든 입력 토큰을 고정된 모든 레이어에 통과시키면서 발생하는 비효율성(쉬운 작업 시 연산 낭비)과 복잡한 추론 작업 시 유연성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Dynamic Routing #LLMs #Adaptive Depth #Computational Efficiency #Monte Carlo Tree Search (MCTS)#Retrofittable Framework #Supervised Learning #Accuracy Improvement

2025년 10월 15일

[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

대규모 언어 모델(LLMs)의 지식 편집(KE) 과정에서 다중 홉 사실 회상(multi-hop factual recall) 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #LLMs #Multi-hop Reasoning #Mechanistic Interpretability #Neuron-level Attribution #Factual Recall #Transformer Networks

2025년 10월 13일

[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness

본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.

#Review #Post-Training Quantization #Quantization Robustness #Training Dynamics #Learning Rate Schedules #Weight Averaging #Large Language Models #LLMs #Hyperparameter Tuning

2025년 10월 8일

[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Code-Assisted Reasoning #Chain-of-Thought (CoT)#Instruction Tuning #Data Augmentation #LLMs #Mathematical Reasoning #Self-Verification #Code Generation

2025년 10월 8일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

본 논문은 대규모 언어 모델(LLMs)의 사후 훈련 과정에서 발생하는 높은 비용, 의도치 않은 부작용, 순차적 편집의 불안정성 및 제한된 일반화 문제들을 해결하고자 합니다.

#Review #Model Editing #Lifelong Learning #LLMs #Continual Learning #Knowledge Distillation #Error Feedback #Memory Management #Parameter Merging

2025년 10월 6일

[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Diffusion Models #Preference Optimization #LLMs #RLHF #Prompt Editing #Free Lunch Alignment #TDPO #TKTO

2025년 10월 6일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일

[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think

본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.

#Review #LLMs #MCMC #Sampling #Reasoning #Distribution Sharpening #Reinforcement Learning (RL)#Inference-time Optimization #Training-free

2025년 10월 27일

[논문리뷰] RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging

대규모 언어 모델(LLMs)이 연속 학습 및 다중 도메인 환경에서 겪는 Catastrophic Forgetting (CF) 문제를 해결하는 것을 목표로 합니다.

#Review #Catastrophic Forgetting #Continual Learning #Model Merging #LLMs #Representation Learning #Data-free Learning #Hierarchical Parameter Fusion

2025년 10월 27일

[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding

본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.

#Review #Diff Understanding #Code Diff #Benchmark #LLMs #Code Editing #Software Engineering #Unified Diff Format #Search-Replace

2025년 10월 24일

[논문리뷰] Deep Self-Evolving Reasoning

본 연구는 개방형 소형 언어 모델(LLM)이 어려운 추론 작업에서 취약한 검증 및 교정 능력으로 인해 한계에 부딪히는 문제를 해결하고자 합니다.

#Review #Deep Self-Evolving Reasoning #LLMs #Iterative Reasoning #Markov Chain #Self-Verification #Self-Refinement #Mathematical Reasoning #AIME Benchmark

2025년 10월 21일

[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.

#Review #LLMs #Reinforcement Learning #Rubric-Based Training #Medical Dialogue #Open-Ended Tasks #HealthBench #RAG

2025년 10월 20일

[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning

소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.

#Review #Environment Setup #LLMs #Reinforcement Learning #Supervised Fine-tuning #On-device AI #Software Engineering #Verifiable Rewards

2025년 10월 2일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일