#Large Language Models

442개의 포스트

[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models #Process Reward Model #Inference-time Guidance #Chunk-Level Generation #Likelihood Scoring #Training-Free

2026년 6월 1일

[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.

#Review #Context Compression #Long-Context Reasoning #Large Language Models #Fine-Tuning #Cross-Attention #Code Reasoning #Cross-Family Generalization #Two-Stage Training

2026년 6월 1일

[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization

본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.

#Review #Reinforcement Learning #Large Language Models #Proximal Policy Optimization #Early Stopping #Reasoning #Compute Efficiency #Credit Assignment

2026년 6월 1일

[논문리뷰] SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

본 논문은 Autonomous AI Agents가 연구 파이프라인을 자동화함에 따라, 무분별한 실험 수행 전에 아이디어의 타당성을 걸러내는 First-gate 단계가 필수적임을 강조합니다.

#Review #Autonomous AI Agents #Research Evaluation #Methodological Soundness #Large Language Models #Optimism Bias #Scientific Benchmarking #First-gate Evaluation

2026년 5월 31일

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일

[논문리뷰] When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

본 논문은 LLM이 장기적인 상호작용 속에서 누적되는 정보들 중 무엇을 믿고, 무엇을 수정하며, 무엇을 무시해야 하는지에 대한 문제(CBM)를 해결하고자 합니다. 기존의 LLM은 문맥 내에서 제공되는 형식적 증거를 따르기보다 사전 학습된 파라메트릭 지식이나 문맥상의 노이즈에 과도하게 의존하는 경향이 있습니다 .

#Review #Contextual Belief Management #Large Language Models #BeliefTrack #Reinforcement Learning #Contextual Interference #Symbolic Verification

2026년 5월 28일

[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.

#Review #Reinforcement Learning #Factuality #Process Supervision #Wikipedia #Co-occurrence #Large Language Models #GRPO

2026년 5월 28일

[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.

#Review #Large Language Models #Constrained Decoding #Structured Generation #Chain-of-Thought #Parser

2026년 5월 28일

[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.

#Review #VibeSearch #Proactive Search #Large Language Models #Agent Harness #Knowledge Graph #Benchmark

2026년 5월 27일

[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search

본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .

#Review #Large Language Models #Evolutionary Search #Bidirectional Search #Goal Decomposition #Post-Training #Inference Scaling

2026년 5월 27일

[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning

본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.

#Review #Large Language Models #Logical Reasoning #Chain-of-Thought #Causal Mediation Analysis #Circuit Interpretability #Attention Heads #Deductive Reasoning

2026년 5월 27일

[논문리뷰] Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

본 논문은 현대 LLM이 가진 방대한 어휘력에도 불구하고, 출력 텍스트가 구조적으로 동질화되고 표현의 다양성이 저하되는 'Lexical Homogenization' 문제를 해결하고자 합니다.

#Review #Large Language Models #Decoding Mechanics #Word Coverage Score #Lexical Reachability #Homogenization #Sampling Filters

2026년 5월 27일

[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.

#Review #Multi-Token Prediction #Reinforcement Learning #Optimization #Optimal Coefficient Calibration #Large Language Models #Mathematical Reasoning

2026년 5월 27일

[논문리뷰] ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

본 논문은 기존 ESC 시스템들이 주로 end-to-end 방식에 의존하여 해석 가능성이 낮고 체계적인 기술 개선이 어렵다는 문제를 해결하고자 합니다.

#Review #Emotional Support Conversations #Skill-centric Framework #Intervention Units #Self-Evolutionary #Large Language Models #Simulation-based Verification

2026년 5월 27일

[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.

#Review #Reinforcement Learning #Reasoning Models #Denoising Reasoning #Weak-to-Strong Generalization #Self-correction #Large Language Models

2026년 5월 27일

[논문리뷰] AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

본 논문은 LLM 기반의 다중 에이전트 시스템에서 발생하는 조율 불투명성과 고정된 파이프라인의 경직성 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Online Policy Learning #Coordination Substrate #Large Language Models #Task Signatures #Relative Trajectory Evaluation

2026년 5월 27일

[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.

#Review #Test-Time Scaling #Collaborative Parallel Thinking #Large Language Models #Information Sharing #Redundant Exploration #Accuracy-Latency Pareto Frontier #Mathematical Reasoning

2026년 5월 26일

[논문리뷰] Training Large Language Models to Predict Clinical Events

본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .

#Review #Large Language Models #Clinical Prediction #Foresight Learning #EHR #LoRA #Temporal Modeling #Probabilistic Forecasting

2026년 5월 21일

[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models

본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.

#Review #Large Language Models #Reinforcement Learning #RLVR #Unlearnability #Gradient Outliers #Representation Learning

2026년 5월 20일

[논문리뷰] PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

본 논문은 기존의 계획 벤치마크가 고정된 인스턴스 집합에 의존하여 시나리오의 다양성과 구조적 복잡도를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 단순히 프롬프트 길이 등 표면적인 지표로 난이도를 측정하며, 자동화된 검증 및 확장 가능한 데이터 생성이 결여되어 있었습니다.

#Review #Large Language Models #PlanningBench #Constraint-driven Synthesis #Reinforcement Learning #Verifiable Data #Taxonomy

2026년 5월 20일

[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.

#Review #Large Language Models #Training Control Governance #LBW-Guard #AdamW #Training Stability #Bounded Autonomous Control #Compute Efficiency

2026년 5월 20일

[논문리뷰] It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

본 논문은 LLM이 개인 비서(Personal Agent)로 활용되면서 발생하는 문맥적 프라이버시(Contextual Integrity) 문제를 해결하고자 합니다.

#Review #Contextual Integrity #Large Language Models #Self-Distillation #Product-of-Experts #Privacy-Utility Trade-off #Alignment

2026년 5월 20일

[논문리뷰] CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

본 논문은 표준 CoT 패러다임이 가진 비효율적인 '생각 후 답변' 순서와, 이미 답변을 도출한 후에도 불필요하게 추론을 지속하는 Performative Reasoning 문제를 해결하고자 한다 .

#Review #Large Language Models #Chain-of-Thought #Continuous Embeddings #Contrastive Verification #On-Policy Thinking #Agentic Reasoning

2026년 5월 19일

[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation

기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.

#Review #Mixture-of-Experts #Dynamic Inference #Self-Distillation #Zero-Expert Injection #Large Language Models #Model Adaptation

2026년 5월 18일

[논문리뷰] NGM: A Plug-and-Play Training-Free Memory Module for LLMs

본 논문은 LLM이 추론 시 고유한 로컬 패턴(식별자, 전문 용어, 구문 등)을 재구성하기 위해 과도한 연산 자원을 소모하는 문제를 해결하고자 합니다. 기존의 Conditional Memory 접근법은 학습이 필요한 메모리 테이블이나 별도의 저장소 인프라를 요구하여 유연성과 효율성을 제한합니다.

#Review #Large Language Models #Memory Module #N-gram #Training-Free #Plug-and-Play #Cosine Similarity

2026년 5월 18일

[논문리뷰] Measuring Maximum Activations in Open Large Language Models

본 논문은 최신 오픈 LLM 생태계에서 Activation의 동적 범위(Dynamic Range)가 단순히 파라미터 수에 비례한다는 기존의 통념을 재검토하고, 모델별 Maximum Activation Magnitude(MM)를 체계적으로 측정하여 배포 시의 위험을 파악하고자 합니다.

#Review #Large Language Models #Activation Range #Quantization #Maximum Activation #LLM Inference #Residual Stream #Model Scaling

2026년 5월 18일

[논문리뷰] FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

본 논문은 기존의 금융 벤치마크가 지닌 한계를 극복하고 LLM의 실질적인 금융 전문 역량을 정밀하게 진단하기 위해 FINESSE-Bench를 제안한다.

#Review #Large Language Models #Financial Benchmarking #Difficulty Hierarchy #Technical Analysis #LLM-as-Judge #Professional Competence #Financial Reasoning

2026년 5월 18일

[논문리뷰] Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

본 논문은 LLM 기반의 자율 에이전트가 시장에서 상호작용할 때 발생하는 체계적인 경제적 리스크를 해결하고자 한다. 기존의 AI 정렬 방식은 개별 에이전트의 사실성이나 무해성에만 집중할 뿐, 다수의 에이전트가 상호작용하며 만드는 시장 수준의 불안정성을 제어하지 못한다.

#Review #Multi-Agent Systems #Economic Alignment #Large Language Models #Simulation Framework #Market Stability #Reinforcement Learning

2026년 5월 18일

[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .

#Review #Large Language Models #Competitive Programming #Agentic Evolution #Reinforcement Learning #Knowledge Network #Code Generation #Multi-Agent System

2026년 5월 17일

[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Parameter Dynamics #Training Efficiency #EffOPD #Subspace Evolution

2026년 5월 17일

[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.

#Review #Reinforcement Learning #Large Language Models #Verifiable Rewards #Policy Optimization #Error Correction #Reasoning Capability

2026년 5월 17일

[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors

본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.

#Review #POMDP #World Model #Large Language Models #Program Induction #Sample Efficiency #Partial Observability #Belief-based Filtering

2026년 5월 17일

[논문리뷰] Hölder Policy Optimisation

본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.

#Review #Reinforcement Learning #Large Language Models #Hölder Mean #Gradient Concentration #Policy Optimisation #Group Relative Policy Optimisation (GRPO)

2026년 5월 17일

[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting

본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.

#Review #Time Series Forecasting #Large Language Models #Agentic Framework #Multimodal #Reasoning #Temporal Dynamics #Calibration

2026년 5월 14일

[논문리뷰] Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

본 논문은 대규모 LLM의 추론 성능 향상을 위한 고비용의 post-training(instruction tuning, RL 등) 과정을 배제하고, 기존 Checkpoint 내에 잠재된 능력을 재조합하는 비용 효율적인 대안을 제시합니다.

#Review #Model Merging #Evolutionary Optimization #Large Language Models #Reasoning #Diagnostic-Guided #Training-Free

2026년 5월 14일

[논문리뷰] δ-mem: Efficient Online Memory for Large Language Models

본 연구는 LLM이 장기적인 대화와 에이전트 작업에서 과거 이력을 효과적으로 누적하고 재사용하지 못하는 문제를 해결하고자 합니다. 기존의 방식인 Context Window 확장은 연산 복잡도가 Quadratic하게 증가하고, 정보 누락이나 Context rot 현상이 발생하는 한계가 있습니다.

#Review #Large Language Models #Online Memory #Associative Memory #Low-rank Correction #Delta-rule Learning #Attention Mechanism

2026년 5월 12일

[논문리뷰] Do not copy and paste! Rewriting strategies for code retrieval

본 연구는 코드 검색을 위한 기존의 임베딩 기반 기법들이 코드의 표면적인 문법적 특징에 과도하게 의존(Overfit)하여, 실제 의미론적 행동(Program behavior)을 파악하는 데 한계가 있다는 문제에서 출발합니다.

#Review #Code Information Retrieval #Large Language Models #Rewriting #Embedding #PseudoCode #Token Entropy #Representational Analysis

2026년 5월 12일

[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.

#Review #Self-Distillation #Large Language Models #On-Policy Learning #Supervision Reliability #Representation Alignment #Training Stability

2026년 5월 10일

[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.

#Review #Large Language Models #Reinforcement Learning #Reasoning #Decision Points #Sparse Policy Selection #Contrastive Fine-Tuning #Entropy-Gated

2026년 5월 10일

[논문리뷰] MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference

본 논문은 Long-context LLM Inference에서 indexer 연산이 전체 비용의 지배적인 비중을 차지하는 문제를 해결하기 위해 MISA를 제안한다.

#Review #Large Language Models #Long-Context #Sparse Attention #Mixture of Experts #Indexer #Inference Efficiency #Retrieval

2026년 5월 10일

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일

[논문리뷰] CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

현재의 LLM 라이프사이클은 대규모 pretraining과 finetuning이라는 두 단계에 고정되어 있어, 일단 배포되면 학습이 완전히 중단되는 한계가 있습니다.

#Review #Large Language Models #Deployment-Time Learning #Case-Based Reasoning #Contextual Bandit #No-Regret Learning #Experiential Learning

2026년 5월 10일

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

본 논문은 기존 특허 관련 연구가 특허 심사를 단순한 이진 분류(Acceptance Prediction)나 정적인 정보 추출 문제로만 취급하여 실제 현장의 반복적이고 상호작용적인 심사 과정을 반영하지 못한다는 한계를 해결하고자 한다.

#Review #Patent Examination #Office Action Generation #Rebuttal Generation #Large Language Models #Legal Reasoning #Benchmark

2026년 5월 5일

[논문리뷰] Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

본 논문은 데이터가 제한된 고자원 비영어권 언어(독일어 등)의 LLM 학습에서 발생하는 '데이터 다양성 확보'와 '데이터 품질 강화' 사이의 전략적 딜레마를 해결하고자 한다.

#Review #Large Language Models #Data Filtering #Sample Efficiency #German Language Modeling #Multi-Epoch Training #Semantic Density #High-Signal Data

2026년 5월 4일

[논문리뷰] Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization

본 논문은 분산 환경에서 에이전트들이 handcrafted update rules에 의존하지 않고, historical trajectory를 기반으로 스스로 알고리즘을 설계하는 방식을 연구한다.

#Review #Distributed Black-Box Optimization #Multi-Agent Systems #Large Language Models #Consensus Optimization #Trajectory-Driven Self-Design

2026년 5월 3일

[논문리뷰] A Survey on LLM-based Conversational User Simulation

본 논문은 LLM의 발달로 가능해진 사용자 시뮬레이션 기술의 체계적인 분류와 분석이 부재한 문제를 해결하고자 한다. 기존의 사용자 시뮬레이션은 특정 도메인(예: 추천 시스템)에 한정되거나 대규모 데이터 수집의 어려움으로 인해 확장성에 한계가 있었다.

#Review #Conversational User Simulation #Large Language Models #Persona Modeling #Synthetic Data Generation #Multi-agent Systems #Dialogue Evaluation

2026년 4월 29일

[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Website Generation #GRPO #Multimodal Reward #React

2026년 4월 23일

[논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

본 논문은 대규모 클라우드 네이티브 서비스 환경에서 고객 피드백으로부터 실시간으로 위험 이벤트를 탐지하는 시스템의 미흡함을 해결하기 위해 제안되었다.

#Review #Risk Event Discovery #Large Language Models #Incident Management #Signal-to-Noise Ratio #Event Linking #Enterprise Scale

2026년 4월 23일

[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .

#Review #Time Series Reasoning #Large Language Models #Vision-Language Models #Chain-of-Thought #Curriculum Learning #Data Taxonomy

2026년 4월 23일

[논문리뷰] Hybrid Policy Distillation for LLMs

본 연구는 LLM 압축 과정에서 발생하는 divergence direction, optimization strategy, data regime 간의 복잡한 상호작용 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Large Language Models #Forward-Reverse KL #Policy Distillation #Logit-level Reweighting #On-policy Sampling

2026년 4월 23일

[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions

본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .

#Review #Human Motion Understanding #Large Language Models #Structured Motion Description #Biomechanics #LoRA #Motion Question Answering #Motion Captioning

2026년 4월 23일

[논문리뷰] Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

본 논문은 LLM pretraining 과정에서 타겟 도메인 및 태스크의 특성을 효율적으로 학습하기 위한 정교한 데이터 선별 기법의 부재 문제를 해결합니다.

#Review #Large Language Models #Pretraining Data Selection #Neuron-Activated Graph #Target-Oriented Pretraining #Interpretability

2026년 4월 21일

[논문리뷰] ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

본 논문은 기존 LoRA 스타일의 PEFT 방식이 가진 파편화된 적응(fragmented adaptation) 구조를 극복하기 위해 ShadowPEFT를 제안한다.

#Review #Parameter-Efficient Fine-Tuning #Shadow Network #Large Language Models #Modular Deployment #Edge Computing

2026년 4월 21일

[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.

#Review #Agentic Workflow #Benchmark #Large Language Models #Visual Programming #Executable Workflow #Task Automation

2026년 4월 21일

[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .

#Review #QuantCode-Bench #Large Language Models #Algorithmic Trading #Backtrader #Code Generation #Agentic Workflow #Domain-Specific Benchmarking

2026년 4월 19일

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일

[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?

본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.

#Review #Large Language Models #LLM Unlearning #Algorithmic Invention #GRPO #Test-time Reinforcement Learning

2026년 4월 19일

[논문리뷰] Towards Autonomous Mechanistic Reasoning in Virtual Cells

본 논문은 생물학적 추론을 Directed Acyclic Graph(DAG) 형태로 공식화하여 추론 과정을 명확히 정의하고 검증 가능하게 만듭니다 . 제안하는 VCR-Agent는 보고서 생성기(Report Generator)와 설명 생성기(Explanation Constructor)라는 두 단계 파이프라인으로 구성되어 있습니다.

#Review #Virtual Cells #Large Language Models #Mechanistic Reasoning #Structured Explanation #Knowledge Retrieval #Verifier-based Filtering

2026년 4월 16일

[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Long-context #Sparsity #Activation Patterns #Saliency-guided

2026년 4월 16일

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.

#Review #Large Language Models #User Simulation #Human Behavior Modeling #Long-horizon #Cross-scenario #Benchmark

2026년 4월 9일

[논문리뷰] Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

본 논문은 기존 long-context LLM 추론에서 발생하는 quadratic computational complexity와 기존 하이브리드 어텐션 기법들의 한계를 해결하고자 합니다.

#Review #Large Language Models #Long-context Inference #Hybrid Attention #Dynamic Routing #Layer-level Sparsity #Context-aware

2026년 4월 9일

[논문리뷰] Automating Database-Native Function Code Synthesis with LLMs

DBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.

#Review #Database-Native Function #Code Synthesis #Large Language Models #Function Characterization #Adaptive Orchestration #Pseudo-plan Generation

2026년 4월 9일

[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.

#Review #Large Language Models #Latent Planning #Strategy Discovery #Chain-of-Thought #Depth Ceiling #Path-finding #Implicit Reasoning

2026년 4월 8일

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일

[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.

#Review #Agentic Graph Learning #Reinforcement Learning #Large Language Models #Graph-Native Search #Curriculum Learning

2026년 4월 8일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

본 논문은 문헌 탐색부터 분석, 비평까지 연구 전 과정을 지원하는 다중 에이전트 플랫폼인 Paper Circle을 제안한다. 시스템은 Discovery Pipeline과 Analysis Pipeline으로 구성되며, 연구자는 CodeAgent(CoA) 기반의 오케스트레이션 프레임워크를 통해 결정론적이고 추적 가능한 결과를 얻을 수 있다 , .

#Review #Multi-agent Systems #Research Discovery #Knowledge Graph #Large Language Models #Academic Literature Review

2026년 4월 7일

[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .

#Review #Large Language Models #Memory-Centric #CPU-GPU Offloading #Parameter Streaming #Stateless Execution #Pipelined Execution #Single-GPU Training

2026년 4월 7일

[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.

#Review #Multimodal Embedding #Large Language Models #Chain-of-Thought #Reinforcement Learning #Latent Variable #Causal Inference

2026년 4월 7일

[논문리뷰] In-Place Test-Time Training

본 논문은 정적인 'train then deploy' 패러다임이 LLM의 동적 적응 능력을 제한하는 문제를 해결하기 위해 In-Place TTT 를 제안합니다.

#Review #In-Place Test-Time Training #Large Language Models #Fast Weights #Next-Token Prediction #Chunk-Wise Update #Continual Learning

2026년 4월 7일

[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.

#Review #Autonomous Bug Discovery #Large Language Models #Game Benchmark #Quality Assurance #Multi-agent System #Software Engineering

2026년 4월 7일

[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies

본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다.

#Review #Network Pruning #Large Language Models #Representation Hierarchy #Autoregressive Decoding #Softmax Nonlinearity

2026년 4월 7일

[논문리뷰] Paper Espresso: From Paper Overload to Research Insight

본 논문은 과학적 출판물의 급격한 증가로 인해 발생하는 연구자들의 정보 비대칭성과 과부하 문제를 해결하고자 합니다. arXiv에만 매월 약 30,000건의 논문이 제출되면서 개별 연구자가 모든 최신 동향을 파악하는 것은 불가능해졌습니다.

#Review #Paper Summarization #Trend Analysis #Knowledge Discovery #Large Language Models #Research Tools

2026년 4월 6일

[논문리뷰] POEMetric: The Last Stanza of Humanity

본 연구는 현존하는 LLM이 시 창작에서 문법적 완성도는 높으나, 인간 시인만이 가진 예술적 깊이와 창의성을 모방하는 데에는 한계가 있다는 문제의식에서 출발한다.

#Review #Large Language Models #Poetry Evaluation #POEMetric #Creative AI #Literary Criticism #Instruction-following

2026년 4월 6일

[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management

저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .

#Review #Large Language Models #Reasoning Compression #Memory Management #Agentic Reasoning #Context Optimization

2026년 4월 6일

[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.

#Review #RLVR #Noisy Label Learning #Online Label Refinement #Early Correctness Coherence #Large Language Models #Reasoning

2026년 4월 6일

[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models

본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.

#Review #Large Language Models #Textual Frequency Law #Paraphrasing #Curriculum Learning #Frequency Distillation

2026년 4월 6일

[논문리뷰] Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

본 논문은 급증하는 Autonomous Coding Agents 가 오픈소스 소프트웨어 생태계에 미치는 실질적인 영향과 그 결과물인 코드의 품질을 실증적으로 분석하는 것을 목표로 합니다.

#Review #Autonomous Coding Agents #Large Language Models #Mining Software Repositories #Pull Requests #Code Churn #Empirical Software Engineering #Human-AI Collaboration

2026년 4월 2일

[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .

#Review #Data-Centric AI #Large Language Models #Dynamic Training #Data Selection #Data Mixture #Data Reweighting #LLaMA-Factory

2026년 4월 2일

[논문리뷰] Universal YOCO for Efficient Depth Scaling

본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.

#Review #Large Language Models #Recursive Computation #YOCO #Depth Scaling #Inference Efficiency #KV Cache #Decoder-Decoder Architecture

2026년 4월 1일

[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning

본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.

#Review #Large Language Models #Chain-of-Thought #Test-time Scaling #Context Management #Reasoning Shift #Self-verification #Overthinking

2026년 4월 1일

[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking

저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .

#Review #Recommender Systems #Large Language Models #Product Reranking #Preference Memory #Reinforcement Learning

2026년 4월 1일

[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation

본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.

#Review #Self-Distillation #Code Generation #Large Language Models #Precision-Exploration Conflict #Supervised Fine-Tuning #Temperature Scaling #Truncation

2026년 4월 1일

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Knowledge Distillation #Exposure Bias #f-Divergence #Sequence-Level Learning #Reinforcement Learning

2026년 4월 1일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.

#Review #Auditory Knowledge #Large Language Models #Large Audio Language Models #AKB-2000 #Cascade Evaluation #Audio-grounded Evaluation

2026년 3월 31일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다.

#Review #Multimodal ASR #Large Language Models #Conversational Context #Abstract Compression #Contextual Biasing #Latent Bottleneck

2026년 3월 31일

[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.

#Review #GPU Kernel Optimization #Large Language Models #Evolutionary Algorithms #Reinforcement Learning #Triton #MetaX MACA #System Optimization

2026년 3월 30일

[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.

#Review #Soft Context Compression #Large Language Models #Density-aware #Discrete Ratio Selector #Supervised Fine-Tuning #Mean-Pooling

2026년 3월 30일

[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.

#Review #Unsupervised Self-Evolution #Multimodal Reasoning #Consistency-Based Reward #Judge Modulation #Group Relative Policy Optimization (GRPO)#Policy Updates #Mathematical Reasoning #Large Language Models

2026년 3월 25일

[논문리뷰] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

본 논문은 도메인 특화 Data Science 태스크에서 AI 에이전트가 인간 전문가의 성능을 어느 수준까지 대체할 수 있는지, 그리고 어떤 영역에서 인간의 전문성이 여전히 우위를 지니는지 평가하기 위한 벤치마크 AgentDS를 제안합니다.

#Review #AI Agents #Human-AI Collaboration #Data Science Benchmark #Large Language Models #Domain-Specific Reasoning #Multi-Industry Evaluation

2026년 3월 22일

[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.

#Review #Mixed-Precision Quantization #Reinforcement Learning #Post-Training Quantization #Large Language Models #Policy Transfer #Scale Folding #GGUF #On-Device Inference

2026년 3월 18일

[논문리뷰] Efficient Exploration at Scale

오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.

#Review #RLHF #Data Efficiency #Active Exploration #Epistemic Neural Network #Information-Directed Sampling #Scaling Laws #Large Language Models #Online Learning

2026년 3월 18일

[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Large Language Models (LLMs)는 User Preferences를 Persistent Memory에 저장하여 여러 Interaction에서 Personalization을 지원하고 있습니다.

#Review #Large Language Models #Personalization #Persistent Memory #Context-Awareness #Preference Selectivity #Benchmark #Misapplication Rate #Appropriate Application Rate

2026년 3월 18일

[논문리뷰] daVinci-Env: Open SWE Environment Synthesis at Scale

Large Language Models (LLMs)의 발전은 자율적인 Software Engineering (SWE) agent 개발을 가속화하고 있지만, 이러한 agent를 효과적으로 훈련하기 위해서는 대규모의 실행 가능하며 검증 가능한 환경이 필수적입니다.

#Review #SWE Agents #Environment Synthesis #Large Language Models #Dockerfile #SWE-Bench Verified #Data Scaling #Quality Curation

2026년 3월 15일

[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Reflection #Intrinsic Feedback #Continuous Adaptation #Memory Retrieval #Agentic AI #GRPO

2026년 3월 11일

[논문리뷰] Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

논문은 LLM(Large Language Models)의 프롬프트 하이라이팅(prompt highlighting)에서 사용자 지정 텍스트 스팬 을 우선적으로 고려하도록 모델을 조종하는 문제를 다룹니다.

#Review #Prompt Highlighting #Large Language Models #Activation Steering #Differential SVD #Key-Value Channels #Cross-Covariance #Softplus Weighting #Inference-Time Intervention

2026년 3월 11일

[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models

기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.

#Review #Large Language Models #Text Embeddings #Generative AI #Self-Supervised Learning #Knowledge Distillation #Semantic Search #Retrieval-Augmented Generation

2026년 3월 11일

[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool Use #In-Context Learning #Few-Shot Learning #SFT-free #Data Efficiency #Curriculum Learning

2026년 3월 11일

[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.

#Review #Multi-Agent Reinforcement Learning #Policy-Space Response Oracles #Large Language Models #Program Synthesis #Interpretable AI #Game Theory #Code Generation

2026년 3월 11일

[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.

#Review #Online Adaptation #Continual Learning #Knowledge Streams #Large Language Models #Benchmarking #State Tracking #Retrieval Augmented Generation #Agentic Memory

2026년 3월 11일

[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Natural Language Feedback #Exploration #Group-Level Feedback #Self-Refinement #Sample Efficiency

2026년 3월 11일

[논문리뷰] Reward Prediction with Factorized World States

본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.

#Review #Reward Prediction #World Models #State Representation #Large Language Models #Zero-shot Learning #Reinforcement Learning #Planning #Factorization

2026년 3월 10일

[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language Models

본 연구는 대규모 언어 모델(LLM)이 멀티모달 그래프(MMG)에서 추론할 때 발생하는 두 가지 주요 과제, 즉 교차 모달 불일치(cross-modal inconsistency) 및 이종 모달 선호도(heterogeneous modality preference) 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Graph #Large Language Models #Graph Reasoning #Cross-Modal Alignment #Modality Adaptation #Instruction Tuning #Vision-Language Model #Node Classification

2026년 3월 8일

[논문리뷰] On-Policy Self-Distillation for Reasoning Compression

본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.

#Review #Reasoning Compression #Self-Distillation #On-Policy Learning #Large Language Models #Mathematical Reasoning #Knowledge Distillation #Efficient Inference

2026년 3월 5일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] APRES: An Agentic Paper Revision and Evaluation System

본 논문은 과학 논문 심사 과정의 비일관적인 피드백 문제를 해결하고, 논문의 품질과 영향력을 향상시키기 위한 새로운 에이전트 기반 시스템인 APRES 를 제안합니다.

#Review #Large Language Models #Peer Review #Automated Revision #Citation Prediction #Agentic AI #Rubric Discovery #Scholarly Communication

2026년 3월 3일

[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Reward Sparsity #Fine-tuning #Large Language Models #Reference-Guided Learning #DAPO

2026년 3월 2일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

현재 다국어 LLM 평가 의 신뢰도를 저해하는 번역 벤치마크의 일관성 없는 품질(의미론적 드리프트 및 문맥 손실) 문제를 해결하는 것입니다. 본 연구는 데이터셋과 벤치마크를 확장 가능하고 고품질 로 번역하며, 원본 작업 구조와 언어적 뉘앙스를 보존하는 완전 자동화된 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Automated Translation #Large Language Models #Multilingual Benchmarks #Benchmark Quality #Test-time Scaling #Universal Self-Improvement #Translation Ranking #Eastern European Languages

2026년 3월 1일

[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Route Planning Agents #Benchmarking #Real-World Mobility #API Replay Sandbox #Multi-dimensional Evaluation #Tool-augmented Agents

2026년 2월 26일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing

본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.

#Review #Reranking #Large Language Models #Long Context #Attention Heads #Retrieval Augmented Generation (RAG)#Listwise Reranking #Query-focused Retrieval #Memory-aware

2026년 2월 24일

[논문리뷰] Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

본 논문은 금융 자문 분야에서 LLM 기반 추천 시스템 의 성능 평가가 단순히 사용자의 행동 모방에 그치지 않고, 실질적인 효용성(utility)에 기반한 의사결정 품질 을 측정하는 것을 목표로 합니다.

#Review #Financial Recommendation #Conversational AI #Large Language Models #Utility-Grounded Evaluation #Behavioral Finance #Stock Recommendation #Longitudinal Benchmark #Inverse Optimization

2026년 2월 24일

[논문리뷰] Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

본 논문은 기존 텍스트 익명화 방법론들이 수동적이고 정적이며 다양한 도메인과 프라이버시-유틸리티 요구사항에 유연하게 대응하지 못하는 한계를 해결하고자 합니다. 이를 위해 익명화 전략을 특정 프라이버시-유틸리티 요구사항에 맞춰 자동으로 조정하는 적응형 텍스트 익명화 라는 새로운 태스크를 제안합니다.

#Review #Text Anonymization #Large Language Models #Prompt Optimization #Privacy-Utility Trade-offs #Evolutionary Algorithms #Multi-objective Optimization #Data Privacy

2026년 2월 24일

[논문리뷰] World Models for Policy Refinement in StarCraft II

본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.

#Review #StarCraft II #World Model #Policy Refinement #Large Language Models #Reinforcement Learning #Partial Observability #Structured Text Representation #Game AI

2026년 2월 19일

[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models

이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Game Theory #Large Language Models #Evolutionary Algorithms #Counterfactual Regret Minimization #Policy Space Response Oracles #Algorithm Discovery

2026년 2월 19일

[논문리뷰] Computer-Using World Model

본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #World Model #GUI Agents #Desktop Automation #Reinforcement Learning #Large Language Models #Visual State Realization #Textual State Transition

2026년 2월 19일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

본 논문은 정적이고 태스크에 독립적인 사용자 임베딩의 한계를 극복하고, 다양한 하위 시나리오의 요구사항을 통합된 벡터 공간 내에서 충족하는 적응형 사용자 표현 학습 프레임워크를 제안합니다. 특히, 이질적인 멀티모달 데이터를 통합하고 산업 규모에서 시나리오에 특화된 사용자 이해를 가능하게 하는 것을 목표로 합니다.

#Review #User Representation Learning #Large Language Models #Scenario-Adaptive #Query-Conditioned #Multi-modal #Prompt Tuning #KV-Cache #Industrial AI

2026년 2월 16일

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

이 연구는 Retrieval-Augmented Generation (RAG) 시스템에서 발생하는 지식 추출 공격(Knowledge Extraction Attack) 으로 인한 민감 정보 유출 및 지적 재산권 침해 문제를 해결하고자 합니다.

#Review #RAG Security #Knowledge Extraction Attack #Benchmarking #Privacy Leakage #Defense Mechanisms #Large Language Models #Retrieval Augmented Generation

2026년 2월 16일

[논문리뷰] AIDev: Studying AI Coding Agents on GitHub

AI 코딩 에이전트가 실제 소프트웨어 프로젝트에서 어떻게 활용되는지에 대한 포괄적인 데이터셋의 부재를 해결하는 것이 이 연구의 핵심 목표입니다. AIDev 라는 대규모 데이터셋을 구축하여 AI 도입, 개발자 생산성, 그리고 인간-AI 협업이라는 새로운 소프트웨어 엔지니어링 시대의 연구를 위한 기반을 마련하고자 합니다.

#Review #AI Coding Agents #GitHub Data #Software Engineering #Pull Request Analysis #Human-AI Collaboration #Developer Productivity #Large Language Models

2026년 2월 16일

[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.

#Review #Quantization #Large Language Models #Post-Training Quantization #Bit-Plane Decomposition #Variable Quantization Grid #Low-Bit Quantization #Model Compression #Hessian-Induced Geometry

2026년 2월 15일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments

법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.

#Review #Legal Reasoning #AI Agent #Large Language Models #Verification #Knowledge Management #Dynamic Environments #Procedural Compliance #Tool Use

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] Towards Autonomous Mathematics Research

본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.

#Review #Mathematics Research #Large Language Models #AI Agents #Theorem Proving #Tool Use #Gemini Deep Think #Autonomous Research #Human-AI Collaboration

2026년 2월 11일

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일

[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Meta-Learning #Error Attribution #Knowledge Internalization #Self-Distillation #Verifiable Rewards

2026년 2월 11일

[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models

추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.

#Review #Large Language Models #Reasoning Models #Context Management #Memory Pruning #LoRA Adapter #Long-Horizon Reasoning #Self-Forgetting

2026년 2월 11일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Iterative Reasoning #Reinforcement Learning #Large Language Models #Context Management #Summarization #Chain-of-Thought #Efficiency #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Steering LLMs via Scalable Interactive Oversight

본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.

#Review #Scalable Oversight #Interactive AI #Large Language Models #Human-AI Collaboration #Product Requirement Documents #Reinforcement Learning #Structured Interaction #Vibe Coding

2026년 2월 5일

[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation #Large Language Models #Reasoning #Benchmark #Deep Search #Error Analysis #Scientific Problem Solving #Context Understanding

2026년 2월 5일

[논문리뷰] ProAct: Agentic Lookahead in Interactive Environments

ProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.

#Review #Agentic AI #Large Language Models #Reinforcement Learning #Lookahead Reasoning #Monte-Carlo Tree Search #Supervised Fine-Tuning #Value Estimation #Simulation Drift

2026년 2월 5일

[논문리뷰] BABE: Biology Arena BEnchmark

이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.

#Review #Biology Benchmark #Large Language Models #Experimental Reasoning #Causal Inference #Cross-Scale Inference #Multimodal AI #Scientific Reasoning #Research Agents

2026년 2월 5일

[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Width Scaling #Large Language Models #Information Seeking #Task Decomposition #Parallel Execution #Lead-Agent-Subagent Framework #Orchestration

2026년 2월 4일

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Token Compression #Modality-Asymmetric #Video Pruning #Audio Selection #Efficiency #Large Language Models #Spatio-Temporal

2026년 2월 4일

[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy

본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.

#Review #Transformer Optimization #Normalization Strategy #Hessian Spectral Norm #Learning Rate Stability #Large Language Models #SimpleNorm #Second-Order Optimization

2026년 2월 3일

[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.

#Review #Agentic Orchestration #Sub-Agent Creation #Language Agents #Dynamic Specialization #Context Management #Tool Use #Large Language Models #Cost-Performance Optimization

2026년 2월 3일

[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.

#Review #Reinforcement Learning #Large Language Models #Agentic AI #Reward Modeling #Environment Adaptation #Closed-loop Optimization #Multimodal Agents

2026년 2월 2일

[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation

본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.

#Review #Unit Test Generation #Reward Model #Reinforcement Learning #Code Coverage #Mutation Testing #Large Language Models #Run-Free Evaluation #Software Engineering Automation

2026년 2월 1일

[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.

#Review #Long-Horizon Reasoning #Multimodal Memory #Visual Layout #Adaptive Information Density #Reinforcement Learning #Context Window #Large Language Models

2026년 2월 1일

[논문리뷰] Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

대규모 언어 모델(LLM) 기반 딥 서치 에이전트가 다단계 태스크 수행 중 추론 및 검색 상태를 모니터링하고 조절하는 메커니즘이 부족하여 발생하는 체계적인 실패 문제를 해결하는 것이 목표입니다.

#Review #Deep Search Agent #Meta-Cognitive Monitoring #Hierarchical Monitoring #Large Language Models #Cognitive Neuroscience #Uncertainty Calibration

2026년 2월 1일

[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

본 논문은 고품질 추론 데이터의 부족으로 인해 독점 시스템에 비해 뒤처지는 오픈소스 멀티모달 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Data-centric AI #Chain-of-Thought #Large Language Models #Visual Question Answering #STEM Reasoning #Dataset #Fine-tuning

2026년 1월 29일

[논문리뷰] Language-based Trial and Error Falls Behind in the Era of Experience

Large Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Reinforcement Learning #Exploration Efficiency #Sub-Scale Collaboration #Out-of-Distribution Tasks #Agentic AI #Supervised Fine-Tuning

2026년 1월 29일

[논문리뷰] Discovering Hidden Gems in Model Repositories

본 논문은 대규모 모델 저장소에서 사용자에게 잘 알려지지 않았지만 성능이 뛰어난 '숨겨진 보석' 모델들을 효율적으로 발견하는 것을 목표로 합니다. 특히, 현재 모델 사용의 집중이 효율적인 시장 선택의 결과인지, 아니면 우수한 모델들이 단순히 간과되고 있는지 규명하고자 합니다.

#Review #Model Discovery #Hidden Gems #Sequential Halving #Multi-Armed Bandit #Model Repositories #Large Language Models #Performance Evaluation

2026년 1월 29일

[논문리뷰] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

본 논문은 이미지-텍스트 쌍에서 풍자(sarcasm)를 효과적으로 탐지하기 위해 기존 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Sarcasm Detection #Large Language Models #Multimodal LLMs #Discrepancy Modeling #Image Captioning #Gated Fusion #Semantic Incongruity

2026년 1월 28일

[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.

#Review #Transformer Architecture #Layer Normalization #Depth Scaling #Training Stability #Large Language Models #Gradient Flow #Highway Networks #Post-LayerNorm

2026년 1월 27일

[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering

본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.

#Review #Agentic Software Engineering #Mid-training #Large Language Models #Agent-native Data #Contextual Trajectories #Environmental Trajectories #SWE-Bench Verified #Code Generation

2026년 1월 26일

[논문리뷰] VIBEVOICE-ASR Technical Report

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.

#Review #Automatic Speech Recognition #Speaker Diarization #Long-form Audio #Large Language Models #End-to-end Speech Processing #Multilingual #Context-aware ASR

2026년 1월 26일

[논문리뷰] STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

이 논문은 자연어 질의에 대한 테이블 검색(Table Retrieval) 과정에서 발생하는 비정형 질의와 정형 테이블 간의 심층적인 의미적 불일치 및 긴 테이블 처리 시 토큰 길이 제한 문제를 해결하는 것을 목표로 합니다.

#Review #Table Retrieval #Semantic Representation #K-means Clustering #Weighted Fusion #Large Language Models #Query Generation #Information Retrieval

2026년 1월 26일

[논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

본 논문은 LLM이 보드게임 디자인에 대한 건설적인 비판을 제공하는 데 있어 나타나는 핵심적인 한계를 해결하고자 합니다. 특히, 정적 규칙에서 잠재된 게임플레이 역학을 추론하고 다양한 플레이어 그룹의 주관적인 경험 이질성을 모델링하여, 기존 시스템이 부족했던 사용자 경험 기반의 피드백을 자동화하는 것을 목표로 합니다.

#Review #Large Language Models #Board Games #Virtual Playtester #User Simulation #Persona Modeling #MDA Framework #Human-AI Collaboration #Critique Generation

2026년 1월 25일

[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.

#Review #Large Language Models #Code Generation #Prompt Engineering #Prompt Optimization #Empirical Study #Software Engineering #Guidelines

2026년 1월 25일

[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.

#Review #Academic Rebuttal #Theory of Mind #Large Language Models #Strategic Persuasion #Reinforcement Learning #Self-Reward #Dataset Synthesis #Automated Evaluation

2026년 1월 25일

[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs

본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.

#Review #Large Language Models #Kernel Generation #GPU Optimization #AI Agents #Code Synthesis #Performance Engineering #Hardware Acceleration

2026년 1월 22일

[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.

#Review #Code Diffusion Models #Large Language Models #Continual Pretraining #Code Generation #Code Editing #Masked Language Models #Code Reasoning

2026년 1월 22일

[논문리뷰] Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

본 논문은 대규모 언어 모델(LLM)이 프롬프트 구조에 민감하게 반응하는 이유를 밝히고, 특히 다중 선택 질의응답(MCQA) 태스크에서 컨텍스트의 순서가 성능에 미치는 영향을 분석하는 것을 목표로 합니다.

#Review #Prompt Engineering #Large Language Models #Causal Attention #Multiple-Choice QA #Prompt Order Sensitivity #Information Bottleneck #Decoder-only Transformers

2026년 1월 21일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일

[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing

본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.

#Review #Membership Inference Attacks #Copyright Auditing #Large Language Models #Adversarial Robustness #Paraphrasing #Sparse Autoencoders #Semantic Preservation #LLM Security

2026년 1월 20일

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일

[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning #Chain-of-Thought #Reinforcement Learning #Stochastic Reasoning #Continuous Representation #Token Efficiency

2026년 1월 19일

[논문리뷰] Language of Thought Shapes Output Diversity in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 겪는 출력 다양성 부족(예: 모드 붕괴, 특정 문화 가치 과대 대표) 문제를 해결하고자 합니다.

#Review #Large Language Models #Output Diversity #Multilingual Reasoning #Language of Thought #Sampling Strategies #Pluralistic Alignment #Hidden State Analysis #Cognitive Science

2026년 1월 18일

[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #Test-Time Adaptation #Large Language Models #Collaborative Reasoning #Credit Assignment #Textual Experience #Distribution Shift Robustness

2026년 1월 15일

[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.

#Review #Test-Time Tool Evolution #Scientific Reasoning #Large Language Models #Dynamic Tool Synthesis #Tool Adaptation #AI for Science #Autonomous Agents

2026년 1월 15일

[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.

#Review #AI Safety #Large Language Models #Multimodal LLMs #Benchmark Evaluation #Adversarial Robustness #Multilingual Evaluation #Regulatory Compliance #Image Generation Safety

2026년 1월 15일

[논문리뷰] TranslateGemma Technical Report

본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.

#Review #Machine Translation #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Gemma 3 #Multimodal AI #Synthetic Data

2026년 1월 14일

[논문리뷰] Controlled Self-Evolution for Algorithmic Code Optimization

논문은 기존 LLM 기반 코드 생성 모델 이 기능적으로는 정확하지만 비효율적인 코드를 생성하며, 현재의 자가 진화(self-evolution) 방식이 낮은 탐색 효율성으로 인해 제한된 예산 내에서 최적의 알고리즘적 코드를 찾지 못하는 문제를 해결하고자 합니다.

#Review #Self-Evolution #Code Optimization #Large Language Models #Genetic Algorithms #Hierarchical Memory #Algorithmic Code Generation #Exploration Efficiency

2026년 1월 14일

[논문리뷰] Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

본 연구는 사용자 선호도에 맞춰 정렬된 대규모 언어 모델(LLM) 이 Preference-Undermining Attacks (PUA) 에 취약한지 규명하는 것을 목표로 합니다.

#Review #Large Language Models #Preference Alignment #Preference-Undermining Attacks #Factorial Analysis #Sycophancy #Prompt Engineering #Truth-Deference Trade-off

2026년 1월 14일

[논문리뷰] Solar Open Technical Report

Solar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Korean LLM #Synthetic Data Generation #Curriculum Learning #Reinforcement Learning #Tokenizer Optimization #Multilingual AI

2026년 1월 13일

[논문리뷰] Ministral 3

본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Model Distillation #Pruning #Parameter-Efficient AI #Multimodal LLMs #Instruction Tuning #Reinforcement Learning from Human Feedback #Open-Source AI

2026년 1월 13일

[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents

대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.

#Review #Search Agent #Information Retrieval #Large Language Models #Process Reward #Query Refinement #Reinforcement Learning #Curriculum Learning

2026년 1월 11일

[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Weight Decay #Learnable Multipliers #Scale Adaptation #Optimization #µP Parametrization #Adam #Muon

2026년 1월 8일

[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought #Diffusion Models #Large Language Models #Reasoning #Error Correction #Preference Optimization #Denoising

2026년 1월 8일

[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.

#Review #Molecular Dynamics #LAMMPS #Code Generation #Knowledge Q&A #Large Language Models #Reinforcement Learning #Multi-agent System #Domain Adaptation

2026년 1월 7일

[논문리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

기존 Memory-Augmented Generation (MAG) 시스템들이 단일 메모리 저장소에서 의미론적 유사성에 의존하여 시간, 인과, 엔티티 정보를 얽히게 하여 발생하는 해석 가능성 및 추론 정확도 한계를 해결하고자 합니다.

#Review #Agentic Memory #Large Language Models #Retrieval-Augmented Generation #Knowledge Graphs #Multi-Graph Architecture #Long-Context Reasoning #Memory Evolution

2026년 1월 7일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] Recursive Language Models

본 논문은 대규모 언어 모델(LLMs)이 컨텍스트 길이 제한으로 인해 긴 프롬프트를 효과적으로 처리하지 못하고 '컨텍스트 로트(context rot)' 현상을 겪는 문제를 해결하고자 합니다. 특히, 수백만 토큰 규모의 장기 작업에서 일반 목적 LLM의 컨텍스트 크기를 추론 시점에 획기적으로 확장 하는 것을 목표로 합니다.

#Review #Recursive Language Models #Large Language Models #Long Context Processing #Inference Scaling #REPL Environment #Task Decomposition #Sub-LM Calls #Context Management

2026년 1월 5일

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일

[논문리뷰] mHC: Manifold-Constrained Hyper-Connections

논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.

#Review #Hyper-Connections #Residual Connections #Manifold Learning #Doubly Stochastic Matrices #Training Stability #Large Language Models #Infrastructure Optimization #Deep Learning Architecture

2025년 12월 31일

[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.

#Review #Agentic Learning Ecosystem #Large Language Models #Reinforcement Learning #Agentic Crafting #Tool Use #ROME Model #Policy Optimization #Sandbox Environment

2025년 12월 31일

[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization

본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.

#Review #Issue Localization #Causal Reasoning #Graph-guided #Large Language Models #Software Engineering #Defect Analysis #Repository Mining

2025년 12월 30일

[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.

#Review #Personalized Slide Generation #Preference Learning #Large Language Models #Multimodal AI #Chain-of-Speech #Agentic Framework #Document-to-Slides

2025년 12월 28일

[논문리뷰] Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

본 연구는 질적 연구에서 LLM 기반 주제 분석의 신뢰성 문제를 해결하고, 기존의 시간 소모적이며 비용이 많이 드는 인간 코더 기반 방식의 한계를 극복하는 것을 목표로 합니다. 특히, LLM 출력의 신뢰도를 정량적으로 평가하고 투명하게 검증할 수 있는 다중 관점 검증 프레임워크를 제시하고자 합니다.

#Review #Thematic Analysis #Large Language Models #Qualitative Research #Cohen's Kappa #Semantic Similarity #Reliability Metrics #Ensemble Validation #Prompt Engineering

2025년 12월 23일

[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos

본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent System #Long Video Understanding #Video Question Answering #Reinforcement Learning #Large Language Models #Temporal Grounding #Multimodal Reasoning #Tool-Augmented AI

2025년 12월 23일

[논문리뷰] INTELLECT-3: Technical Report

본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Mixture-of-Experts #Asynchronous Training #Distributed Systems #Agentic AI #Code Execution #Model Evaluation

2025년 12월 23일

[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Interpretability #Transformer #Internal Policy #Entropy Analysis

2025년 12월 23일

[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

본 논문은 LLM이 인간이 인지하는 문항(질문 또는 과제) 난이도를 정확하게 예측할 수 있는지, 특히 초기 데이터 부족 문제(cold-start problem) 상황에서 인간-AI 난이도 정렬(Human-AI Difficulty Alignment) 을 달성할 수 있는지 실증적으로 분석하는 것을 목표로 합니다.

#Review #Large Language Models #Item Difficulty Prediction #Human-AI Alignment #Proficiency Simulation #Metacognition #Curse of Knowledge #Educational Assessment #Zero-shot Learning

2025년 12월 22일

[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.

#Review #Formal Theorem Proving #Large Language Models #Reinforcement Learning #Agentic Prover #Lean Theorem Prover #Mathematical Reasoning #Test-Time Scaling

2025년 12월 21일

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.

#Review #Video Reasoning #Reinforcement Learning #Multi-Turn Reasoning #Agent System #Long Videos #Synthetic Data #Any-Horizon Reasoning #Large Language Models

2025년 12월 17일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] RecGPT-V2 Technical Report

RecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #Recommender Systems #Large Language Models #Multi-Agent Systems #Reinforcement Learning #Dynamic Prompting #Hybrid Representation #Agentic Evaluation #Explanation Generation

2025년 12월 16일

[논문리뷰] Olmo 3

Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.

#Review #Large Language Models #Open-Source AI #Model Flow #Long-Context Reasoning #Instruction Following #Function Calling #Thinking Models #Data Curation #Reinforcement Learning

2025년 12월 16일

[논문리뷰] Sliding Window Attention Adaptation

본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #Large Language Models #Lifelong Learning #Reinforcement Learning #Trust Region Policy Optimization #Chain-of-Thought #Catastrophic Forgetting

2025년 12월 10일

[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.

#Review #Decoding-based Regression #Reinforcement Learning #Numerical Prediction #Large Language Models #Policy Gradient #Tokenization #Sequence Generation

2025년 12월 8일

[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Models #One-step Generation #Self-Adversarial Learning #Flow Matching #Large Language Models #Text-to-Image #Efficient Inference #Diffusion Models

2025년 12월 7일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.

#Review #Analogical Reasoning #Large Language Models #Mechanistic Interpretability #Proportional Analogies #Story Analogies #Structural Alignment #Attention Knockout #Patchscopes

2025년 12월 2일

[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.

#Review #Large Language Models #Sparse Attention #Reinforcement Learning #Agentic AI #Tool Use #Open-source LLM #DeepSeek

2025년 12월 2일

[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models

본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Large Language Models #Causality #Attention Mechanism #Reasoning #Natural Language Generation #Supervised Fine-Tuning #Concept-Guided

2025년 12월 2일

[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Knowledge Graphs #Large Language Models #Information Extraction #Wikidata Ontology #Question Answering #Entity Normalization #Retrieval Augmented Generation

2025년 12월 1일

[논문리뷰] PromptBridge: Cross-Model Prompt Transfer for Large Language Models

본 논문은 LLM 시스템에서 모델이 교체되거나 업데이트될 때, 기존 모델에 최적화된 프롬프트의 성능이 다른 모델에서 크게 저하되는 현상인 모델 드리프팅(Model Drifting) 문제를 해결하고자 합니다.

#Review #Large Language Models #Prompt Engineering #Model Drifting #Prompt Transfer #Cross-Model Adaptation #Training-Free #Prompt Optimization #MAP-RPE

2025년 12월 1일

[논문리뷰] OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

본 논문은 텍스트 전용 번역 LLM이 겪는 지연 시간과 멀티모달 컨텍스트 활용 불가능성, 그리고 MMFM이 가진 다국어 번역 성능 및 커버리지의 한계를 해결하고자 합니다.

#Review #Multimodal Translation #Speech Translation #Simultaneous Translation #Large Language Models #Multimodal Foundation Models #Modular Fusion #End-to-End #Gated Fusion #OCR

2025년 12월 1일

[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Clinical AI #Medical Benchmarks #AI Evaluation #Medical Decision Support #MedQA #HealthBench #Generalist AI

2025년 12월 1일

[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution

본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.

#Review #Reinforcement Learning #Large Language Models #Instruction Optimization #Policy Co-Evolution #Agentic AI #Tool-Integrated Reasoning #Self-Reflection

2025년 12월 1일

[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.

#Review #Large Language Models #Long Context #Sparse Attention #Hierarchical Sparse Attention (HSA)#Length Generalization #Mixture of Experts (MoE)#Transformer

2025년 11월 30일

[논문리뷰] What does it mean to understand language?

본 논문은 인간의 심층적인 언어 이해 가 뇌의 핵심 언어 시스템 내에서만 이루어지는 것이 아니라, 해당 시스템에서 얻은 정보가 다른 전문화된 뇌 영역으로 내보내져(exportation) 처리 되어야 한다는 가설을 제안합니다.

#Review #Language Understanding #Cognitive Neuroscience #Situation Models #World Knowledge #Embodiment #fMRI #Large Language Models #Brain Networks

2025년 11월 27일

[논문리뷰] Latent Collaboration in Multi-Agent Systems

본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Large Language Models #Latent Space #Latent Reasoning #Latent Communication #KV Cache #Computational Efficiency #Training-Free

2025년 11월 26일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.

#Review #Multi-Agent System #Video Understanding #Scientific Education #Deming Cycle #Large Language Models #Iterative Optimization #Knowledge Integration #Educational Content Generation

2025년 11월 25일

[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking

본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.

#Review #Reward Modeling #Long-Horizon Tasks #Information Seeking #Large Language Models #Trajectory Summarization #Reinforcement Learning #Tool Use #Process Reward Models

2025년 11월 24일

[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.

#Review #HTML Extraction #Web Corpus #Large Language Models #Data Curation #Structured Element Preservation #Sequence Labeling #Markdown Conversion #MainWebBench

2025년 11월 24일

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.

#Review #Video Chaptering #Long-form Video Understanding #Large Language Models #Multimodal Learning #Hierarchical Summarization #Video Segmentation #Reinforcement Learning #Dataset Creation

2025년 11월 19일

[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.

#Review #Omnimodal LLMs #Token Compression #Audio-Video Understanding #Dynamic Pruning #Inference Acceleration #Spatio-Temporal Compression #Large Language Models

2025년 11월 18일

[논문리뷰] Mitigating Label Length Bias in Large Language Models

논문은 대규모 언어 모델(LLMs)이 다중 토큰 클래스 레이블을 예측할 때 발생하는 '레이블 길이 편향(label length bias)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Label Bias #Calibration #In-Context Learning #Text Classification #Multi-token Labels #Label Length Bias #Multiple Choice QA

2025년 11월 18일

[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

본 논문은 카오스 엔지니어링(CE)의 수동적이고 노동 집약적인 단계(가설 설정, 실험 계획, 시스템 재구성)를 자동화하여, 누구나 저비용으로 탄력적인 소프트웨어 시스템을 구축할 수 있도록 하는 것을 목표로 합니다.

#Review #Chaos Engineering #Large Language Models #System Resilience #Kubernetes #Software Automation #AI Agents #Fault Injection

2025년 11월 18일

[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.

#Review #Model Souping #Large Language Models #Weighted Averaging #Benchmark Optimization #State-of-the-Art #Category Experts #Parameter Averaging #Post-training

2025년 11월 17일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일

[논문리뷰] AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing

본 논문은 대규모 언어 모델(LLM)이 겪는 전략적 취약성, 사실적 환각, 맞춤화 부족 문제로 인해 난항을 겪는 목표 지향적 설득형 대화(예: 텔레마케팅) 의 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 극복하고 실제 판매 시나리오에 효과적인 AI 에이전트를 개발하고자 합니다.

#Review #Telemarketing #Large Language Models #Persuasive Dialogue #Reinforcement Learning #Bayesian Optimization #Dynamic Prompting #Dialogue Systems

2025년 11월 17일

[논문리뷰] A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

기존 중앙 집중식 RAG(Retrieval Augmented Generation) 시스템의 높은 데이터 관리 비용과 개인 정보 보호 문제를 해결하고자 합니다.

#Review #Decentralized RAG #Blockchain #Smart Contracts #Source Reliability #Large Language Models #Retrieval Augmented Generation #Trustworthy AI

2025년 11월 17일

[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Autoformalization #Benchmark Dataset #miniF2F #Lean Language #Large Language Models #Mathematical Reasoning #Formal Verification

2025년 11월 16일

[논문리뷰] Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

본 설문조사는 대규모 언어 모델(LLM) 을 활용한 과학적 아이디어 생성의 고유한 도전을 다루며, 특히 창의성과 과학적 타당성 사이의 균형을 맞추는 방법을 탐구합니다.

#Review #Large Language Models #Scientific Discovery #Idea Generation #Creativity #Survey #AI in Science #Prompt Engineering #Multi-agent Systems #Evaluation Metrics

2025년 11월 16일

[논문리뷰] DoPE: Denoising Rotary Position Embedding

본 논문은 Transformer 모델 내 Rotary Position Embedding (RoPE) 의 내재된 한계로 인해 발생하는 길이 외삽 능력 약화와 attention sink 현상 을 해결하는 것을 목표로 합니다.

#Review #Rotary Position Embedding #Transformer #Length Extrapolation #Attention Sink #Matrix Entropy #Denoising #Large Language Models

2025년 11월 16일

[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.

#Review #Quantum Computing #Optimization #Machine Learning #Transformers #Gradient Descent #Superposition #Large Language Models #Hybrid Quantum-Classical

2025년 11월 13일

[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.

#Review #Citation Contexts #Reproducibility #Sentiment Analysis #Large Language Models #Crowdsourcing #Dataset #Machine Learning #Science of Science

2025년 11월 13일

[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding Agents

이 연구는 AI 코딩 에이전트가 소프트웨어 개발에서 리팩토링 활동을 어떻게 수행하고, 그 유형과 목적은 무엇이며, 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해 부족 문제를 해결하고자 합니다.

#Review #AI Agents #Code Refactoring #Software Engineering #Empirical Study #Large Language Models #Code Quality #Agentic Software Development #Maintainability

2025년 11월 12일

[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.

#Review #Arabic Language #Multimodal Corpus #Data Curation #Web Scraping #Large Language Models #Document Structure #Markdown #Perplexity Filtering

2025년 11월 11일

[논문리뷰] Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective

본 연구는 대규모 언어 모델(LLMs)이 소프트웨어 개발에 미치는 영향에 대해 실무자 관점에서 심층적으로 탐구하고, LLMs 사용에 따른 긍정적(전진) 및 부정적(후퇴) 효과를 균형 있게 관리하는 방안을 모색하는 것을 목표로 합니다.

#Review #Large Language Models #Software Engineering #Developer Productivity #Socio-Technical Grounded Theory #Practitioner Insights #AI Adoption #Benefits and Risks #Balanced Use

2025년 11월 11일

[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the Principals

RLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Parameter-Efficient Fine-Tuning #Optimization Bias #Spectral Geometry #Model Sparsity #LoRA

2025년 11월 11일

[논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration

본 연구는 대규모 언어 모델(LLM)에서 다양성(diversity) 과 품질(quality) 간의 본질적인 트레이드오프 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Diversity-Quality Trade-off #Model Collaboration #Inference Optimization #Routing Strategy #Text Generation

2025년 11월 11일

[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.

#Review #Large Language Models #Sequential Reasoning #Action Space Construction #Submodular Optimization #Markov Decision Process #Monte Carlo Tree Search #Utility-Diversity Trade-off

2025년 11월 11일

[논문리뷰] Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

본 논문은 기존 대규모 언어 모델(LLM) 기반 다국어 기계 번역(MMT) 시스템이 겪는 제한적인 언어 커버리지, 불안정한 번역 품질, 그리고 고질적인 영어 중심 편향 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Machine Translation #Large Language Models #Directional Degeneration #Strategic Downsampling #Parallel Multilingual Prompting #Chinese-centric MT #Cross-lingual Transfer #Instruction Tuning

2025년 11월 11일

[논문리뷰] Adaptive Multi-Agent Response Refinement in Conversational Systems

대규모 언어 모델(LLM) 기반 대화 시스템이 사용자 페르소나 정렬 및 사실적 정확도와 같은 복합적인 요구사항을 충족하지 못해 발생하는 불만족스러운 응답 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Multi-Agent Systems #Conversational AI #Response Refinement #Dynamic Agent Selection #Persona Alignment #Factual Grounding #Coherence

2025년 11월 11일

[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.

#Review #Video Anomaly Understanding #Large Language Models #Causal Reasoning #Relation-Aware #Keyframe Sampling #Multimodal LLMs #Scene Graphs

2025년 11월 10일

[논문리뷰] The Station: An Open-World Environment for AI-Driven Discovery

본 논문은 기존의 경직된 최적화 패러다임을 넘어선 AI 주도 자율 과학 발견을 위한 개방형 다중 에이전트 환경인 The Station 을 소개합니다.

#Review #Multi-Agent System #Open-World Environment #Scientific Discovery #AI-Driven Research #Large Language Models #Emergent Behavior #State-of-the-Art (SOTA)

2025년 11월 10일

[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.

#Review #Reinforcement Learning #Large Language Models #Hierarchical Knowledge #Knowledge Traversal #Structured Prompting #Internal Representations #Alignment Tax

2025년 11월 10일

[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Speech Recognition #Large Language Models #Audio-Visual Speech Recognition #LoRA #Matryoshka Representation Learning #Elastic Inference #Parameter-Efficient Adaptation

2025년 11월 10일

[논문리뷰] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

본 논문은 자연어 텍스트 설명으로부터 NURBS(Non-Uniform Rational B-Splines) 기반의 고정밀 3D CAD 모델을 직접 생성하는 최초의 프레임워크인 NURBGen 을 제시합니다.

#Review #Text-to-CAD #NURBS Modeling #Large Language Models #Geometric Deep Learning #Boundary Representation #Hybrid Representation #CAD Generation

2025년 11월 10일

[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.

#Review #Emotion Recognition in Conversation #Large Language Models #Prompt Engineering #Demonstration Retrieval #Curriculum Learning #Fine-tuning #Affective Computing #SOTA

2025년 11월 10일

[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.

#Review #Neuro-symbolic AI #Chain-of-Thought #Large Language Models #Logical Consistency #Automated Verification #Fine-tuning #SMT Solvers #Self-Reflection

2025년 11월 9일

[논문리뷰] HAFixAgent: History-Aware Automated Program Repair Agent

본 연구는 기존 LLM 기반 프로그램 자동 수정(APR) 시스템이 로컬 코드 스냅샷에만 의존하여 복잡한 다중-hunk 버그 수정 시 저장소 이력 정보 를 간과하는 문제를 해결하고자 합니다.

#Review #Automated Program Repair #AI Agent #Large Language Models #Repository Mining #Historical Context #Bug Fixing #Defects4J

2025년 11월 9일

[논문리뷰] Dense Motion Captioning

본 논문은 3D 휴먼 모션 시퀀스 내에서 의미 있는 액션을 시간적으로 정확히 감지하고, 해당 액션에 대한 상세한 캡션을 생성하는 새로운 태스크인 Dense Motion Captioning (DMC) 을 제안합니다.

#Review #3D Human Motion #Dense Captioning #Large Language Models #Motion Understanding #Temporal Localization #Human-Language Datasets #Motion Generation

2025년 11월 9일

[논문리뷰] Grounded Misunderstandings in Asymmetric Dialogue: A Perspectivist Annotation Scheme for MapTask

본 논문은 비대칭 정보 환경에서 발생하는 대화 속 레퍼런스 표현(RE)에 대한 미묘한 오해를 파악하는 것을 목표로 합니다. 화자의 의도와 청자의 해석을 별도로 포착하는 관점 기반(perspectivist) 주석 스키마 를 개발하여, 대화 과정에서 이해가 어떻게 발생하고, 발산하며, 수정되는지를 추적하고자 합니다.

#Review #Dialogue Systems #Common Ground #Misunderstanding #Annotation Scheme #MapTask Corpus #Large Language Models #Perspective Taking #Reference Resolution

2025년 11월 9일

[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

본 논문은 LLM(Large Language Model)의 내부 작동 원리를 이론적으로 설명하기 위해 비트(bits) 대신 토큰(token) 기반의 새로운 의미론적 정보 이론 프레임워크 를 구축하는 것을 목표로 합니다.

#Review #Semantic Information Theory #Large Language Models #Directed Information #Rate-Distortion Function #Granger Causality #Token Embedding #Transformer Architecture #Variational Inference

2025년 11월 9일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Reasoning Capability #Sparse Activation #Scaling Laws #FP8 Training #Efficient Training #Instruction Tuning

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

LLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.

#Review #Prompt Synthesis #Large Language Models #Reasoning #Expectation-Maximization #Self-Play #Supervised Fine-Tuning #Task Generation #Rationale Generation

2025년 9월 29일

[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

로봇 조작 태스크를 위한 현실적이고 태스크 관련성이 높은 3D 탁상 장면(tabletop scene)을 자동으로 생성하는 것을 목표로 합니다. 기존 수동 또는 무작위 장면 생성 방식의 비효율성과 낮은 현실성을 극복하고, 고수준의 태스크 지시와 3D 장면 레이아웃 간의 큰 격차를 해소하고자 합니다.

#Review #3D Scene Generation #Robotic Manipulation #Large Language Models #Spatial Reasoning #Dataset #Direct Preference Optimization #Tabletop Scene

2025년 9월 29일

[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards

기존 RLHF(Reinforcement Learning from Human Feedback) 방식이 구두 피드백을 스칼라 보상으로 압축하여 발생하는 정보 손실, 모호성, 보상 스케일 불균형 문제를 해결하는 것을 목표로 합니다.

#Review #Verbal Feedback #Conditional Generation #Large Language Models #Feedback-Conditional Policy #Offline-Online Learning #Reward Hypothesis Bypass

2025년 9월 29일

[논문리뷰] Fine-tuning Done Right in Model Editing

이 논문은 대규모 언어 모델(LLM) 모델 편집에서 fine-tuning이 비효율적이라는 오랜 통념에 도전하고, 그 실패의 원인이 fine-tuning 자체의 한계가 아닌 부적절한 구현 방식에 있음을 밝힙니다.

#Review #Model Editing #Fine-tuning #Large Language Models #Catastrophic Forgetting #Breadth-First Pipeline #Depth-First Pipeline #Localized Tuning #Lifelong Learning

2025년 9월 29일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.

#Review #LLM-as-a-Judge #Evaluation Frameworks #Inconsistency Reduction #Probabilistic Scoring #Transitivity #Information Loss #Perplexity #Large Language Models

2025년 9월 26일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] Interactive Recommendation Agent with Active User Commands

본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.

#Review #Interactive Recommendation #Large Language Models #Multi-Agent System #Natural Language Processing #Knowledge Distillation #User Control

2025년 9월 26일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Academic Disciplines #LLM Applications #Review #Cross-disciplinary Research #Benchmarks

2025년 9월 25일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] Large Language Models Discriminate Against Speakers of German Dialects

본 논문은 대규모 언어 모델(LLMs)이 독일 방언 사용자에 대한 사회적 고정관념을 반영하고 강화하는지 탐구하는 것을 목표로 합니다. 특히, 독일 인구의 40% 이상 이 지역 방언을 사용하는 상황에서, LLM의 편향이 실제 세계에 미칠 수 있는 차별적 영향을 분석하고자 합니다.

#Review #Large Language Models #Bias #German Dialects #Sociolinguistics #Stereotypes #Implicit Association Test #Decision Making

2025년 9월 24일

[논문리뷰] Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

대규모 언어 모델(LLMs)의 환각(hallucination) 문제를 해결하고, 특히 형태학적으로 복잡한 터키어 RAG(Retrieval-Augmented Generation) 애플리케이션 을 위한 효과적인 환각 탐지 모델을 개발하는 것이 목표입니다.

#Review #Hallucination Detection #Retrieval Augmented Generation #Large Language Models #Turkish NLP #Token Classification #ModernBERT #Low-Resource Languages

2025년 9월 23일

[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.

#Review #Process Reward Models #Monte Carlo Annotation #Noise Denoising #Robust Learning #Self-Supervision #Mathematical Reasoning #Large Language Models

2025년 9월 23일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.

#Review #Cultural Adaptation #Large Language Models #Indian Culture #Dataset Creation #CSI #Human Evaluation #LLM Evaluation #Cultural Bias

2025년 9월 23일

[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.

#Review #Auditory Knowledge #Large Language Models #Multimodal Reasoning #Benchmark #Chain-of-Thought #Auditory Imagination #Text-only Reasoning

2025년 9월 23일

[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning

대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Distribution Matching #GFlowNets #Mode Collapse #Diverse Reasoning #Flow-Balanced Optimization

2025년 9월 19일

[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Tool-Integrated Reasoning #Reinforcement Learning #Hierarchical Optimization #Self-Correction #Large Language Models #Code Generation

2025년 9월 18일

[논문리뷰] Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

아랍어 고품질 명령어 데이터의 부족과 다국어 LLM에서 언어별 깊이의 불균형 문제를 해결하는 것을 목표로 합니다. 효율적인 번역-튜닝 파이프라인 을 통해 아랍어 중심의 명령어 및 번역 모델(HALA) 패밀리를 구축하고, 아랍어 벤치마크에서 최첨단 성능을 달성하여 특정 언어에 대한 역량 심화에 중점을 둡니다.

#Review #Arabic NLP #Instruction Tuning #Machine Translation #Large Language Models #FP8 Quantization #Data Bootstrapping #Model Merging #Language-Centric AI

2025년 9월 18일

[논문리뷰] Towards General Agentic Intelligence via Environment Scaling

본 논문은 일반 에이전트 지능(General Agentic Intelligence)을 발전시키기 위해 대규모 언어 모델(LLM)의 함수 호출 능력 을 향상시키는 것을 목표로 합니다.

#Review #Agentic AI #Environment Scaling #Function Calling #Tool Use #Large Language Models #Synthetic Data Generation #Supervised Fine-tuning

2025년 9월 17일

[논문리뷰] Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

본 논문은 인공지능 분야의 근본적인 도전 과제인 멀티모달 추론 의 한계를 극복하는 것을 목표로 합니다. 특히, 최첨단 GPT-03 과 같은 모델도 시각 정보 통합에 어려움을 겪는 과학 분야의 멀티모달 시나리오에서 시각-텍스트 모달리티 간의 격차를 해소 하고 견고한 추론 성능을 확보하고자 합니다.

#Review #Multimodal Reasoning #Science AI #Caption-assisted Reasoning #SeePhys Challenge #Large Language Models #Visual Question Answering #Physics Problems #Cross-modal Alignment

2025년 9월 17일

[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Automation #Reinforcement Learning #Semi-online RL #Offline RL #Online RL #Patch Module #Multi-turn Interaction #Large Language Models

2025년 9월 16일

[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.

#Review #Ethical Reasoning #Mental Health AI #Benchmark Dataset #Large Language Models #AI Ethics #Clinical Decision Support #Human-in-the-loop

2025년 9월 16일

[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

본 논문은 대규모 언어 모델(LLM)의 지속적인 스케일링이 한계 효용 체감(diminishing returns)으로 이어지는지에 대한 논쟁을 다루며, 특히 장기적인 태스크(long-horizon tasks) 수행 능력에 초점을 맞춥니다.

#Review #Large Language Models #Long-Horizon Tasks #Execution Capability #Scaling Laws #Self-Conditioning #Thinking Models #Agentic AI

2025년 9월 15일

[논문리뷰] QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading

기존 LLM 기반 금융 시스템이 텍스트 기반 입력에 주로 의존하여 고주파 매매(HFT)의 속도 및 정확성 요구사항에 부적합하다는 한계를 해결하고자 합니다.

#Review #High-Frequency Trading #Multi-Agent Systems #Large Language Models #Technical Analysis #Algorithmic Trading #Financial Reasoning #Price-Driven Signals

2025년 9월 15일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일

[논문리뷰] Language Self-Play For Data-Free Training

본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.

#Review #Large Language Models #Reinforcement Learning #Self-Play #Data-Free Training #Instruction Following #Adversarial Training #Reward Modeling

2025년 9월 10일

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Trajectory-aware RL #Value Model #Masked Diffusion Models #Large Language Models #Reasoning Tasks #Code Generation

2025년 9월 9일

[논문리뷰] Symbolic Graphics Programming with Large Language Models

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.

#Review #Symbolic Graphics Programming #Large Language Models #Reinforcement Learning #SVG Generation #Text-to-Image Synthesis #Cross-Modal Alignment #Program Synthesis

2025년 9월 8일

[논문리뷰] Behavioral Fingerprinting of Large Language Models

현재 대규모 언어 모델(LLM) 벤치마크들이 모델의 성능 지표에만 치중하여 미묘한 행동 특성을 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Behavioral Evaluation #Model Alignment #Sycophancy #World Model Brittleness #Metacognition #Personality Profiling

2025년 9월 8일

[논문리뷰] Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

본 연구는 LLM(Large Language Models)이 겉으로는 논리적이지만 심층적인 역설적 의미를 담고 있는 'Drivelology(심오한 헛소리)'를 얼마나 깊이 이해하는지 평가하는 것을 목표로 합니다. 통계적 유창성을 넘어선 LLM의 진정한 인지적 이해, 특히 실용적 이해 의 근본적인 한계를 밝히고자 합니다.

#Review #Large Language Models #Pragmatic Understanding #Drivelology #Benchmark Dataset #Multilingual NLP #Semantic Reasoning #Contextual Inference

2025년 9월 5일

[논문리뷰] Open Data Synthesis For Deep Research

본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.

#Review #Data Synthesis #Deep Research #Hierarchical Constraint Satisfaction Problems #Large Language Models #Agentic AI #Reinforcement Learning #Question Answering

2025년 9월 4일

[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.

#Review #Agentic Reinforcement Learning #Tool Use #Large Language Models #Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution #Multi-modal AI #Framework

2025년 9월 3일

[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.

#Review #Agentic Reinforcement Learning #Large Language Models #LLM Agents #Sequential Decision Making #Policy Optimization #Tool Use #Dynamic Environments #Autonomous AI

2025년 9월 3일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일

[논문리뷰] SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

본 논문은 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 시스템의 견고성과 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 시스템들이 실행 기반 피드백에만 의존하여 논리적으로 부정확하지만 문법적으로 유효한 SQL 쿼리 오류를 수정하지 못하는 한계를 극복하고자 합니다.

#Review #Text-to-SQL #Multi-agent Systems #Chain-of-Thought #Error Correction #Large Language Models #Query Planning #Database Interaction

2025년 9월 3일

[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

OpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision Encoder #Generative Pretraining #Captioning Loss #Training Efficiency #Image-Text Models #Large Language Models

2025년 9월 3일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.

#Review #Bias Mitigation #Large Language Models #Speculative Decoding #Constitutional AI #Fairness #Inference-Time Control #Indian Sociocultural Context

2025년 9월 3일

[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Game AI #Procedural Knowledge #Declarative Knowledge #Explainable AI #Strategic Decision-Making

2025년 9월 1일

[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.

#Review #Instruction Augmentation #Fine-tuning #Large Language Models #Task-Centric #Data Diversity #Task Alignment #Breadth-First Search #Constraint Generation

2025년 8월 29일

[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models

본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.

#Review #Large Language Models #In-Tool Learning #In-Weight Learning #Factual Recall #Retrieval-Augmented Generation #Scaling Laws #Parameter Efficiency #Catastrophic Forgetting

2025년 8월 29일

[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling

기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Language Modeling #Next-Token Prediction #Multi-Token Prediction #Token Order Prediction #Auxiliary Objective #Learning-to-Rank #Transformer #Large Language Models

2025년 8월 28일

[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models

본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.

#Review #Text-to-Audio #Long-Form Audio Generation #Large Language Models #Narrative Reasoning #Diffusion Models #Multimodal AI #Progressive Training

2025년 8월 28일

[논문리뷰] Unraveling the cognitive patterns of Large Language Models through module communities

본 논문은 LLM의 내부 아키텍처와 인지 과정을 이해하기 어려운 ‘블랙박스’ 문제를 해결하고자 합니다. 특히 기존 연구에서 부족했던 스킬 간의 관계, 동적 적응성, 교차 도메인 일반화 및 메커니즘의 상세한 해석 가능성 탐색에 중점을 둡니다.

#Review #Large Language Models #Network Community Structure #Cognitive Skills #AI Interpretability #Module Communities #Fine-tuning #Neural Plasticity

2025년 8월 27일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.

#Review #Hallucination Mitigation #Large Language Models #Contextual Bandits #Query Rewriting #Semantic Features #No-Regret Learning

2025년 8월 27일

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Scientific Reasoning #Knowledge Retrieval #Reasoning Probing #Benchmarks #Chain-of-Thought #Fine-tuning

2025년 8월 27일

[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.

#Review #Legal AI #Natural Language Processing #Claim Generation #Chinese Legal Dataset #Factuality #Clarity #Large Language Models #Zero-shot Evaluation

2025년 8월 27일

[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.

#Review #Large Language Models #Condensed Matter Physics #Benchmark #Scientific Reasoning #Evaluation Metric #Expression Edit Distance #Problem Solving

2025년 8월 27일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.

#Review #Agentic RAG #Medical Diagnosis #Reinforcement Learning #Traceable AI #Large Language Models #Clinical Decision Support #Out-of-Distribution Generalization #Reward Design

2025년 8월 25일

[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Play #Variational Problem Synthesis #Policy Entropy #Pass@k #Reasoning Benchmarks

2025년 8월 25일

[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation

본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.

#Review #GUI Automation #Multimodal Agents #Foundational Models #Reinforcement Learning #Large Language Models #Cross-Platform #Self-Supervised Learning

2025년 8월 22일

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Process Reward Models #Financial Reasoning #Domain Specialization #RLHF #Best-of-N Selection #Data Curation

2025년 8월 22일

[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.

#Review #Diffusion LLMs #Post-training Quantization (PTQ)#Model Compression #Activation Outliers #Quantization Methods #Efficient Deployment #Large Language Models

2025년 8월 21일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Large Language Models #Benchmarking #Model Context Protocol #Tool Use #Real-World Applications #Agent Evaluation #Long Context #Unknown Tools

2025년 8월 21일

[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.

#Review #Agentic AI #Autonomous Scientific Discovery #AI for Science #Large Language Models #Multi-agent Systems #Scientific Workflow Automation #Natural Sciences

2025년 8월 21일

[논문리뷰] Prompt Orchestration Markup Language

이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.

#Review #Prompt Engineering #Large Language Models #Markup Language #Structured Prompting #IDE Support #Multimodal Data #Styling System #Development Toolkit

2025년 8월 20일

[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.

#Review #Large Language Models #Moral Reasoning #Bayesian Evaluation #Uncertainty Quantification #Natural Language Processing #Soft Labels

2025년 8월 20일

[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

본 설문조사 논문은 기존 Transformer 기반 대규모 언어 모델(LLMs)의 Quadratic 복잡성 과 높은 연산 및 메모리 요구사항 으로 인한 비효율성 문제를 해결하기 위한 혁신적인 아키텍처를 체계적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Efficient Architectures #Transformer Optimization #Linear Attention #State Space Models #Mixture-of-Experts #Sparse Attention #Diffusion LLMs

2025년 8월 19일

[논문리뷰] Reinforcement Learning with Rubric Anchors

이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Rubric-based Reward #RLVR Extension #Human-centric AI #Controllable Generation #Reward Hacking Mitigation

2025년 8월 19일

[논문리뷰] SSRL: Self-Search Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Search #Sim-to-Real Transfer #Agentic AI #Knowledge Retrieval #Reward Modeling

2025년 8월 18일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Discovery #Chain-of-Thought #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Molecular Generation #Explainable AI

2025년 8월 14일

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일

[논문리뷰] Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study

본 연구는 비용이 많이 들고 확장성이 낮은 인간 주석 기반 설명의 한계를 극복하기 위해, LLM이 생성한 텍스트 설명 이 자연어 추론(NLI)과 같은 다운스트림 예측 태스크에서 PLM 및 LLM의 분류 성능을 향상 시킬 수 있는지 실증적으로 평가하는 것을 목표로 합니다.

#Review #Explainable NLP #Natural Language Explanations #Large Language Models #Pre-trained Language Models #Natural Language Inference #Model Performance Enhancement #Text Generation

2025년 8월 14일

[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Fine-tuning #Reinforcement Learning #Meta-learning #Adaptive Control #Imitation Learning #Exploration #Reasoning

2025년 8월 14일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.

#Review #Large Language Models #Diplomacy Game #Multi-agent Systems #Strategic Reasoning #LLM Evaluation #Prompt Engineering #Behavioral Analysis #Game AI

2025년 8월 13일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일

[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

본 연구는 기존 비전-언어 모델(VLMs)이 매개변수 규모에 제약이 있고, 견고한 자가 수정 능력이 부족하며, 긴 시각적 맥락과 복잡한 추론을 요구하는 문서 기반 태스크에서 저조한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Visual Document Understanding #Visual Question Answering #Multi-Agent System #Test-Time Scaling #Self-Correction #Mixed Reward Modeling #Large Language Models

2025년 8월 8일

[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data

본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.

#Review #Self-Evolving LLM #Reinforcement Learning #Curriculum Learning #Reasoning #Large Language Models #Self-Play #Zero-Data Training

2025년 8월 8일

[논문리뷰] PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction

본 연구는 비정형 텍스트에서 개인 식별 정보(PII) 를 자동 제거하는 문제에 초점을 맞춥니다.

#Review #PII Redaction #Large Language Models #Instruction Tuning #Retrieval-Augmented Generation #Privacy Preservation #Model Evaluation #Cross-Domain Generalization #Open-Source LLMs

2025년 8월 8일

[논문리뷰] I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

본 논문은 기존 대규모 언어 모델(LLM) 기반의 다중모달 엔티티 연결(MEL) 방법론이 이미지 데이터를 불필요하게 통합하고 시각적 특징을 단일 추출에 의존하여 성능 저하를 겪는 문제를 해결하고자 합니다.

#Review #Multimodal Entity Linking #Large Language Models #Collaborative Reflection #Iterative Reasoning #Visual Information #Text-centric

2025년 8월 8일

[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.

#Review #Multi-hop Question Answering #Large Language Models #Reasoning Errors #Error Taxonomy #Human Evaluation #Automated Evaluation #Overthinking

2025년 8월 8일

[논문리뷰] Evaluating, Synthesizing, and Enhancing for Customer Support Conversation

본 논문은 고객 지원 대화(Customer Support Conversation, CSC) 분야에서 전략적 지침과 고품질 데이터의 부족 문제를 해결하고자 합니다.

#Review #Customer Support #Dialogue Generation #Large Language Models #Role-Playing #COPC Framework #Synthetic Data #Strategy Prediction #Empathetic AI

2025년 8월 8일

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.

#Review #Large Language Models #Well-being Concepts #LLM Evaluation #Principle-Guided Evaluation #LLM-as-a-Judge #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation

2025년 8월 8일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.

#Review #Social Intelligence #Reinforcement Learning #Reward Design #Large Language Models #Utterance-level Rewards #Multi-dimensional Rewards #Partial Observability #SOTOPIA

2025년 8월 7일

[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.

#Review #Large Language Models #Active Context Management #Proactive Interference #Tool Augmentation #Working Memory #Context Curation #Long Context

2025년 8월 7일

[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.

#Review #Root Cause Analysis #Large Language Models #5G Wireless Networks #Supervised Fine-Tuning #Reinforcement Learning #Chain-of-Thought #TeleLogs Dataset

2025년 8월 7일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일

[논문리뷰] EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation

레거시 C 코드베이스를 Rust로 자동 변환할 때 발생하는 언어적 불일치(안전성, 관용성) 및 프로젝트 레벨의 모듈 간 종속성 문제를 해결하여, 전체 C 프로젝트를 의미론적으로 동등하고 안전한 Rust 코드로 정확하게 번역하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #C-to-Rust Conversion #Project-Level Translation #Large Language Models #Code Synthesis #Memory Safety #Software Migration #Hybrid Translation

2025년 8월 7일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일

[논문리뷰] CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

논문은 ANNS(Approximate Nearest Neighbor Search) 알고리즘 최적화의 수작업적, 전문 지식 의존적 특성을 해결하는 것을 목표로 합니다. LLM을 강화 학습으로 증강하여 실행 속도를 보상 신호로 삼아, ANNS 구현을 자동으로 최적화하는 새로운 패러다임인 CRINN 을 제안합니다.

#Review #Approximate Nearest Neighbor Search #Reinforcement Learning #Large Language Models #Code Optimization #HNSW #Retrieval-Augmented Generation #Contrastive Learning

2025년 8월 6일

[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.

#Review #Self-Supervised RL #Instruction Following #Reasoning Models #Large Language Models #Reward Modeling #Curriculum Learning

2025년 8월 5일

[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Agents #Test-time Scaling #Compute Optimization #Multi-stage Tasks #Resource Allocation #Search Efficiency

2025년 8월 5일

[논문리뷰] SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution

본 논문은 대규모 언어 모델(LLM) 기반 소프트웨어 이슈 해결 시스템의 '제한된 관찰 범위(limited observation scope)' 문제를 해결하고자 합니다.

#Review #Multi-Agent System #Software Engineering #Fault Localization #Issue Resolution #Large Language Models #Competitive Debate #Graph Traversal

2025년 8월 4일

[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.

#Review #Automated Theorem Proving #Large Language Models #Formal Verification #Reinforcement Learning #Lean #Geometry Reasoning #Chain-of-Thought #Lemma-Style Proving

2025년 8월 2일

[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Electronic Health Records #Large Language Models #Reasoning Enhancement #Instruction Tuning #Reinforcement Learning #Data Synthesis #Medical AI #Clinical Decision Support

2025년 10월 31일

[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

논문은 OpenAI의 ChatGPT Atlas 에이전트 가 웹 환경에서 상호작용하는 능력을, 특히 웹 기반 게임을 통해 평가하는 것을 목표로 합니다.

#Review #Web Agent #Large Language Models #Multimodal AI #Browser Automation #Game AI #ChatGPT Atlas #Performance Evaluation #Human-Computer Interaction

2025년 10월 31일

[논문리뷰] TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling

본 논문은 기존 LLM 기반 상담 에이전트 가 가진 임상적 한계, 특히 장기 기억 부족 과 전략적 경직성 문제를 해결하는 것을 목표로 합니다.

#Review #Longitudinal Counseling #Adaptive Agent #Dual-Loop Architecture #Large Language Models #Psychotherapy #Mental Health AI #Dialogue Management

2025년 10월 30일

[논문리뷰] Reasoning-Aware GRPO using Process Mining

본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Process Mining #Policy Optimization #Mathematical Reasoning #GRPO #PM4GRPO

2025년 10월 30일

[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Autoformalization #Large Language Models #Reinforcement Learning #Self-Reflection #Semantic Consistency #Formal Mathematical Reasoning #Sequence Optimization

2025년 10월 30일

[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation Scaling

본 논문은 Looped Transformer의 고질적인 문제인 순차적인 루프 실행 으로 인한 높은 추론 지연 시간 과 선형적으로 증가하는 KV 캐시 메모리 요구사항 을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Looped Transformers #Inference Efficiency #Parallel Computation #KV Cache Optimization #Gated Sliding-Window Attention #Cross-Loop Parallelism

2025년 10월 30일

[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.

#Review #Multimodal Code Intelligence #Visual-Programmatic Interface #Code Generation #Data Synthesis #Large Language Models #Visualizations #Web UI #Animation

2025년 10월 30일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents

본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.

#Review #Multi-Language Visualization #Code Generation #Self-Debugging #Instruction Tuning #Large Language Models #Visualization Benchmark #Coding Agents #Code-Feedback

2025년 10월 29일

[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.

#Review #AI Agents #Astrophysics Research #Reproducibility Benchmark #Large Language Models #Scientific Workflow #Code Execution #Evaluation Framework

2025년 10월 29일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.

#Review #Audio-Visual Speech Recognition #Large Language Models #Attention Sinks #Massive Activations #Decorrelation Loss #Fine-tuning #Multimodal AI

2025년 10월 28일

[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking

본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.

#Review #Information Reranking #Large Language Models #Data Synthesis #Reasoning-Intensive Retrieval #Low-Resource Learning #Data Efficiency #Instruction Following

2025년 10월 28일

[논문리뷰] Knocking-Heads Attention

본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.

#Review #Multi-Head Attention #Transformer #Large Language Models #Inter-Head Communication #Parameter Sharing #Training Stability #Diagonal Initialization

2025년 10월 28일

[논문리뷰] Code Aesthetics with Agentic Reward Feedback

대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.

#Review #Code Aesthetics #Agentic Reward Feedback #Large Language Models #Reinforcement Learning #Instruction Tuning #Webpage Design #Multimodal Evaluation

2025년 10월 28일

[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification

본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #VLA-0 #Zero Modification #Text-based Action Prediction #Robot Manipulation #Large Language Models #Fine-tuning #State-of-the-Art

2025년 10월 17일

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일

[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Large Language Models #Retrieval Augmented Generation #Agentic Systems #Benchmarking #Intermediate Tasks #Error Analysis #LLM Evaluation

2025년 10월 17일

[논문리뷰] LLM-guided Hierarchical Retrieval

기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.

#Review #Information Retrieval #Large Language Models #Hierarchical Retrieval #Semantic Tree #Tree Traversal #Zero-shot Performance #Reasoning-based Retrieval #Computational Efficiency

2025년 10월 17일

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일

[논문리뷰] Revisiting Model Interpolation for Efficient Reasoning

이 논문은 대규모 언어 모델(LLM)의 복잡한 연쇄적 사고(Chain-of-Thought, CoT) 추론에서 발생하는 과도한 사고(over-thinking) 및 높은 지연 시간 문제를 해결하기 위한 효율적인 추론 방법을 모색합니다.

#Review #Model Interpolation #Efficient Reasoning #Large Language Models #Chain-of-Thought #Model Merging #Performance Dynamics #Ablation Study

2025년 10월 16일

[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.

#Review #Multi-turn Text-to-SQL #Agentic Training #Reinforcement Learning #Large Language Models #Dialogue Systems #Semantic Parsing #Database Interaction #Self-correction

2025년 10월 16일

[논문리뷰] Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain

본 논문은 대규모 언어 모델(LLM)이 인간 수준의 언어 능력을 보여주지만 구문 구조를 모델링하는 특정 연산 모듈이 불분명하다는 문제에 주목합니다.

#Review #Large Language Models #Syntactic Structure #Human Brain #Frequency Tagging #Neuroscience #Model Interpretability #Representational Similarity Analysis #Intracranial EEG

2025년 10월 16일

[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.

#Review #Long-Horizon Tasks #Agentic AI #Context Curation #Working Memory #Reinforcement Learning #Policy Optimization #Large Language Models #Memory-as-Action

2025년 10월 15일

[논문리뷰] Information-Preserving Reformulation of Reasoning Traces for Antidistillation

대규모 언어 모델(LLMs)의 추론 흔적(reasoning traces)이 복잡한 작업에서 성능을 향상시키지만, 무단 지식 증류(distillation)에 취약하다는 문제를 해결하고자 합니다.

#Review #Antidistillation #Reasoning Traces #Large Language Models #Knowledge Distillation #Information Preservation #Trace Reformulation #Supervised Fine-Tuning

2025년 10월 15일

[논문리뷰] A Survey of Vibe Coding with Large Language Models

본 논문은 대규모 언어 모델(LLM)의 발전에 따라 등장한 '바이브 코딩(Vibe Coding)' 이라는 새로운 개발 방법론을 심층적으로 탐구합니다.

#Review #Vibe Coding #Large Language Models #Coding Agents #Human-AI Collaboration #Software Engineering #Development Models #Context Engineering

2025년 10월 15일

[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.

#Review #Peer Review #AI-Assisted Review #Large Language Models #LLM Agents #Meta-Review #Conference Submissions #Reviewer Personas #Evaluation Metrics

2025년 10월 13일

[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.

#Review #Large Language Models #LLM Alignment #Game Theory #Reinforcement Learning #Mutual Welfare #Payoff Matrix #Strategic Decision Making #Human-AI Interaction

2025년 10월 13일

[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning Tasks #GRPO #Negative Samples #Reward Modeling #Confidence Reweighting #Mathematical Reasoning

2025년 10월 13일

[논문리뷰] DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

최신 머신러닝 모델, 특히 대규모 언어 모델(LLM) 의 평가에 소요되는 막대한 시간과 비용(수천 시간의 GPU 사용) 문제를 해결하는 것을 목표로 합니다.

#Review #Efficient Evaluation #Sample Condensation #Model Disagreement #Predictive Diversity #Performance Prediction #Large Language Models #Model Signatures #Meta-modeling

2025년 10월 13일

[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.

#Review #Code Generation #Human Preference #LLM Evaluation #Execution Feedback #Benchmarking #Crowdsourcing #Software Engineering #Large Language Models

2025년 10월 13일

[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!

최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.

#Review #Academic Promotion #Large Language Models #Multi-Agent Systems #Scholarly Communication #Multimodal Processing #Benchmark #Content Generation #Social Media Marketing

2025년 10월 13일

[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.

#Review #Multimodal RAG #Document AI #Benchmark #Information Retrieval #Large Language Models #Multimodal Embeddings #PDF Processing #Question Answering

2025년 10월 10일

[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Sentence Embedding #Retrieval-Augmented Generation #Chain-of-Thought #Information Retrieval #Supervised Fine-tuning

2025년 10월 10일

[논문리뷰] Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

본 논문은 대규모 언어 모델(LLM) 사전 훈련의 급증하는 계산 비용 문제를 해결하기 위해, 기존의 사전 훈련된 체크포인트에 투자된 '매몰 비용(sunk cost)'을 효율적으로 재활용하여 모델을 성장시키는 방법을 제안합니다.

#Review #Mixture-of-Experts #Large Language Models #Checkpoint Recycling #Model Growth #Efficient Pretraining #Depth Growth #Width Growth #Sunk Cost

2025년 10월 10일

[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens

본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Interpretability #Function Tokens #Memory Retrieval #Memory Consolidation #Sparse Autoencoders #Pre-training

2025년 10월 10일

[논문리뷰] From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

본 논문은 화학 반응 조건 추천에서 단순히 '무엇(what)'을 예측하는 것을 넘어 '왜(why)' 특정 조건이 적절한지에 대한 설명 가능한 근거 를 제공하는 것을 목표로 합니다.

#Review #Multi-Agent System #Chemical Reaction Prediction #Explainable AI #Evidence-Based Reasoning #Large Language Models #Tool-Augmented LLMs #Scientific Discovery

2025년 10월 10일

[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.

#Review #Entropy Regularization #Activation Functions #Continuous Control #Large Language Models #Image Classification #Reinforcement Learning #Policy Stochasticity #Entropy Constraints

2025년 10월 10일

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일

[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference

본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Code Evaluation #Instruction Following #Human Preference #Large Language Models #Vibe Check #Non-functional Requirements #VeriCode

2025년 10월 9일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.

#Review #Agentic Reinforcement Learning #Travel Planning #Large Language Models #Sandbox Environment #Hierarchical Reward Modeling #Experience Replay #Autonomous Agents

2025년 10월 9일

[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.

#Review #Code-switching #Multilingual NLP #Large Language Models #NLP Survey #Data Augmentation #Evaluation Metrics #Low-Resource Languages

2025년 10월 9일

[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness

본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.

#Review #Post-Training Quantization #Quantization Robustness #Training Dynamics #Learning Rate Schedules #Weight Averaging #Large Language Models #LLMs #Hyperparameter Tuning

2025년 10월 8일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일

[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation

감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.

#Review #Emotional Support Conversation #Cognitive Reasoning #Reinforcement Learning #Dialogue Generation #Natural Language Processing #Large Language Models #Psychological Support

2025년 10월 8일

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일

[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos

컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.

#Review #Computer Use Agents #Inverse Dynamics Model #UI Trajectories #Web Videos #In-Context Learning #Supervised Fine-Tuning #Large Language Models #OSWorld Benchmark

2025년 10월 7일

[논문리뷰] Self-Reflective Generation at Test Time

본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.

#Review #Large Language Models #Self-Reflection #Test-Time Optimization #Uncertainty Monitoring #Proactive Error Prevention #Reasoning Tasks #Chain-of-Thought

2025년 10월 7일

[논문리뷰] Optimal Scaling Needs Optimal Norm

이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.

#Review #Optimal Scaling #Norm-Based Optimizers #Hyperparameter Transfer #Learning Rate Scaling #Batch Size Scaling #Transformer Models #Scion Optimizer #Large Language Models

2025년 10월 7일

[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.

#Review #Audio-Visual Speech Recognition #Mixture of Experts #Matryoshka Representation Learning #Large Language Models #Elastic Inference #Token Compression #Multimodal AI

2025년 10월 7일

[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.

#Review #Test-Time Curriculum #Reinforcement Learning #Large Language Models #Self-Curated Learning #Continual Learning #Reasoning Benchmarks #Adaptive Training

2025년 10월 7일

[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions

이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.

#Review #Large Language Models #Autoraters #Calibration #Preference Distributions #Reinforcement Learning #Supervised Fine-tuning #Positional Bias

2025년 10월 7일

[논문리뷰] Imperceptible Jailbreaking against Large Language Models

본 논문은 기존의 가시적인 텍스트 수정 방식과 달리 눈에 보이지 않는(imperceptible) 방식으로 LLM의 안전 장치를 우회하는 새로운 제일브레이크 공격 기법을 제안합니다.

#Review #Large Language Models #Jailbreaking #Imperceptible Attacks #Unicode Variation Selectors #Adversarial Suffixes #Safety Alignment #Prompt Injection

2025년 10월 7일

[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.

#Review #Large Language Models #Pretraining #Supervised Fine-tuning #Reasoning Data #Data Allocation #Diversity #Quality #Reinforcement Learning

2025년 10월 7일

[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty

본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Data Augmentation #Large Language Models #Formal Mathematics #Symmetry #Difficulty Evolution #Abstract Syntax Tree #Generalizability

2025년 10월 7일

[논문리뷰] Epistemic Diversity and Knowledge Collapse in Large Language Models

대규모 언어 모델(LLM)이 생성하는 텍스트의 동질성이 지식 붕괴(knowledge collapse)로 이어질 수 있다는 문제에 주목합니다.

#Review #Large Language Models #Epistemic Diversity #Knowledge Collapse #Homogenization #Retrieval-Augmented Generation #LLM Evaluation #Information Diversity #Cultural Bias

2025년 10월 7일

[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

이 논문은 웹 에이전트를 대상으로 하는 프롬프트 인젝션 공격에 대한 탐지 방법들을 체계적으로 벤치마킹하여, 웹 에이전트 환경에서의 탐지 성능을 종합적으로 평가하고 이해하는 것을 목표로 합니다.

#Review #Prompt Injection #Web Agents #Multimodal AI #Adversarial Attacks #Detection Benchmarking #Large Language Models #Image-based Detection #Text-based Detection

2025년 10월 6일

[논문리뷰] Soft Instruction De-escalation Defense

본 논문은 외부 환경과 상호작용하는 LLM 기반 에이전트 시스템 이 겪는 프롬프트 인젝션 공격에 대한 취약성을 해결하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 데이터 내의 악의적인 명령을 효과적으로 무력화하면서도 에이전트의 유용성을 저해하지 않는 방어 메커니즘을 제안합니다.

#Review #Prompt Injection #LLM Security #Agentic Systems #Iterative Sanitization #Instruction Control #Adversarial Robustness #Large Language Models

2025년 10월 27일

[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory

본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Category Theory #Document Understanding #Large Language Models #Information Theory #Rhetorical Structure Theory #Document Summarization #Rate Distortion Analysis #Self-supervised Learning

2025년 10월 27일

[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets

기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Agents #Large Language Models #Tool Use #Reinforcement Learning #Memory Management #Tool Retrieval #Agentic Reasoning

2025년 10월 27일

[논문리뷰] ARC-Encoder: learning compressed text representations for large language models

본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.

#Review #Context Compression #Large Language Models #Encoder-Decoder Architecture #Text Representation #In-Context Learning #Parameter Efficiency #Retrieval-Augmented Generation

2025년 10월 27일

[논문리뷰] Machine Text Detectors are Membership Inference Attacks

본 연구는 멤버십 추론 공격(MIAs)과 기계 생성 텍스트 감지(MGTD)라는 두 가지 관련 연구 분야가 독립적으로 연구되어 발생하는 비효율성을 해결하고자 합니다.

#Review #Membership Inference Attacks #Machine-Generated Text Detection #Transferability #Likelihood Ratio Test #Large Language Models #Zero-Shot Detection #Model Security #AI Safety

2025년 10월 23일

[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Long Context Reasoning #Large Language Models #Multi-hop QA #Data Synthesis #Retrieval-Augmented Generation #Chain-of-Thought

2025년 10월 23일

[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.

#Review #Off-Policy Reinforcement Learning #Large Language Models #Adaptive Clipping #Policy Optimization #PPO #Entropy Preservation #RL Stabilization

2025년 10월 23일

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.

#Review #Text-to-Image Generation #Semantic Evaluation #Benchmark #Multilingual Evaluation #Fine-grained Assessment #Large Language Models #Model Evaluation #Prompt Engineering

2025년 10월 22일

[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.

#Review #Deep Research Agent #Reinforcement Learning from AI Feedback #RLOO Algorithm #Large Language Models #Tool Use #Self-Correction #Reasoning Scaffold #Agent Alignment

2025년 10월 22일

[논문리뷰] Extracting alignment data in open models

본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.

#Review #Alignment Data Extraction #Large Language Models #Memorization #Neural Embeddings #Semantic Similarity #Chat Templates #Model Distillation #Reinforcement Learning #Supervised Finetuning

2025년 10월 22일

[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.

#Review #Verifiable Learning #Data Synthesis #Evolutionary Algorithm #Large Language Models #Reinforcement Learning #Model Distillation #Test Generation

2025년 10월 22일

[논문리뷰] Chem-R: Learning to Reason as a Chemist

현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.

#Review #Chemical Reasoning #Large Language Models #Chem-R #Structured Reasoning #Multi-task Optimization #Chain-of-Thought #Chemical Discovery

2025년 10월 22일

[논문리뷰] Paper2Web: Let's Make Your Paper Alive!

이 논문은 학술 논문을 레이아웃 인식적이고 상호작용적이며 멀티미디어 가 풍부한 웹 페이지로 변환하는 PAPER2WEB 이라는 새로운 태스크를 제안합니다.

#Review #Academic Webpage Generation #Multi-Agent Systems #Large Language Models #Model Context Protocol #Interactive Content #Multimedia Dissemination #Evaluation Benchmark #Human-Computer Interaction

2025년 10월 20일

[논문리뷰] Language Models Model Language

전통적인 언어학적 비판(예: Chomsky, de Saussure)에 맞서 LLM이 언어를 모델링하는 능력을 재평가하고, Witold Mańczak의 경험주의적 원칙에 기반한 대안적인 이론적 프레임워크를 제시하는 것을 목표로 합니다. 이를 통해 LLM의 설계, 평가 및 해석을 위한 건설적인 가이드를 제공하고자 합니다.

#Review #Large Language Models #Linguistics #Witold Mańczak #Frequency Hypothesis #Empirical Validation #Usage-Based Linguistics #Semantic Embeddings

2025년 10월 20일

[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Length Penalty #Reasoning Efficiency #Large Language Models #RL Optimization #Accuracy-Efficiency Trade-off #Chain-of-Thought

2025년 10월 20일

[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Parameter Dynamics #Rank-1 Dominance #Linear Dynamics #SVD #Model Acceleration #Predictability

2025년 10월 2일

[논문리뷰] Infusing Theory of Mind into Socially Intelligent LLM Agents

본 논문은 대화형 LLM(Large Language Model) 기반 소셜 에이전트가 타인의 정신 상태 이해 능력(Theory of Mind, ToM) 을 통합함으로써 사회적 지능과 목표 달성 능력을 향상시키는 것을 목표로 합니다.

#Review #Theory of Mind #Large Language Models #Social Agents #Dialogue Systems #Mental State Modeling #Look-ahead Planning #Supervised Fine-tuning #Sotopia Benchmark

2025년 10월 2일

[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

본 논문은 기존 Transformer 모델이 CoT (Chain-of-Thought) 추론 의 일반화와 뇌 기능에 대한 미시적 해석을 제공하지 못하는 한계를 지적합니다.

#Review #Large Language Models #Brain-Inspired AI #Graph Neural Networks #Hebbian Learning #Scale-Free Networks #Model Interpretability #Transformer Architecture

2025년 10월 1일

[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.

#Review #Large Language Models #Multi-turn Interaction #Test-Time Adaptation #Reinforcement Learning from Human Feedback #Policy Optimization #Online Learning #Self-Correction

2025년 10월 1일

[논문리뷰] Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs

이 논문은 대규모 언어 모델(LLM) 공급자가 홍보하는 최대 컨텍스트 윈도우(MCW) 와 실제 사용 환경에서의 최대 유효 컨텍스트 윈도우(MECW) 간의 불일치를 해결하고자 합니다.

#Review #Large Language Models #Context Window #Effective Context Window #Model Performance #Hallucination Rates #RAG Systems #Token Limits

2025년 10월 1일

[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Planning #Policy Gradient #Q-learning #Supervised Fine-Tuning #Diversity Collapse #Reward Hacking

2025년 10월 1일

[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Process-Supervised RL #Large Language Models #Reasoning Models #Attention Mechanism #Efficient Exploration #Adaptive Sampling #Off-Policy Training

2025년 10월 1일