#Large Language Models (LLMs)

166개의 포스트

[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR

본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling #Credit Allocation #Trajectory Percentile Score (TP-Score)#Policy Optimization

2026년 6월 1일

[논문리뷰] More Context, Larger Models, or Moral Knowledge? A Systematic Study of Schwartz Value Detection in Political Texts

본 논문은 정치적 텍스트에서 Schwartz values를 감지할 때, 주변 문맥(Context)과 명시적인 도덕 지식이 모델 성능에 미치는 영향을 체계적으로 분석하고자 한다 . 정치적 발화는 가치가 간접적으로 표현되는 경우가 많아 문장 단위의 분류가 매우 어렵다.

#Review #Schwartz Values #Political Text #Retrieval-Augmented Generation (RAG)#DeBERTa #Large Language Models (LLMs)#Context Analysis

2026년 5월 21일

[논문리뷰] OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

본 논문은 장문 컨텍스트 추론 및 다중 모드 지능의 발전으로 인해 KV Cache가 추론의 지배적인 메모리 병목으로 부상한 문제를 해결합니다. 기존의 per-channel 양자화 기법은 Key 텐서의 채널별 이상치를 처리하는 데 효과적이나, 압축률이 극도로 높아질 경우 그 효용이 급격히 감소합니다.

#Review #KV Cache Quantization #Token Norm Imbalance (TNI)#Omni-Scaled Canalized Rotation (OScaR)#Extreme Low-bit Quantization #Large Language Models (LLMs)#CUDA Kernel Optimization

2026년 5월 20일

[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.

#Review #Peer Review #Rebuttal #Actionable Feedback #Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset #Review Feedback Generation

2026년 3월 11일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] Towards a Neural Debugger for Python

본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.

#Review #Neural Debuggers #Python Execution Traces #Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding #Code Generation #Inverse Execution #CruxEval

2026년 3월 10일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.

#Review #Text-to-Video Generation #Multi-Agent System #Brand Integration #Prompt Engineering #Large Language Models (LLMs)#LoRA Fine-tuning #Contextual Adaptation

2026년 3월 10일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Transformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일

[논문리뷰] HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

본 논문은 LLM 에이전트 가 장기 계획(long-horizon planning)에서 예산이나 다양성 요구 사항과 같은 강력한 제약 조건 을 처리할 때 발생하는 Constraint Drift 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Planning #Hierarchical Reinforcement Learning #Constrained Optimization #Large Language Models (LLMs)#Travel Itinerary Generation #Constraint Drift #Parallel Execution #Resource Allocation

2026년 3월 8일

[논문리뷰] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

기존 발표 자료 생성 에이전트의 한계(미리 정의된 워크플로, 콘텐츠에 구애받지 않는 템플릿, 내부 신호에만 의존하는 자기 성찰)를 극복하고자 합니다.

#Review #Agentic Systems #Presentation Generation #Large Language Models (LLMs)#Multimodal LLMs (MLLMs)#Environment-Grounded Reflection #Self-Correction #Dual-Agent Framework #Supervised Fine-tuning

2026년 3월 8일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Controllability #Hierarchical Benchmark #Behavioral Granularity #Model Steering #Prompt Engineering #Activation-based Steering

2026년 3월 3일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG

법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Legal AI #Benchmark #Evaluation Methodology #Embedding Models #Large Language Models (LLMs)#Error Decomposition #Information Retrieval

2026년 3월 2일

[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #CUDA Kernel Generation #Agentic Reinforcement Learning #Large Language Models (LLMs)#GPU Optimization #Performance Tuning #Deep Learning Infrastructure #Program Synthesis

2026년 3월 1일

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.

#Review #Artificial General Intelligence (AGI)#Evaluation Benchmark #General Game Playing #Large Language Models (LLMs)#Human-in-the-loop #Cognitive Capabilities #Vision-Language Models (VLMs)#Game Generation

2026년 2월 26일

[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #3D Audio-Visual Learning #Spatial Grounding #Spatial Reasoning #Large Language Models (LLMs)#Ambisonics #RGB-D #Simulated Environments #Neural Intensity Vector

2026년 2월 25일

[논문리뷰] SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

본 연구는 시계열 데이터에 대한 진단 추론에서 발생하는 문제를 해결하는 것을 목표로 합니다. 일반 추론 거대 언어 모델(GRLMs)의 강력한 추론 능력과 시계열 전문 LLM(TSLMs)의 도메인 특화 지식 간의 격차를 해소하여, 복잡한 시계열 패턴에 대한 강력하고 문맥 인식적인 진단 통찰력을 제공하고자 합니다.

#Review #Time-Series Reasoning #Knowledge Injection #Large Language Models (LLMs)#Reinforcement Learning (RL)#Diagnostic AI #Multimodal AI #SenTSR-Bench

2026년 2월 23일

[논문리뷰] Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

본 논문은 대규모 언어 모델(LLM) 에이전트 사회에서 인간 사회와 유사한 사회화(socialization) 현상이 발생하는지 탐구합니다.

#Review #AI Agent Societies #Socialization #Large Language Models (LLMs)#Collective Dynamics #Semantic Analysis #Network Analysis #Moltbook

2026년 2월 17일

[논문리뷰] InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

이 논문은 대규모 언어 모델(LLM)에 의해 가속화된 연구 아이디어 생성 속도에 비해 평가 역량이 뒤처지는 문제를 해결하고자 합니다. 기존 아이디어 평가 방식이 좁은 지식 기반, 합의 부족, 단일 차원 평가 등의 한계를 가지며, LLM 자체의 편향성 또한 문제가 됨을 지적합니다.

#Review #Research Idea Evaluation #Large Language Models (LLMs)#Knowledge Grounding #Multi-Perspective Reasoning #Agent-based Systems #Scientific Discovery #Peer Review Simulation #Automated Evaluation

2026년 2월 16일

[논문리뷰] A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

대규모 언어 모델(LLMs)의 표적 명령어 선택(targeted instruction selection) 연구 분야가 파편화되어 있고 명확한 지침이 부족하다는 문제점을 해결하고자 합니다.

#Review #Instruction Tuning #Data Selection #Large Language Models (LLMs)#Gradient-based Representations #Optimal Transport #Generalization Bounds #Data Representation

2026년 2월 16일

[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.

#Review #Decentralized Training #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency #Sparse Expert Synchronization #Federated Learning #Distributed GPUs

2026년 2월 12일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.

#Review #Long-Context Reasoning #Large Language Models (LLMs)#Recurrent Memory #Gated Mechanisms #Reinforcement Learning #Memory Efficiency #Early Exit

2026년 2월 11일

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization #Evolutionary Algorithm #Destroy Repair Operators #Co-evolution

2026년 2월 11일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.

#Review #Long Context Reasoning #Memory Compression #Reinforcement Learning #Large Language Models (LLMs)#Inference Efficiency #Dynamic Recall #KV-Cache #Multi-hop Reasoning

2026년 2월 10일

[논문리뷰] Chain of Mindset: Reasoning with Adaptive Cognitive Modes

기존 LLM(대규모 언어 모델)의 고정된 단일 사고방식 추론 방식이 문제 해결의 여러 단계에서 요구되는 이질적인 인지적 요구를 충족하지 못하는 한계를 해결하고자 합니다. 본 연구는 단계별로 적응적인 사고방식을 유연하게 조율하여 LLM의 문제 해결 능력을 차세대 지능 수준으로 끌어올리는 것을 목표로 합니다.

#Review #Adaptive Reasoning #Cognitive Modes #Large Language Models (LLMs)#Agentic AI #Multimodal Reasoning #Mindset Orchestration #Contextual Filtering #Training-free Framework

2026년 2월 10일

[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.

#Review #Chemical Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space #Molecular Optimization #Inference Efficiency #Reinforcement Learning #Chemical AI

2026년 2월 9일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Agentic AI #Large Language Models (LLMs)#Visual Tools #Chain-of-Thought (CoT)#Reinforcement Learning #Curriculum Learning #Evidence-Driven Reasoning

2026년 2월 5일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning #Reinforcement Learning #Mathematical Reasoning #Decoupling #Interpretability

2026년 2월 1일

[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models

본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.

#Review #Self-Improving Pretraining #Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control #Factuality #Safety #Post-trained Models #Pretraining Data Augmentation

2026년 1월 29일

[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 Mixture-of-Experts (MoE) 아키텍처가 겪는 효율성 한계를 극복하기 위해 임베딩 스케일링 을 새로운 희소성 스케일링 차원으로 탐구하는 것을 목표로 합니다.

#Review #Embedding Scaling #N-gram Embedding #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency #Inference Optimization #Speculative Decoding

2026년 1월 29일

[논문리뷰] Exploring Reasoning Reward Model for Agents

기존 에이전트 RL(Agentic Reinforcement Learning) 방법론이 최종 결과 기반의 희소한 보상에 의존하여 중간 추론 과정의 품질을 제대로 반영하지 못하는 문제를 해결합니다.

#Review #Agentic Reinforcement Learning #Reward Modeling #Reasoning-aware Feedback #Large Language Models (LLMs)#Multi-modal Agents #Fine-tuning #Critique Generation

2026년 1월 29일

[논문리뷰] Beyond Imitation: Reinforcement Learning for Active Latent Planning

이 논문은 기존의 모방 기반 잠재 추론 방식이 여러 동등한 추론 경로 중 하나만을 학습하여 성능 저하 및 훈련-테스트 간 격차를 초래하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Reasoning #Reinforcement Learning (RL)#Variational Autoencoder (VAE)#Active Planning #Numerical Reasoning #Coherence Reward

2026년 1월 29일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

대규모 언어 모델(LLM)이 정렬 노력에도 불구하고 여전히 유해한 행동에 취약하며, 기존 액티베이션 스티어링(Activation Steering) 기법들이 norm 보존 실패 로 인한 생성 붕괴, 세심한 계수 튜닝, 또는 이진 제어 등의 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Activation Steering #Large Language Models (LLMs)#Norm Preservation #Discriminative Layer Selection #Behavior Control #Inference-time Intervention #Angular Steering

2026년 1월 27일

[논문리뷰] HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences

본 논문은 학술 논문, 특히 AI/ML 분야에서 증가하는 환각 인용(HalluCitation) 의 확산과 그 영향을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Hallucinated Citations #NLP Conferences #Citation Detection #Academic Integrity #Peer Review #Large Language Models (LLMs)#Bibliometrics

2026년 1월 27일

[논문리뷰] SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

본 논문은 소프트웨어 개발을 위한 LLM 에이전트가 긴 컨텍스트로 인해 발생하는 높은 API 비용과 지연 시간 문제를 해결하고자 합니다.

#Review #Context Pruning #Coding Agents #Large Language Models (LLMs)#Software Development #Code Comprehension #Efficiency Optimization #Task-Aware Pruning #CRF

2026년 1월 25일

[논문리뷰] LongCat-Flash-Thinking-2601 Technical Report

본 논문은 장기적인 상호작용과 추론이 요구되는 에이전트 태스크 에서 기존 모델들의 한계를 극복하고, 뛰어난 에이전트 추론 능력을 가진 오픈소스 MoE(Mixture-of-Experts) 대규모 언어 모델인 LongCat-Flash-Thinking-2601 을 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Reinforcement Learning (RL)#Context Management #Scalable Training #Test-Time Reasoning #Open-Source Model

2026년 1월 25일

[논문리뷰] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

본 논문은 Chain-of-Thought (CoT) 프롬프팅의 지나친 장황함으로 인한 높은 연산 오버헤드 와 중간 추론 과정의 불투명성 문제를 해결하고자 합니다.

#Review #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Vision Language Models (VLMs)#Latent Reasoning #Visual Modality #Image Rendering #Computational Efficiency #Knowledge Distillation

2026년 1월 21일

[논문리뷰] Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

기존 에이전트 기반 형식 증명 시스템의 유연성, 재현성, 확장성 한계를 해결하고자 합니다.

#Review #Agentic Systems #Formal Theorem Proving #Large Language Models (LLMs)#Lean Theorem Prover #Multi-Agent Systems #Code Generation #Automated Reasoning #Human-AI Collaboration

2026년 1월 21일

[논문리뷰] Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Mixed-Initiative AI #Human-AI Collaboration #Web Data Analysis #Proactive Guidance #Large Language Models (LLMs)#Browser Extension #Data-Centric Design

2026년 1월 21일

[논문리뷰] YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

본 논문은 LLM의 행동을 미세하게 제어하는 데 있어 기존의 Dense Steering Vector 방식이 지닌 Latent Factor 얽힘(Entanglement) 문제와 불안정성을 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Activation Steering #Sparse Autoencoders (SAEs)#Domain Adaptation #Cultural Alignment #Preference Optimization #Disentangled Representations #Fine-grained Control

2026년 1월 19일

[논문리뷰] Reasoning Models Generate Societies of Thought

본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.

#Review #Reasoning Models #Large Language Models (LLMs)#Multi-Agent Systems #Society of Thought #Mechanistic Interpretability #Reinforcement Learning #Cognitive Diversity #Conversational AI

2026년 1월 18일

[논문리뷰] Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

LLM의 RL 기반 학습에서 발생하는 탐색 붕괴(exploration collapse) 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Exploration Collapse #Strategy-level Diversity #Uniqueness-Aware Rewarding #Creative Problem Solving #Pass@k

2026년 1월 15일

[논문리뷰] EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

본 논문은 금융 Q&A에서 회피성 답변(evasive answers) 을 탐지하는 데 필요한 대규모 고품질 벤치마크 부재 와 모호한 경계 사례에 대한 일관성 없는 레이블링 문제를 해결하고자 합니다. 특히 부분적으로 응답하는 답변과 완전한 회피성 답변 사이의 미묘한 경계에 대한 양질의 감독 데이터 확보를 목표로 합니다.

#Review #Evasion Detection #Financial NLP #Large Language Models (LLMs)#Multi-Model Consensus #LLM-as-Judge #Data Annotation #Knowledge Distillation #Hard Sample Mining

2026년 1월 15일

[논문리뷰] The AI Hippocampus: How Far are We From Human Memory?

본 논문은 최신 Large Language Models (LLMs) 및 Multi-Modal LLMs (MLLMs) 의 추론, 적응성, 맥락적 충실도 향상을 위해 메모리 메커니즘을 통합하는 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Multi-Modal LLMs (MLLMs)#Memory Systems #Implicit Memory #Explicit Memory #Agentic Memory #Retrieval-Augmented Generation (RAG)#Contextual Understanding

2026년 1월 14일

[논문리뷰] Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

본 논문은 교사 모델이 생성한 응답에 대한 SFT(Supervised Fine-Tuning) 기반 시퀀스 레벨 증류 패러다임의 세 가지 주요 한계점(교사 분포 표현 부족, 교사-학생 모델 학습 능력 불일치, exposure bias)을 해결하고자 합니다.

#Review #Knowledge Distillation #Sequence-level Distillation #Chain-of-Thought Reasoning (CoT)#Large Language Models (LLMs)#Temperature-scheduled Learning #Divergence-aware Sampling #Mixed-policy Distillation #Open-source Models

2026년 1월 14일

[논문리뷰] A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

논문은 기존 과학적 추론 벤치마크가 최종 답변의 정확성과 과정의 일관성에만 초점을 맞추고, 인간 추론의 기저에 있는 메모리 기반 메커니즘 , 즉 앵커(기초 지식)와 어트랙터(경험 기반 템플릿)의 활성화 및 통합을 간과하는 문제를 해결하고자 합니다.

#Review #Scientific Reasoning #Memory-Driven AI #Benchmarking #Large Language Models (LLMs)#Anchor-Attractor Activation #Episodic Memory #Knowledge Retrieval

2026년 1월 14일

[논문리뷰] Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

본 논문은 기존 벤치마크가 클레임 검증에만 초점을 맞춰 LLM의 사실 확인 워크플로우 전반(클레임 추출 및 증거 검색 포함)을 간과하는 문제를 해결하고자 합니다.

#Review #Fact-Checking #Large Language Models (LLMs)#Benchmarking #Multi-agent System #Stage-wise Evaluation #Claim Evolution #Trustworthy AI

2026년 1월 13일

[논문리뷰] ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

LLM 기반의 Tool-Integrated Reasoning (TIR) 에이전트가 정확도에만 집중하여 발생하는 비효율적인 행동 패턴(예: 중복되거나 불충분한 도구 호출) 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#Agent Behavior Calibration #Reinforcement Learning (RL)#Self-Evolving Data Flywheel #Action Space Exploration #Behavioral Efficiency

2026년 1월 12일

[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data

본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.

#Review #Self-Evolution #Search Agents #Large Language Models (LLMs)#Data-Free Learning #Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

본 논문은 장기적인 인간-에이전트 상호작용에서 LLM 기반 에이전트가 겪는 메모리 앵커링(Memory Anchoring) 문제(과거 상호작용에 과도하게 갇히는 현상)와 메모리 활용 부족 문제를 해결하고자 합니다.

#Review #Long-Term Human-Agent Interaction #Controllable Memory #Memory Anchoring #Large Language Models (LLMs)#Personalization #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Memory Dependence

2026년 1월 12일

[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.

#Review #Supervised Fine-Tuning (SFT)#Catastrophic Forgetting #Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation #Reinforcement Learning (RL)#Confident Conflicts

2026년 1월 7일

[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.

#Review #Hate Speech Detection #Explainable AI (XAI)#Multilingual NLP #Large Language Models (LLMs)#Attention Mechanism #N-gram Explanations #Human Rationales #Benchmark Dataset

2026년 1월 6일

[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.

#Review #Software Engineering #Issue Resolution #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset #Error Masking #Curriculum Learning #Test-Time Scaling (TTS)#Generative Verifiers

2026년 1월 5일

[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.

#Review #Autonomous Agents #Memory Systems #Cognitive Neuroscience #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management #Multimodal Memory #Agent Skills

2025년 12월 31일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Router-Expert Coupling #Auxiliary Loss #Expert Specialization #Large Language Models (LLMs)#Computational Efficiency

2025년 12월 29일

[논문리뷰] Streaming Video Instruction Tuning

이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Large Language Models (LLMs)#Instruction Tuning #Multi-task Learning #Real-time AI Assistant #Temporal Reasoning #Focal Loss #Video Question Answering

2025년 12월 24일

[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Coding Agents #Software Evolution #Benchmarking #Long-Horizon Tasks #Large Language Models (LLMs)#Software Engineering #Code Generation

2025년 12월 24일

[논문리뷰] Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

본 연구는 LLM의 연역적 추론 능력 을 논리적(형식적) 및 직관적(자연어) 관점에서 깊이 이해하는 것을 목표로 합니다.

#Review #Syllogistic Reasoning #Large Language Models (LLMs)#Belief Bias #Natural Language Understanding (NLU)#Formal Logic #Prompt Engineering #Self-Consistency #Cognitive Psychology

2025년 12월 22일

[논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 코드 생성 능력이 값비싼 감독 학습 데이터에 크게 의존하는 문제점을 해결하고자 합니다. 외부 코퍼스나 수동으로 주석 처리된 데이터 없이, 오직 사전 훈련된 지식만을 활용하여 LLM의 코드 생성 능력을 자율적으로 개선하는 비감독 학습 프레임워크를 개발하는 것이 목표입니다.

#Review #Unsupervised Learning #Code Generation #Large Language Models (LLMs)#Internal Probing #Self-Bootstrapping #Consensus Clustering #Code Intelligence

2025년 12월 22일

[논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

본 논문은 대규모 (비전) 언어 모델(LLMs/VLMs)의 추론 및 강화 학습(RL) 훈련 과정에서 발생하는 탐색 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Latent Variable Models #Variational Autoencoder (VAE)#Reinforcement Learning (RL)#Exploration #Large Language Models (LLMs)#Vision-Language Models (VLMs)#Controllable Generation #Reasoning Strategies

2025년 12월 22일

[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Software Engineering Benchmarks #Large Language Models (LLMs)#Code Generation #Automated Benchmark Generation #Multilingual #GitHub Pull Requests #Test Oracle #Fine-tuning

2025년 12월 21일

[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator

본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.

#Review #Robotic Agent #Large Language Models (LLMs)#Embodied AI #Task Planning #Human-Robot Interaction #General-purpose Robotics #ROS

2025년 12월 14일

[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Parallel Reasoning #Self-Distilled Reinforcement Learning #Policy Optimization #Inference Acceleration #Structured Output #Agentic Reasoning

2025년 12월 8일

[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization #Mixed-Precision Quantization #Sensitivity Metric #Quantization Scale Initialization #Accuracy Preservation

2025년 12월 4일

[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.

#Review #Fact-Checking #Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement #Latent Space #Disentanglement #Steering Vectors #Misinformation

2025년 12월 4일

[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO #Training Stability #Lazy Likelihood Displacement (LLD)#Regularization #Search-R1

2025년 12월 4일

[논문리뷰] Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

본 논문은 LLM이 수동적 응답자에서 자율 에이전트로 발전 하는 데 필요한 확장 가능한 고품질 상호작용 신호 인프라의 부족 문제를 해결하고자 합니다.

#Review #Agentic Models #Large Language Models (LLMs)#Agentic Scaling #Environment Construction #NexAU #NexA4A #NexGAP #Interactive Environments

2025년 12월 4일

[논문리뷰] Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

이 논문은 instruct LLM을 비용이 많이 드는 특화된 레이블링된 데이터 없이 비레이블링된 타겟 언어 데이터만으로 새로운 언어에 적응 시킬 때 발생하는 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Catastrophic Forgetting #Language Adaptation #Continual Pre-training #Parameter Freezing #Low-Resource Languages #Source Knowledge Preservation

2025년 12월 4일

[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient #REINFORCE #Mixture-of-Experts (MoE)#Training Stability #Importance Sampling #Routing Replay #Off-policy Learning

2025년 12월 1일

[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#Proof Verification #Self-Verification #Reinforcement Learning (RL)#Theorem Proving #Meta-Verification #Iterative Refinement

2025년 11월 30일

[논문리뷰] SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

대규모 언어 모델(LLM)에서 quadratic 연산 복잡성 을 갖는 full attention 의 한계를 극복하기 위해, sparse attention 의 성능 저하 및 부족한 sparsity 문제를 해결하고자 합니다.

#Review #Sparse Attention #Full Attention #Large Language Models (LLMs)#Context Length #Attention Sparsity #Alignment Loss #Long-Context Extrapolation

2025년 11월 25일

[논문리뷰] General Agentic Memory Via Deep Research

AI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.

#Review #AI Agents #Memory Systems #Large Language Models (LLMs)#Just-in-Time (JIT) Compilation #Memorizer #Researcher #Reinforcement Learning #Context Management

2025년 11월 24일

[논문리뷰] OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists

기존 AI Scientist 시스템이 과학적 발견을 독립적인 검색/최적화 문제로만 보고, 과학 연구의 사회적, 협력적 특성을 간과하는 한계를 해결합니다.

#Review #AI Scientist #Large Language Models (LLMs)#Human-AI Collaboration #Scientific Ecosystem #Research Automation #Omni Scientific Protocol (OSP)#ScienceArena #Knowledge Graph

2025년 11월 23일

[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

본 연구는 Extreme Multi-label Classification (XMC)에서 Large Language Models (LLMs) 의 잠재력을 효과적으로 활용하고, 시각적 정보 를 효율적으로 통합하여 성능을 향상하는 것을 목표로 합니다.

#Review #Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning #Dual-decoder Learning #Vision Transformers #Contrastive Learning #Prompt Engineering

2025년 11월 18일

[논문리뷰] Genomic Next-Token Predictors are In-Context Learners

본 연구는 인컨텍스트 학습(ICL)이 인간 언어에 고유한 현상인지, 아니면 대규모 예측 훈련을 통해 다른 시퀀스 도메인에서도 유기적으로 나타날 수 있는지 근본적인 질문을 탐구합니다. 특히, 풍부한 통계적 구조를 가진 대안적인 상징적 도메인인 유전체 시퀀스 에서 ICL의 출현 가능성을 검증하는 것을 목표로 합니다.

#Review #In-Context Learning (ICL)#Genomic Sequences #Next-Token Prediction #Large Language Models (LLMs)#Modality-Agnostic AI #Meta-Learning #Bitstring Program Synthesis #Evo2

2025년 11월 17일

[논문리뷰] Black-Box On-Policy Distillation of Large Language Models

본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation #Generative Adversarial Networks (GANs)#On-policy Learning #Reinforcement Learning #Minimax Game #Model Compression

2025년 11월 13일

[논문리뷰] MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 복잡한 수학 문제 해결과 같은 추론 태스크에서 겪는 어려움을 극복하는 것을 목표로 합니다. 특히, 기존의 정적인 교사 모델 유래 데이터셋에 의존하는 방식이 모델의 새로운 문제 적응력과 견고한 일반화 능력을 제한한다는 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Mathematical Problem Solving #Self-Evolving #Iterative Fine-Tuning #Reward Models #Reflection #Large Language Models (LLMs)

2025년 11월 12일

[논문리뷰] LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

기존 LLM 툴 학습의 정적 합성 데이터 파이프라인 이 모델의 약점에 적응하지 못하고 노이즈 있는 레이블을 유지하여 훈련 효율성을 저해하는 문제를 해결합니다.

#Review #Large Language Models (LLMs)#Tool Learning #Data Generation #Model Training #Closed-Loop Framework #Reinforcement Learning (RL)#Data Refinement #Self-Correction

2025년 11월 12일

[논문리뷰] Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

본 논문은 기존 Retrieval-Augmented Generation (RAG) 방법론이 긴 내러티브 내에서 분산된 정보를 다루고, 시간이 지남에 따라 진화하는 상황과 액터의 상태에 대해 추론하는 데 한계가 있음을 지적합니다.

#Review #Retrieval-Augmented Generation (RAG)#Episodic Memory #Generative Semantic Workspaces (GSW)#Large Language Models (LLMs)#Question Answering (QA)#Semantic Modeling #Knowledge Graph

2025년 11월 11일

[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

MoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.

#Review #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization #Manifold Regularization #Generalization #Post-training Fine-tuning #Task Embedding Alignment

2025년 11월 10일

[논문리뷰] The Collaboration Gap

AI 에이전트 기반 시스템에서 독립적으로 개발된 에이전트 간의 효과적인 협업 능력 이 부족하다는 문제인 ' 협업 격차(Collaboration Gap) '를 파악하고 정량화하는 것을 목표로 합니다.

#Review #AI Collaboration #Multi-Agent Systems #Large Language Models (LLMs)#Maze Solving #Heterogeneous Agents #Collaboration Gap #Relay Inference #Agentic AI

2025년 11월 9일

[논문리뷰] TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

논문은 복잡한 질문, 노이즈가 있는 데이터, 제한된 수치 연산 능력으로 인해 대규모 언어 모델(LLM) 이 테이블 질의응답(TQA) 에서 저조한 성능을 보이는 문제를 해결합니다. 특히, 다단계(multi-hop) 수치 추론 과 지저분한 테이블 데이터 처리의 어려움을 극복하여 LLM의 성능을 향상시키는 것을 목표로 합니다.

#Review #Tabular Data #Numerical Reasoning #Large Language Models (LLMs)#Table Question Answering (TQA)#Program-of-Thoughts (PoT)#Data Sanitization #Query Decomposition #Multi-hop Reasoning

2025년 11월 9일

[논문리뷰] BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring

본 연구는 특히 진단 도구에 대한 접근성이 제한된 지역에서, 조기 및 정확한 알츠하이머병(AD) 탐지의 중요성이 커지는 문제에 대응합니다. 대규모 언어 모델(LLMs) 의 강력한 추론 능력과 사례 기반 추론 을 결합하여 AD 진단 및 모니터링을 위한 확장 가능하고 설명 가능한 시스템을 개발하는 것을 목표로 합니다.

#Review #Alzheimer's Disease #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Clinical Decision Support #Multimodal Data Fusion #Cognitive Decline Detection #Early Diagnosis

2025년 11월 9일

[논문리뷰] Towards Robust Mathematical Reasoning

기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#AI Benchmarks #International Mathematical Olympiad (IMO)#Proof Verification #Automatic Grading #Robustness

2025년 11월 9일

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일

[논문리뷰] MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

본 연구는 건강 관련 허위 정보, 특히 과학적 발견을 왜곡하거나 오해하는 주장 내에 숨겨진 논리적 오류를 탐지하는 LLM의 능력 을 향상시키는 것을 목표로 합니다.

#Review #Health Misinformation #Logical Fallacy Classification #Synthetic Data Generation #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Parameter-Efficient Fine-tuning (PEFT)#LoRA #MISSCI Benchmark

2025년 11월 9일

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning #Large Language Models (LLMs)#Activity Scheduling #Longest Increasing Subsequence (LIS)#Generalization Limits #Reward Design #Self-consistency

2025년 11월 9일

[논문리뷰] INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

현대 AI 하드웨어는 LLM의 아웃라이어를 처리하기 위해 저정밀 부동소수점(FP) 형식을 점차 채택하고 있으나, 다양한 과립도(granularity)에 걸친 FP와 정수(INT) 양자화에 대한 통합적인 비교 연구가 부족합니다.

#Review #Quantization #Low-bit Formats #Integer Quantization #Floating-Point Quantization #Large Language Models (LLMs)#Hardware Efficiency #Fine-Grained Quantization #MXINT8

2025년 11월 9일

[논문리뷰] Continuous Autoregressive Language Models

Large Language Models (LLMs)의 비효율적인 순차적, 토큰 단위 생성 과정의 근본적인 한계를 극복하는 것이 목표입니다. 본 연구는 이산 토큰 예측에서 연속 벡터 예측 으로 패러다임을 전환하여, 각 생성 단계의 의미론적 대역폭을 증가 시킴으로써 LLM의 스케일링 및 계산 효율성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Continuous Representation #Autoencoder #Likelihood-Free Modeling #Energy-Based Models #Next-Vector Prediction #Computational Efficiency #Temperature Sampling

2025년 11월 9일

[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language Models

AI 학회에서 급증하는 제출 수로 인해 저하되는 동료 검토의 품질 문제를 해결하고자 합니다.

#Review #Peer Review #Review Quality #Large Language Models (LLMs)#Misinformed Review #Argument Reconstruction #Factuality Evaluation #Natural Language Processing #Automated Evaluation

2025년 9월 29일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

본 논문은 LLM에서 SFT가 모델의 지식에 미치는 영향 이 충분히 이해되지 않고 있다는 문제의식에서 출발합니다.

#Review #Supervised Fine-Tuning (SFT)#Large Language Models (LLMs)#Model Knowledge #Closed-Book Question Answering (CBQA)#Parameter Restoration #Kullback-Leibler Divergence #Knowledge Forgetting

2025년 9월 23일

[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

기존 Role-playing Agents (RPAs) 가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs 에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.

#Review #Role-playing Agents (RPAs)#Multimodal AI #Video Understanding #Large Language Models (LLMs)#Dataset Creation #Dynamic Role Profiles #Adaptive Temporal Sampling #Fine-tuning

2025년 9월 22일

[논문리뷰] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

논문은 MARS2 2025 Challenge 를 통해 멀티모달 기계 학습 및 LLM 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Language Models (LLMs)#Multimodal Large Language Models (MLLMs)#Visual Grounding #Visual Question Answering #Advertisement Video Analysis #Real-world Scenarios #Challenge Benchmark

2025년 9월 18일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일

[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.

#Review #Web Agents #Long-Horizon Reasoning #Large Language Models (LLMs)#Data Generation #Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation #Information Retrieval

2025년 9월 9일

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일

[논문리뷰] Towards a Unified View of Large Language Model Post-Training

본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Post-Training #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient #Unified Framework #Hybrid Algorithms #Bias-Variance Tradeoff

2025년 9월 5일

[논문리뷰] NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

논문은 기존 NER(Named Entity Recognition) 시스템의 한계, 즉 고정된 유형 스키마와 대량의 레이블링 데이터 의존성을 극복하고자 합니다.

#Review #Named Entity Retrieval #Zero-Shot Learning #Type-Aware Embeddings #Large Language Models (LLMs)#Contrastive Learning #Internal Representations #Information Retrieval

2025년 9월 5일

[논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

본 논문은 대규모 언어 모델(LLM)을 활용한 합성 데이터 생성 시 품질과 다양성 확보의 어려움을 해결하는 것을 목표로 합니다. 특히, 하류 태스크 훈련의 견고성을 높이기 위해 데이터 다양성과 생성기 적응성을 자동으로 증폭할 수 있는 프레임워크를 제안합니다.

#Review #Synthetic Data Generation #Large Language Models (LLMs)#Genetic Algorithms #Textual Data Augmentation #Active Learning #NLP #Data Diversity

2025년 9월 3일

[논문리뷰] T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

본 논문은 대규모 언어 모델(LLMs)의 테이블 추론 능력을 산업 애플리케이션에 적용하는 데 있어, 테이블 정보를 포괄적인 보고서로 변환하는 핵심 과제를 해결하고자 합니다. 특히, 복잡하고 다양한 테이블로 인한 추론 성능 저하와 기존 벤치마크의 실제 적용 평가 능력 부족이라는 두 가지 주요 문제를 다룹니다.

#Review #Table-to-Report Generation #Large Language Models (LLMs)#Benchmark Dataset #Industrial Applications #Table Reasoning #Evaluation Metrics #Real-world Data

2025년 9월 2일

[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Critic-Free RL #Agentic Reasoning #Policy Optimization #Large Language Models (LLMs)#Advantage Estimation #Group Sampling #Static Value Estimation

2025년 9월 2일

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.

#Review #Persuasion Dynamics #Large Language Models (LLMs)#Robustness #Gullibility #Receptiveness #Direct Preference Optimization (DPO)#Safety Alignment #Multi-turn Dialogue

2025년 8월 29일

[논문리뷰] OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models

다중 턴 대화에서 대규모 언어 모델(LLM) 과의 상호작용이 길고 복잡해짐에 따라, 사용자가 대화 목표 진행 상황 을 효과적으로 평가하고 검토하는 데 겪는 어려움을 해결하는 것이 핵심 연구 목표입니다.

#Review #Large Language Models (LLMs)#Human-Computer Interaction (HCI)#Conversational AI #Goal Tracking #Visualization #Multi-Turn Dialogue #User Interface Design #Sensemaking

2025년 8월 29일

[논문리뷰] Spacer: Towards Engineered Scientific Inspiration

Spacer는 기존 LLM의 한계인 제한된 창의성과 문맥 의존성을 극복하여 외부 개입 없이 창의적이고 사실에 기반한 과학적 개념을 생성하는 것을 목표로 합니다.

#Review #Scientific Discovery #Large Language Models (LLMs)#Decontextualization #Keyword Graph #Multi-Agent System #Scientific Ideation #Research Automation #Inspiration Engine

2025년 8월 27일

[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.

#Review #AI Agents #Tool Use #Model Context Protocol (MCP)#Benchmarking #Large Language Models (LLMs)#Real-world Tasks #Evaluation #Error Analysis

2025년 8월 22일

[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery

본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.

#Review #Large Language Models (LLMs)#Affective Computing #Misery Score Prediction #Prompt Engineering #Few-shot Learning #Gamified Evaluation #Feedback-driven Adaptation

2025년 8월 20일

[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.

#Review #Low-Resource MT #Data Augmentation #Large Language Models (LLMs)#Back-Translation #In-Context Learning (ICL)#Fine-Tuning #Topic-Guided Generation #Parallel Data Synthesis

2025년 8월 13일

[논문리뷰] GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

대규모 언어 모델(LLM)의 연속 학습 시 발생하는 파국적 망각(catastrophic forgetting) 문제를 해결하는 것이 주된 목표입니다. 특히, LLM이 기존의 일반적인 능력과 이전에 학습한 하위 태스크에서의 성능을 동시에 유지하면서 새로운 태스크를 효율적이고 안정적으로 학습할 수 있는 방안을 모색합니다.

#Review #Continual Learning #Large Language Models (LLMs)#Catastrophic Forgetting #Replay #Knowledge Distillation #Activation States #Anti-forgetting #Threshold-based Margin Loss

2025년 8월 13일

[논문리뷰] Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

본 논문은 대규모 언어 모델(LLMs)의 효율적인 도구 사용(tool use) 학습을 위한 강화 학습(RL) 프레임워크 부재 문제를 해결하고자 합니다. 특히, 안정적인 훈련 환경 구축의 어려움과 검증 가능한 보상 메커니즘의 부재가 LLM의 도구 사용 능력 발전을 저해하는 핵심 과제로 지적됩니다.

#Review #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#Automated Environment Generation #Feedback-Driven Training #Reward Mechanism #Contextual Understanding

2025년 8월 13일

[논문리뷰] Tool-integrated Reinforcement Learning for Repo Deep Search

소프트웨어 이슈 설명과 실제 결함 코드 사이의 의미론적 간극 및 다중 홉 추론 으로 인해 발생하는 이슈 로컬라이제이션(결함 코드 위치 식별)의 어려움을 해결하는 것이 목표입니다. 특히, LLM 기반 에이전트가 저장소 검색 도구를 효과적으로 활용하여 이슈 로컬라이제이션 을 수행하는 능력을 강화하고자 합니다.

#Review #Issue Localization #Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Tool-integrated Agents #Software Engineering #Code Search

2025년 8월 6일

[논문리뷰] RecGPT Technical Report

기존 추천 시스템의 로그 기반(log-fitting) 접근 방식 이 야기하는 과적합, 필터 버블, 롱테일 문제의 한계를 극복하고, 사용자 의도 를 중심으로 하는 차세대 추천 시스템 RecGPT 를 제안합니다.

#Review #Recommender Systems #Large Language Models (LLMs)#User Intent Modeling #Multi-Stage Training #Human-in-the-Loop #E-commerce #Filter Bubble Mitigation #Matthew Effect

2025년 8월 2일

[논문리뷰] Persona Vectors: Monitoring and Controlling Character Traits in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 발생하는 예상치 못한 또는 바람직하지 않은 페르소나 변화 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Persona Control #Activation Steering #Finetuning #Behavioral Shift Detection #Interpretability #Data Filtering

2025년 8월 2일

[논문리뷰] The End of Manual Decoding: Towards Truly End-to-End Language Models

현재 LLM이 비미분 가능한 디코딩 하이퍼파라미터(온도, top-p)의 수동 튜닝에 의존하여 발생하는 비효율성과 비최적화 문제를 해결하는 것이 목표입니다. 논문은 모델이 자체 디코딩 전략을 학습하여 동적으로 제어함으로써 진정한 엔드-투-엔드 생성 을 가능하게 하는 새로운 아키텍처를 제안합니다.

#Review #Large Language Models (LLMs)#End-to-End Generation #Dynamic Decoding #Hyperparameter Optimization #Stochastic Sampling #Instruction Following #Transformer Architecture

2025년 10월 31일

[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

본 연구는 다양한 문서 레이아웃 데이터의 부족과 복잡한, 긴 시퀀스 시나리오에서 기존 문서 레이아웃 생성 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Document Layout Generation #Large Language Models (LLMs)#Coarse-to-Fine Learning #Dataset Curation #OmniLayout-1M #Document AI #Generative Models

2025년 10월 31일

[논문리뷰] Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets

본 논문은 LLM 에이전트가 중재하는 경제적 의사결정 환경에서 에이전트의 행동과 가치를 이해하기 위한 연구를 목표로 합니다. 기존의 제한적인 환경 연구에서 나아가, 복잡하고 동적인 실제 시장 조건 에서 에이전트의 행동을 안전하게 연구할 수 있는 개방형 시뮬레이션 환경 을 개발하는 것이 주요 목적입니다.

#Review #Agentic Markets #Multi-Agent Systems #Large Language Models (LLMs)#Simulation Environment #Open-Source Platform #Market Mechanism Design #Behavioral Biases #Manipulation Resistance

2025년 10월 31일

[논문리뷰] Evolving Diagnostic Agents in a Virtual Clinical Environment

본 논문은 정적인 지시 튜닝(instruction-tuned) 모델의 한계를 넘어, 가상 임상 환경 에서 강화 학습(RL) 을 통해 다중 턴 진단 과정을 효과적으로 관리하고, 적응적으로 검사를 선택하며, 최종 진단을 내릴 수 있는 진단 에이전트(diagnostic agents) 를 훈련하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Diagnostic Agents #Reinforcement Learning (RL)#Virtual Clinical Environment #Medical AI #Multi-turn Diagnosis #EHR (Electronic Health Records)

2025년 10월 30일

[논문리뷰] ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

온라인 게임과 같이 지식이 지속적으로 업데이트되고 사용자 관심사가 변화하는 동적 도메인에서 RAG 시스템을 평가할 표준화된 벤치마크가 부재합니다.

#Review #Retrieval Augmented Generation (RAG)#Dynamic Benchmarks #Game AI #User Interest Drift #Knowledge Evolution #Automated Benchmark Generation #Authenticity #Large Language Models (LLMs)

2025년 10월 30일

[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Benchmark #Indic Languages #Multilingual Evaluation #Domain-Specific AI #India-centric Knowledge Systems #Zero-Shot Learning #Question Answering

2025년 10월 30일

[논문리뷰] Generalization or Memorization: Dynamic Decoding for Mode Steering

대규모 언어 모델(LLMs)이 보이는 예측 불가능한 일반화(Generalization)와 암기(Memorization) 간의 전환 문제를 해결하는 것이 목표입니다. 이러한 이중적인 추론 모드를 이해하고, 식별하며, 제어하는 통일된 프레임워크를 제시하여 LLM의 신뢰성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Generalization #Memorization #Information Bottleneck (IB)#Activation Steering #Decoding Strategy #Causal Intervention #LLM Reliability

2025년 10월 29일

[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.

#Review #Function Calling #Multi-Turn Interaction #Large Language Models (LLMs)#Data Synthesis #Agentic AI #Tool Use #Chain-of-Thought (CoT)#Reinforcement Learning

2025년 10월 29일

[논문리뷰] MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

기존 RAG 패러다임의 수동적인 텍스트 청킹 방식이 지식 내부화 및 추론 능력을 제한하는 문제를 해결합니다. 인간의 인지 과정을 모방하여 텍스트 처리를 수동적인 청킹에서 사전 이해 기반의 문서 메모리 추출 로 전환하고, SLM이 이러한 심층 이해 능력을 습득하도록 하는 것이 목표입니다.

#Review #Retrieval-Augmented Generation (RAG)#Document Memory #Text Chunking #Small Language Models (SLMs)#Large Language Models (LLMs)#Scenario-Aware Processing #Multi-Layer Retrieval #Cognitive Simulation

2025년 10월 17일

[논문리뷰] Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

본 논문은 대규모 언어 모델(LLM) 에이전트의 성능 향상을 위해 다중 에이전트 시스템(MAS) 과 강화 학습(RL) 을 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Multi-Agent Systems (MAS)#On-Policy RL #Collaborative AI #Agentic LLMs #Group-based Optimization

2025년 10월 16일

[논문리뷰] Reasoning in Space via Grounding in the World

기존 3D LLM이 통일된 3D 표현 부재 및 외부 모듈 의존으로 인해 3D 시각적 그라운딩과 공간 추론을 원활하게 통합하지 못하는 문제를 해결하는 것이 목표입니다. 본 연구는 LLM이 자율회귀적 방식으로 자연스럽고 효과적인 그라운딩을 수행하여 공간 추론 능력을 향상시킬 수 있는 방법을 모색합니다.

#Review #3D Visual Grounding #Spatial Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Hybrid Representation #Multi-modal LLMs #Point Clouds

2025년 10월 16일

[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Mathematical Reasoning #Benchmark #Large Language Models (LLMs)#Exploration #Boundary Expansion #MATH-Beyond

2025년 10월 16일

[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

기존 멀티모달 임베딩 모델의 한계인 제한된 모달리티 지원, 불안정한 학습 메커니즘, 산업 도메인 간극을 해결하는 것을 목표로 합니다. 이를 통해 다양한 실세계 시나리오에서 효과적인 옴니모달 임베딩(omni-modal embedding) 을 제공하는 SAIL-Embedding 이라는 파운데이션 모델을 제안합니다.

#Review #Omni-modal Embedding #Multimodal Learning #Recommendation Systems #Hard Negative Mining #Contrastive Learning #Large Language Models (LLMs)#Data Balancing #Multitask Learning

2025년 10월 15일

[논문리뷰] LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

대규모 추론 모델(LRM)의 '사고 토큰' 생성이 기계 번역(MT) 성능에 미치는 영향을 탐구하고, 표준 CoT 증류 방식과 MT 특정 모듈식 프롬프트 전략을 비교하여 어떤 형태의 중간 정보가 MT에 유익한지 밝히는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Machine Translation (MT)#Chain-of-Thought (CoT)#Knowledge Distillation #Fine-tuning #Prompt Engineering #Synthetic Data

2025년 10월 15일

[논문리뷰] DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

본 연구는 웹 소설 번역에 대한 기존 기계 번역(MT) 평가 벤치마크들이 표면적 지표에 의존하여 서사적 일관성, 문체적 충실도, 문화적 뉘앙스를 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Language Models (LLMs)#Web Novel Translation #Multi-Agent Systems #Cultural Nuance #Benchmark Dataset #Natural Language Generation

2025년 10월 15일

[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.

#Review #KV Cache Compression #Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models #Attention Heads #Chain-of-Thought (CoT)#Memory Efficiency

2025년 10월 13일

[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline #Web-scale Data #Question-Answering (QA)#Data Generation #Data Diversity #Data Efficiency

2025년 10월 13일

[논문리뷰] Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization

본 논문은 AI, 특히 System-2 유형의 추론 능력 을 정의하고 측정할 명확한 프레임워크가 부족하다는 문제를 제기합니다. 기존의 평가 방식이 주로 System-1 유형의 패턴 인식 에 초점을 맞춰 진정한 추론 능력을 제대로 평가하지 못하는 한계를 극복하고자 합니다.

#Review #Complexity OoD Generalization #System-1 Thinking #System-2 Reasoning #Kolmogorov Complexity #Inductive Biases #Large Language Models (LLMs)#Reasoning Evaluation

2025년 10월 13일

[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Reward Modeling #Large Language Models (LLMs)#Mathematical Reasoning #Sparse Rewards #Dense Rewards #Hybrid Reinforcement #Verifier-based Rewards

2025년 10월 10일

[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.

#Review #Large Language Models (LLMs)#Reasoning #Chain-of-Thought (CoT)#Reflection #Early Stopping #Supervised Fine-tuning (SFT)#Token Efficiency #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.

#Review #Sequence Modeling #Hybrid Attention #Transformer Architecture #Linear Attention #Sliding Window Attention #Long Context #Large Language Models (LLMs)#Efficiency

2025년 10월 9일

[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization

본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.

#Review #Multi-Agent RL #Tool-Integrated Planning #Large Language Models (LLMs)#Policy Optimization #Credit Assignment #Reinforcement Learning #MATPO

2025년 10월 9일

[논문리뷰] Cache-to-Cache: Direct Semantic Communication Between Large Language Models

본 연구는 기존 멀티-LLM 시스템에서 텍스트 기반(Text-to-Text, T2T) 통신 이 야기하는 정보 손실, 모호성, 토큰 단위 생성 지연과 같은 한계를 극복하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Inter-model Communication #KV-Cache #Semantic Transfer #Multi-LLM Systems #Cache Fusion #Latency Reduction #Knowledge Sharing

2025년 10월 9일

[논문리뷰] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

이 논문은 기존의 도구 증강 LLM 접근 방식이 긴 추론 과정과 다양한 도구 사용에서 확장성이 떨어지고 새로운 시나리오에 대한 일반화 능력이 약하다는 문제를 제기합니다.

#Review #Agentic Systems #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#On-policy Optimization #Flow-based Group Refined Policy Optimization (Flow-GRPO)#Multi-turn Reasoning

2025년 10월 8일

[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

LLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling #Policy Gradient #Reward Optimization #Signal Collapse #Variance Reduction

2025년 10월 7일

[논문리뷰] Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces

본 논문은 대규모 언어 모델(LLM)이 인간 전문가처럼 정책 준수 여부를 평가하는 데 필요한 체계적인 추론 과정을 모방하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Policy Compliance #Large Language Models (LLMs)#Reasoning Traces #In-Context Learning (ICL)#Supervised Finetuning (SFT)#HIPAA #GDPR #ModelSpec

2025년 10월 6일

[논문리뷰] Sparser Block-Sparse Attention via Token Permutation

본 논문은 LLM에서 긴 컨텍스트 길이 처리 시 O(N^2) 복잡도 를 가진 self-attention 메커니즘 으로 인한 막대한 계산 비용과 메모리 병목 현상을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Self-Attention #Block-Sparse Attention #Token Permutation #Computational Efficiency #Prefilling #Long Context #Causal Attention

2025년 10월 27일

[논문리뷰] ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

본 논문은 과학 문헌에서 화학 조성-물성 구조 데이터와 합성 정보를 추출하기 위한 자동화되고 사용자 친화적인 멀티 에이전트 기반 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Large Language Models (LLMs)#Information Extraction #Scientific Literature #Materials Science #Data Curation #Piezoelectric Materials #RAG (Retrieval-Augmented Generation)

2025년 10월 24일

[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.

#Review #Data Selection #Large Language Models (LLMs)#Data Diversity #Data Quality #Principal Component Analysis (PCA)#Orthogonal Dimensions #Pre-training

2025년 10월 23일

[논문리뷰] AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library

본 논문은 최적화 모델링 자동화의 어려움, 즉 비공식적 언어를 정밀한 수학적 공식 및 실행 가능한 솔버 코드로 변환하는 문제에 주목합니다.

#Review #Optimization Modeling #Large Language Models (LLMs)#Experience Library #Self-Improving Systems #Continual Learning #Out-of-Distribution Generalization #Operations Research #Knowledge Representation

2025년 10월 23일

[논문리뷰] Executable Knowledge Graphs for Replicating AI Research

AI 연구 재현은 LLM 에이전트 에게 중요한 도전 과제이며, 기존 방법론은 불충분한 배경 지식, RAG 방식의 한계, 구조화된 지식 표현 부족으로 실행 가능한 코드를 생성하는 데 어려움을 겪습니다.

#Review #AI Research Replication #Large Language Models (LLMs)#Knowledge Graphs (KGs)#Executable Code Generation #Retrieval-Augmented Generation (RAG)#PaperBench #Automated AI Research

2025년 10월 21일

[논문리뷰] Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

MoE(Mixture-of-Experts) 모델이 배포 시 발생하는 분포 변화(distribution shifts) 로 인해 차선적인 라우팅 결정(suboptimal routing decisions) 을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Online Adaptation #Test-Time Adaptation (TTA)#Expert Routing #Large Language Models (LLMs)#Self-Supervision #Computational Efficiency #Context Shift Robustness

2025년 10월 20일

[논문리뷰] ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

논문은 다중 턴 대화에서 Large Language Models (LLMs) 의 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 특히, 정보가 점진적으로 주어질 때 LLM이 대화 맥락을 '잃어버려' 발생하는 정확도 감소 및 신뢰성 하락을 개선하고자 합니다.

#Review #Multi-turn Conversation #Large Language Models (LLMs)#Context Management #Entropy-guided Resetting #Uncertainty Quantification #Performance Degradation #Prompt Engineering #Conversational AI

2025년 10월 20일

[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation #Knapsack Problem #Group Relative Policy Optimization (GRPO)#Mathematical Reasoning #Resource Optimization

2025년 10월 2일

[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning #Large Language Models (LLMs)#Systematic Exploration #Adaptive Training #Tree-GRPO

2025년 10월 2일

[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.

#Review #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives #Negative Log Likelihood (NLL)#Model Capability Continuum #Generalization #Probability-based Loss Functions

2025년 10월 2일

[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Large Language Models (LLMs)#Inference Acceleration #KV Cache #Bidirectional Attention #Adaptive Caching #Token Selection

2025년 10월 1일

[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.

#Review #Large Language Models (LLMs)#Operational Safety #Out-of-Domain (OOD)#Prompt Steering #Jailbreak Attacks #Evaluation Benchmark #Refusal Rate

2025년 10월 1일