[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models#Process Reward Model#Inference-time Guidance#Chunk-Level Generation#Likelihood Scoring#Training-Free2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.#Review#Context Compression#Long-Context Reasoning#Large Language Models#Fine-Tuning#Cross-Attention#Code Reasoning#Cross-Family Generalization#Two-Stage Training2026년 6월 1일댓글 수 로딩 중
[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?본 논문은 Autonomous AI Agents가 연구 파이프라인을 자동화함에 따라, 무분별한 실험 수행 전에 아이디어의 타당성을 걸러내는 First-gate 단계가 필수적임을 강조합니다.#Review#Autonomous AI Agents#Research Evaluation#Methodological Soundness#Large Language Models#Optimism Bias#Scientific Benchmarking#First-gate Evaluation2026년 5월 31일댓글 수 로딩 중
[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#Multi-Turn Optimization#Importance Sampling#Distribution Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] When Should Models Change Their Minds? Contextual Belief Management in Large Language Models본 논문은 LLM이 장기적인 상호작용 속에서 누적되는 정보들 중 무엇을 믿고, 무엇을 수정하며, 무엇을 무시해야 하는지에 대한 문제(CBM)를 해결하고자 합니다. 기존의 LLM은 문맥 내에서 제공되는 형식적 증거를 따르기보다 사전 학습된 파라메트릭 지식이나 문맥상의 노이즈에 과도하게 의존하는 경향이 있습니다 .#Review#Contextual Belief Management#Large Language Models#BeliefTrack#Reinforcement Learning#Contextual Interference#Symbolic Verification2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.#Review#Large Language Models#Constrained Decoding#Structured Generation#Chain-of-Thought#Parser2026년 5월 28일댓글 수 로딩 중
[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.#Review#VibeSearch#Proactive Search#Large Language Models#Agent Harness#Knowledge Graph#Benchmark2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .#Review#Large Language Models#Evolutionary Search#Bidirectional Search#Goal Decomposition#Post-Training#Inference Scaling2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.#Review#Large Language Models#Logical Reasoning#Chain-of-Thought#Causal Mediation Analysis#Circuit Interpretability#Attention Heads#Deductive Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)본 논문은 현대 LLM이 가진 방대한 어휘력에도 불구하고, 출력 텍스트가 구조적으로 동질화되고 표현의 다양성이 저하되는 'Lexical Homogenization' 문제를 해결하고자 합니다.#Review#Large Language Models#Decoding Mechanics#Word Coverage Score#Lexical Reachability#Homogenization#Sampling Filters2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations본 논문은 기존 ESC 시스템들이 주로 end-to-end 방식에 의존하여 해석 가능성이 낮고 체계적인 기술 개선이 어렵다는 문제를 해결하고자 합니다.#Review#Emotional Support Conversations#Skill-centric Framework#Intervention Units#Self-Evolutionary#Large Language Models#Simulation-based Verification2026년 5월 27일댓글 수 로딩 중
[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.#Review#Reinforcement Learning#Reasoning Models#Denoising Reasoning#Weak-to-Strong Generalization#Self-correction#Large Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems본 논문은 LLM 기반의 다중 에이전트 시스템에서 발생하는 조율 불투명성과 고정된 파이프라인의 경직성 문제를 해결하고자 합니다.#Review#Multi-Agent Systems#Online Policy Learning#Coordination Substrate#Large Language Models#Task Signatures#Relative Trajectory Evaluation2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.#Review#Test-Time Scaling#Collaborative Parallel Thinking#Large Language Models#Information Sharing#Redundant Exploration#Accuracy-Latency Pareto Frontier#Mathematical Reasoning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] Training Large Language Models to Predict Clinical Events본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .#Review#Large Language Models#Clinical Prediction#Foresight Learning#EHR#LoRA#Temporal Modeling#Probabilistic Forecasting2026년 5월 21일댓글 수 로딩 중
[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.#Review#Large Language Models#Reinforcement Learning#RLVR#Unlearnability#Gradient Outliers#Representation Learning2026년 5월 20일댓글 수 로딩 중
[논문리뷰] PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models본 논문은 기존의 계획 벤치마크가 고정된 인스턴스 집합에 의존하여 시나리오의 다양성과 구조적 복잡도를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 단순히 프롬프트 길이 등 표면적인 지표로 난이도를 측정하며, 자동화된 검증 및 확장 가능한 데이터 생성이 결여되어 있었습니다.#Review#Large Language Models#PlanningBench#Constraint-driven Synthesis#Reinforcement Learning#Verifiable Data#Taxonomy2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.#Review#Large Language Models#Training Control Governance#LBW-Guard#AdamW#Training Stability#Bounded Autonomous Control#Compute Efficiency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs본 논문은 LLM이 개인 비서(Personal Agent)로 활용되면서 발생하는 문맥적 프라이버시(Contextual Integrity) 문제를 해결하고자 합니다.#Review#Contextual Integrity#Large Language Models#Self-Distillation#Product-of-Experts#Privacy-Utility Trade-off#Alignment2026년 5월 20일댓글 수 로딩 중
[논문리뷰] CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning본 논문은 표준 CoT 패러다임이 가진 비효율적인 '생각 후 답변' 순서와, 이미 답변을 도출한 후에도 불필요하게 추론을 지속하는 Performative Reasoning 문제를 해결하고자 한다 .#Review#Large Language Models#Chain-of-Thought#Continuous Embeddings#Contrastive Verification#On-Policy Thinking#Agentic Reasoning2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.#Review#Mixture-of-Experts#Dynamic Inference#Self-Distillation#Zero-Expert Injection#Large Language Models#Model Adaptation2026년 5월 18일댓글 수 로딩 중
[논문리뷰] NGM: A Plug-and-Play Training-Free Memory Module for LLMs본 논문은 LLM이 추론 시 고유한 로컬 패턴(식별자, 전문 용어, 구문 등)을 재구성하기 위해 과도한 연산 자원을 소모하는 문제를 해결하고자 합니다. 기존의 Conditional Memory 접근법은 학습이 필요한 메모리 테이블이나 별도의 저장소 인프라를 요구하여 유연성과 효율성을 제한합니다.#Review#Large Language Models#Memory Module#N-gram#Training-Free#Plug-and-Play#Cosine Similarity2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Measuring Maximum Activations in Open Large Language Models본 논문은 최신 오픈 LLM 생태계에서 Activation의 동적 범위(Dynamic Range)가 단순히 파라미터 수에 비례한다는 기존의 통념을 재검토하고, 모델별 Maximum Activation Magnitude(MM)를 체계적으로 측정하여 배포 시의 위험을 파악하고자 합니다.#Review#Large Language Models#Activation Range#Quantization#Maximum Activation#LLM Inference#Residual Stream#Model Scaling2026년 5월 18일댓글 수 로딩 중
[논문리뷰] FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models본 논문은 기존의 금융 벤치마크가 지닌 한계를 극복하고 LLM의 실질적인 금융 전문 역량을 정밀하게 진단하기 위해 FINESSE-Bench를 제안한다.#Review#Large Language Models#Financial Benchmarking#Difficulty Hierarchy#Technical Analysis#LLM-as-Judge#Professional Competence#Financial Reasoning2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces본 논문은 LLM 기반의 자율 에이전트가 시장에서 상호작용할 때 발생하는 체계적인 경제적 리스크를 해결하고자 한다. 기존의 AI 정렬 방식은 개별 에이전트의 사실성이나 무해성에만 집중할 뿐, 다수의 에이전트가 상호작용하며 만드는 시장 수준의 불안정성을 제어하지 못한다.#Review#Multi-Agent Systems#Economic Alignment#Large Language Models#Simulation Framework#Market Stability#Reinforcement Learning2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .#Review#Large Language Models#Competitive Programming#Agentic Evolution#Reinforcement Learning#Knowledge Network#Code Generation#Multi-Agent System2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Parameter Dynamics#Training Efficiency#EffOPD#Subspace Evolution2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.#Review#Reinforcement Learning#Large Language Models#Verifiable Rewards#Policy Optimization#Error Correction#Reasoning Capability2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.#Review#POMDP#World Model#Large Language Models#Program Induction#Sample Efficiency#Partial Observability#Belief-based Filtering2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Hölder Policy Optimisation본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.#Review#Reinforcement Learning#Large Language Models#Hölder Mean#Gradient Concentration#Policy Optimisation#Group Relative Policy Optimisation (GRPO)2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.#Review#Time Series Forecasting#Large Language Models#Agentic Framework#Multimodal#Reasoning#Temporal Dynamics#Calibration2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning본 논문은 대규모 LLM의 추론 성능 향상을 위한 고비용의 post-training(instruction tuning, RL 등) 과정을 배제하고, 기존 Checkpoint 내에 잠재된 능력을 재조합하는 비용 효율적인 대안을 제시합니다.#Review#Model Merging#Evolutionary Optimization#Large Language Models#Reasoning#Diagnostic-Guided#Training-Free2026년 5월 14일댓글 수 로딩 중
[논문리뷰] δ-mem: Efficient Online Memory for Large Language Models본 연구는 LLM이 장기적인 대화와 에이전트 작업에서 과거 이력을 효과적으로 누적하고 재사용하지 못하는 문제를 해결하고자 합니다. 기존의 방식인 Context Window 확장은 연산 복잡도가 Quadratic하게 증가하고, 정보 누락이나 Context rot 현상이 발생하는 한계가 있습니다.#Review#Large Language Models#Online Memory#Associative Memory#Low-rank Correction#Delta-rule Learning#Attention Mechanism2026년 5월 12일댓글 수 로딩 중
[논문리뷰] Do not copy and paste! Rewriting strategies for code retrieval본 연구는 코드 검색을 위한 기존의 임베딩 기반 기법들이 코드의 표면적인 문법적 특징에 과도하게 의존(Overfit)하여, 실제 의미론적 행동(Program behavior)을 파악하는 데 한계가 있다는 문제에서 출발합니다.#Review#Code Information Retrieval#Large Language Models#Rewriting#Embedding#PseudoCode#Token Entropy#Representational Analysis2026년 5월 12일댓글 수 로딩 중
[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.#Review#Self-Distillation#Large Language Models#On-Policy Learning#Supervision Reliability#Representation Alignment#Training Stability2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.#Review#Large Language Models#Reinforcement Learning#Reasoning#Decision Points#Sparse Policy Selection#Contrastive Fine-Tuning#Entropy-Gated2026년 5월 10일댓글 수 로딩 중
[논문리뷰] MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference본 논문은 Long-context LLM Inference에서 indexer 연산이 전체 비용의 지배적인 비중을 차지하는 문제를 해결하기 위해 MISA를 제안한다.#Review#Large Language Models#Long-Context#Sparse Attention#Mixture of Experts#Indexer#Inference Efficiency#Retrieval2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.#Review#RLVR#Policy Optimization#Listwise#Target-Projection#Large Language Models#Reasoning#Gibbs Target2026년 5월 10일댓글 수 로딩 중
[논문리뷰] CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment현재의 LLM 라이프사이클은 대규모 pretraining과 finetuning이라는 두 단계에 고정되어 있어, 일단 배포되면 학습이 완전히 중단되는 한계가 있습니다.#Review#Large Language Models#Deployment-Time Learning#Case-Based Reasoning#Contextual Bandit#No-Regret Learning#Experiential Learning2026년 5월 10일댓글 수 로딩 중
[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.#Review#Agentic Reinforcement Learning#Credit Assignment#Adaptive Entropy Modulation#Large Language Models#Exploration-Exploitation Trade-off#Surprisal#Policy Optimization2026년 5월 10일댓글 수 로딩 중
[논문리뷰] PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination본 논문은 기존 특허 관련 연구가 특허 심사를 단순한 이진 분류(Acceptance Prediction)나 정적인 정보 추출 문제로만 취급하여 실제 현장의 반복적이고 상호작용적인 심사 과정을 반영하지 못한다는 한계를 해결하고자 한다.#Review#Patent Examination#Office Action Generation#Rebuttal Generation#Large Language Models#Legal Reasoning#Benchmark2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling본 논문은 데이터가 제한된 고자원 비영어권 언어(독일어 등)의 LLM 학습에서 발생하는 '데이터 다양성 확보'와 '데이터 품질 강화' 사이의 전략적 딜레마를 해결하고자 한다.#Review#Large Language Models#Data Filtering#Sample Efficiency#German Language Modeling#Multi-Epoch Training#Semantic Density#High-Signal Data2026년 5월 4일댓글 수 로딩 중
[논문리뷰] Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization본 논문은 분산 환경에서 에이전트들이 handcrafted update rules에 의존하지 않고, historical trajectory를 기반으로 스스로 알고리즘을 설계하는 방식을 연구한다.#Review#Distributed Black-Box Optimization#Multi-Agent Systems#Large Language Models#Consensus Optimization#Trajectory-Driven Self-Design2026년 5월 3일댓글 수 로딩 중
[논문리뷰] A Survey on LLM-based Conversational User Simulation본 논문은 LLM의 발달로 가능해진 사용자 시뮬레이션 기술의 체계적인 분류와 분석이 부재한 문제를 해결하고자 한다. 기존의 사용자 시뮬레이션은 특정 도메인(예: 추천 시스템)에 한정되거나 대규모 데이터 수집의 어려움으로 인해 확장성에 한계가 있었다.#Review#Conversational User Simulation#Large Language Models#Persona Modeling#Synthetic Data Generation#Multi-agent Systems#Dialogue Evaluation2026년 4월 29일댓글 수 로딩 중
[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Website Generation#GRPO#Multimodal Reward#React2026년 4월 23일댓글 수 로딩 중
[논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale본 논문은 대규모 클라우드 네이티브 서비스 환경에서 고객 피드백으로부터 실시간으로 위험 이벤트를 탐지하는 시스템의 미흡함을 해결하기 위해 제안되었다.#Review#Risk Event Discovery#Large Language Models#Incident Management#Signal-to-Noise Ratio#Event Linking#Enterprise Scale2026년 4월 23일댓글 수 로딩 중
[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .#Review#Time Series Reasoning#Large Language Models#Vision-Language Models#Chain-of-Thought#Curriculum Learning#Data Taxonomy2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Hybrid Policy Distillation for LLMs본 연구는 LLM 압축 과정에서 발생하는 divergence direction, optimization strategy, data regime 간의 복잡한 상호작용 문제를 해결하고자 합니다.#Review#Knowledge Distillation#Large Language Models#Forward-Reverse KL#Policy Distillation#Logit-level Reweighting#On-policy Sampling2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .#Review#Human Motion Understanding#Large Language Models#Structured Motion Description#Biomechanics#LoRA#Motion Question Answering#Motion Captioning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Target-Oriented Pretraining Data Selection via Neuron-Activated Graph본 논문은 LLM pretraining 과정에서 타겟 도메인 및 태스크의 특성을 효율적으로 학습하기 위한 정교한 데이터 선별 기법의 부재 문제를 해결합니다.#Review#Large Language Models#Pretraining Data Selection#Neuron-Activated Graph#Target-Oriented Pretraining#Interpretability2026년 4월 21일댓글 수 로딩 중
[논문리뷰] ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning본 논문은 기존 LoRA 스타일의 PEFT 방식이 가진 파편화된 적응(fragmented adaptation) 구조를 극복하기 위해 ShadowPEFT를 제안한다.#Review#Parameter-Efficient Fine-Tuning#Shadow Network#Large Language Models#Modular Deployment#Edge Computing2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.#Review#Agentic Workflow#Benchmark#Large Language Models#Visual Programming#Executable Workflow#Task Automation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .#Review#QuantCode-Bench#Large Language Models#Algorithmic Trading#Backtrader#Code Generation#Agentic Workflow#Domain-Specific Benchmarking2026년 4월 19일댓글 수 로딩 중
[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Large Language Models#Reinforcement Learning#Exploration-Exploitation Trade-Off#Perplexity#Reward Shaping2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.#Review#Large Language Models#LLM Unlearning#Algorithmic Invention#GRPO#Test-time Reinforcement Learning2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Towards Autonomous Mechanistic Reasoning in Virtual Cells본 논문은 생물학적 추론을 Directed Acyclic Graph(DAG) 형태로 공식화하여 추론 과정을 명확히 정의하고 검증 가능하게 만듭니다 . 제안하는 VCR-Agent는 보고서 생성기(Report Generator)와 설명 생성기(Explanation Constructor)라는 두 단계 파이프라인으로 구성되어 있습니다.#Review#Virtual Cells#Large Language Models#Mechanistic Reasoning#Structured Explanation#Knowledge Retrieval#Verifier-based Filtering2026년 4월 16일댓글 수 로딩 중
[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Long-context#Sparsity#Activation Patterns#Saliency-guided2026년 4월 16일댓글 수 로딩 중
[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.#Review#Large Language Models#Reinforcement Learning#Pre-train Space#Policy Reincarnation#Negative Sample Reinforcement#Reasoning Enhancement2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.#Review#Large Language Models#User Simulation#Human Behavior Modeling#Long-horizon#Cross-scenario#Benchmark2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference본 논문은 기존 long-context LLM 추론에서 발생하는 quadratic computational complexity와 기존 하이브리드 어텐션 기법들의 한계를 해결하고자 합니다.#Review#Large Language Models#Long-context Inference#Hybrid Attention#Dynamic Routing#Layer-level Sparsity#Context-aware2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Automating Database-Native Function Code Synthesis with LLMsDBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.#Review#Database-Native Function#Code Synthesis#Large Language Models#Function Characterization#Adaptive Orchestration#Pseudo-plan Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.#Review#Large Language Models#Latent Planning#Strategy Discovery#Chain-of-Thought#Depth Ceiling#Path-finding#Implicit Reasoning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Learning to Hint for Reinforcement Learning본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Hint Generation#Advantage Collapse#Transferability2026년 4월 8일댓글 수 로딩 중
[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.#Review#Agentic Graph Learning#Reinforcement Learning#Large Language Models#Graph-Native Search#Curriculum Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .#Review#Large Language Models#Reinforcement Learning#Reasoning#Self-Refinement#RLVR#Policy Optimization#Implicit Curriculum2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework본 논문은 문헌 탐색부터 분석, 비평까지 연구 전 과정을 지원하는 다중 에이전트 플랫폼인 Paper Circle을 제안한다. 시스템은 Discovery Pipeline과 Analysis Pipeline으로 구성되며, 연구자는 CodeAgent(CoA) 기반의 오케스트레이션 프레임워크를 통해 결정론적이고 추적 가능한 결과를 얻을 수 있다 , .#Review#Multi-agent Systems#Research Discovery#Knowledge Graph#Large Language Models#Academic Literature Review2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPUMegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .#Review#Large Language Models#Memory-Centric#CPU-GPU Offloading#Parameter Streaming#Stateless Execution#Pipelined Execution#Single-GPU Training2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.#Review#Multimodal Embedding#Large Language Models#Chain-of-Thought#Reinforcement Learning#Latent Variable#Causal Inference2026년 4월 7일댓글 수 로딩 중
[논문리뷰] In-Place Test-Time Training본 논문은 정적인 'train then deploy' 패러다임이 LLM의 동적 적응 능력을 제한하는 문제를 해결하기 위해 In-Place TTT 를 제안합니다.#Review#In-Place Test-Time Training#Large Language Models#Fast Weights#Next-Token Prediction#Chunk-Wise Update#Continual Learning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.#Review#Autonomous Bug Discovery#Large Language Models#Game Benchmark#Quality Assurance#Multi-agent System#Software Engineering2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다.#Review#Network Pruning#Large Language Models#Representation Hierarchy#Autoregressive Decoding#Softmax Nonlinearity2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Paper Espresso: From Paper Overload to Research Insight본 논문은 과학적 출판물의 급격한 증가로 인해 발생하는 연구자들의 정보 비대칭성과 과부하 문제를 해결하고자 합니다. arXiv에만 매월 약 30,000건의 논문이 제출되면서 개별 연구자가 모든 최신 동향을 파악하는 것은 불가능해졌습니다.#Review#Paper Summarization#Trend Analysis#Knowledge Discovery#Large Language Models#Research Tools2026년 4월 6일댓글 수 로딩 중
[논문리뷰] POEMetric: The Last Stanza of Humanity본 연구는 현존하는 LLM이 시 창작에서 문법적 완성도는 높으나, 인간 시인만이 가진 예술적 깊이와 창의성을 모방하는 데에는 한계가 있다는 문제의식에서 출발한다.#Review#Large Language Models#Poetry Evaluation#POEMetric#Creative AI#Literary Criticism#Instruction-following2026년 4월 6일댓글 수 로딩 중
[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .#Review#Large Language Models#Reasoning Compression#Memory Management#Agentic Reasoning#Context Optimization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.#Review#RLVR#Noisy Label Learning#Online Label Refinement#Early Correctness Coherence#Large Language Models#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.#Review#Large Language Models#Textual Frequency Law#Paraphrasing#Curriculum Learning#Frequency Distillation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time본 논문은 급증하는 Autonomous Coding Agents 가 오픈소스 소프트웨어 생태계에 미치는 실질적인 영향과 그 결과물인 코드의 품질을 실증적으로 분석하는 것을 목표로 합니다.#Review#Autonomous Coding Agents#Large Language Models#Mining Software Repositories#Pull Requests#Code Churn#Empirical Software Engineering#Human-AI Collaboration2026년 4월 2일댓글 수 로딩 중
[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .#Review#Data-Centric AI#Large Language Models#Dynamic Training#Data Selection#Data Mixture#Data Reweighting#LLaMA-Factory2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth Scaling본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] A Survey of On-Policy Distillation for Large Language Models본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code Generation기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language ModelsLLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.#Review#Large Language Models#Chain-of-Thought#Monitorability#Benchmark#AI Safety#Stress-Test#Faithfulness2026년 3월 31일댓글 수 로딩 중
[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.#Review#Auditory Knowledge#Large Language Models#Large Audio Language Models#AKB-2000#Cascade Evaluation#Audio-grounded Evaluation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.#Review#Reinforcement Learning#Large Language Models#Future-KL#Policy Optimization#GRPO#Chain-of-Thought#Credit Assignment2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다.#Review#Multimodal ASR#Large Language Models#Conversational Context#Abstract Compression#Contextual Biasing#Latent Bottleneck2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.#Review#GPU Kernel Optimization#Large Language Models#Evolutionary Algorithms#Reinforcement Learning#Triton#MetaX MACA#System Optimization2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.#Review#Soft Context Compression#Large Language Models#Density-aware#Discrete Ratio Selector#Supervised Fine-Tuning#Mean-Pooling2026년 3월 30일댓글 수 로딩 중
[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.#Review#Unsupervised Self-Evolution#Multimodal Reasoning#Consistency-Based Reward#Judge Modulation#Group Relative Policy Optimization (GRPO)#Policy Updates#Mathematical Reasoning#Large Language Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science본 논문은 도메인 특화 Data Science 태스크에서 AI 에이전트가 인간 전문가의 성능을 어느 수준까지 대체할 수 있는지, 그리고 어떤 영역에서 인간의 전문성이 여전히 우위를 지니는지 평가하기 위한 벤치마크 AgentDS를 제안합니다.#Review#AI Agents#Human-AI Collaboration#Data Science Benchmark#Large Language Models#Domain-Specific Reasoning#Multi-Industry Evaluation2026년 3월 22일댓글 수 로딩 중
[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.#Review#Mixed-Precision Quantization#Reinforcement Learning#Post-Training Quantization#Large Language Models#Policy Transfer#Scale Folding#GGUF#On-Device Inference2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Efficient Exploration at Scale오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.#Review#RLHF#Data Efficiency#Active Exploration#Epistemic Neural Network#Information-Directed Sampling#Scaling Laws#Large Language Models#Online Learning2026년 3월 18일댓글 수 로딩 중
[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMsLarge Language Models (LLMs)는 User Preferences를 Persistent Memory에 저장하여 여러 Interaction에서 Personalization을 지원하고 있습니다.#Review#Large Language Models#Personalization#Persistent Memory#Context-Awareness#Preference Selectivity#Benchmark#Misapplication Rate#Appropriate Application Rate2026년 3월 18일댓글 수 로딩 중
[논문리뷰] daVinci-Env: Open SWE Environment Synthesis at ScaleLarge Language Models (LLMs)의 발전은 자율적인 Software Engineering (SWE) agent 개발을 가속화하고 있지만, 이러한 agent를 효과적으로 훈련하기 위해서는 대규모의 실행 가능하며 검증 가능한 환경이 필수적입니다.#Review#SWE Agents#Environment Synthesis#Large Language Models#Dockerfile#SWE-Bench Verified#Data Scaling#Quality Curation2026년 3월 15일댓글 수 로딩 중
[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Reflection#Intrinsic Feedback#Continuous Adaptation#Memory Retrieval#Agentic AI#GRPO2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models논문은 LLM(Large Language Models)의 프롬프트 하이라이팅(prompt highlighting)에서 사용자 지정 텍스트 스팬 을 우선적으로 고려하도록 모델을 조종하는 문제를 다룹니다.#Review#Prompt Highlighting#Large Language Models#Activation Steering#Differential SVD#Key-Value Channels#Cross-Covariance#Softplus Weighting#Inference-Time Intervention2026년 3월 11일댓글 수 로딩 중
[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.#Review#Large Language Models#Text Embeddings#Generative AI#Self-Supervised Learning#Knowledge Distillation#Semantic Search#Retrieval-Augmented Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Tool Use#In-Context Learning#Few-Shot Learning#SFT-free#Data Efficiency#Curriculum Learning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.#Review#Online Adaptation#Continual Learning#Knowledge Streams#Large Language Models#Benchmarking#State Tracking#Retrieval Augmented Generation#Agentic Memory2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Reward Prediction with Factorized World States본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.#Review#Reward Prediction#World Models#State Representation#Large Language Models#Zero-shot Learning#Reinforcement Learning#Planning#Factorization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language Models본 연구는 대규모 언어 모델(LLM)이 멀티모달 그래프(MMG)에서 추론할 때 발생하는 두 가지 주요 과제, 즉 교차 모달 불일치(cross-modal inconsistency) 및 이종 모달 선호도(heterogeneous modality preference) 를 해결하는 것을 목표로 합니다.#Review#Multimodal Graph#Large Language Models#Graph Reasoning#Cross-Modal Alignment#Modality Adaptation#Instruction Tuning#Vision-Language Model#Node Classification2026년 3월 8일댓글 수 로딩 중
[논문리뷰] On-Policy Self-Distillation for Reasoning Compression본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.#Review#Reasoning Compression#Self-Distillation#On-Policy Learning#Large Language Models#Mathematical Reasoning#Knowledge Distillation#Efficient Inference2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Multi-Agent Systems#Policy Optimization#Heterogeneous Agents#Sample Efficiency#Knowledge Transfer#RLVR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Information Gain#Credit Assignment#Multi-turn Interaction#User-centric Agents#Counterfactual Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] APRES: An Agentic Paper Revision and Evaluation System본 논문은 과학 논문 심사 과정의 비일관적인 피드백 문제를 해결하고, 논문의 품질과 영향력을 향상시키기 위한 새로운 에이전트 기반 시스템인 APRES 를 제안합니다.#Review#Large Language Models#Peer Review#Automated Revision#Citation Prediction#Agentic AI#Rubric Discovery#Scholarly Communication2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Reward Sparsity#Fine-tuning#Large Language Models#Reference-Guided Learning#DAPO2026년 3월 2일댓글 수 로딩 중
[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.#Review#Tool-Use Agents#Multi-turn Interaction#Data Synthesis#Constraint-Guided Verification#Large Language Models#Supervised Fine-tuning#Reinforcement Learning2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets현재 다국어 LLM 평가 의 신뢰도를 저해하는 번역 벤치마크의 일관성 없는 품질(의미론적 드리프트 및 문맥 손실) 문제를 해결하는 것입니다. 본 연구는 데이터셋과 벤치마크를 확장 가능하고 고품질 로 번역하며, 원본 작업 구조와 언어적 뉘앙스를 보존하는 완전 자동화된 프레임워크를 제시하는 것을 목표로 합니다.#Review#Automated Translation#Large Language Models#Multilingual Benchmarks#Benchmark Quality#Test-time Scaling#Universal Self-Improvement#Translation Ranking#Eastern European Languages2026년 3월 1일댓글 수 로딩 중
[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Large Language Models#Route Planning Agents#Benchmarking#Real-World Mobility#API Replay Sandbox#Multi-dimensional Evaluation#Tool-augmented Agents2026년 2월 26일댓글 수 로딩 중
[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.#Review#Efficient Reasoning#Large Language Models#Reinforcement Learning#Reward Shaping#Chain-of-Thought#RL Optimization#Length Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.#Review#Reranking#Large Language Models#Long Context#Attention Heads#Retrieval Augmented Generation (RAG)#Listwise Reranking#Query-focused Retrieval#Memory-aware2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation본 논문은 금융 자문 분야에서 LLM 기반 추천 시스템 의 성능 평가가 단순히 사용자의 행동 모방에 그치지 않고, 실질적인 효용성(utility)에 기반한 의사결정 품질 을 측정하는 것을 목표로 합니다.#Review#Financial Recommendation#Conversational AI#Large Language Models#Utility-Grounded Evaluation#Behavioral Finance#Stock Recommendation#Longitudinal Benchmark#Inverse Optimization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization본 논문은 기존 텍스트 익명화 방법론들이 수동적이고 정적이며 다양한 도메인과 프라이버시-유틸리티 요구사항에 유연하게 대응하지 못하는 한계를 해결하고자 합니다. 이를 위해 익명화 전략을 특정 프라이버시-유틸리티 요구사항에 맞춰 자동으로 조정하는 적응형 텍스트 익명화 라는 새로운 태스크를 제안합니다.#Review#Text Anonymization#Large Language Models#Prompt Optimization#Privacy-Utility Trade-offs#Evolutionary Algorithms#Multi-objective Optimization#Data Privacy2026년 2월 24일댓글 수 로딩 중
[논문리뷰] World Models for Policy Refinement in StarCraft II본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.#Review#StarCraft II#World Model#Policy Refinement#Large Language Models#Reinforcement Learning#Partial Observability#Structured Text Representation#Game AI2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Game Theory#Large Language Models#Evolutionary Algorithms#Counterfactual Regret Minimization#Policy Space Response Oracles#Algorithm Discovery2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Computer-Using World Model본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#World Model#GUI Agents#Desktop Automation#Reinforcement Learning#Large Language Models#Visual State Realization#Textual State Transition2026년 2월 19일댓글 수 로딩 중
[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Training Stability#Policy Optimization#Spurious Tokens#Entropy Regularization#Gradient Modulation2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Query as Anchor: Scenario-Adaptive User Representation via Large Language Model본 논문은 정적이고 태스크에 독립적인 사용자 임베딩의 한계를 극복하고, 다양한 하위 시나리오의 요구사항을 통합된 벡터 공간 내에서 충족하는 적응형 사용자 표현 학습 프레임워크를 제안합니다. 특히, 이질적인 멀티모달 데이터를 통합하고 산업 규모에서 시나리오에 특화된 사용자 이해를 가능하게 하는 것을 목표로 합니다.#Review#User Representation Learning#Large Language Models#Scenario-Adaptive#Query-Conditioned#Multi-modal#Prompt Tuning#KV-Cache#Industrial AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.#Review#Large Language Models#Prefill Attacks#AI Safety#Red Teaming#Vulnerability#Open-Weight Models#Jailbreaking#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation이 연구는 Retrieval-Augmented Generation (RAG) 시스템에서 발생하는 지식 추출 공격(Knowledge Extraction Attack) 으로 인한 민감 정보 유출 및 지적 재산권 침해 문제를 해결하고자 합니다.#Review#RAG Security#Knowledge Extraction Attack#Benchmarking#Privacy Leakage#Defense Mechanisms#Large Language Models#Retrieval Augmented Generation2026년 2월 16일댓글 수 로딩 중
[논문리뷰] AIDev: Studying AI Coding Agents on GitHubAI 코딩 에이전트가 실제 소프트웨어 프로젝트에서 어떻게 활용되는지에 대한 포괄적인 데이터셋의 부재를 해결하는 것이 이 연구의 핵심 목표입니다. AIDev 라는 대규모 데이터셋을 구축하여 AI 도입, 개발자 생산성, 그리고 인간-AI 협업이라는 새로운 소프트웨어 엔지니어링 시대의 연구를 위한 기반을 마련하고자 합니다.#Review#AI Coding Agents#GitHub Data#Software Engineering#Pull Request Analysis#Human-AI Collaboration#Developer Productivity#Large Language Models2026년 2월 16일댓글 수 로딩 중
[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.#Review#Quantization#Large Language Models#Post-Training Quantization#Bit-Plane Decomposition#Variable Quantization Grid#Low-Bit Quantization#Model Compression#Hessian-Induced Geometry2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.#Review#Legal Reasoning#AI Agent#Large Language Models#Verification#Knowledge Management#Dynamic Environments#Procedural Compliance#Tool Use2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Towards Autonomous Mathematics Research본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.#Review#Mathematics Research#Large Language Models#AI Agents#Theorem Proving#Tool Use#Gemini Deep Think#Autonomous Research#Human-AI Collaboration2026년 2월 11일댓글 수 로딩 중
[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.#Review#Video Captioning#Multi-Scene Videos#Time-Aware#Structural Captions#Audio-Visual Understanding#Large Language Models#Reinforcement Learning#OmniDCBench2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Meta-Learning#Error Attribution#Knowledge Internalization#Self-Distillation#Verifiable Rewards2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.#Review#Large Language Models#Reasoning Models#Context Management#Memory Pruning#LoRA Adapter#Long-Horizon Reasoning#Self-Forgetting2026년 2월 11일댓글 수 로딩 중
[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.#Review#Large Language Models#Language Agents#Long Context#Context Rot#Benchmarking#Context Management#Tool Use#Agent Evaluation#Dynamic Environments2026년 2월 9일댓글 수 로딩 중
[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Iterative Reasoning#Reinforcement Learning#Large Language Models#Context Management#Summarization#Chain-of-Thought#Efficiency#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Steering LLMs via Scalable Interactive Oversight본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.#Review#Scalable Oversight#Interactive AI#Large Language Models#Human-AI Collaboration#Product Requirement Documents#Reinforcement Learning#Structured Interaction#Vibe Coding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmark이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중
[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Width Scaling#Large Language Models#Information Seeking#Task Decomposition#Parallel Execution#Lead-Agent-Subagent Framework#Orchestration2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#GRPO#Sparse Rewards#Self-Hinting#Policy Optimization#Adaptive Curriculum#On-Policy Training2026년 2월 4일댓글 수 로딩 중
[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.#Review#Reinforcement Learning#Large Language Models#Scientific QA#Information Retrieval#Verifiable Rewards#Biomedical Domain#Search Agents#Dataset Generation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Omni-modal LLMs#Token Compression#Modality-Asymmetric#Video Pruning#Audio Selection#Efficiency#Large Language Models#Spatio-Temporal2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.#Review#Transformer Optimization#Normalization Strategy#Hessian Spectral Norm#Learning Rate Stability#Large Language Models#SimpleNorm#Second-Order Optimization2026년 2월 3일댓글 수 로딩 중
[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.#Review#Agentic Orchestration#Sub-Agent Creation#Language Agents#Dynamic Specialization#Context Management#Tool Use#Large Language Models#Cost-Performance Optimization2026년 2월 3일댓글 수 로딩 중
[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.#Review#Reinforcement Learning#Large Language Models#Agentic AI#Reward Modeling#Environment Adaptation#Closed-loop Optimization#Multimodal Agents2026년 2월 2일댓글 수 로딩 중
[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.#Review#Unit Test Generation#Reward Model#Reinforcement Learning#Code Coverage#Mutation Testing#Large Language Models#Run-Free Evaluation#Software Engineering Automation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.#Review#Long-Horizon Reasoning#Multimodal Memory#Visual Layout#Adaptive Information Density#Reinforcement Learning#Context Window#Large Language Models2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience대규모 언어 모델(LLM) 기반 딥 서치 에이전트가 다단계 태스크 수행 중 추론 및 검색 상태를 모니터링하고 조절하는 메커니즘이 부족하여 발생하는 체계적인 실패 문제를 해결하는 것이 목표입니다.#Review#Deep Search Agent#Meta-Cognitive Monitoring#Hierarchical Monitoring#Large Language Models#Cognitive Neuroscience#Uncertainty Calibration2026년 2월 1일댓글 수 로딩 중
[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods본 논문은 고품질 추론 데이터의 부족으로 인해 독점 시스템에 비해 뒤처지는 오픈소스 멀티모달 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Data-centric AI#Chain-of-Thought#Large Language Models#Visual Question Answering#STEM Reasoning#Dataset#Fine-tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Language-based Trial and Error Falls Behind in the Era of ExperienceLarge Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Reinforcement Learning#Exploration Efficiency#Sub-Scale Collaboration#Out-of-Distribution Tasks#Agentic AI#Supervised Fine-Tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Discovering Hidden Gems in Model Repositories본 논문은 대규모 모델 저장소에서 사용자에게 잘 알려지지 않았지만 성능이 뛰어난 '숨겨진 보석' 모델들을 효율적으로 발견하는 것을 목표로 합니다. 특히, 현재 모델 사용의 집중이 효율적인 시장 선택의 결과인지, 아니면 우수한 모델들이 단순히 간과되고 있는지 규명하고자 합니다.#Review#Model Discovery#Hidden Gems#Sequential Halving#Multi-Armed Bandit#Model Repositories#Large Language Models#Performance Evaluation2026년 1월 29일댓글 수 로딩 중
[논문리뷰] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection본 논문은 이미지-텍스트 쌍에서 풍자(sarcasm)를 효과적으로 탐지하기 위해 기존 방법론의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal Sarcasm Detection#Large Language Models#Multimodal LLMs#Discrepancy Modeling#Image Captioning#Gated Fusion#Semantic Incongruity2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.#Review#Transformer Architecture#Layer Normalization#Depth Scaling#Training Stability#Large Language Models#Gradient Flow#Highway Networks#Post-LayerNorm2026년 1월 27일댓글 수 로딩 중
[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.#Review#Agentic Software Engineering#Mid-training#Large Language Models#Agent-native Data#Contextual Trajectories#Environmental Trajectories#SWE-Bench Verified#Code Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] VIBEVOICE-ASR Technical Report본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.#Review#Automatic Speech Recognition#Speaker Diarization#Long-form Audio#Large Language Models#End-to-end Speech Processing#Multilingual#Context-aware ASR2026년 1월 26일댓글 수 로딩 중
[논문리뷰] STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion이 논문은 자연어 질의에 대한 테이블 검색(Table Retrieval) 과정에서 발생하는 비정형 질의와 정형 테이블 간의 심층적인 의미적 불일치 및 긴 테이블 처리 시 토큰 길이 제한 문제를 해결하는 것을 목표로 합니다.#Review#Table Retrieval#Semantic Representation#K-means Clustering#Weighted Fusion#Large Language Models#Query Generation#Information Retrieval2026년 1월 26일댓글 수 로딩 중
[논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences본 논문은 LLM이 보드게임 디자인에 대한 건설적인 비판을 제공하는 데 있어 나타나는 핵심적인 한계를 해결하고자 합니다. 특히, 정적 규칙에서 잠재된 게임플레이 역학을 추론하고 다양한 플레이어 그룹의 주관적인 경험 이질성을 모델링하여, 기존 시스템이 부족했던 사용자 경험 기반의 피드백을 자동화하는 것을 목표로 합니다.#Review#Large Language Models#Board Games#Virtual Playtester#User Simulation#Persona Modeling#MDA Framework#Human-AI Collaboration#Critique Generation2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.#Review#Large Language Models#Code Generation#Prompt Engineering#Prompt Optimization#Empirical Study#Software Engineering#Guidelines2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.#Review#Academic Rebuttal#Theory of Mind#Large Language Models#Strategic Persuasion#Reinforcement Learning#Self-Reward#Dataset Synthesis#Automated Evaluation2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.#Review#Large Language Models#Kernel Generation#GPU Optimization#AI Agents#Code Synthesis#Performance Engineering#Hardware Acceleration2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.#Review#Code Diffusion Models#Large Language Models#Continual Pretraining#Code Generation#Code Editing#Masked Language Models#Code Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models본 논문은 대규모 언어 모델(LLM)이 프롬프트 구조에 민감하게 반응하는 이유를 밝히고, 특히 다중 선택 질의응답(MCQA) 태스크에서 컨텍스트의 순서가 성능에 미치는 영향을 분석하는 것을 목표로 합니다.#Review#Prompt Engineering#Large Language Models#Causal Attention#Multiple-Choice QA#Prompt Order Sensitivity#Information Bottleneck#Decoder-only Transformers2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중
[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.#Review#Membership Inference Attacks#Copyright Auditing#Large Language Models#Adversarial Robustness#Paraphrasing#Sparse Autoencoders#Semantic Preservation#LLM Security2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.#Review#Agentic Search#Retrieval-Augmented Generation#Retriever Training#Passage Utility Modeling#Iterative Optimization#Reinforcement Learning#Large Language Models2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning#Chain-of-Thought#Reinforcement Learning#Stochastic Reasoning#Continuous Representation#Token Efficiency2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Language of Thought Shapes Output Diversity in Large Language Models본 논문은 대규모 언어 모델(LLM)이 겪는 출력 다양성 부족(예: 모드 붕괴, 특정 문화 가치 과대 대표) 문제를 해결하고자 합니다.#Review#Large Language Models#Output Diversity#Multilingual Reasoning#Language of Thought#Sampling Strategies#Pluralistic Alignment#Hidden State Analysis#Cognitive Science2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#Test-Time Adaptation#Large Language Models#Collaborative Reasoning#Credit Assignment#Textual Experience#Distribution Shift Robustness2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.#Review#Test-Time Tool Evolution#Scientific Reasoning#Large Language Models#Dynamic Tool Synthesis#Tool Adaptation#AI for Science#Autonomous Agents2026년 1월 15일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.#Review#AI Safety#Large Language Models#Multimodal LLMs#Benchmark Evaluation#Adversarial Robustness#Multilingual Evaluation#Regulatory Compliance#Image Generation Safety2026년 1월 15일댓글 수 로딩 중
[논문리뷰] TranslateGemma Technical Report본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.#Review#Machine Translation#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Gemma 3#Multimodal AI#Synthetic Data2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Controlled Self-Evolution for Algorithmic Code Optimization논문은 기존 LLM 기반 코드 생성 모델 이 기능적으로는 정확하지만 비효율적인 코드를 생성하며, 현재의 자가 진화(self-evolution) 방식이 낮은 탐색 효율성으로 인해 제한된 예산 내에서 최적의 알고리즘적 코드를 찾지 못하는 문제를 해결하고자 합니다.#Review#Self-Evolution#Code Optimization#Large Language Models#Genetic Algorithms#Hierarchical Memory#Algorithmic Code Generation#Exploration Efficiency2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity본 연구는 사용자 선호도에 맞춰 정렬된 대규모 언어 모델(LLM) 이 Preference-Undermining Attacks (PUA) 에 취약한지 규명하는 것을 목표로 합니다.#Review#Large Language Models#Preference Alignment#Preference-Undermining Attacks#Factorial Analysis#Sycophancy#Prompt Engineering#Truth-Deference Trade-off2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Solar Open Technical ReportSolar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Korean LLM#Synthetic Data Generation#Curriculum Learning#Reinforcement Learning#Tokenizer Optimization#Multilingual AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Ministral 3본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.#Review#Large Language Models#Model Distillation#Pruning#Parameter-Efficient AI#Multimodal LLMs#Instruction Tuning#Reinforcement Learning from Human Feedback#Open-Source AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.#Review#Search Agent#Information Retrieval#Large Language Models#Process Reward#Query Refinement#Reinforcement Learning#Curriculum Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Weight Decay#Learnable Multipliers#Scale Adaptation#Optimization#µP Parametrization#Adam#Muon2026년 1월 8일댓글 수 로딩 중
[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.#Review#Chain-of-Thought#Diffusion Models#Large Language Models#Reasoning#Error Correction#Preference Optimization#Denoising2026년 1월 8일댓글 수 로딩 중
[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.#Review#Molecular Dynamics#LAMMPS#Code Generation#Knowledge Q&A#Large Language Models#Reinforcement Learning#Multi-agent System#Domain Adaptation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents기존 Memory-Augmented Generation (MAG) 시스템들이 단일 메모리 저장소에서 의미론적 유사성에 의존하여 시간, 인과, 엔티티 정보를 얽히게 하여 발생하는 해석 가능성 및 추론 정확도 한계를 해결하고자 합니다.#Review#Agentic Memory#Large Language Models#Retrieval-Augmented Generation#Knowledge Graphs#Multi-Graph Architecture#Long-Context Reasoning#Memory Evolution2026년 1월 7일댓글 수 로딩 중
[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.#Review#Epidemiological Question Answering#Large Language Models#Benchmark#Multi-step Inference#Evidence Grounding#LLM Evaluation#Public Health AI#Chain-of-Thought2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Recursive Language Models본 논문은 대규모 언어 모델(LLMs)이 컨텍스트 길이 제한으로 인해 긴 프롬프트를 효과적으로 처리하지 못하고 '컨텍스트 로트(context rot)' 현상을 겪는 문제를 해결하고자 합니다. 특히, 수백만 토큰 규모의 장기 작업에서 일반 목적 LLM의 컨텍스트 크기를 추론 시점에 획기적으로 확장 하는 것을 목표로 합니다.#Review#Recursive Language Models#Large Language Models#Long Context Processing#Inference Scaling#REPL Environment#Task Decomposition#Sub-LM Calls#Context Management2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.#Review#Next Token Prediction#Reinforcement Learning#Large Language Models#Reward Shaping#Pre-training Objective#Policy Gradient#Exploration-Exploitation2026년 1월 4일댓글 수 로딩 중
[논문리뷰] mHC: Manifold-Constrained Hyper-Connections논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.#Review#Hyper-Connections#Residual Connections#Manifold Learning#Doubly Stochastic Matrices#Training Stability#Large Language Models#Infrastructure Optimization#Deep Learning Architecture2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.#Review#Agentic Learning Ecosystem#Large Language Models#Reinforcement Learning#Agentic Crafting#Tool Use#ROME Model#Policy Optimization#Sandbox Environment2025년 12월 31일댓글 수 로딩 중
[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.#Review#Issue Localization#Causal Reasoning#Graph-guided#Large Language Models#Software Engineering#Defect Analysis#Repository Mining2025년 12월 30일댓글 수 로딩 중
[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.#Review#Personalized Slide Generation#Preference Learning#Large Language Models#Multimodal AI#Chain-of-Speech#Agentic Framework#Document-to-Slides2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation본 연구는 질적 연구에서 LLM 기반 주제 분석의 신뢰성 문제를 해결하고, 기존의 시간 소모적이며 비용이 많이 드는 인간 코더 기반 방식의 한계를 극복하는 것을 목표로 합니다. 특히, LLM 출력의 신뢰도를 정량적으로 평가하고 투명하게 검증할 수 있는 다중 관점 검증 프레임워크를 제시하고자 합니다.#Review#Thematic Analysis#Large Language Models#Qualitative Research#Cohen's Kappa#Semantic Similarity#Reliability Metrics#Ensemble Validation#Prompt Engineering2025년 12월 23일댓글 수 로딩 중
[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent System#Long Video Understanding#Video Question Answering#Reinforcement Learning#Large Language Models#Temporal Grounding#Multimodal Reasoning#Tool-Augmented AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] INTELLECT-3: Technical Report본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Mixture-of-Experts#Asynchronous Training#Distributed Systems#Agentic AI#Code Execution#Model Evaluation2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Interpretability#Transformer#Internal Policy#Entropy Analysis2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction본 논문은 LLM이 인간이 인지하는 문항(질문 또는 과제) 난이도를 정확하게 예측할 수 있는지, 특히 초기 데이터 부족 문제(cold-start problem) 상황에서 인간-AI 난이도 정렬(Human-AI Difficulty Alignment) 을 달성할 수 있는지 실증적으로 분석하는 것을 목표로 합니다.#Review#Large Language Models#Item Difficulty Prediction#Human-AI Alignment#Proficiency Simulation#Metacognition#Curse of Knowledge#Educational Assessment#Zero-shot Learning2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO2025년 12월 17일댓글 수 로딩 중
[논문리뷰] RecGPT-V2 Technical ReportRecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.#Review#Recommender Systems#Large Language Models#Multi-Agent Systems#Reinforcement Learning#Dynamic Prompting#Hybrid Representation#Agentic Evaluation#Explanation Generation2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Olmo 3Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.#Review#Large Language Models#Open-Source AI#Model Flow#Long-Context Reasoning#Instruction Following#Function Calling#Thinking Models#Data Curation#Reinforcement Learning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.#Review#Knowledge Editing#Large Language Models#Lifelong Learning#Reinforcement Learning#Trust Region Policy Optimization#Chain-of-Thought#Catastrophic Forgetting2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.#Review#Decoding-based Regression#Reinforcement Learning#Numerical Prediction#Large Language Models#Policy Gradient#Tokenization#Sequence Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#One-step Generation#Self-Adversarial Learning#Flow Matching#Large Language Models#Text-to-Image#Efficient Inference#Diffusion Models2025년 12월 7일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Policy Optimization#Trust Region#Entropy Clipping#Large Language Models#Training Stability#Distributional Shift2025년 12월 7일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.#Review#Analogical Reasoning#Large Language Models#Mechanistic Interpretability#Proportional Analogies#Story Analogies#Structural Alignment#Attention Knockout#Patchscopes2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.#Review#Large Language Models#Sparse Attention#Reinforcement Learning#Agentic AI#Tool Use#Open-source LLM#DeepSeek2025년 12월 2일댓글 수 로딩 중
[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Large Language Models#Causality#Attention Mechanism#Reasoning#Natural Language Generation#Supervised Fine-Tuning#Concept-Guided2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Knowledge Graphs#Large Language Models#Information Extraction#Wikidata Ontology#Question Answering#Entity Normalization#Retrieval Augmented Generation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] PromptBridge: Cross-Model Prompt Transfer for Large Language Models본 논문은 LLM 시스템에서 모델이 교체되거나 업데이트될 때, 기존 모델에 최적화된 프롬프트의 성능이 다른 모델에서 크게 저하되는 현상인 모델 드리프팅(Model Drifting) 문제를 해결하고자 합니다.#Review#Large Language Models#Prompt Engineering#Model Drifting#Prompt Transfer#Cross-Model Adaptation#Training-Free#Prompt Optimization#MAP-RPE2025년 12월 1일댓글 수 로딩 중
[논문리뷰] OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion본 논문은 텍스트 전용 번역 LLM이 겪는 지연 시간과 멀티모달 컨텍스트 활용 불가능성, 그리고 MMFM이 가진 다국어 번역 성능 및 커버리지의 한계를 해결하고자 합니다.#Review#Multimodal Translation#Speech Translation#Simultaneous Translation#Large Language Models#Multimodal Foundation Models#Modular Fusion#End-to-End#Gated Fusion#OCR2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다.#Review#Large Language Models#Clinical AI#Medical Benchmarks#AI Evaluation#Medical Decision Support#MedQA#HealthBench#Generalist AI2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.#Review#Reinforcement Learning#Large Language Models#Instruction Optimization#Policy Co-Evolution#Agentic AI#Tool-Integrated Reasoning#Self-Reflection2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.#Review#Large Language Models#Long Context#Sparse Attention#Hierarchical Sparse Attention (HSA)#Length Generalization#Mixture of Experts (MoE)#Transformer2025년 11월 30일댓글 수 로딩 중
[논문리뷰] What does it mean to understand language?본 논문은 인간의 심층적인 언어 이해 가 뇌의 핵심 언어 시스템 내에서만 이루어지는 것이 아니라, 해당 시스템에서 얻은 정보가 다른 전문화된 뇌 영역으로 내보내져(exportation) 처리 되어야 한다는 가설을 제안합니다.#Review#Language Understanding#Cognitive Neuroscience#Situation Models#World Knowledge#Embodiment#fMRI#Large Language Models#Brain Networks2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Latent Collaboration in Multi-Agent Systems본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Large Language Models#Latent Space#Latent Reasoning#Latent Communication#KV Cache#Computational Efficiency#Training-Free2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.#Review#3D City Generation#Generative AI#Large Language Models#Vision-Language Models#Multi-Agent Framework#Self-Critic Learning#Scene Graph#Text-to-3D2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy Optimization본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중
[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.#Review#Multi-Agent System#Video Understanding#Scientific Education#Deming Cycle#Large Language Models#Iterative Optimization#Knowledge Integration#Educational Content Generation2025년 11월 25일댓글 수 로딩 중
[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.#Review#Reward Modeling#Long-Horizon Tasks#Information Seeking#Large Language Models#Trajectory Summarization#Reinforcement Learning#Tool Use#Process Reward Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.#Review#HTML Extraction#Web Corpus#Large Language Models#Data Curation#Structured Element Preservation#Sequence Labeling#Markdown Conversion#MainWebBench2025년 11월 24일댓글 수 로딩 중
[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.#Review#Video Chaptering#Long-form Video Understanding#Large Language Models#Multimodal Learning#Hierarchical Summarization#Video Segmentation#Reinforcement Learning#Dataset Creation2025년 11월 19일댓글 수 로딩 중
[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.#Review#Omnimodal LLMs#Token Compression#Audio-Video Understanding#Dynamic Pruning#Inference Acceleration#Spatio-Temporal Compression#Large Language Models2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Mitigating Label Length Bias in Large Language Models논문은 대규모 언어 모델(LLMs)이 다중 토큰 클래스 레이블을 예측할 때 발생하는 '레이블 길이 편향(label length bias)' 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Label Bias#Calibration#In-Context Learning#Text Classification#Multi-token Labels#Label Length Bias#Multiple Choice QA2025년 11월 18일댓글 수 로딩 중
[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost본 논문은 카오스 엔지니어링(CE)의 수동적이고 노동 집약적인 단계(가설 설정, 실험 계획, 시스템 재구성)를 자동화하여, 누구나 저비용으로 탄력적인 소프트웨어 시스템을 구축할 수 있도록 하는 것을 목표로 합니다.#Review#Chaos Engineering#Large Language Models#System Resilience#Kubernetes#Software Automation#AI Agents#Fault Injection2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.#Review#Model Souping#Large Language Models#Weighted Averaging#Benchmark Optimization#State-of-the-Art#Category Experts#Parameter Averaging#Post-training2025년 11월 17일댓글 수 로딩 중
[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Physics Reasoning#Agentic AI#Olympiad Problems#Post-Training#Knowledge Transfer2025년 11월 17일댓글 수 로딩 중
[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.#Review#Research Agent#Tool-Augmented Reasoning#Interaction Scaling#Large Language Models#Reinforcement Learning#Context Management#Open-Source AI2025년 11월 17일댓글 수 로딩 중
[논문리뷰] AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing본 논문은 대규모 언어 모델(LLM)이 겪는 전략적 취약성, 사실적 환각, 맞춤화 부족 문제로 인해 난항을 겪는 목표 지향적 설득형 대화(예: 텔레마케팅) 의 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 극복하고 실제 판매 시나리오에 효과적인 AI 에이전트를 개발하고자 합니다.#Review#Telemarketing#Large Language Models#Persuasive Dialogue#Reinforcement Learning#Bayesian Optimization#Dynamic Prompting#Dialogue Systems2025년 11월 17일댓글 수 로딩 중
[논문리뷰] A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain기존 중앙 집중식 RAG(Retrieval Augmented Generation) 시스템의 높은 데이터 관리 비용과 개인 정보 보호 문제를 해결하고자 합니다.#Review#Decentralized RAG#Blockchain#Smart Contracts#Source Reliability#Large Language Models#Retrieval Augmented Generation#Trustworthy AI2025년 11월 17일댓글 수 로딩 중
[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Autoformalization#Benchmark Dataset#miniF2F#Lean Language#Large Language Models#Mathematical Reasoning#Formal Verification2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey본 설문조사는 대규모 언어 모델(LLM) 을 활용한 과학적 아이디어 생성의 고유한 도전을 다루며, 특히 창의성과 과학적 타당성 사이의 균형을 맞추는 방법을 탐구합니다.#Review#Large Language Models#Scientific Discovery#Idea Generation#Creativity#Survey#AI in Science#Prompt Engineering#Multi-agent Systems#Evaluation Metrics2025년 11월 16일댓글 수 로딩 중
[논문리뷰] DoPE: Denoising Rotary Position Embedding본 논문은 Transformer 모델 내 Rotary Position Embedding (RoPE) 의 내재된 한계로 인해 발생하는 길이 외삽 능력 약화와 attention sink 현상 을 해결하는 것을 목표로 합니다.#Review#Rotary Position Embedding#Transformer#Length Extrapolation#Attention Sink#Matrix Entropy#Denoising#Large Language Models2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.#Review#Quantum Computing#Optimization#Machine Learning#Transformers#Gradient Descent#Superposition#Large Language Models#Hybrid Quantum-Classical2025년 11월 13일댓글 수 로딩 중
[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.#Review#Citation Contexts#Reproducibility#Sentiment Analysis#Large Language Models#Crowdsourcing#Dataset#Machine Learning#Science of Science2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding Agents이 연구는 AI 코딩 에이전트가 소프트웨어 개발에서 리팩토링 활동을 어떻게 수행하고, 그 유형과 목적은 무엇이며, 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해 부족 문제를 해결하고자 합니다.#Review#AI Agents#Code Refactoring#Software Engineering#Empirical Study#Large Language Models#Code Quality#Agentic Software Development#Maintainability2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.#Review#Arabic Language#Multimodal Corpus#Data Curation#Web Scraping#Large Language Models#Document Structure#Markdown#Perplexity Filtering2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective본 연구는 대규모 언어 모델(LLMs)이 소프트웨어 개발에 미치는 영향에 대해 실무자 관점에서 심층적으로 탐구하고, LLMs 사용에 따른 긍정적(전진) 및 부정적(후퇴) 효과를 균형 있게 관리하는 방안을 모색하는 것을 목표로 합니다.#Review#Large Language Models#Software Engineering#Developer Productivity#Socio-Technical Grounded Theory#Practitioner Insights#AI Adoption#Benefits and Risks#Balanced Use2025년 11월 11일댓글 수 로딩 중
[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the PrincipalsRLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Parameter-Efficient Fine-Tuning#Optimization Bias#Spectral Geometry#Model Sparsity#LoRA2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration본 연구는 대규모 언어 모델(LLM)에서 다양성(diversity) 과 품질(quality) 간의 본질적인 트레이드오프 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Generative AI#Diversity-Quality Trade-off#Model Collaboration#Inference Optimization#Routing Strategy#Text Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.#Review#Large Language Models#Sequential Reasoning#Action Space Construction#Submodular Optimization#Markov Decision Process#Monte Carlo Tree Search#Utility-Diversity Trade-off2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs본 논문은 기존 대규모 언어 모델(LLM) 기반 다국어 기계 번역(MMT) 시스템이 겪는 제한적인 언어 커버리지, 불안정한 번역 품질, 그리고 고질적인 영어 중심 편향 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Machine Translation#Large Language Models#Directional Degeneration#Strategic Downsampling#Parallel Multilingual Prompting#Chinese-centric MT#Cross-lingual Transfer#Instruction Tuning2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Adaptive Multi-Agent Response Refinement in Conversational Systems대규모 언어 모델(LLM) 기반 대화 시스템이 사용자 페르소나 정렬 및 사실적 정확도와 같은 복합적인 요구사항을 충족하지 못해 발생하는 불만족스러운 응답 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Multi-Agent Systems#Conversational AI#Response Refinement#Dynamic Agent Selection#Persona Alignment#Factual Grounding#Coherence2025년 11월 11일댓글 수 로딩 중
[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.#Review#Video Anomaly Understanding#Large Language Models#Causal Reasoning#Relation-Aware#Keyframe Sampling#Multimodal LLMs#Scene Graphs2025년 11월 10일댓글 수 로딩 중
[논문리뷰] The Station: An Open-World Environment for AI-Driven Discovery본 논문은 기존의 경직된 최적화 패러다임을 넘어선 AI 주도 자율 과학 발견을 위한 개방형 다중 에이전트 환경인 The Station 을 소개합니다.#Review#Multi-Agent System#Open-World Environment#Scientific Discovery#AI-Driven Research#Large Language Models#Emergent Behavior#State-of-the-Art (SOTA)2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.#Review#Reinforcement Learning#Large Language Models#Hierarchical Knowledge#Knowledge Traversal#Structured Prompting#Internal Representations#Alignment Tax2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.#Review#Multimodal Speech Recognition#Large Language Models#Audio-Visual Speech Recognition#LoRA#Matryoshka Representation Learning#Elastic Inference#Parameter-Efficient Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling본 논문은 자연어 텍스트 설명으로부터 NURBS(Non-Uniform Rational B-Splines) 기반의 고정밀 3D CAD 모델을 직접 생성하는 최초의 프레임워크인 NURBGen 을 제시합니다.#Review#Text-to-CAD#NURBS Modeling#Large Language Models#Geometric Deep Learning#Boundary Representation#Hybrid Representation#CAD Generation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.#Review#Emotion Recognition in Conversation#Large Language Models#Prompt Engineering#Demonstration Retrieval#Curriculum Learning#Fine-tuning#Affective Computing#SOTA2025년 11월 10일댓글 수 로딩 중
[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.#Review#Neuro-symbolic AI#Chain-of-Thought#Large Language Models#Logical Consistency#Automated Verification#Fine-tuning#SMT Solvers#Self-Reflection2025년 11월 9일댓글 수 로딩 중
[논문리뷰] HAFixAgent: History-Aware Automated Program Repair Agent본 연구는 기존 LLM 기반 프로그램 자동 수정(APR) 시스템이 로컬 코드 스냅샷에만 의존하여 복잡한 다중-hunk 버그 수정 시 저장소 이력 정보 를 간과하는 문제를 해결하고자 합니다.#Review#Automated Program Repair#AI Agent#Large Language Models#Repository Mining#Historical Context#Bug Fixing#Defects4J2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Dense Motion Captioning본 논문은 3D 휴먼 모션 시퀀스 내에서 의미 있는 액션을 시간적으로 정확히 감지하고, 해당 액션에 대한 상세한 캡션을 생성하는 새로운 태스크인 Dense Motion Captioning (DMC) 을 제안합니다.#Review#3D Human Motion#Dense Captioning#Large Language Models#Motion Understanding#Temporal Localization#Human-Language Datasets#Motion Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Grounded Misunderstandings in Asymmetric Dialogue: A Perspectivist Annotation Scheme for MapTask본 논문은 비대칭 정보 환경에서 발생하는 대화 속 레퍼런스 표현(RE)에 대한 미묘한 오해를 파악하는 것을 목표로 합니다. 화자의 의도와 청자의 해석을 별도로 포착하는 관점 기반(perspectivist) 주석 스키마 를 개발하여, 대화 과정에서 이해가 어떻게 발생하고, 발산하며, 수정되는지를 추적하고자 합니다.#Review#Dialogue Systems#Common Ground#Misunderstanding#Annotation Scheme#MapTask Corpus#Large Language Models#Perspective Taking#Reference Resolution2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs본 논문은 LLM(Large Language Model)의 내부 작동 원리를 이론적으로 설명하기 위해 비트(bits) 대신 토큰(token) 기반의 새로운 의미론적 정보 이론 프레임워크 를 구축하는 것을 목표로 합니다.#Review#Semantic Information Theory#Large Language Models#Directed Information#Rate-Distortion Function#Granger Causality#Token Embedding#Transformer Architecture#Variational Inference2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.#Review#Conversational Recommender Systems#Large Language Models#Reinforcement Learning#Group Relative Policy Optimization#Rank-based Learning#Supervised Fine-tuning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model ReasoningLLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.#Review#Prompt Synthesis#Large Language Models#Reasoning#Expectation-Maximization#Self-Play#Supervised Fine-Tuning#Task Generation#Rationale Generation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning로봇 조작 태스크를 위한 현실적이고 태스크 관련성이 높은 3D 탁상 장면(tabletop scene)을 자동으로 생성하는 것을 목표로 합니다. 기존 수동 또는 무작위 장면 생성 방식의 비효율성과 낮은 현실성을 극복하고, 고수준의 태스크 지시와 3D 장면 레이아웃 간의 큰 격차를 해소하고자 합니다.#Review#3D Scene Generation#Robotic Manipulation#Large Language Models#Spatial Reasoning#Dataset#Direct Preference Optimization#Tabletop Scene2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards기존 RLHF(Reinforcement Learning from Human Feedback) 방식이 구두 피드백을 스칼라 보상으로 압축하여 발생하는 정보 손실, 모호성, 보상 스케일 불균형 문제를 해결하는 것을 목표로 합니다.#Review#Verbal Feedback#Conditional Generation#Large Language Models#Feedback-Conditional Policy#Offline-Online Learning#Reward Hypothesis Bypass2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Fine-tuning Done Right in Model Editing이 논문은 대규모 언어 모델(LLM) 모델 편집에서 fine-tuning이 비효율적이라는 오랜 통념에 도전하고, 그 실패의 원인이 fine-tuning 자체의 한계가 아닌 부적절한 구현 방식에 있음을 밝힙니다.#Review#Model Editing#Fine-tuning#Large Language Models#Catastrophic Forgetting#Breadth-First Pipeline#Depth-First Pipeline#Localized Tuning#Lifelong Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중
[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.#Review#LLM-as-a-Judge#Evaluation Frameworks#Inconsistency Reduction#Probabilistic Scoring#Transitivity#Information Loss#Perplexity#Large Language Models2025년 9월 26일댓글 수 로딩 중
[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning Strategies#Prompt Engineering#LLM Evaluation#Benchmark#Thinking Styles#Scaling Laws#Meta-Reasoning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Interactive Recommendation Agent with Active User Commands본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.#Review#Interactive Recommendation#Large Language Models#Multi-Agent System#Natural Language Processing#Knowledge Distillation#User Control2025년 9월 26일댓글 수 로딩 중
[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#PPO#Entropy Control#Gradient Clipping#Exploration-Exploitation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.#Review#Transformer Decoder#Causal Mask#Positional Encoding#RoPE#Attention Mechanism#Length Generalization#Large Language Models2025년 9월 26일댓글 수 로딩 중
[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.#Review#Agentic Coding#AI Agents#Large Language Models#GitHub Pull Requests#Software Engineering#Empirical Study#Code Generation#Software Development2025년 9월 25일댓글 수 로딩 중
[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.#Review#Large Language Models#Generative AI#Academic Disciplines#LLM Applications#Review#Cross-disciplinary Research#Benchmarks2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training Data논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Large Language Models Discriminate Against Speakers of German Dialects본 논문은 대규모 언어 모델(LLMs)이 독일 방언 사용자에 대한 사회적 고정관념을 반영하고 강화하는지 탐구하는 것을 목표로 합니다. 특히, 독일 인구의 40% 이상 이 지역 방언을 사용하는 상황에서, LLM의 편향이 실제 세계에 미칠 수 있는 차별적 영향을 분석하고자 합니다.#Review#Large Language Models#Bias#German Dialects#Sociolinguistics#Stereotypes#Implicit Association Test#Decision Making2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications대규모 언어 모델(LLMs)의 환각(hallucination) 문제를 해결하고, 특히 형태학적으로 복잡한 터키어 RAG(Retrieval-Augmented Generation) 애플리케이션 을 위한 효과적인 환각 탐지 모델을 개발하는 것이 목표입니다.#Review#Hallucination Detection#Retrieval Augmented Generation#Large Language Models#Turkish NLP#Token Classification#ModernBERT#Low-Resource Languages2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.#Review#Process Reward Models#Monte Carlo Annotation#Noise Denoising#Robust Learning#Self-Supervision#Mathematical Reasoning#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for Agency현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.#Review#AI Agency#Data Curation#Less Is More#Agentic Intelligence#Foundation Models#Evaluation Benchmark#Efficiency Principle#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.#Review#Cultural Adaptation#Large Language Models#Indian Culture#Dataset Creation#CSI#Human Evaluation#LLM Evaluation#Cultural Bias2025년 9월 23일댓글 수 로딩 중
[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.#Review#Auditory Knowledge#Large Language Models#Multimodal Reasoning#Benchmark#Chain-of-Thought#Auditory Imagination#Text-only Reasoning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Distribution Matching#GFlowNets#Mode Collapse#Diverse Reasoning#Flow-Balanced Optimization2025년 9월 19일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale아랍어 고품질 명령어 데이터의 부족과 다국어 LLM에서 언어별 깊이의 불균형 문제를 해결하는 것을 목표로 합니다. 효율적인 번역-튜닝 파이프라인 을 통해 아랍어 중심의 명령어 및 번역 모델(HALA) 패밀리를 구축하고, 아랍어 벤치마크에서 최첨단 성능을 달성하여 특정 언어에 대한 역량 심화에 중점을 둡니다.#Review#Arabic NLP#Instruction Tuning#Machine Translation#Large Language Models#FP8 Quantization#Data Bootstrapping#Model Merging#Language-Centric AI2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Towards General Agentic Intelligence via Environment Scaling본 논문은 일반 에이전트 지능(General Agentic Intelligence)을 발전시키기 위해 대규모 언어 모델(LLM)의 함수 호출 능력 을 향상시키는 것을 목표로 합니다.#Review#Agentic AI#Environment Scaling#Function Calling#Tool Use#Large Language Models#Synthetic Data Generation#Supervised Fine-tuning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge본 논문은 인공지능 분야의 근본적인 도전 과제인 멀티모달 추론 의 한계를 극복하는 것을 목표로 합니다. 특히, 최첨단 GPT-03 과 같은 모델도 시각 정보 통합에 어려움을 겪는 과학 분야의 멀티모달 시나리오에서 시각-텍스트 모달리티 간의 격차를 해소 하고 견고한 추론 성능을 확보하고자 합니다.#Review#Multimodal Reasoning#Science AI#Caption-assisted Reasoning#SeePhys Challenge#Large Language Models#Visual Question Answering#Physics Problems#Cross-modal Alignment2025년 9월 17일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중
[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.#Review#Ethical Reasoning#Mental Health AI#Benchmark Dataset#Large Language Models#AI Ethics#Clinical Decision Support#Human-in-the-loop2025년 9월 16일댓글 수 로딩 중
[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs본 논문은 대규모 언어 모델(LLM)의 지속적인 스케일링이 한계 효용 체감(diminishing returns)으로 이어지는지에 대한 논쟁을 다루며, 특히 장기적인 태스크(long-horizon tasks) 수행 능력에 초점을 맞춥니다.#Review#Large Language Models#Long-Horizon Tasks#Execution Capability#Scaling Laws#Self-Conditioning#Thinking Models#Agentic AI2025년 9월 15일댓글 수 로딩 중
[논문리뷰] QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading기존 LLM 기반 금융 시스템이 텍스트 기반 입력에 주로 의존하여 고주파 매매(HFT)의 속도 및 정확성 요구사항에 부적합하다는 한계를 해결하고자 합니다.#Review#High-Frequency Trading#Multi-Agent Systems#Large Language Models#Technical Analysis#Algorithmic Trading#Financial Reasoning#Price-Driven Signals2025년 9월 15일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.#Review#Test-Time Scaling#Reasoning Models#Knowledge-Intensive Tasks#Hallucinations#Factual Accuracy#Chain-of-Thought#Large Language Models2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Symbolic Graphics Programming with Large Language Models본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.#Review#Symbolic Graphics Programming#Large Language Models#Reinforcement Learning#SVG Generation#Text-to-Image Synthesis#Cross-Modal Alignment#Program Synthesis2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Behavioral Fingerprinting of Large Language Models현재 대규모 언어 모델(LLM) 벤치마크들이 모델의 성능 지표에만 치중하여 미묘한 행동 특성을 포착하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Behavioral Evaluation#Model Alignment#Sycophancy#World Model Brittleness#Metacognition#Personality Profiling2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth본 연구는 LLM(Large Language Models)이 겉으로는 논리적이지만 심층적인 역설적 의미를 담고 있는 'Drivelology(심오한 헛소리)'를 얼마나 깊이 이해하는지 평가하는 것을 목표로 합니다. 통계적 유창성을 넘어선 LLM의 진정한 인지적 이해, 특히 실용적 이해 의 근본적인 한계를 밝히고자 합니다.#Review#Large Language Models#Pragmatic Understanding#Drivelology#Benchmark Dataset#Multilingual NLP#Semantic Reasoning#Contextual Inference2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Open Data Synthesis For Deep Research본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.#Review#Data Synthesis#Deep Research#Hierarchical Constraint Satisfaction Problems#Large Language Models#Agentic AI#Reinforcement Learning#Question Answering2025년 9월 4일댓글 수 로딩 중
[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.#Review#Agentic Reinforcement Learning#Tool Use#Large Language Models#Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution#Multi-modal AI#Framework2025년 9월 3일댓글 수 로딩 중
[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.#Review#Agentic Reinforcement Learning#Large Language Models#LLM Agents#Sequential Decision Making#Policy Optimization#Tool Use#Dynamic Environments#Autonomous AI2025년 9월 3일댓글 수 로딩 중
[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Tool-Integrated Reasoning#Multi-turn Reasoning#Gradient Explosion#Training Stability#Trajectory Filtering#Zero RL2025년 9월 3일댓글 수 로딩 중
[논문리뷰] SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction본 논문은 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 시스템의 견고성과 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 시스템들이 실행 기반 피드백에만 의존하여 논리적으로 부정확하지만 문법적으로 유효한 SQL 쿼리 오류를 수정하지 못하는 한계를 극복하고자 합니다.#Review#Text-to-SQL#Multi-agent Systems#Chain-of-Thought#Error Correction#Large Language Models#Query Planning#Database Interaction2025년 9월 3일댓글 수 로딩 중
[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal LearningOpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.#Review#Multimodal Learning#Vision Encoder#Generative Pretraining#Captioning Loss#Training Efficiency#Image-Text Models#Large Language Models2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.#Review#RLVR#Large Language Models#Actor-Critic#Supervised Learning#Mathematical Reasoning#Policy Optimization#Cross-Entropy Loss2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.#Review#Deep Learning Optimizers#Large Language Models#Hyperparameter Tuning#Pretraining Speedup#Scaling Laws#AdamW#Matrix-based Optimizers#Data-to-Model Ratio2025년 9월 3일댓글 수 로딩 중
[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.#Review#Bias Mitigation#Large Language Models#Speculative Decoding#Constitutional AI#Fairness#Inference-Time Control#Indian Sociocultural Context2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Game AI#Procedural Knowledge#Declarative Knowledge#Explainable AI#Strategic Decision-Making2025년 9월 1일댓글 수 로딩 중
[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.#Review#Instruction Augmentation#Fine-tuning#Large Language Models#Task-Centric#Data Diversity#Task Alignment#Breadth-First Search#Constraint Generation2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.#Review#Large Language Models#In-Tool Learning#In-Weight Learning#Factual Recall#Retrieval-Augmented Generation#Scaling Laws#Parameter Efficiency#Catastrophic Forgetting2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.#Review#Language Modeling#Next-Token Prediction#Multi-Token Prediction#Token Order Prediction#Auxiliary Objective#Learning-to-Rank#Transformer#Large Language Models2025년 8월 28일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Unraveling the cognitive patterns of Large Language Models through module communities본 논문은 LLM의 내부 아키텍처와 인지 과정을 이해하기 어려운 ‘블랙박스’ 문제를 해결하고자 합니다. 특히 기존 연구에서 부족했던 스킬 간의 관계, 동적 적응성, 교차 도메인 일반화 및 메커니즘의 상세한 해석 가능성 탐색에 중점을 둡니다.#Review#Large Language Models#Network Community Structure#Cognitive Skills#AI Interpretability#Module Communities#Fine-tuning#Neural Plasticity2025년 8월 27일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.#Review#Hallucination Mitigation#Large Language Models#Contextual Bandits#Query Rewriting#Semantic Features#No-Regret Learning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparsity#Scaling Laws#Reasoning Tasks#Memorization#Large Language Models#Generalization Gap#Top-k Routing2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Scientific Reasoning#Knowledge Retrieval#Reasoning Probing#Benchmarks#Chain-of-Thought#Fine-tuning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.#Review#Legal AI#Natural Language Processing#Claim Generation#Chinese Legal Dataset#Factuality#Clarity#Large Language Models#Zero-shot Evaluation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.#Review#Large Language Models#Condensed Matter Physics#Benchmark#Scientific Reasoning#Evaluation Metric#Expression Edit Distance#Problem Solving2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.#Review#Compositional Visual Reasoning#Multimodal AI#Vision-Language Models#Large Language Models#Chain-of-Thought#Tool Learning#Agentic AI#Survey2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Bottleneck#Instructional Scaffolding#Rubric-based Rewards#General Reasoning#RL with Verifiable Rewards#Policy Optimization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.#Review#Agentic RAG#Medical Diagnosis#Reinforcement Learning#Traceable AI#Large Language Models#Clinical Decision Support#Out-of-Distribution Generalization#Reward Design2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Play#Variational Problem Synthesis#Policy Entropy#Pass@k#Reasoning Benchmarks2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.#Review#Diffusion LLMs#Post-training Quantization (PTQ)#Model Compression#Activation Outliers#Quantization Methods#Efficient Deployment#Large Language Models2025년 8월 21일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.#Review#Agentic AI#Autonomous Scientific Discovery#AI for Science#Large Language Models#Multi-agent Systems#Scientific Workflow Automation#Natural Sciences2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Prompt Orchestration Markup Language이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.#Review#Prompt Engineering#Large Language Models#Markup Language#Structured Prompting#IDE Support#Multimodal Data#Styling System#Development Toolkit2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.#Review#Large Language Models#Moral Reasoning#Bayesian Evaluation#Uncertainty Quantification#Natural Language Processing#Soft Labels2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models본 설문조사 논문은 기존 Transformer 기반 대규모 언어 모델(LLMs)의 Quadratic 복잡성 과 높은 연산 및 메모리 요구사항 으로 인한 비효율성 문제를 해결하기 위한 혁신적인 아키텍처를 체계적으로 검토하는 것을 목표로 합니다.#Review#Large Language Models#Efficient Architectures#Transformer Optimization#Linear Attention#State Space Models#Mixture-of-Experts#Sparse Attention#Diffusion LLMs2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning with Rubric Anchors이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Rubric-based Reward#RLVR Extension#Human-centric AI#Controllable Generation#Reward Hacking Mitigation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] SSRL: Self-Search Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.#Review#Reinforcement Learning#Large Language Models#Self-Search#Sim-to-Real Transfer#Agentic AI#Knowledge Retrieval#Reward Modeling2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.#Review#Molecule Discovery#Chain-of-Thought#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Molecular Generation#Explainable AI2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Model#Policy Optimization#Reward Hacking#Hybrid Annotation#Mathematical Reasoning#Verifiable Rewards2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study본 연구는 비용이 많이 들고 확장성이 낮은 인간 주석 기반 설명의 한계를 극복하기 위해, LLM이 생성한 텍스트 설명 이 자연어 추론(NLI)과 같은 다운스트림 예측 태스크에서 PLM 및 LLM의 분류 성능을 향상 시킬 수 있는지 실증적으로 평가하는 것을 목표로 합니다.#Review#Explainable NLP#Natural Language Explanations#Large Language Models#Pre-trained Language Models#Natural Language Inference#Model Performance Enhancement#Text Generation2025년 8월 14일댓글 수 로딩 중
[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Fine-tuning#Reinforcement Learning#Meta-learning#Adaptive Control#Imitation Learning#Exploration#Reasoning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.#Review#Large Language Models#Diplomacy Game#Multi-agent Systems#Strategic Reasoning#LLM Evaluation#Prompt Engineering#Behavioral Analysis#Game AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Passage Ranking#Reasoning Models#Large Language Models#Data Synthesis#Reinforcement Learning#Listwise Reranking#Information Retrieval2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#LLM Reasoning#Policy Optimization#Normalization#Clipping#Loss Aggregation#Overlong Filtering2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling본 연구는 기존 비전-언어 모델(VLMs)이 매개변수 규모에 제약이 있고, 견고한 자가 수정 능력이 부족하며, 긴 시각적 맥락과 복잡한 추론을 요구하는 문서 기반 태스크에서 저조한 성능을 보이는 문제를 해결하고자 합니다.#Review#Visual Document Understanding#Visual Question Answering#Multi-Agent System#Test-Time Scaling#Self-Correction#Mixed Reward Modeling#Large Language Models2025년 8월 8일댓글 수 로딩 중
[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.#Review#Self-Evolving LLM#Reinforcement Learning#Curriculum Learning#Reasoning#Large Language Models#Self-Play#Zero-Data Training2025년 8월 8일댓글 수 로딩 중
[논문리뷰] PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction본 연구는 비정형 텍스트에서 개인 식별 정보(PII) 를 자동 제거하는 문제에 초점을 맞춥니다.#Review#PII Redaction#Large Language Models#Instruction Tuning#Retrieval-Augmented Generation#Privacy Preservation#Model Evaluation#Cross-Domain Generalization#Open-Source LLMs2025년 8월 8일댓글 수 로딩 중
[논문리뷰] I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking본 논문은 기존 대규모 언어 모델(LLM) 기반의 다중모달 엔티티 연결(MEL) 방법론이 이미지 데이터를 불필요하게 통합하고 시각적 특징을 단일 추출에 의존하여 성능 저하를 겪는 문제를 해결하고자 합니다.#Review#Multimodal Entity Linking#Large Language Models#Collaborative Reflection#Iterative Reasoning#Visual Information#Text-centric2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.#Review#Multi-hop Question Answering#Large Language Models#Reasoning Errors#Error Taxonomy#Human Evaluation#Automated Evaluation#Overthinking2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Evaluating, Synthesizing, and Enhancing for Customer Support Conversation본 논문은 고객 지원 대화(Customer Support Conversation, CSC) 분야에서 전략적 지침과 고품질 데이터의 부족 문제를 해결하고자 합니다.#Review#Customer Support#Dialogue Generation#Large Language Models#Role-Playing#COPC Framework#Synthetic Data#Strategy Prediction#Empathetic AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.#Review#Large Language Models#Well-being Concepts#LLM Evaluation#Principle-Guided Evaluation#LLM-as-a-Judge#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Software Engineering#Multi-Turn Interaction#Long Context#DAPO#Autonomous Agents#SWE-BENCH2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.#Review#Social Intelligence#Reinforcement Learning#Reward Design#Large Language Models#Utterance-level Rewards#Multi-dimensional Rewards#Partial Observability#SOTOPIA2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.#Review#Large Language Models#Active Context Management#Proactive Interference#Tool Augmentation#Working Memory#Context Curation#Long Context2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.#Review#Root Cause Analysis#Large Language Models#5G Wireless Networks#Supervised Fine-Tuning#Reinforcement Learning#Chain-of-Thought#TeleLogs Dataset2025년 8월 7일댓글 수 로딩 중
[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Capability Collapse#Hybrid Policy Optimization#Multiple Importance Sampling#Exploration#Math Reasoning#Out-of-Distribution2025년 8월 7일댓글 수 로딩 중
[논문리뷰] EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation레거시 C 코드베이스를 Rust로 자동 변환할 때 발생하는 언어적 불일치(안전성, 관용성) 및 프로젝트 레벨의 모듈 간 종속성 문제를 해결하여, 전체 C 프로젝트를 의미론적으로 동등하고 안전한 Rust 코드로 정확하게 번역하는 프레임워크를 개발하는 것을 목표로 합니다.#Review#C-to-Rust Conversion#Project-Level Translation#Large Language Models#Code Synthesis#Memory Safety#Software Migration#Hybrid Translation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#AI Agents#Framework#Markov Decision Process#Hierarchical RL#Training-Agent Disaggregation#Observability2025년 8월 7일댓글 수 로딩 중
[논문리뷰] CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search논문은 ANNS(Approximate Nearest Neighbor Search) 알고리즘 최적화의 수작업적, 전문 지식 의존적 특성을 해결하는 것을 목표로 합니다. LLM을 강화 학습으로 증강하여 실행 속도를 보상 신호로 삼아, ANNS 구현을 자동으로 최적화하는 새로운 패러다임인 CRINN 을 제안합니다.#Review#Approximate Nearest Neighbor Search#Reinforcement Learning#Large Language Models#Code Optimization#HNSW#Retrieval-Augmented Generation#Contrastive Learning2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.#Review#Self-Supervised RL#Instruction Following#Reasoning Models#Large Language Models#Reward Modeling#Curriculum Learning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.#Review#Large Language Models#LLM Agents#Test-time Scaling#Compute Optimization#Multi-stage Tasks#Resource Allocation#Search Efficiency2025년 8월 5일댓글 수 로딩 중
[논문리뷰] SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution본 논문은 대규모 언어 모델(LLM) 기반 소프트웨어 이슈 해결 시스템의 '제한된 관찰 범위(limited observation scope)' 문제를 해결하고자 합니다.#Review#Multi-Agent System#Software Engineering#Fault Localization#Issue Resolution#Large Language Models#Competitive Debate#Graph Traversal2025년 8월 4일댓글 수 로딩 중
[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.#Review#Automated Theorem Proving#Large Language Models#Formal Verification#Reinforcement Learning#Lean#Geometry Reasoning#Chain-of-Thought#Lemma-Style Proving2025년 8월 2일댓글 수 로딩 중
[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.#Review#Electronic Health Records#Large Language Models#Reasoning Enhancement#Instruction Tuning#Reinforcement Learning#Data Synthesis#Medical AI#Clinical Decision Support2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games논문은 OpenAI의 ChatGPT Atlas 에이전트 가 웹 환경에서 상호작용하는 능력을, 특히 웹 기반 게임을 통해 평가하는 것을 목표로 합니다.#Review#Web Agent#Large Language Models#Multimodal AI#Browser Automation#Game AI#ChatGPT Atlas#Performance Evaluation#Human-Computer Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling본 논문은 기존 LLM 기반 상담 에이전트 가 가진 임상적 한계, 특히 장기 기억 부족 과 전략적 경직성 문제를 해결하는 것을 목표로 합니다.#Review#Longitudinal Counseling#Adaptive Agent#Dual-Loop Architecture#Large Language Models#Psychotherapy#Mental Health AI#Dialogue Management2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Reasoning-Aware GRPO using Process Mining본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Process Mining#Policy Optimization#Mathematical Reasoning#GRPO#PM4GRPO2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Autoformalization#Large Language Models#Reinforcement Learning#Self-Reflection#Semantic Consistency#Formal Mathematical Reasoning#Sequence Optimization2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation Scaling본 논문은 Looped Transformer의 고질적인 문제인 순차적인 루프 실행 으로 인한 높은 추론 지연 시간 과 선형적으로 증가하는 KV 캐시 메모리 요구사항 을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Looped Transformers#Inference Efficiency#Parallel Computation#KV Cache Optimization#Gated Sliding-Window Attention#Cross-Loop Parallelism2025년 10월 30일댓글 수 로딩 중
[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.#Review#Multimodal Code Intelligence#Visual-Programmatic Interface#Code Generation#Data Synthesis#Large Language Models#Visualizations#Web UI#Animation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable ReasoningRLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Policy Optimization#Reward Modeling#Flawed Reasoning#Reliable AI#Error Detection2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.#Review#Multi-Language Visualization#Code Generation#Self-Debugging#Instruction Tuning#Large Language Models#Visualization Benchmark#Coding Agents#Code-Feedback2025년 10월 29일댓글 수 로딩 중
[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.#Review#AI Agents#Astrophysics Research#Reproducibility Benchmark#Large Language Models#Scientific Workflow#Code Execution#Evaluation Framework2025년 10월 29일댓글 수 로딩 중
[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Best-of-N Sampling#Max@k Optimization#Policy Gradients#Off-policy Learning#Code Generation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.#Review#Audio-Visual Speech Recognition#Large Language Models#Attention Sinks#Massive Activations#Decorrelation Loss#Fine-tuning#Multimodal AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.#Review#Information Reranking#Large Language Models#Data Synthesis#Reasoning-Intensive Retrieval#Low-Resource Learning#Data Efficiency#Instruction Following2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Knocking-Heads Attention본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.#Review#Multi-Head Attention#Transformer#Large Language Models#Inter-Head Communication#Parameter Sharing#Training Stability#Diagonal Initialization2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Code Aesthetics with Agentic Reward Feedback대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.#Review#Code Aesthetics#Agentic Reward Feedback#Large Language Models#Reinforcement Learning#Instruction Tuning#Webpage Design#Multimodal Evaluation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중
[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.#Review#German Commons#Large Language Models#Training Data#Openly Licensed Text#Data Curation#German NLP#Corpus Construction#Quality Filtering2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.#Review#Large Language Models#Retrieval Augmented Generation#Agentic Systems#Benchmarking#Intermediate Tasks#Error Analysis#LLM Evaluation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LLM-guided Hierarchical Retrieval기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.#Review#Information Retrieval#Large Language Models#Hierarchical Retrieval#Semantic Tree#Tree Traversal#Zero-shot Performance#Reasoning-based Retrieval#Computational Efficiency2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Agentic Entropy-Balanced Policy Optimization본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.#Review#Agentic Reinforcement Learning#Web Agents#Tool Learning#Entropy Balancing#Policy Optimization#Rollout Strategy#Large Language Models2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Revisiting Model Interpolation for Efficient Reasoning이 논문은 대규모 언어 모델(LLM)의 복잡한 연쇄적 사고(Chain-of-Thought, CoT) 추론에서 발생하는 과도한 사고(over-thinking) 및 높은 지연 시간 문제를 해결하기 위한 효율적인 추론 방법을 모색합니다.#Review#Model Interpolation#Efficient Reasoning#Large Language Models#Chain-of-Thought#Model Merging#Performance Dynamics#Ablation Study2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.#Review#Multi-turn Text-to-SQL#Agentic Training#Reinforcement Learning#Large Language Models#Dialogue Systems#Semantic Parsing#Database Interaction#Self-correction2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain본 논문은 대규모 언어 모델(LLM)이 인간 수준의 언어 능력을 보여주지만 구문 구조를 모델링하는 특정 연산 모듈이 불분명하다는 문제에 주목합니다.#Review#Large Language Models#Syntactic Structure#Human Brain#Frequency Tagging#Neuroscience#Model Interpretability#Representational Similarity Analysis#Intracranial EEG2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.#Review#Long-Horizon Tasks#Agentic AI#Context Curation#Working Memory#Reinforcement Learning#Policy Optimization#Large Language Models#Memory-as-Action2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Information-Preserving Reformulation of Reasoning Traces for Antidistillation대규모 언어 모델(LLMs)의 추론 흔적(reasoning traces)이 복잡한 작업에서 성능을 향상시키지만, 무단 지식 증류(distillation)에 취약하다는 문제를 해결하고자 합니다.#Review#Antidistillation#Reasoning Traces#Large Language Models#Knowledge Distillation#Information Preservation#Trace Reformulation#Supervised Fine-Tuning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] A Survey of Vibe Coding with Large Language Models본 논문은 대규모 언어 모델(LLM)의 발전에 따라 등장한 '바이브 코딩(Vibe Coding)' 이라는 새로운 개발 방법론을 심층적으로 탐구합니다.#Review#Vibe Coding#Large Language Models#Coding Agents#Human-AI Collaboration#Software Engineering#Development Models#Context Engineering2025년 10월 15일댓글 수 로딩 중
[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.#Review#Peer Review#AI-Assisted Review#Large Language Models#LLM Agents#Meta-Review#Conference Submissions#Reviewer Personas#Evaluation Metrics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.#Review#Large Language Models#LLM Alignment#Game Theory#Reinforcement Learning#Mutual Welfare#Payoff Matrix#Strategic Decision Making#Human-AI Interaction2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning Tasks#GRPO#Negative Samples#Reward Modeling#Confidence Reweighting#Mathematical Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] DISCO: Diversifying Sample Condensation for Efficient Model Evaluation최신 머신러닝 모델, 특히 대규모 언어 모델(LLM) 의 평가에 소요되는 막대한 시간과 비용(수천 시간의 GPU 사용) 문제를 해결하는 것을 목표로 합니다.#Review#Efficient Evaluation#Sample Condensation#Model Disagreement#Predictive Diversity#Performance Prediction#Large Language Models#Model Signatures#Meta-modeling2025년 10월 13일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.#Review#Academic Promotion#Large Language Models#Multi-Agent Systems#Scholarly Communication#Multimodal Processing#Benchmark#Content Generation#Social Media Marketing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.#Review#Multimodal RAG#Document AI#Benchmark#Information Retrieval#Large Language Models#Multimodal Embeddings#PDF Processing#Question Answering2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Sentence Embedding#Retrieval-Augmented Generation#Chain-of-Thought#Information Retrieval#Supervised Fine-tuning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training본 논문은 대규모 언어 모델(LLM) 사전 훈련의 급증하는 계산 비용 문제를 해결하기 위해, 기존의 사전 훈련된 체크포인트에 투자된 '매몰 비용(sunk cost)'을 효율적으로 재활용하여 모델을 성장시키는 방법을 제안합니다.#Review#Mixture-of-Experts#Large Language Models#Checkpoint Recycling#Model Growth#Efficient Pretraining#Depth Growth#Width Growth#Sunk Cost2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#LLM Interpretability#Function Tokens#Memory Retrieval#Memory Consolidation#Sparse Autoencoders#Pre-training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning본 논문은 화학 반응 조건 추천에서 단순히 '무엇(what)'을 예측하는 것을 넘어 '왜(why)' 특정 조건이 적절한지에 대한 설명 가능한 근거 를 제공하는 것을 목표로 합니다.#Review#Multi-Agent System#Chemical Reaction Prediction#Explainable AI#Evidence-Based Reasoning#Large Language Models#Tool-Augmented LLMs#Scientific Discovery2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.#Review#Entropy Regularization#Activation Functions#Continuous Control#Large Language Models#Image Classification#Reinforcement Learning#Policy Stochasticity#Entropy Constraints2025년 10월 10일댓글 수 로딩 중
[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.#Review#Question Answering#Reinforcement Learning#Large Language Models#Ambiguity Resolution#Multi-hop QA#Automated Data Generation#Tool-Augmented LLMs#AnsF1 Reward2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.#Review#Code Evaluation#Instruction Following#Human Preference#Large Language Models#Vibe Check#Non-functional Requirements#VeriCode2025년 10월 9일댓글 수 로딩 중
[논문리뷰] The Markovian Thinker본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Chain-of-Thought#Markovian Thinking#Context Management#Computational Efficiency#Long-Context LLMs#Transformer Optimization2025년 10월 9일댓글 수 로딩 중
[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.#Review#Agentic Reinforcement Learning#Travel Planning#Large Language Models#Sandbox Environment#Hierarchical Reward Modeling#Experience Replay#Autonomous Agents2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.#Review#Code-switching#Multilingual NLP#Large Language Models#NLP Survey#Data Augmentation#Evaluation Metrics#Low-Resource Languages2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.#Review#Post-Training Quantization#Quantization Robustness#Training Dynamics#Learning Rate Schedules#Weight Averaging#Large Language Models#LLMs#Hyperparameter Tuning2025년 10월 8일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.#Review#Direct Preference Optimization#Preference Alignment#Adaptive Regularization#Reward Model#Large Language Models#Sentiment Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.#Review#Emotional Support Conversation#Cognitive Reasoning#Reinforcement Learning#Dialogue Generation#Natural Language Processing#Large Language Models#Psychological Support2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Importance Sampling#Policy Optimization#PPO-Clip#Outcome-Supervised RL#Token Weighting#GRPO2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.#Review#Computer Use Agents#Inverse Dynamics Model#UI Trajectories#Web Videos#In-Context Learning#Supervised Fine-Tuning#Large Language Models#OSWorld Benchmark2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Self-Reflective Generation at Test Time본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.#Review#Large Language Models#Self-Reflection#Test-Time Optimization#Uncertainty Monitoring#Proactive Error Prevention#Reasoning Tasks#Chain-of-Thought2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Optimal Scaling Needs Optimal Norm이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.#Review#Optimal Scaling#Norm-Based Optimizers#Hyperparameter Transfer#Learning Rate Scaling#Batch Size Scaling#Transformer Models#Scion Optimizer#Large Language Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.#Review#Test-Time Curriculum#Reinforcement Learning#Large Language Models#Self-Curated Learning#Continual Learning#Reasoning Benchmarks#Adaptive Training2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.#Review#Large Language Models#Autoraters#Calibration#Preference Distributions#Reinforcement Learning#Supervised Fine-tuning#Positional Bias2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Imperceptible Jailbreaking against Large Language Models본 논문은 기존의 가시적인 텍스트 수정 방식과 달리 눈에 보이지 않는(imperceptible) 방식으로 LLM의 안전 장치를 우회하는 새로운 제일브레이크 공격 기법을 제안합니다.#Review#Large Language Models#Jailbreaking#Imperceptible Attacks#Unicode Variation Selectors#Adversarial Suffixes#Safety Alignment#Prompt Injection2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.#Review#Large Language Models#Pretraining#Supervised Fine-tuning#Reasoning Data#Data Allocation#Diversity#Quality#Reinforcement Learning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Data Augmentation#Large Language Models#Formal Mathematics#Symmetry#Difficulty Evolution#Abstract Syntax Tree#Generalizability2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Epistemic Diversity and Knowledge Collapse in Large Language Models대규모 언어 모델(LLM)이 생성하는 텍스트의 동질성이 지식 붕괴(knowledge collapse)로 이어질 수 있다는 문제에 주목합니다.#Review#Large Language Models#Epistemic Diversity#Knowledge Collapse#Homogenization#Retrieval-Augmented Generation#LLM Evaluation#Information Diversity#Cultural Bias2025년 10월 7일댓글 수 로딩 중
[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents이 논문은 웹 에이전트를 대상으로 하는 프롬프트 인젝션 공격에 대한 탐지 방법들을 체계적으로 벤치마킹하여, 웹 에이전트 환경에서의 탐지 성능을 종합적으로 평가하고 이해하는 것을 목표로 합니다.#Review#Prompt Injection#Web Agents#Multimodal AI#Adversarial Attacks#Detection Benchmarking#Large Language Models#Image-based Detection#Text-based Detection2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Soft Instruction De-escalation Defense본 논문은 외부 환경과 상호작용하는 LLM 기반 에이전트 시스템 이 겪는 프롬프트 인젝션 공격에 대한 취약성을 해결하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 데이터 내의 악의적인 명령을 효과적으로 무력화하면서도 에이전트의 유용성을 저해하지 않는 방어 메커니즘을 제안합니다.#Review#Prompt Injection#LLM Security#Agentic Systems#Iterative Sanitization#Instruction Control#Adversarial Robustness#Large Language Models2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.#Review#Category Theory#Document Understanding#Large Language Models#Information Theory#Rhetorical Structure Theory#Document Summarization#Rate Distortion Analysis#Self-supervised Learning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.#Review#Autonomous Agents#Large Language Models#Tool Use#Reinforcement Learning#Memory Management#Tool Retrieval#Agentic Reasoning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ARC-Encoder: learning compressed text representations for large language models본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.#Review#Context Compression#Large Language Models#Encoder-Decoder Architecture#Text Representation#In-Context Learning#Parameter Efficiency#Retrieval-Augmented Generation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Machine Text Detectors are Membership Inference Attacks본 연구는 멤버십 추론 공격(MIAs)과 기계 생성 텍스트 감지(MGTD)라는 두 가지 관련 연구 분야가 독립적으로 연구되어 발생하는 비효율성을 해결하고자 합니다.#Review#Membership Inference Attacks#Machine-Generated Text Detection#Transferability#Likelihood Ratio Test#Large Language Models#Zero-Shot Detection#Model Security#AI Safety2025년 10월 23일댓글 수 로딩 중
[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Long Context Reasoning#Large Language Models#Multi-hop QA#Data Synthesis#Retrieval-Augmented Generation#Chain-of-Thought2025년 10월 23일댓글 수 로딩 중
[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.#Review#Off-Policy Reinforcement Learning#Large Language Models#Adaptive Clipping#Policy Optimization#PPO#Entropy Preservation#RL Stabilization2025년 10월 23일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.#Review#Deep Research Agent#Reinforcement Learning from AI Feedback#RLOO Algorithm#Large Language Models#Tool Use#Self-Correction#Reasoning Scaffold#Agent Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Extracting alignment data in open models본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.#Review#Alignment Data Extraction#Large Language Models#Memorization#Neural Embeddings#Semantic Similarity#Chat Templates#Model Distillation#Reinforcement Learning#Supervised Finetuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.#Review#Verifiable Learning#Data Synthesis#Evolutionary Algorithm#Large Language Models#Reinforcement Learning#Model Distillation#Test Generation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Chem-R: Learning to Reason as a Chemist현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.#Review#Chemical Reasoning#Large Language Models#Chem-R#Structured Reasoning#Multi-task Optimization#Chain-of-Thought#Chemical Discovery2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Paper2Web: Let's Make Your Paper Alive!이 논문은 학술 논문을 레이아웃 인식적이고 상호작용적이며 멀티미디어 가 풍부한 웹 페이지로 변환하는 PAPER2WEB 이라는 새로운 태스크를 제안합니다.#Review#Academic Webpage Generation#Multi-Agent Systems#Large Language Models#Model Context Protocol#Interactive Content#Multimedia Dissemination#Evaluation Benchmark#Human-Computer Interaction2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Language Models Model Language전통적인 언어학적 비판(예: Chomsky, de Saussure)에 맞서 LLM이 언어를 모델링하는 능력을 재평가하고, Witold Mańczak의 경험주의적 원칙에 기반한 대안적인 이론적 프레임워크를 제시하는 것을 목표로 합니다. 이를 통해 LLM의 설계, 평가 및 해석을 위한 건설적인 가이드를 제공하고자 합니다.#Review#Large Language Models#Linguistics#Witold Mańczak#Frequency Hypothesis#Empirical Validation#Usage-Based Linguistics#Semantic Embeddings2025년 10월 20일댓글 수 로딩 중
[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.#Review#Reinforcement Learning#Length Penalty#Reasoning Efficiency#Large Language Models#RL Optimization#Accuracy-Efficiency Trade-off#Chain-of-Thought2025년 10월 20일댓글 수 로딩 중
[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Parameter Dynamics#Rank-1 Dominance#Linear Dynamics#SVD#Model Acceleration#Predictability2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Infusing Theory of Mind into Socially Intelligent LLM Agents본 논문은 대화형 LLM(Large Language Model) 기반 소셜 에이전트가 타인의 정신 상태 이해 능력(Theory of Mind, ToM) 을 통합함으로써 사회적 지능과 목표 달성 능력을 향상시키는 것을 목표로 합니다.#Review#Theory of Mind#Large Language Models#Social Agents#Dialogue Systems#Mental State Modeling#Look-ahead Planning#Supervised Fine-tuning#Sotopia Benchmark2025년 10월 2일댓글 수 로딩 중
[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain본 논문은 기존 Transformer 모델이 CoT (Chain-of-Thought) 추론 의 일반화와 뇌 기능에 대한 미시적 해석을 제공하지 못하는 한계를 지적합니다.#Review#Large Language Models#Brain-Inspired AI#Graph Neural Networks#Hebbian Learning#Scale-Free Networks#Model Interpretability#Transformer Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.#Review#Large Language Models#Multi-turn Interaction#Test-Time Adaptation#Reinforcement Learning from Human Feedback#Policy Optimization#Online Learning#Self-Correction2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs이 논문은 대규모 언어 모델(LLM) 공급자가 홍보하는 최대 컨텍스트 윈도우(MCW) 와 실제 사용 환경에서의 최대 유효 컨텍스트 윈도우(MECW) 간의 불일치를 해결하고자 합니다.#Review#Large Language Models#Context Window#Effective Context Window#Model Performance#Hallucination Rates#RAG Systems#Token Limits2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Planning#Policy Gradient#Q-learning#Supervised Fine-Tuning#Diversity Collapse#Reward Hacking2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.#Review#Reinforcement Learning#Process-Supervised RL#Large Language Models#Reasoning Models#Attention Mechanism#Efficient Exploration#Adaptive Sampling#Off-Policy Training2025년 10월 1일댓글 수 로딩 중