Review

[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.

#Review #Large Language Models #Sequential Reasoning #Action Space Construction #Submodular Optimization #Markov Decision Process #Monte Carlo Tree Search #Utility-Diversity Trade-off

2025년 11월 11일

[논문리뷰] BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

본 연구는 생물의학 및 일반 도메인 정보 검색(IR) 시스템의 성능 향상을 목표로 합니다. 특히, 기존 방법론에서 어려움을 겪는 '하드 네거티브' 문서를 효과적으로 식별하고 활용하여, 밀집 검색 모델의 정밀도를 높이고 미묘한 의미적 차이를 학습할 수 있도록 하는 것을 핵심 과제로 삼습니다.

#Review #Dense Retrieval #Biomedical IR #Hard Negative Mining #Citation Networks #PubMed #Zero-shot Retrieval #Transformer Models

2025년 11월 11일

[논문리뷰] Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

본 논문은 기존 Retrieval-Augmented Generation (RAG) 방법론이 긴 내러티브 내에서 분산된 정보를 다루고, 시간이 지남에 따라 진화하는 상황과 액터의 상태에 대해 추론하는 데 한계가 있음을 지적합니다.

#Review #Retrieval-Augmented Generation (RAG)#Episodic Memory #Generative Semantic Workspaces (GSW)#Large Language Models (LLMs)#Question Answering (QA)#Semantic Modeling #Knowledge Graph

2025년 11월 11일

[논문리뷰] Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

본 논문은 기존 대규모 언어 모델(LLM) 기반 다국어 기계 번역(MMT) 시스템이 겪는 제한적인 언어 커버리지, 불안정한 번역 품질, 그리고 고질적인 영어 중심 편향 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Machine Translation #Large Language Models #Directional Degeneration #Strategic Downsampling #Parallel Multilingual Prompting #Chinese-centric MT #Cross-lingual Transfer #Instruction Tuning

2025년 11월 11일

[논문리뷰] Adaptive Multi-Agent Response Refinement in Conversational Systems

대규모 언어 모델(LLM) 기반 대화 시스템이 사용자 페르소나 정렬 및 사실적 정확도와 같은 복합적인 요구사항을 충족하지 못해 발생하는 불만족스러운 응답 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Multi-Agent Systems #Conversational AI #Response Refinement #Dynamic Agent Selection #Persona Alignment #Factual Grounding #Coherence

2025년 11월 11일

[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.

#Review #Video Anomaly Understanding #Large Language Models #Causal Reasoning #Relation-Aware #Keyframe Sampling #Multimodal LLMs #Scene Graphs

2025년 11월 10일

[논문리뷰] The Station: An Open-World Environment for AI-Driven Discovery

본 논문은 기존의 경직된 최적화 패러다임을 넘어선 AI 주도 자율 과학 발견을 위한 개방형 다중 에이전트 환경인 The Station 을 소개합니다.

#Review #Multi-Agent System #Open-World Environment #Scientific Discovery #AI-Driven Research #Large Language Models #Emergent Behavior #State-of-the-Art (SOTA)

2025년 11월 10일

[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Recurrent Language Models #Pretrained Models #Model Surgery #Curriculum Learning #Test-Time Compute Scaling #Mathematics Reasoning #Efficient Training #Depth Recurrence

2025년 11월 10일

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일

[논문리뷰] SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

이 논문은 대규모 언어 모델(LM) 이 실제 소프트웨어 저장소 의 실제 워크로드 에서 런타임 성능을 얼마나 효과적으로 최적화할 수 있는지 평가하는 것을 목표로 합니다.

#Review #소프트웨어 성능 최적화 #언어 모델 #저장소 수준 추론 #벤치마크 #실제 워크로드 #코드 정확성 #속도 향상 #코드 최적화

2025년 11월 10일

[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

MoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.

#Review #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization #Manifold Regularization #Generalization #Post-training Fine-tuning #Task Embedding Alignment

2025년 11월 10일

[논문리뷰] Robot Learning from a Physical World Model

본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Video Generation #Physical World Model #Reinforcement Learning #Zero-shot Manipulation #Object-Centric Learning #Sim-to-Real

2025년 11월 10일

[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.

#Review #Reinforcement Learning #Large Language Models #Hierarchical Knowledge #Knowledge Traversal #Structured Prompting #Internal Representations #Alignment Tax

2025년 11월 10일

[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

SNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.

#Review #LLM Post-Training #Domain Adaptation #Social Networking Services #Reinforcement Learning #Supervised Fine-Tuning #Catastrophic Forgetting #Data Efficiency

2025년 11월 10일

[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.

#Review #LLM Reasoning Verification #Uncertainty Quantification (UQ)#UHeads #Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning #Computational Efficiency #Domain Generalization

2025년 11월 10일

[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.

#Review #Reinforcement Learning #LLMs #Generalization #Overfitting #Catastrophic Forgetting #Iterative Policy Optimization #Policy Diversity

2025년 11월 10일

[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Language Models #Adaptive Environments #Verifiable Environments #Procedural Generation #Curriculum Learning #Generalization

2025년 11월 10일

[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Speech Recognition #Large Language Models #Audio-Visual Speech Recognition #LoRA #Matryoshka Representation Learning #Elastic Inference #Parameter-Efficient Adaptation

2025년 11월 10일

[논문리뷰] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

본 논문은 자연어 텍스트 설명으로부터 NURBS(Non-Uniform Rational B-Splines) 기반의 고정밀 3D CAD 모델을 직접 생성하는 최초의 프레임워크인 NURBGen 을 제시합니다.

#Review #Text-to-CAD #NURBS Modeling #Large Language Models #Geometric Deep Learning #Boundary Representation #Hybrid Representation #CAD Generation

2025년 11월 10일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일