[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.#Review#Large Language Models#Sequential Reasoning#Action Space Construction#Submodular Optimization#Markov Decision Process#Monte Carlo Tree Search#Utility-Diversity Trade-off2025년 11월 11일댓글 수 로딩 중
[논문리뷰] BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives본 연구는 생물의학 및 일반 도메인 정보 검색(IR) 시스템의 성능 향상을 목표로 합니다. 특히, 기존 방법론에서 어려움을 겪는 '하드 네거티브' 문서를 효과적으로 식별하고 활용하여, 밀집 검색 모델의 정밀도를 높이고 미묘한 의미적 차이를 학습할 수 있도록 하는 것을 핵심 과제로 삼습니다.#Review#Dense Retrieval#Biomedical IR#Hard Negative Mining#Citation Networks#PubMed#Zero-shot Retrieval#Transformer Models2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces본 논문은 기존 Retrieval-Augmented Generation (RAG) 방법론이 긴 내러티브 내에서 분산된 정보를 다루고, 시간이 지남에 따라 진화하는 상황과 액터의 상태에 대해 추론하는 데 한계가 있음을 지적합니다.#Review#Retrieval-Augmented Generation (RAG)#Episodic Memory#Generative Semantic Workspaces (GSW)#Large Language Models (LLMs)#Question Answering (QA)#Semantic Modeling#Knowledge Graph2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs본 논문은 기존 대규모 언어 모델(LLM) 기반 다국어 기계 번역(MMT) 시스템이 겪는 제한적인 언어 커버리지, 불안정한 번역 품질, 그리고 고질적인 영어 중심 편향 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Machine Translation#Large Language Models#Directional Degeneration#Strategic Downsampling#Parallel Multilingual Prompting#Chinese-centric MT#Cross-lingual Transfer#Instruction Tuning2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Adaptive Multi-Agent Response Refinement in Conversational Systems대규모 언어 모델(LLM) 기반 대화 시스템이 사용자 페르소나 정렬 및 사실적 정확도와 같은 복합적인 요구사항을 충족하지 못해 발생하는 불만족스러운 응답 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Multi-Agent Systems#Conversational AI#Response Refinement#Dynamic Agent Selection#Persona Alignment#Factual Grounding#Coherence2025년 11월 11일댓글 수 로딩 중
[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.#Review#Video Anomaly Understanding#Large Language Models#Causal Reasoning#Relation-Aware#Keyframe Sampling#Multimodal LLMs#Scene Graphs2025년 11월 10일댓글 수 로딩 중
[논문리뷰] The Station: An Open-World Environment for AI-Driven Discovery본 논문은 기존의 경직된 최적화 패러다임을 넘어선 AI 주도 자율 과학 발견을 위한 개방형 다중 에이전트 환경인 The Station 을 소개합니다.#Review#Multi-Agent System#Open-World Environment#Scientific Discovery#AI-Driven Research#Large Language Models#Emergent Behavior#State-of-the-Art (SOTA)2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.#Review#Recurrent Language Models#Pretrained Models#Model Surgery#Curriculum Learning#Test-Time Compute Scaling#Mathematics Reasoning#Efficient Training#Depth Recurrence2025년 11월 10일댓글 수 로딩 중
[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.#Review#LLM#Reinforcement Learning#Soft-Thinking#Gumbel Reparameterization#Policy Optimization#Chain-of-Thought (CoT)#GRPO2025년 11월 10일댓글 수 로딩 중
[논문리뷰] SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?이 논문은 대규모 언어 모델(LM) 이 실제 소프트웨어 저장소 의 실제 워크로드 에서 런타임 성능을 얼마나 효과적으로 최적화할 수 있는지 평가하는 것을 목표로 합니다.#Review#소프트웨어 성능 최적화#언어 모델#저장소 수준 추론#벤치마크#실제 워크로드#코드 정확성#속도 향상#코드 최적화2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMsMoE LLM의 라우터가 최적의 라우팅 대비 10-20%의 성능 격차 를 보이며, 태스크 임베딩 매니폴드와 라우팅 가중치 매니폴드 간의 misalignment로 인해 일반화 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 이를 통해 MoE LLM의 라우팅 효율성과 일반화 성능을 향상시키고자 합니다.#Review#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Router Optimization#Manifold Regularization#Generalization#Post-training Fine-tuning#Task Embedding Alignment2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Robot Learning from a Physical World Model본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.#Review#Robot Learning#Video Generation#Physical World Model#Reinforcement Learning#Zero-shot Manipulation#Object-Centric Learning#Sim-to-Real2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.#Review#Reinforcement Learning#Large Language Models#Hierarchical Knowledge#Knowledge Traversal#Structured Prompting#Internal Representations#Alignment Tax2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking ServicesSNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.#Review#LLM Post-Training#Domain Adaptation#Social Networking Services#Reinforcement Learning#Supervised Fine-Tuning#Catastrophic Forgetting#Data Efficiency2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.#Review#LLM Reasoning Verification#Uncertainty Quantification (UQ)#UHeads#Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning#Computational Efficiency#Domain Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.#Review#Reinforcement Learning#LLMs#Generalization#Overfitting#Catastrophic Forgetting#Iterative Policy Optimization#Policy Diversity2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Language Models#Adaptive Environments#Verifiable Environments#Procedural Generation#Curriculum Learning#Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.#Review#Multimodal Speech Recognition#Large Language Models#Audio-Visual Speech Recognition#LoRA#Matryoshka Representation Learning#Elastic Inference#Parameter-Efficient Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling본 논문은 자연어 텍스트 설명으로부터 NURBS(Non-Uniform Rational B-Splines) 기반의 고정밀 3D CAD 모델을 직접 생성하는 최초의 프레임워크인 NURBGen 을 제시합니다.#Review#Text-to-CAD#NURBS Modeling#Large Language Models#Geometric Deep Learning#Boundary Representation#Hybrid Representation#CAD Generation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Multi-Video Understanding#Evaluation Benchmark#Video Perception#Video Reasoning#Sports Analytics#Autonomous Driving2025년 11월 10일댓글 수 로딩 중