Review

[논문리뷰] Agentic Reasoning for Large Language Models

본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.

#Review #Agentic Reasoning #LLM Agents #Self-Evolving AI #Multi-Agent Systems #Planning #Tool Use #Retrieval-Augmented Generation #Reinforcement Learning

2026년 1월 21일

[논문리뷰] AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

본 논문은 LLM의 자율적인 EHR(전자건강기록) 탐색 및 임상 의사 결정 능력이 현재까지 이상화된 실험 설정에 의해 제한되어 있음을 지적합니다. 특히, 기존 요약 방식의 정보 손실과 추론 단절 문제를 해결하여 복잡한 임상 진단 및 치료 계획 태스크 에서 장문 맥락 상호작용 추론 을 가능하게 하는 것을 목표로 합니다.

#Review #Clinical Decision-Making #LLM Agents #EHR #Retrospective Summarization #Long-Context Reasoning #Experience Replay #Healthcare AI

2026년 1월 21일

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

의료 영상 이해(semantic abstraction)와 생성(pixel-level reconstruction)이라는 근본적으로 상충하는 목표를 기존 파라미터 공유 방식의 단일 모델에서 통합할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Chest X-Ray #Medical Foundation Model #Autoregressive Model #Diffusion Model #Multimodal Learning #Image Understanding #Image Generation #Cross-Modal Attention

2026년 1월 20일

[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Memory Management #Tool Learning #AI Planning #Resource Optimization #Cost-Performance Trade-off

2026년 1월 20일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일

[논문리뷰] Think3D: Thinking with Space for Spatial Reasoning

기존 Vision-Language Models (VLMs) 이 2D 인식을 넘어선 진정한 3D 공간 추론 능력 과 일관된 공간 표현을 구축하는 데 한계가 있음을 해결하고자 합니다.

#Review #Spatial Reasoning #3D Reconstruction #VLM Agents #Tool Calling #Reinforcement Learning #Novel View Synthesis #Iterative Exploration

2026년 1월 20일

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일

[논문리뷰] PRiSM: Benchmarking Phone Realization in Speech Models

기존 음소 인식(PR) 평가 방식이 표면적인 전사 정확도에만 초점을 맞추고, 실제 음성 모델의 음소적 능력과 표현의 미묘한 품질을 포착하지 못하며, 연구 간 비교가 어렵다는 문제를 해결하고자 합니다.

#Review #Phone Recognition #Speech Models #Benchmarking #Phonetic Analysis #Cross-lingual Speech #LALMs #Intrinsic Evaluation #Extrinsic Evaluation

2026년 1월 20일

[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing

본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.

#Review #Membership Inference Attacks #Copyright Auditing #Large Language Models #Adversarial Robustness #Paraphrasing #Sparse Autoencoders #Semantic Preservation #LLM Security

2026년 1월 20일

[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.

#Review #Video Transfer #Diffusion Models #Spatio-temporal Learning #Multimodal Alignment #Appearance Consistency #Temporal Control #Video Generation

2026년 1월 20일

[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.

#Review #Reward Models #LLM Memory Management #Benchmarking #Long Context #Evaluation Metrics #Generative RMs #Memory Management Patterns

2026년 1월 20일

[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.

#Review #OCR #Vision-Language Model #End-to-End Learning #Multilingual #Reinforcement Learning #Document Understanding #Bounding Box Prediction #Task Arithmetic Merging

2026년 1월 20일

[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다.

#Review #LLM Explainability #Causal Inference #Structural Counterfactuals #Concept-Based Explanations #Evaluation Benchmark #Faithfulness #SCM

2026년 1월 20일

[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning

픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Visual Generalization #Distribution Shift #Benchmarking #JAX #Controlled Environments #PPO

2026년 1월 20일

[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.

#Review #Multimodal LLMs #Future Forecasting #Audio-Visual Reasoning #Benchmark #Instruction Tuning #Omni-Modal #Causal Reasoning

2026년 1월 20일

[논문리뷰] Fundamental Limitations of Favorable Privacy-Utility Guarantees for DP-SGD

이 논문은 차등 프라이버시(DP)를 적용한 확률적 경사하강법(DP-SGD)의 근본적인 한계를 f-차등 프라이버시(f-DP) 프레임워크 하에서 분석하는 것을 목표로 합니다.

#Review #Differential Privacy (DP)#DP-SGD #f-differential privacy #Privacy-Utility Trade-off #Shuffled Sampling #Poisson Subsampling #Gaussian Noise #Worst-Case Adversary

2026년 1월 20일

[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Vision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Chain-of-Thought Reasoning #Multimodal AI #Implicit Reasoning #Visual AutoRegressor #Embodied AI #Long-Horizon Planning

2026년 1월 20일

[논문리뷰] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

논문은 다양한 로봇 플랫폼에 걸쳐 견고한 Cross-Embodiment Generalization 을 달성하기 위한 Human-Centric Robot Learning 패러다임을 제안합니다.

#Review #Robot Learning #Cross-Embodiment Generalization #Vision-Language-Action Models #Human-Centric Learning #Unified Action Space #Mixture-of-Flow #Real-Time Deployment #Large-Scale Datasets

2026년 1월 20일

[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning

본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.

#Review #Agentic AI #World Models #Experience Learning #LLMs #Physical Hallucinations #Embodied AI #Predictive Coding #Knowledge Repository

2026년 1월 20일

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일