Review

[논문리뷰] From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

본 논문은 화학 반응 조건 추천에서 단순히 '무엇(what)'을 예측하는 것을 넘어 '왜(why)' 특정 조건이 적절한지에 대한 설명 가능한 근거 를 제공하는 것을 목표로 합니다.

#Review #Multi-Agent System #Chemical Reaction Prediction #Explainable AI #Evidence-Based Reasoning #Large Language Models #Tool-Augmented LLMs #Scientific Discovery

2025년 10월 10일

[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.

#Review #Large Language Models (LLMs)#Reasoning #Chain-of-Thought (CoT)#Reflection #Early Stopping #Supervised Fine-tuning (SFT)#Token Efficiency #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] Fidelity-Aware Data Composition for Robust Robot Generalization

본 논문은 대규모 시각적으로 균질한 데이터셋으로 훈련된 로봇 정책이 Shortcut Learning 에 취약하여 Out-of-Distribution (OOD) 일반화 가 저해되는 문제를 해결하고자 합니다.

#Review #Robot Generalization #Data Augmentation #Out-of-Distribution (OOD)#Shortcut Learning #Information Fidelity #Data Composition #Diffusion Models #Multi-View Video Synthesis

2025년 10월 10일

[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.

#Review #Entropy Regularization #Activation Functions #Continuous Control #Large Language Models #Image Classification #Reinforcement Learning #Policy Stochasticity #Entropy Constraints

2025년 10월 10일

[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.

#Review #Dexterous Manipulation #In-Hand Rotation #Sim-to-Real Transfer #Neural Dynamics Model #Joint-Wise Learning #Autonomous Data Collection #Reinforcement Learning #Robotics

2025년 10월 10일

[논문리뷰] DeepPrune: Parallel Scaling without Inter-trace Redundancy

논문은 LLM의 병렬 추론(parallel reasoning)에서 발생하는 심각한 inter-trace redundancy 문제 를 해결하고, 높은 성능을 유지하면서도 계산 효율성을 대폭 향상 시키는 것을 목표로 합니다.

#Review #Parallel Scaling #Chain-of-Thought #LLM Reasoning #Dynamic Pruning #Inter-trace Redundancy #Judge Model #Resource Efficiency #Answer Diversity

2025년 10월 10일

[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #LLM Agents #Self-Evolution #Reinforcement Learning #Interaction Rewards #LLM-as-a-Judge #Decentralized Learning

2025년 10월 10일

[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Deep Search Agents #Dynamic Context Window #Reinforcement Learning #Long-horizon Interaction #Context Management #High-difficulty Tasks #Multi-turn Reasoning #Web Agents

2025년 10월 10일

[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization

대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Quantization #Optimizers #LLM #Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation #Scaling Laws #Shampoo

2025년 10월 10일

[논문리뷰] Agent Learning via Early Experience

본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.

#Review #Language Agents #Early Experience #Reward-Free Learning #World Modeling #Self-Reflection #Imitation Learning #Reinforcement Learning #Out-of-Domain Generalization

2025년 10월 10일

[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.

#Review #3D Reconstruction #Monocular SLAM #Gaussian Splatting #Level of Detail (LoD)#Feed-Forward Models #Structured Scene Representation #Real-time #High-Fidelity

2025년 10월 10일

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일

[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

로봇 조작을 위한 VLA(Vision-Language-Action) 모델 은 미세한 손-객체 상호작용을 포착하는 손목 시점(wrist-view) 관찰에 크게 의존하지만, 대규모 데이터셋에서는 이러한 손목 시점 데이터가 부족합니다.

#Review #4D World Models #Robotic Manipulation #Video Generation #Multi-view Synthesis #Visual-Language-Action (VLA)#Geometric Consistency #Diffusion Models #Wrist-View

2025년 10월 9일

[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.

#Review #Low-Precision Training #Flash Attention #Transformer #Numerical Stability #BF16 #Rounding Error #Gradient Bias #Deep Learning Optimization

2025년 10월 9일

[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.

#Review #LLM Factuality Evaluation #Benchmark Aging #Temporal Misalignment #Information Retrieval #Question Answering #Evaluation Metrics #GPT-4o-mini #Qwen2.5

2025년 10월 9일

[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference

본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Code Evaluation #Instruction Following #Human Preference #Large Language Models #Vibe Check #Non-functional Requirements #VeriCode

2025년 10월 9일

[논문리뷰] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking

의료 영상 분할 분야에서 수천 가지의 U-Net 변형 모델이 제안되었음에도 불구하고, 이들의 성능과 실용성을 포괄적으로, 통계적으로 엄격하게, 그리고 효율성을 고려하여 평가하는 종합적인 벤치마크의 부재를 해결하는 것이 목표입니다.

#Review #U-Net #Medical Image Segmentation #Benchmarking #Performance Evaluation #Efficiency Metrics #Zero-shot Generalization #U-Score

2025년 10월 9일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

본 연구는 전 세계 언어의 거의 3분의 1을 차지함에도 불구하고 현대 NLP 기술에서 심각하게 소외된 아프리카 언어 의 기술적 격차를 해소하는 것을 목표로 합니다. 체계적인 데이터 수집, 모델 개발 및 역량 강화를 통해 저자원 아프리카 언어 NLP 를 발전시키고자 합니다.

#Review #Low-Resource NLP #African Languages #Data Collection #Multilingual Models #Fine-Tuning #Speech Data #Text Data #Capacity Building

2025년 10월 9일

[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models

이 논문은 기존의 Vision-Language Models (VLMs) 이 훈련 후 정적인 상태로 남아 레이블링된 데이터 없이 환경과 상호작용하며 추론 시점에 즉시 적응할 수 없다는 한계를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Test-Time Adaptation #Unsupervised Learning #Image Recognition #Visual Question Answering (VQA)#Group Relative Policy Optimization (GRPO)#Entropy Regularization

2025년 10월 9일