Review

[논문리뷰] InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

본 연구는 LLM이 인간의 개별적인 추론 스타일, 특히 사회적 맥락에서 사람들의 행동과 의도를 해석하고 적용하는 능력을 평가하는 것을 목표로 합니다.

#Review #LLM Evaluation #Human Reasoning Styles #Social Deduction Games #Theory of Mind #Adaptive Reasoning #Avalon Game #Cognitive Grounding

2025년 8월 25일

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.

#Review #Agentic RAG #Medical Diagnosis #Reinforcement Learning #Traceable AI #Large Language Models #Clinical Decision Support #Out-of-Distribution Generalization #Reward Design

2025년 8월 25일

[논문리뷰] EgoTwin: Dreaming Body and View in First Person

본 논문은 egocentric video 생성 분야의 미개척 영역을 탐구하며, 특히 카메라 착용자의 모션과 시점이 일관되고 인과적으로 연결된 방식으로 egocentric video와 인간 모션을 공동 생성하는 새로운 태스크를 제시합니다.

#Review #Egocentric Video Generation #Human Motion Synthesis #Diffusion Transformers #Multimodal Generation #Viewpoint Alignment #Causal Interplay #First-Person Vision

2025년 8월 25일

[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible

본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #False Premise Detection #Instruction Following #Human-Robot Interaction #Clarification #Instruction Tuning

2025년 8월 25일

[논문리뷰] CRISP: Persistent Concept Unlearning via Sparse Autoencoders

본 논문은 대규모 언어 모델(LLMs)에서 불필요하거나 유해한 지식을 영구적으로 제거(Persistent Concept Unlearning) 하면서도 모델의 일반적인 유용성과 생성 품질을 유지하는 것을 목표로 합니다.

#Review #Concept Unlearning #Sparse Autoencoders (SAEs)#LLMs #Parameter-Efficient Fine-Tuning #Model Interpretability #Safety-Critical AI #Feature Suppression #WMDP Benchmark

2025년 8월 25일

[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Contrastive Learning #Reinforcement Learning #Fine-tuning #Chain-of-Thought (CoT)#Annotated Data #Model Stability

2025년 8월 25일

[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Play #Variational Problem Synthesis #Policy Entropy #Pass@k #Reasoning Benchmarks

2025년 8월 25일

[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 애플리케이션 구축 시 발생하는 유연하고 효율적인 도구 기반 에이전트-환경 상호작용의 어려움을 해결하고자 합니다. 이를 위해 AgentScope 1.0 이라는 개발자 중심 프레임워크를 제시하여, 복잡한 에이전트 애플리케이션 개발을 위한 포괄적인 지원을 목표로 합니다.

#Review #LLM Agents #Agentic Applications #ReAct Paradigm #Framework #Tool Use #Multi-Agent Systems #Developer Experience #Evaluation

2025년 8월 25일

[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.

#Review #Competitive Programming #LLM Evaluation #Code Reasoning #Benchmark #Test Case Generation #Programming Competitions #Algorithmic Problems

2025년 8월 25일

[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists

AI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #AI Agents #Open Access #Scientific Discovery #Peer Review #LLMs #Multi-agent Systems #Prompt Injection #Iterative Refinement

2025년 8월 22일

[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.

#Review #Video-LLM #Diffusion Model #Temporal Grounding #Object Segmentation #Long Video Understanding #Multimodal AI #Video Question Answering

2025년 8월 22일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

본 연구는 극도로 희소한 입력(전면 및 후면 이미지 단 두 장)만으로 3D 인체 가우시안을 재구성하는 도전적인 문제를 해결하고자 합니다. 기존 방법론의 고비용 데이터 수집 및 긴 처리 시간의 한계를 극복하고, 사용자 친화적인 방식으로 디지털 휴먼 생성을 위한 문턱을 낮추는 것을 목표로 합니다.

#Review #3D Human Reconstruction #Gaussian Splatting #Sparse View #Two-Image Input #Real-time Inference #Point Cloud Prediction #Feed-forward Network

2025년 8월 22일

[논문리뷰] SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

본 논문의 핵심 목표는 단일 장면 이미지와 객체 마스크를 입력으로 받아, 최적화나 에셋 검색 과정 없이 하나의 피드포워드 패스 만으로 다수의 3D 에셋(기하학적 구조, 텍스처, 공간 배치 포함)을 동시에 효율적으로 생성하는 것입니다.

#Review #3D Scene Generation #Single-Image Input #Feedforward Networks #Diffusion Models #Geometric Modeling #Texture Synthesis #Transformer #Feature Aggregation

2025년 8월 22일

[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation

본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.

#Review #GUI Automation #Multimodal Agents #Foundational Models #Reinforcement Learning #Large Language Models #Cross-Platform #Self-Supervised Learning

2025년 8월 22일

[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.

#Review #AI Agents #Tool Use #Model Context Protocol (MCP)#Benchmarking #Large Language Models (LLMs)#Real-world Tasks #Evaluation #Error Analysis

2025년 8월 22일

[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model

본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.

#Review #Multimodal Foundation Model #Scientific AI #Reinforcement Learning #Mixture-of-Experts (MoE)#Dynamic Tokenizer #Data Curation #Low-Resource Learning

2025년 8월 22일

[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior

이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.

#Review #AI Companionship #Benchmark #Language Models (LLMs)#Human-AI Interaction #Emotional AI #Boundary Setting #Psychological Frameworks #Evaluation Metrics

2025년 8월 22일

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Process Reward Models #Financial Reasoning #Domain Specialization #RLHF #Best-of-N Selection #Data Curation

2025년 8월 22일

[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual Inquiries

본 논문은 기존 지도 시스템이 구조화된 GIS 데이터에 의존하여 시각적-공간적 질의(예: '카페 입구가 접근 가능한가요?', '문은 어디에 있고 어떻게 생겼나요?')에 답변하는 데 한계가 있음을 지적합니다.

#Review #Geospatial AI #Multimodal AI Agents #Visual Question Answering #Accessibility #Street View Imagery #Spatial Reasoning #Human-Computer Interaction

2025년 8월 22일