최신 포스트

[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Surgical AI #Zero-shot Prediction #Expert Evaluation #Plausibility Gap #Medical Simulation

2025년 11월 9일

[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.

#Review #Test-Time Scaling #LLMs #Graph Optimization #REINFORCE #Multi-agent Systems #Adaptive Architectures #Compute-optimal Scaling #Probabilistic Graphs

2025년 11월 9일

[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Multimodal Attention #MLLMs #Coordinate-Free #Visual Grounding #Attention Weighting #Anchor Token

2025년 11월 9일

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Reasoning Capability #Sparse Activation #Scaling Laws #FP8 Training #Efficient Training #Instruction Tuning

2025년 11월 9일

[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.

#Review #Energy-Based Models (EBMs)#Diffusion Policy #Robotics #Behavior Cloning #Physical Reasoning #Uncertainty Modeling #Emergent Behavior #Robot Manipulation

2025년 11월 9일

[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Benchmarking #Visual Measurement Reading #Synthetic Data Generation #Fine-grained Perception #Spatial Grounding #Reinforcement Learning

2025년 11월 9일

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일

[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Benchmarking #Cyber Threat Intelligence (CTI)#Dynamic Evaluation #CTI Reasoning #Vulnerability Prediction #Threat Actor Attribution #Risk Mitigation #Natural Language Processing

2025년 11월 9일

[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Viewpoint Learning #Two-Stage Fine-tuning #3D Consistency #Viewpoint-100K #Reinforcement Learning

2025년 11월 9일

[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models #Policy Optimization #Robotics #Flow Matching #SDE #MDP

2025년 11월 9일

[논문리뷰] Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

본 논문은 MLLM(Multimodal Large Language Model) 기반 embodied agent 가 시각적 백도어 공격에 취약함을 지적하고, 이 문제를 해결하고자 합니다.

#Review #Visual Backdoor Attacks #MLLM Embodied Agents #Contrastive Trigger Learning #Policy Manipulation #Adversarial AI #Embodied AI Security #Multimodal LLMs

2025년 11월 9일

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.

#Review #LLM Alignment #Value Drift #Supervised Fine-Tuning (SFT)#Preference Optimization #RLHF #Llama-3 #Qwen-3 #Human Values

2025년 11월 9일

[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.

#Review #Self-supervised learning #Reinforcement Learning #Spatial Understanding #Vision-Language Models #Pretext Tasks #RGB-D Images #Spatial Reasoning

2025년 11월 9일

[논문리뷰] SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

현재 암시적 CoT(implicit CoT) 방법론이 직면한 두 가지 핵심 문제, 즉 (1) 암시적 추론과 실제 추론 간의 의미적 정렬 부족 으로 인한 성능 저하와 (2) 개별 암시적 추론 토큰 생성에 필요한 높은 연산 비용 을 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Implicit Reasoning #LLMs #Semantic Alignment #Efficiency Optimization #Knowledge Distillation

2025년 11월 9일

[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models

본 논문은 Vision-Language Models (VLMs)에서 사용되는 멀티모달 위치 인코딩, 특히 Rotary Positional Embedding (RoPE) 에 대한 체계적인 연구 부족 문제를 해결하고자 합니다.

#Review #Multimodal Positional Encoding #Vision-Language Models #Rotary Positional Embedding (RoPE)#Transformer #Multimodal Understanding #Visual Grounding #Frequency Allocation #Position Design

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

본 논문은 Distribution Matching Distillation (DMD) 을 통해 스코어 기반 생성 모델을 효율적인 few-step 생성기로 증류하는 과정에서 발생하는 한계점들을 해결하고자 합니다.

#Review #Distribution Matching Distillation #Few-step Diffusion #Score Matching #Mixture-of-Experts #Generative Models #Image Generation #Video Generation #Model Distillation

2025년 11월 9일

[논문리뷰] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

본 연구는 복잡한 모바일 GUI 환경에서 자율 에이전트의 안전 문제 , 특히 시스템 침해 및 개인 정보 유출과 같은 예상치 못한 위험을 효과적으로 탐지하는 문제를 해결하고자 합니다. 기존의 안전 탐지 인프라와 전략이 미흡한 점을 개선하여, 모바일 에이전트 안전 연구의 체계적인 기반을 마련하는 것이 목표입니다.

#Review #Mobile GUI Agents #Agent Safety #Hybrid Detection #Formal Verification #VLM-based Contextual Judgment #Safety Benchmark #Risk Detection

2025년 11월 9일

[논문리뷰] Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games

본 연구는 기존 게임 이론에서 충분히 다뤄지지 않은 Bounded One-Sided Response Games (BORGs) 라는 동적 상호작용 패턴을 연구하기 위한 재현 가능한 벤치마크 환경 을 제공하는 것을 목표로 합니다.

#Review #Bounded One-Sided Response Games (BORGs)#Monopoly Deal #Benchmark Environment #Counterfactual Regret Minimization (CFR)#Imperfect Information Games #Game Theory #Self-Play #State Abstraction

2025년 11월 9일

[논문리뷰] MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

본 연구는 건강 관련 허위 정보, 특히 과학적 발견을 왜곡하거나 오해하는 주장 내에 숨겨진 논리적 오류를 탐지하는 LLM의 능력 을 향상시키는 것을 목표로 합니다.

#Review #Health Misinformation #Logical Fallacy Classification #Synthetic Data Generation #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Parameter-Efficient Fine-tuning (PEFT)#LoRA #MISSCI Benchmark

2025년 11월 9일