[논문리뷰] LongCat-Flash-Omni Technical ReportLongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중
[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.#Review#Video Generation#World Models#Surgical AI#Zero-shot Prediction#Expert Evaluation#Plausibility Gap#Medical Simulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.#Review#Test-Time Scaling#LLMs#Graph Optimization#REINFORCE#Multi-agent Systems#Adaptive Architectures#Compute-optimal Scaling#Probabilistic Graphs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다.#Review#GUI Grounding#Multimodal Attention#MLLMs#Coordinate-Free#Visual Grounding#Attention Weighting#Anchor Token2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.#Review#Energy-Based Models (EBMs)#Diffusion Policy#Robotics#Behavior Cloning#Physical Reasoning#Uncertainty Modeling#Emergent Behavior#Robot Manipulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions#Data Selection#Off-Policy Learning#Curriculum Learning#Large Language Models (LLMs)#Sparse Random Projection#Data Efficiency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.#Review#LLM Benchmarking#Cyber Threat Intelligence (CTI)#Dynamic Evaluation#CTI Reasoning#Vulnerability Prediction#Threat Actor Attribution#Risk Mitigation#Natural Language Processing2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Spatial Reasoning#Viewpoint Learning#Two-Stage Fine-tuning#3D Consistency#Viewpoint-100K#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models#Policy Optimization#Robotics#Flow Matching#SDE#MDP2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning본 논문은 MLLM(Multimodal Large Language Model) 기반 embodied agent 가 시각적 백도어 공격에 취약함을 지적하고, 이 문제를 해결하고자 합니다.#Review#Visual Backdoor Attacks#MLLM Embodied Agents#Contrastive Trigger Learning#Policy Manipulation#Adversarial AI#Embodied AI Security#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.#Review#LLM Alignment#Value Drift#Supervised Fine-Tuning (SFT)#Preference Optimization#RLHF#Llama-3#Qwen-3#Human Values2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.#Review#Self-supervised learning#Reinforcement Learning#Spatial Understanding#Vision-Language Models#Pretext Tasks#RGB-D Images#Spatial Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens현재 암시적 CoT(implicit CoT) 방법론이 직면한 두 가지 핵심 문제, 즉 (1) 암시적 추론과 실제 추론 간의 의미적 정렬 부족 으로 인한 성능 저하와 (2) 개별 암시적 추론 토큰 생성에 필요한 높은 연산 비용 을 해결하는 것을 목표로 합니다.#Review#Chain-of-Thought (CoT)#Implicit Reasoning#LLMs#Semantic Alignment#Efficiency Optimization#Knowledge Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models본 논문은 Vision-Language Models (VLMs)에서 사용되는 멀티모달 위치 인코딩, 특히 Rotary Positional Embedding (RoPE) 에 대한 체계적인 연구 부족 문제를 해결하고자 합니다.#Review#Multimodal Positional Encoding#Vision-Language Models#Rotary Positional Embedding (RoPE)#Transformer#Multimodal Understanding#Visual Grounding#Frequency Allocation#Position Design2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.#Review#Conversational Recommender Systems#Large Language Models#Reinforcement Learning#Group Relative Policy Optimization#Rank-based Learning#Supervised Fine-tuning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals본 논문은 Distribution Matching Distillation (DMD) 을 통해 스코어 기반 생성 모델을 효율적인 few-step 생성기로 증류하는 과정에서 발생하는 한계점들을 해결하고자 합니다.#Review#Distribution Matching Distillation#Few-step Diffusion#Score Matching#Mixture-of-Experts#Generative Models#Image Generation#Video Generation#Model Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows본 연구는 복잡한 모바일 GUI 환경에서 자율 에이전트의 안전 문제 , 특히 시스템 침해 및 개인 정보 유출과 같은 예상치 못한 위험을 효과적으로 탐지하는 문제를 해결하고자 합니다. 기존의 안전 탐지 인프라와 전략이 미흡한 점을 개선하여, 모바일 에이전트 안전 연구의 체계적인 기반을 마련하는 것이 목표입니다.#Review#Mobile GUI Agents#Agent Safety#Hybrid Detection#Formal Verification#VLM-based Contextual Judgment#Safety Benchmark#Risk Detection2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games본 연구는 기존 게임 이론에서 충분히 다뤄지지 않은 Bounded One-Sided Response Games (BORGs) 라는 동적 상호작용 패턴을 연구하기 위한 재현 가능한 벤치마크 환경 을 제공하는 것을 목표로 합니다.#Review#Bounded One-Sided Response Games (BORGs)#Monopoly Deal#Benchmark Environment#Counterfactual Regret Minimization (CFR)#Imperfect Information Games#Game Theory#Self-Play#State Abstraction2025년 11월 9일댓글 수 로딩 중