[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.#Review#Mechanistic Interpretability#Attention Heads#Post-Training#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis#Reasoning Models#Transformer Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain본 논문은 기존 Transformer 모델이 CoT (Chain-of-Thought) 추론 의 일반화와 뇌 기능에 대한 미시적 해석을 제공하지 못하는 한계를 지적합니다.#Review#Large Language Models#Brain-Inspired AI#Graph Neural Networks#Hebbian Learning#Scale-Free Networks#Model Interpretability#Transformer Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.#Review#Large Language Models#Multi-turn Interaction#Test-Time Adaptation#Reinforcement Learning from Human Feedback#Policy Optimization#Online Learning#Self-Correction2025년 10월 1일댓글 수 로딩 중
[논문리뷰] TTT3R: 3D Reconstruction as Test-Time Training본 논문은 최신 RNN 기반 3D 재구성 모델 이 긴 시퀀스에 적용될 때 발생하는 길이 일반화(length generalization) 부족 과 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#3D Reconstruction#Test-Time Training (TTT)#Recurrent Neural Networks (RNN)#Online Learning#Length Generalization#Associative Memory#State Update Rule2025년 10월 1일댓글 수 로딩 중
[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond SemanticsAI 모델이 지역별 문화적 맥락을 이해하고 비의미론적(non-semantic) 음향 신호를 해석하는 능력의 부족을 해결하는 것을 목표로 합니다.#Review#Audio Language Models#Cultural Sound Understanding#Localized Benchmark#Non-semantic Audio#Human-in-the-loop#Multimodal AI#Taipei Soundscape2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models본 논문은 대규모 파운데이션 모델에서 Test-Time Training (TTT) 의 효과를 심층적으로 이해하고, 특히 모델이 이미 학습한 in-distribution 데이터 에 대해서도 TTT가 성능 향상을 가져올 수 있는지 규명하는 것을 목표로 합니다.#Review#Test-Time Training (TTT)#Foundation Models#Underparameterization#Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization#Scaling Laws#In-Distribution Data2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Regression Language Models for Code본 논문은 다양한 프로그래밍 언어 및 컴파일 수준의 코드 실행으로부터 메모리 사용량, 지연 시간, 신경망 정확도 와 같은 수치적 메트릭을 예측하는 문제를 다룹니다.#Review#Regression Language Model#Code Performance Prediction#Static Analysis#Neural Architecture Search#Text-to-Text Regression#Multi-task Learning#T5Gemma#ONNX2025년 10월 1일댓글 수 로딩 중
[논문리뷰] ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation본 논문은 기존의 블랙박스 비디오 분류기가 다중 시점(multi-view) 컨텍스트를 무시하고 설명 가능성이 부족하다는 문제점을 해결하고자 합니다.#Review#Video-Language Model#Proficiency Estimation#Multi-View Video#Action Quality Assessment#Lightweight Model#Generative Feedback2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark본 연구는 대규모 언어 모델(LLM)이 고등학교 수준의 수학 및 코딩 과제에서는 진전을 보였지만, 현대 물리학 연구에서 발생하는 복잡하고 개방형의 난제들을 얼마나 효과적으로 추론하고 해결할 수 있는지 평가하는 것을 목표로 합니다.#Review#AI Reasoning#Physics Research#LLM Evaluation#Scientific Benchmark#Frontier Physics#Problem Solving#Model Reliability#Auto-grading2025년 10월 1일댓글 수 로딩 중
[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.#Review#Large Language Models (LLMs)#Operational Safety#Out-of-Domain (OOD)#Prompt Steering#Jailbreak Attacks#Evaluation Benchmark#Refusal Rate2025년 10월 1일댓글 수 로딩 중
[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.#Review#Underwater Robotics#Embodied AI#Benchmark Environment#Multi-modal Large Language Models#Autonomous Underwater Vehicles#Perception#Decision-Making#Simulation2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation본 연구는 기존 이미지-투-비디오(Image-to-Video) 생성 모델이 시각적 충실도는 높지만, 물리적으로 그럴듯하고 의미론적으로 일관된 동작을 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Image-to-Video Generation#Motion Transfer#Retrieval-Augmented Generation (RAG)#In-Context Learning#Diffusion Models#Video Diffusion#Motion Realism2025년 10월 1일댓글 수 로딩 중
[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.#Review#Vision-Language Models#Multimodal Reasoning#Reasoning#Visual Forgetting#Perceptual Grounding#Reinforcement Learning#Policy Optimization#Visual Anchors2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.#Review#LLM Agents#External Memory#Reinforcement Learning#Memory Management#Long-Context Understanding#Tool Learning#RAG#Memory Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.#Review#LLM Agents#Model Context Protocol#Benchmark#Tool Use#CRUD Operations#Workflow Automation#Stress Testing#Evaluation2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification기존 확산 모델 기반의 적대적 정화(Adversarial Purification, AP) 방식이 균일한 노이즈 주입으로 인해 이미지의 의미론적 구조를 손상시키고 강건성을 저해하는 문제를 해결하는 것이 목표입니다.#Review#Adversarial Purification#Diffusion Models#Frequency Domain#Adaptive Noise Injection#Robustness#Image Security#Magnitude Spectrum2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training본 논문은 텍스트 전용 사전 훈련을 통해 대규모 언어 모델(LLM)이 시각적 세계에 대해 습득하는 내재된 시각적 사전 지식(visual priors)의 구조와 기원 을 체계적으로 밝히는 것을 목표로 합니다.#Review#LLM Visual Priors#Language Pre-training#Multimodal LLM#Data Mixture Optimization#Reasoning Prior#Perception Prior#VQA#MLE-Bench2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs본 연구는 AI-생성 비디오에서 인간이 인지하는 '딥페이크 흔적'을 식별하고 그 이유를 근거 있게 설명할 수 있는가에 대한 문제를 해결하고자 합니다.#Review#AI-Generated Videos#Deepfake Detection#Multimodal LLMs#Human Perception#Video Generation Evaluation#Spatiotemporal Annotation#Reward Modeling2025년 10월 1일댓글 수 로딩 중
[논문리뷰] LayerD: Decomposing Raster Graphic Designs into Layers본 논문은 합성된 래스터 그래픽 디자인 이미지에서 레이어 정보를 복원하여 디자이너가 편집하기 어려운 문제를 해결하고자 합니다. 래스터 그래픽 디자인을 재편집 가능한 레이어 시퀀스로 자동 분해함으로써, 기존 래스터 아트워크 자산을 활용하여 새로운 아트워크를 생성하는 창의적인 워크플로우를 가능하게 하는 것을 목표로 합니다.#Review#Graphic Design#Image Decomposition#Layer Extraction#Image Matting#Background Completion#Deep Learning#Creative AI#Dynamic Time Warping2025년 10월 1일댓글 수 로딩 중