[논문리뷰] When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs본 연구는 LLM이 프롬프트 구문 및 형식의 미묘한 비의미적 변화에 매우 민감하게 반응하는 문제를 해결하고자 합니다.#Review#LLM Robustness#Prompt Sensitivity#In-Context Learning#Fine-Tuning#Batch Calibration#Template Ensembles#Distribution Shift2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models본 설문조사 논문은 기존 Transformer 기반 대규모 언어 모델(LLMs)의 Quadratic 복잡성 과 높은 연산 및 메모리 요구사항 으로 인한 비효율성 문제를 해결하기 위한 혁신적인 아키텍처를 체계적으로 검토하는 것을 목표로 합니다.#Review#Large Language Models#Efficient Architectures#Transformer Optimization#Linear Attention#State Space Models#Mixture-of-Experts#Sparse Attention#Diffusion LLMs2025년 8월 19일댓글 수 로딩 중
[논문리뷰] S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models본 논문은 확산 모델에서 널리 사용되는 Classifier-free Guidance (CFG) 가 종종 의미론적 불일치와 낮은 품질의 결과물을 초래하는 문제를 해결하고자 합니다.#Review#Diffusion Models#Classifier-free Guidance#Self-Guidance#Training-Free#Stochastic Block-Dropping#Generative Models#Text-to-Image2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Representing Speech Through Autoregressive Prediction of Cochlear Tokens본 논문은 인간의 청각 처리 계층에서 영감을 받아, 유연하고 효율적으로 음성 정보를 이해하고 상호작용하는 인공 신경망 모델을 개발하는 것을 목표로 합니다.#Review#Speech Representation Learning#Autoregressive Models#Cochlear Tokens#Biologically Inspired AI#Self-Supervised Learning#Audio Processing#Transformer Networks2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning with Rubric Anchors이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Rubric-based Reward#RLVR Extension#Human-centric AI#Controllable Generation#Reward Hacking Mitigation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Precise Action-to-Video Generation Through Visual Action Prompts본 논문은 복잡하고 고자유도(high-DoF)의 상호작용(예: 인간의 손 또는 로봇 그리퍼 동작)을 위한 비디오 생성에서 정밀성과 범용성 간의 트레이드오프 문제를 해결하고자 합니다.#Review#Action-to-Video Generation#Visual Action Prompts#Skeleton Representation#Human-Object Interaction#Robotic Manipulation#Cross-Domain Transfer#Diffusion Models2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Ovis2.5 Technical ReportOvis2.5는 이전 Ovis 버전의 한계, 특히 고정 해상도 이미지 처리와 선형 사고 체인(CoT) 기반 추론의 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Native Resolution Vision#Deep Reasoning#Chart Analysis#OCR#Visual Grounding#Training Efficiency#Preference Optimization2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Next Visual Granularity Generation본 논문은 기존 이미지 생성 모델들이 이미지를 평면적이거나 비구조적인 데이터로 취급하여 미세한 제어 및 오류 누적에 한계가 있다는 문제점을 해결하고자 합니다.#Review#Image Generation#Granularity Control#Structured Representation#Hierarchical Generation#Coarse-to-fine#Visual Tokenization#Latent Space2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model본 논문은 기존 인터랙티브 월드 모델이 양방향 어텐션과 긴 추론 단계로 인해 발생하는 지연 문제를 해결하고 실시간 성능을 개선하는 것을 목표로 합니다.#Review#World Model#Interactive Video Generation#Real-Time AI#Diffusion Models#Auto-Regressive Generation#Data Pipeline#Self-Forcing#KV Caching2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models본 연구는 비디오에서 배경을 교체하고 동시에 포그라운드의 조명을 조화롭게 조정하는 비디오 리라이팅 태스크를 해결하는 것을 목표로 합니다. 특히, 포그라운드의 본래 속성(예: 알베도, 텍스처)을 일관되게 보존 하면서 시간적 프레임 간 일관된 조명 변경을 전파 하는 것이 주된 도전 과제입니다.#Review#Video Relighting#Background Replacement#Generative Models#Diffusion Models#Temporal Consistency#Dataset Generation#Video Editing2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.#Review#Multimodal Learning#Vision-Language Models#Alignment Pre-training#Text-to-Vision Mapping#Continuous Representations#Computational Efficiency#LLM2025년 8월 19일댓글 수 로딩 중
[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.#Review#Long-Horizon Planning#Structured Reasoning#LLM Evaluation#Virtual Worlds#RPG#Benchmark#Agent Systems#Combat Simulation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study이 연구는 최신 MLLM(Multi-modal Large Language Model) , 특히 GPT-5 가 인공 일반 지능(AGI)의 핵심 역량인 공간 이해 및 추론 능력을 얼마나 달성했는지 실증적으로 평가하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Benchmark Evaluation#GPT-5#Cognitive AI#AGI2025년 8월 19일댓글 수 로딩 중
[논문리뷰] G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration본 논문은 기존의 피드포워드(feed-forward) 3D 재구성 모델들이 RGB 이미지에만 의존하여 보조 데이터(깊이 맵, 카메라 내/외부 파라미터)를 활용하지 못하는 한계를 해결하고자 합니다.#Review#3D Reconstruction#Deep Learning#Multi-Modal Fusion#Camera Pose Estimation#Depth Estimation#Transformer Networks#Prior Information2025년 8월 19일댓글 수 로딩 중
[논문리뷰] ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning본 논문은 대규모 언어 모델(LLM)의 제한된 컨텍스트 길이와 높은 연산 비용 문제, 그리고 기존 RAG(Retrieval-Augmented Generation) 방식의 상태 비저장(stateless) 및 단일 단계(single-step) 검색 한계를 해결하여 복잡한 장편 내러티브 이해 를 목표로 합니다.#Review#Cognitive-Inspired RAG#Stateful Reasoning#Long Narrative Comprehension#Dynamic Memory#Metacognitive Regulation#Multi-step Retrieval#Hierarchical Knowledge Source2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information본 논문은 기존 수학 벤치마크가 잘 정의된 문제 해결 능력에만 초점을 맞추는 한계를 지적하며, Large Reasoning Models (LRMs) 이 정보가 불충분한 문제에 직면했을 때 능동적으로 정보를 요청하는 능력 을 평가하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Information Seeking#Incomplete Problems#Mathematical Reasoning#Supervised Fine-tuning (SFT)#Overthinking#Hallucination#CRITIC-math2025년 8월 19일댓글 수 로딩 중
[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy본 논문은 단일 이미지로부터 4D(동적 3D) 장면 표현을 효율적으로 생성하는 피드포워드 프레임워크 인 4DNeX 를 제안합니다.#Review#4D Generation#Dynamic 3D#Generative Models#Diffusion Models#Single Image Input#Video Synthesis#Point Clouds#Dataset2025년 8월 19일댓글 수 로딩 중
[논문리뷰] X-Node: Self-Explanation is All We Need그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.#Review#Graph Neural Networks#Explainable AI#Self-Explanation#Node Classification#Medical Imaging#Natural Language Processing#Interpretability2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond Images본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.#Review#3D Dataset#High-Resolution Textures#Physically Based Rendering (PBR)#3D Animation#Data Curation#GPT-5 Annotations#Sketchfab2025년 8월 18일댓글 수 로딩 중