[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.#Review#3D Asset Generation#Simulation-Ready Assets#Diffusion Models#Physically Based Rendering (PBR)#Embodied AI#Robotic Simulation#Image-to-3D#Foundation Model2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.#Review#Knowledge Editing#Audio-Language Models#Auditory Attributes#Benchmark#Reliability#Generality#Locality#Portability2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.#Review#Video Reasoning#Spatio-Temporal Grounding#Large Multimodal Models#Reinforcement Learning#Chain-of-Thought#Visual Evidence#Dataset Curation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Sampling Wall#Loopholing#Self-Conditioning#Non-Autoregressive Generation#Text Generation#Language Modeling#Reasoning Tasks2025년 10월 24일댓글 수 로딩 중
[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.#Review#Text-to-Image Generation#Personalization#Diffusion Models#Interactive Control#Multi-Subject Composition#Layered Canvas#Spatial Control#Image Editing2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations본 논문은 대규모 오디오-언어 모델(LALMs)의 안전성 취약성을 탐구하며, 특히 화자의 감정 변화 가 모델의 안전성 정렬에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다.#Review#LALM Safety#Speaker Emotion#Safety Alignment#Jailbreaking#Audio-Language Models#Emotional Variation#Unsafe Rate#Non-refusal Rate2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.#Review#Human-Agent Collaboration#Project Page Generation#Multi-Agent System#LLM#VLM#Webpage Automation#PageBench#Scientific Communication#Cost-Effective AI2025년 10월 24일댓글 수 로딩 중
[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Multi-Shot Video#Narrative Coherence#Diffusion Models#Self-Attention#Cinematic AI#Video Consistency#Directorial Control2025년 10월 24일댓글 수 로딩 중
[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.#Review#World Models#Generative AI#Multimodal Learning#Masked Modeling#Interactive AI#Memory Systems#Autonomous Agents#AI Roadmap2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.#Review#Reinforcement Learning#LLM Alignment#Human Values#Reward Shaping#Value-Weighted Reward#Termination Policy#RLVR2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Emergence of Linear Truth Encodings in Language Models언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.#Review#Language Models#Truth Encoding#Linear Subspaces#Mechanistic Interpretability#Transformer Models#Learning Dynamics#Truth Co-occurrence Hypothesis#Hallucinations2025년 10월 24일댓글 수 로딩 중
[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion본 논문은 Diffusion Transformer (DiT) 모델을 재훈련 없이 초고해상도 이미지(예: 16M+ 픽셀 )를 생성할 수 있도록 하는 것을 목표로 합니다.#Review#Diffusion Models#Transformer Architecture#Positional Encoding#High-Resolution Image Generation#Extrapolation#Dynamic Adaptation#Training-Free2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.#Review#Diff Understanding#Code Diff#Benchmark#LLMs#Code Editing#Software Engineering#Unified Diff Format#Search-Replace2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 순수 텍스트 추론이나 부정확한 증거 지역화로 인해 종종 발생시키는 근거 없는/환각적 결론의 문제를 해결하고, 다단계 비디오 추론 능력을 강화하는 것을 목표로 합니다.#Review#Video Reasoning#Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding#Multi-step Reasoning#Frame Retrieval#Dataset Construction#Progressive Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature본 논문은 과학 문헌에서 화학 조성-물성 구조 데이터와 합성 정보를 추출하기 위한 자동화되고 사용자 친화적인 멀티 에이전트 기반 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Multi-agent Systems#Large Language Models (LLMs)#Information Extraction#Scientific Literature#Materials Science#Data Curation#Piezoelectric Materials#RAG (Retrieval-Augmented Generation)2025년 10월 24일댓글 수 로딩 중
[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow Models본 논문은 MeanFlow 모델의 성공 원리를 심층적으로 분석하고, MeanFlow 훈련 목표 내에 존재하는 trajectory flow matching 및 trajectory consistency 두 구성 요소 간의 음의 상관관계 로 인한 최적화 충돌 및 수렴 지연 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#Flow Matching#Consistency Models#MeanFlow#Curriculum Learning#Few-Step Generation#Image Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders본 논문은 대규모 언어 모델(LLM) 추론 속도 향상을 위한 Speculative Decoding (SD) 과정에서 드래프트 모델과 타겟 모델 간의 불일치 문제를 해결하는 것을 목표로 합니다.#Review#Speculative Decoding#Knowledge Distillation#LLM Inference#Model Acceleration#Token Filtering#Draft Model#Acceptance Rate2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중