[논문리뷰] MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and LayoutsarXiv에 게시된 'MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts' 논문에 대한 자세한 리뷰입니다.#Review#3D City Generation#Natural Language Processing#Aesthetic Adaptation#Controllable Assets#Layout Generation#Interactive Editing#Diffusion Models#Multimodal Dataset2025년 11월 25일댓글 수 로딩 중
[논문리뷰] HunyuanOCR Technical ReportarXiv에 게시된 'HunyuanOCR Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Optical Character Recognition#Multimodal Large Language Model#End-to-End Learning#Reinforcement Learning#Document Parsing#Information Extraction#Text Spotting2025년 11월 25일댓글 수 로딩 중
[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AIChaojun Ni이 arXiv에 게시한 'GigaWorld-0: World Models as Data Engine to Empower Embodied AI' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Embodied AI#Data Generation#Video Generation#3D Scene Reconstruction#Robotics#Vision-Language-Action2025년 11월 25일댓글 수 로딩 중
[논문리뷰] GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution AlgorithmsarXiv에 게시된 'GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms' 논문에 대한 자세한 리뷰입니다.#Review#LLM-driven Evolutionary Computation#Quality-Diversity#MAP-Elites#Program Synthesis#Open-source Framework#Algorithmic Discovery#Genetic Algorithms2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Fara-7B: An Efficient Agentic Model for Computer UsearXiv에 게시된 'Fara-7B: An Efficient Agentic Model for Computer Use' 논문에 대한 자세한 리뷰입니다.#Review#Computer Use Agents#Synthetic Data Generation#Multi-modal LLM#On-device AI#Web Automation#Pixel-in Action-out#Fara-7B#WebTailBench2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path ForwardarXiv에 게시된 'Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Understanding-Generation Gap#Reasoning#Knowledge Transfer#Chain-of-Thought#Self-Training#Synthetic Data#Evaluation Framework2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC DetectionMike Zheng Shou이 arXiv에 게시한 'DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection' 논문에 대한 자세한 리뷰입니다.#Review#AIGC Detection#Diffusion Models#Image Editing#Semantic Segmentation#Localization#Model Attribution#Benchmark#Multi-turn Editing2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language ReasoningarXiv에 게시된 'Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Self-Evolving Agent#Vision-Language Models#Tool-Integrated Reasoning#Reinforcement Learning#Self-Correction#Multimodal AI#Generative AI2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect RatiosarXiv에 게시된 'UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?Zhaowei Lu이 arXiv에 게시한 'Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Mapless Navigation#Semantic Path Planning#Robot Learning#Video Prediction#Benchmark#Trajectory Generation2025년 11월 24일댓글 수 로딩 중
[논문리뷰] SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction SynthesisHongwen Zhang이 arXiv에 게시한 'SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Hand-Object Interaction#Multi-view Video Generation#4D Motion Synthesis#Diffusion Models#Spatio-temporal Consistency#Geometric Consistency#Appearance and Motion Joint Modeling2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic PlanningChenxu Zhang이 arXiv에 게시한 'Plan-X: Instruct Video Generation via Semantic Planning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Pillar-0: A New Frontier for Radiology Foundation ModelsarXiv에 게시된 'Pillar-0: A New Frontier for Radiology Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Radiology Foundation Model#Volumetric Imaging#Multi-window Tokenization#Multi-scale Attention#Contrastive Learning#Clinical Evaluation#Data Efficiency#Medical Imaging2025년 11월 24일댓글 수 로딩 중
[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information SeekingElias Stengel-Eskin이 arXiv에 게시한 'PRInTS: Reward Modeling for Long-Horizon Information Seeking' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Long-Horizon Tasks#Information Seeking#Large Language Models#Trajectory Summarization#Reinforcement Learning#Tool Use#Process Reward Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPOarXiv에 게시된 'Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLM Training#Hierarchical Credit Assignment#Trajectory Alignment#Group Relative Policy Optimization#Tool-Augmented Reasoning#Vertical Architecture2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MIST: Mutual Information Via Supervised TrainingKyunghyun Cho이 arXiv에 게시한 'MIST: Mutual Information Via Supervised Training' 논문에 대한 자세한 리뷰입니다.#Review#Mutual Information Estimation#Supervised Learning#Meta-Learning#Neural Networks#Uncertainty Quantification#SetTransformer#Quantile Regression2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language ModelsarXiv에 게시된 'MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Physics Reasoning#Motion Tracking#Spatial-Temporal Grounding#Video QA#AIGC Analysis#Reinforcement Learning2025년 11월 24일댓글 수 로딩 중
[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent BenchmarkBangwei Guo이 arXiv에 게시한 'M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Tool Use#Agent Benchmark#Model Context Protocol#Multi-Hop Reasoning#Multi-Threaded Execution#Evaluation Metrics#Similarity Alignment2025년 11월 24일댓글 수 로딩 중
[논문리뷰] In-Video Instructions: Visual Signals as Generative ControlarXiv에 게시된 'In-Video Instructions: Visual Signals as Generative Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Controllable AI#Visual Instructions#Image-to-Video#Spatial Control#Zero-shot Learning#Generative Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical ReportFang Yang이 arXiv에 게시한 'HunyuanVideo 1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중