[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.#Ultralytics#YOLO26#SAM#Benchmark#Segmentation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] daVinci-LLM:Towards the Science of Pretraining현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.#Review#Pretraining#Data Darwinism#LLM#Transparency#Data Processing#Scaling Laws#Reasoning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.#Review#VectorGym#SVG Generation#Multi-task Learning#Reinforcement Learning#VLM-as-a-Judge2026년 3월 31일댓글 수 로딩 중
[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .#Review#Video Diffusion Models#Geometric Consistency#Reinforcement Learning#Latent Geometry Model#4D Reconstruction#Group Relative Policy Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.#Review#Multimodal Agent#World-Grounded Image Synthesis#FactIP#Agentic Pipeline#Unified Multimodal Model#Evidence-Grounded Recaptioning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code Generation기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question AnsweringVision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.#Review#3D Question Answering#Vision-Language Models#Visual Token Pruning#Semantic-Awareness#Geometry-Guided2026년 3월 31일댓글 수 로딩 중
[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.#Review#Diffusion Models#Human Mesh Recovery#Synthetic Data#Direct Preference Optimization#Data Generation Pipeline#3D-2D Consistency2026년 3월 31일댓글 수 로딩 중
[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-TrainingLLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.#Review#Continual Pre-training#Model Merging#Distribution Vector#Bayesian Optimization#LLM Adaptation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language ModelsLLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.#Review#Large Language Models#Chain-of-Thought#Monitorability#Benchmark#AI Safety#Stress-Test#Faithfulness2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.#Review#Diffusion Transformer#Multimodal Face Generation#Cross-Modal Fusion#RoPE Attention#Controlled Generation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.#Review#Multimodality#Autoregressive Modeling#Discrete Tokenization#Vision Transformer#Audio Tokenization#Mixture-of-Experts#Next-Token Prediction2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells기존의 single-cell transcriptomics 기초 모델들(예: scGPT , Geneformer )은 주로 정적 표현(static representation) 학습에 치중하여 실제 세포 분포를 생성하거나 복잡한 perturbation 반응을 시뮬레이션하는 데 한계가 있습니다.#Review#Generative Model#Single-cell Transcriptomics#Discrete Diffusion Model#Virtual Cell#Perturbation Prediction#Cellular World Model2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Learn2Fold: Structured Origami Generation with World Model PlanningOrigami는 평면 시트를 복잡한 3D 구조로 변환하는 물리적 지능의 고난도 테스트베드입니다. 이는 단순한 시각적 플라시보가 아니라 기하학적 공리와 엄격한 Kinematic 제약 조건을 준수해야 하며, 작은 오류가 전체 구조의 붕괴를 초래하는 장기적인 추론 작업입니다.#Review#Origami Generation#Neuro-symbolic Framework#World Model#Constraint-Aware Planning#Program Induction#Spatial Intelligence2026년 3월 31일댓글 수 로딩 중
[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .#Review#Flicker Removal#Vision Transformer#Phase Correlation#Autocorrelation#Wavelet Transform#Burst Photography2026년 3월 31일댓글 수 로딩 중
[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.#Review#Auditory Knowledge#Large Language Models#Large Audio Language Models#AKB-2000#Cascade Evaluation#Audio-grounded Evaluation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal최근 모바일 LiDAR 시스템의 고감도화는 거리 측정 범위는 넓혔으나, 유리나 반사면으로 인한 Ghost Points 발생을 증가시켜 SLAM이나 3D 객체 인식의 정확도를 심각하게 떨어뜨리고 있습니다.#Review#Full-Waveform LiDAR#Ghost Removal#Masked Autoencoder#Mobile LiDAR#Dataset#Representation Learning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration기존의 과학적 아이디어 생성(SIG) 방식은 문헌 검색과 아이디어 생성이 분리된 '정적 검색-생성(Static Retrieval-then-Generation)' 패러다임을 따르고 있어, 정보의 깊이와 폭에 한계가 존재합니다.#Review#Scientific Idea Generation#Flow-Guided MCTS#GFlowNet#Test-Time Evolution#Isolation Island Paradigm#Generative Reward Model#Autonomous Research2026년 3월 31일댓글 수 로딩 중
[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.#Review#Reinforcement Learning#Large Language Models#Future-KL#Policy Optimization#GRPO#Chain-of-Thought#Credit Assignment2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Extend3D: Town-Scale 3D Generation최근 3D generative model은 고품질의 3D 객체를 생성하는 데 성공했으나, 여전히 복잡한 구성의 대규모 3D 장면(Town-Scale) 생성에는 어려움을 겪고 있습니다.#Review#3D Scene Generation#Training-free#Latent Flow Model#Overlapping Patch-wise Flow#Under-noising#SDEdit#3D-aware Optimization2026년 3월 31일댓글 수 로딩 중