[논문리뷰] Communication-Inspired Tokenization for Structured Image RepresentationsarXiv에 게시된 'Communication-Inspired Tokenization for Structured Image Representations' 논문에 대한 자세한 리뷰입니다.#Review#Image Tokenization#Structured Representation#Attentive Encoding#Flow Matching#Semantic Alignment#Compositional Generalization#Transformer Architecture2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Large Causal Models for Temporal Causal DiscoveryDario Simionato이 arXiv에 게시한 'Large Causal Models for Temporal Causal Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Causal Discovery#Temporal Models#Foundation Models#Transformer Architecture#Zero-shot Learning#Time-series Data#Scalability#Multi-dataset Pretraining2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Arcee Trinity Large Technical ReportarXiv에 게시된 'Arcee Trinity Large Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Sparse LLM#Training Stability#Load Balancing#MoE#Transformer Architecture#Context Extension#Muon Optimizer2026년 2월 19일댓글 수 로딩 중
[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation ModelsarXiv에 게시된 'MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Audio Tokenizer#Transformer Architecture#End-to-End Learning#Residual Vector Quantization#Speech Synthesis#Audio Foundation Models#Scalability#Autoregressive Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache SharingarXiv에 게시된 'HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Attention#KV Cache Sharing#Hybrid Attention#Long-Context LLMs#Memory Optimization#Token Selection#Transformer Architecture2026년 2월 4일댓글 수 로딩 중
[논문리뷰] DeepSeek-OCR 2: Visual Causal FlowarXiv에 게시된 'DeepSeek-OCR 2: Visual Causal Flow' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Vision-Language Model#Causal Reasoning#Transformer Architecture#Attention Mechanism#Document Understanding#DeepEncoder2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and DeeparXiv에 게시된 'Post-LayerNorm Is Back: Stable, ExpressivE, and Deep' 논문에 대한 자세한 리뷰입니다.#Review#Transformer Architecture#Layer Normalization#Depth Scaling#Training Stability#Large Language Models#Gradient Flow#Highway Networks#Post-LayerNorm2026년 1월 27일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique ReportarXiv에 게시된 'SkyReels-V3 Technique Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal AI#Diffusion Models#Transformer Architecture#Reference-guided Generation#Video-to-Video#Audio-driven Animation#Temporal Consistency2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Parallel Latent Reasoning for Sequential RecommendationYuning Jiang이 arXiv에 게시한 'Parallel Latent Reasoning for Sequential Recommendation' 논문에 대한 자세한 리뷰입니다.#Review#Sequential Recommendation#Latent Reasoning#Parallel Processing#Computational Scaling#Mixture of Experts#Contrastive Learning#Transformer Architecture2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon LayersarXiv에 게시된 'Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Transformer Architecture#Canon Layers#Synthetic Pretraining#Reasoning Depth#Linear Attention#State-Space Models#NoPE2025년 12월 21일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled DiffusionGiorgos Sfikas이 arXiv에 게시한 'REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Stronger Normalization-Free TransformersZhuang Liu이 arXiv에 게시한 'Stronger Normalization-Free Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Normalization-Free Transformers#Point-wise Functions#Error Function#Deep Learning#Transformer Architecture#Generalization#Normalization Layers2025년 12월 11일댓글 수 로딩 중
[논문리뷰] MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular VideosQi Wang이 arXiv에 게시한 'MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos' 논문에 대한 자세한 리뷰입니다.#Review#3D Motion Capture#Monocular Video#Arbitrary Skeletons#Motion Retargeting#Deep Learning#Inverse Kinematics#Transformer Architecture#Category-Agnostic2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a TimearXiv에 게시된 'Efficiently Reconstructing Dynamic Scenes One D4RT at a Time' 논문에 대한 자세한 리뷰입니다.#Review#Dynamic Scene Reconstruction#4D Reconstruction#Point Tracking#Transformer Architecture#Feedforward Model#Query-based Inference#Computer Vision#Geometric Consistency2025년 12월 9일댓글 수 로딩 중
[논문리뷰] FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and DeblurringMunchurl Kim이 arXiv에 게시한 'FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring' 논문에 대한 자세한 리뷰입니다.#Review#Video Super-Resolution#Video Deblurring#Joint Restoration#Exposure-Aware#Motion Compensation#Transformer Architecture#Dynamic Filtering#Real-World Degradations2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Mixture of Horizons in Action ChunkingZelong Sun이 arXiv에 게시한 'Mixture of Horizons in Action Chunking' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Action Chunking#Robotic Manipulation#Multi-horizon Planning#Transformer Architecture#Gated Fusion#Dynamic Inference2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video GenerationarXiv에 게시된 'Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Audio-Video Multimodal#Joint Denoising#Diffusion Models#Transformer Architecture#World Models#Physical Commonsense#Multimodal Training2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Adversarial Flow ModelsarXiv에 게시된 'Adversarial Flow Models' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Adversarial Flow Models#GANs#Flow Matching#Optimal Transport#Single-step Generation#Image Generation#Transformer Architecture2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Terminal Velocity MatchingJiaming Song이 arXiv에 게시한 'Terminal Velocity Matching' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Flow Matching#Diffusion Models#One-Step Generation#Few-Step Generation#Wasserstein Distance#Transformer Architecture#Lipschitz Continuity2025년 11월 26일댓글 수 로딩 중
[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera EncodingarXiv에 게시된 'ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding' 논문에 대한 자세한 리뷰입니다.#Review#Video Retake Generation#Camera Control#Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency#Video Generative Models#Transformer Architecture#Multi-view Synthesis2025년 11월 25일댓글 수 로딩 중
[논문리뷰] MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token MergingarXiv에 게시된 'MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging' 논문에 대한 자세한 리뷰입니다.#Review#Genome Modeling#Dynamic Tokenization#Token Merging#Context-aware Learning#DNA Foundation Models#Transformer Architecture#Multi-omics2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal GenerationarXiv에 게시된 'Mixture of States: Routing Token-Level Dynamics for Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Diffusion#Mixture of States (MoS)#Token-Level Routing#Dynamic Conditional Fusion#Text-to-Image Generation#Image Editing#Transformer Architecture2025년 11월 19일댓글 수 로딩 중
[논문리뷰] A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion RecognitionG. Maragatham이 arXiv에 게시한 'A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition' 논문에 대한 자세한 리뷰입니다.#Review#EEG#Emotion Recognition#Transformer Architecture#Inter-Cortical Neural Interactions#Multi-Head Attention#Brain-Computer Interface#Affective Computing2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Depth Anything 3: Recovering the Visual Space from Any ViewsarXiv에 게시된 'Depth Anything 3: Recovering the Visual Space from Any Views' 논문에 대한 자세한 리뷰입니다.#Review#Depth Estimation#Multi-view Geometry#Transformer Architecture#Teacher-Student Learning#Pose Estimation#3D Reconstruction#Novel View Synthesis#Visual Space Recovery2025년 11월 13일댓글 수 로딩 중
[논문리뷰] EVTAR: End-to-End Try on with Additional Unpaired Visual ReferencearXiv에 게시된 'EVTAR: End-to-End Try on with Additional Unpaired Visual Reference' 논문에 대한 자세한 리뷰입니다.#Review#Virtual Try-on#Diffusion Models#End-to-End Learning#Reference Images#Unpaired Data#Flow Matching#Transformer Architecture#Generative AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMsBo Bai이 arXiv에 게시한 'Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Semantic Information Theory#Large Language Models#Directed Information#Rate-Distortion Function#Granger Causality#Token Embedding#Transformer Architecture#Variational Inference2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The End of Manual Decoding: Towards Truly End-to-End Language ModelsarXiv에 게시된 'The End of Manual Decoding: Towards Truly End-to-End Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#End-to-End Generation#Dynamic Decoding#Hyperparameter Optimization#Stochastic Sampling#Instruction Following#Transformer Architecture2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Scaling Latent Reasoning via Looped Language ModelsarXiv에 게시된 'Scaling Latent Reasoning via Looped Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Looped Language Models#Latent Reasoning#Parameter Efficiency#Adaptive Computation#Pre-training Scaling#Knowledge Manipulation#Early Exit Mechanisms#Transformer Architecture2025년 10월 30일댓글 수 로딩 중
[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution DiffusionarXiv에 게시된 'DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Transformer Architecture#Positional Encoding#High-Resolution Image Generation#Extrapolation#Dynamic Adaptation#Training-Free2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Attention Sinks in Diffusion Language ModelsSimone Scardapane이 arXiv에 게시한 'Attention Sinks in Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Attention Sinks#Transformer Architecture#Masked Language Modeling#Bidirectional Attention#Generative Models#Robustness#Dynamic Attention2025년 10월 23일댓글 수 로딩 중
[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at ScalearXiv에 게시된 'From Pixels to Words -- Towards Native Vision-Language Primitives at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Native VLMs#Early Fusion#Multimodal Learning#Transformer Architecture#Rotary Position Embeddings#Pixel-Word Alignment#End-to-End Training2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Direct Multi-Token DecodingXifeng Yan이 arXiv에 게시한 'Direct Multi-Token Decoding' 논문에 대한 자세한 리뷰입니다.#Review#LLM Inference#Multi-token Decoding#Transformer Architecture#Layer Specialization#Cyclical Refilling#Inference Speedup#Model Scaling2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Towards Scalable and Consistent 3D EditingPan Zhou이 arXiv에 게시한 'Towards Scalable and Consistent 3D Editing' 논문에 대한 자세한 리뷰입니다.#Review#3D Editing#Generative Models#Transformer Architecture#Dataset Generation#Multimodal Learning#Conditional Generation#Image-to-3D2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Online Generic Event Boundary DetectionJonghyun Choi이 arXiv에 게시한 'Online Generic Event Boundary Detection' 논문에 대한 자세한 리뷰입니다.#Review#Online Video Analysis#Event Boundary Detection#Event Segmentation Theory#Real-time AI#Anomaly Detection#Transformer Architecture2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Native Hybrid Attention for Efficient Sequence ModelingYu Cheng이 arXiv에 게시한 'Native Hybrid Attention for Efficient Sequence Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Sequence Modeling#Hybrid Attention#Transformer Architecture#Linear Attention#Sliding Window Attention#Long Context#Large Language Models (LLMs)#Efficiency2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Hybrid Architectures for Language Models: Systematic Analysis and Design InsightsarXiv에 게시된 'Hybrid Architectures for Language Models: Systematic Analysis and Design Insights' 논문에 대한 자세한 리뷰입니다.#Review#Hybrid LLM#Transformer Architecture#Mamba#State Space Models (SSM)#Computational Efficiency#Long-Context#Language Model Architectures#Scaling Laws2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate MappingSpandana Gella이 arXiv에 게시한 'Improving GUI Grounding with Explicit Position-to-Coordinate Mapping' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Boolean Satisfiability via Imitation LearningXiangyu Xu이 arXiv에 게시한 'Boolean Satisfiability via Imitation Learning' 논문에 대한 자세한 리뷰입니다.#Review#Boolean Satisfiability#Imitation Learning#CDCL Solvers#Branching Policy#KeyTrace#Transformer Architecture#Perceiver AR2025년 10월 2일댓글 수 로딩 중
[논문리뷰] jina-reranker-v3: Last but Not Late Interaction for Document RerankingarXiv에 게시된 'jina-reranker-v3: Last but Not Late Interaction for Document Reranking' 논문에 대한 자세한 리뷰입니다.#Review#Document Reranking#Last but Not Late Interaction#Multilingual#Transformer Architecture#Cross-Encoder#InfoNCE Loss#Contextual Embedding#Qwen32025년 10월 1일댓글 수 로딩 중
[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post TrainingarXiv에 게시된 'Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training' 논문에 대한 자세한 리뷰입니다.#Review#Mechanistic Interpretability#Attention Heads#Post-Training#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis#Reasoning Models#Transformer Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the BrainarXiv에 게시된 'The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Brain-Inspired AI#Graph Neural Networks#Hebbian Learning#Scale-Free Networks#Model Interpretability#Transformer Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual InteractionGuoxian Song이 arXiv에 게시한 'X-Streamer: Unified Human World Modeling with Audiovisual Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중
[논문리뷰] AToken: A Unified Tokenizer for VisionMingze Xu이 arXiv에 게시한 'AToken: A Unified Tokenizer for Vision' 논문에 대한 자세한 리뷰입니다.#Review#Unified Visual Tokenizer#Multimodal AI#Transformer Architecture#4D Representation#Adversarial-free Training#Reconstruction#Semantic Understanding#Generative Models2025년 9월 19일댓글 수 로딩 중
[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image SynthesisSong Guo이 arXiv에 게시한 'InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Image Synthesis#Resolution-Agnostic#Diffusion Models#Latent Space#VAE Decoder#High-Resolution Image Generation#Generative AI#Transformer Architecture2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector DrawingsMeie Fang이 arXiv에 게시한 'Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings' 논문에 대한 자세한 리뷰입니다.#Review#CAD Generation#Vector Graphics#Sequence-to-Sequence Learning#Transformer Architecture#Engineering Drawings#Multi-modal Learning#Soft Target Loss#Dual Decoder2025년 9월 5일댓글 수 로딩 중
[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference AlignmentAn-An Liu이 arXiv에 게시한 'MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Text-Guided Motion Generation#Rectified Flow Matching#Preference Alignment#Human Motion Synthesis#Real-time AI#Transformer Architecture#Self-supervised Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video GenerationChaonan Ji이 arXiv에 게시한 'Wan-S2V: Audio-Driven Cinematic Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Driven Video Generation#Cinematic Video#Diffusion Models#Transformer Architecture#Long Video Consistency#Human Animation#Multimodal Control#Data Curation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context LearningRan Guo이 arXiv에 게시한 'UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Memory Networks#Mixture of Experts (MoE)#Long-Context Learning#Sparse Models#Transformer Architecture#LLMs#Efficient Inference2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Advances in Speech Separation: Techniques, Challenges, and Future TrendsZhuo Chen이 arXiv에 게시한 'Advances in Speech Separation: Techniques, Challenges, and Future Trends' 논문에 대한 자세한 리뷰입니다.#Review#Speech Separation#Deep Neural Networks#Cocktail Party Problem#Transformer Architecture#Unsupervised Learning#Supervised Learning#Evaluation Metrics#Datasets2025년 8월 20일댓글 수 로딩 중
[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at ScaleQuan Sun이 arXiv에 게시한 'NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Text-to-Image Generation#Continuous Latent Tokens#Flow Matching#Image Editing#Multimodal Learning#Transformer Architecture2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Exploitation Is All You Need... for ExplorationJesse Roberts이 arXiv에 게시한 'Exploitation Is All You Need... for Exploration' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Exploration-Exploitation#Meta-RL#Transformer Architecture#Emergent Behavior#Multi-Armed Bandits#Gridworlds#Pseudo-Thompson Sampling2025년 8월 5일댓글 수 로딩 중
[논문리뷰] PixNerd: Pixel Neural Field DiffusionLimin Wang이 arXiv에 게시한 'PixNerd: Pixel Neural Field Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Neural Fields#Pixel Space#Generative Models#Image Synthesis#Transformer Architecture#End-to-End Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] iLRM: An Iterative Large 3D Reconstruction ModelAbdelrahman Mohamed이 arXiv에 게시한 'iLRM: An Iterative Large 3D Reconstruction Model' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#Gaussian Splatting#Iterative Refinement#Transformer Architecture#Multi-view Learning#Scalability#Feed-forward Models2025년 8월 2일댓글 수 로딩 중