본문으로 건너뛰기

#Transformer

88개의 포스트

[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models

댓글 수 로딩 중

[논문리뷰] LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

댓글 수 로딩 중

[논문리뷰] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

댓글 수 로딩 중

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

댓글 수 로딩 중

[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

댓글 수 로딩 중

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

댓글 수 로딩 중

[논문리뷰] LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

댓글 수 로딩 중

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

댓글 수 로딩 중

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

댓글 수 로딩 중

[논문리뷰] STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

댓글 수 로딩 중

[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector

댓글 수 로딩 중

[논문리뷰] VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

댓글 수 로딩 중

[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

댓글 수 로딩 중

[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model

댓글 수 로딩 중

[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

댓글 수 로딩 중

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

댓글 수 로딩 중

[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

댓글 수 로딩 중

[논문리뷰] Group Representational Position Encoding

댓글 수 로딩 중

[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation

댓글 수 로딩 중

[논문리뷰] LATTICE: Democratize High-Fidelity 3D Generation at Scale

댓글 수 로딩 중

[논문리뷰] MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples

댓글 수 로딩 중

[논문리뷰] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

댓글 수 로딩 중

[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models

댓글 수 로딩 중

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Synthetic bootstrapped pretraining

댓글 수 로딩 중

[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

댓글 수 로딩 중

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

댓글 수 로딩 중

[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

댓글 수 로딩 중

[논문리뷰] Causal Attention with Lookahead Keys

댓글 수 로딩 중

[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

댓글 수 로딩 중

[논문리뷰] SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

댓글 수 로딩 중

[논문리뷰] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

댓글 수 로딩 중

[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture

댓글 수 로딩 중

[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models

댓글 수 로딩 중

[논문리뷰] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

댓글 수 로딩 중

[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

댓글 수 로딩 중

[논문리뷰] D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

댓글 수 로딩 중

[논문리뷰] Artificial Hippocampus Networks for Efficient Long-Context Modeling

댓글 수 로딩 중

[논문리뷰] Human3R: Everyone Everywhere All at Once

댓글 수 로딩 중

[논문리뷰] Chronos-2: From Univariate to Universal Forecasting

댓글 수 로딩 중

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

댓글 수 로딩 중

[논문리뷰] EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

댓글 수 로딩 중