본문으로 건너뛰기

#Transformer Architecture

53개의 포스트

[논문리뷰] Communication-Inspired Tokenization for Structured Image Representations

댓글 수 로딩 중

[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

댓글 수 로딩 중

[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

댓글 수 로딩 중

[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

댓글 수 로딩 중

[논문리뷰] SkyReels-V3 Technique Report

댓글 수 로딩 중

[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

댓글 수 로딩 중

[논문리뷰] Stronger Normalization-Free Transformers

댓글 수 로딩 중

[논문리뷰] MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

댓글 수 로딩 중

[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

댓글 수 로딩 중

[논문리뷰] FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

댓글 수 로딩 중

[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

댓글 수 로딩 중

[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

댓글 수 로딩 중

[논문리뷰] EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

댓글 수 로딩 중

[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

댓글 수 로딩 중

[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction

댓글 수 로딩 중

[논문리뷰] AToken: A Unified Tokenizer for Vision

댓글 수 로딩 중

[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

댓글 수 로딩 중

[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

댓글 수 로딩 중

[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video Generation

댓글 수 로딩 중

[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

댓글 수 로딩 중

[논문리뷰] Advances in Speech Separation: Techniques, Challenges, and Future Trends

댓글 수 로딩 중

[논문리뷰] Exploitation Is All You Need... for Exploration

댓글 수 로딩 중

[논문리뷰] iLRM: An Iterative Large 3D Reconstruction Model

댓글 수 로딩 중

[논문리뷰] The End of Manual Decoding: Towards Truly End-to-End Language Models

댓글 수 로딩 중

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

댓글 수 로딩 중

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

댓글 수 로딩 중

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

댓글 수 로딩 중

[논문리뷰] Attention Sinks in Diffusion Language Models

댓글 수 로딩 중

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

댓글 수 로딩 중