[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers언어 모델 아키텍처 간의 성능 차이를, 특히 학술 규모의 사전 훈련에서 발생하는 높은 노이즈와 비용 문제 없이 신뢰성 있게 평가하고 이해하는 것을 목표로 합니다.#Review#Language Models#Transformer Architecture#Canon Layers#Synthetic Pretraining#Reasoning Depth#Linear Attention#State-Space Models#NoPE2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.#Review#Reasoning Depth#Cellular Automata#Transformer Architectures#Recurrence#Adaptive Computation Time#Chain-of-Thought#Reinforcement Learning#Generalization2025년 8월 26일댓글 수 로딩 중