[논문리뷰] LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction본 논문은 LoopCTR을 제안하며, 이는 재귀적 루프 블록을 통해 파라미터 효율성을 극대화한 Sandwich architecture를 채택한다. Loop Block 내의 표현력을 높이기 위해 MoE-Augmented Transformer를 적용하고, Hyper-Connected Residuals (HCR)를 도입하여 정보 흐름을 동적으로 조정한다 .#Review#CTR Prediction#Loop Scaling#Transformer#Mixture-of-Experts#Hyper-Connected Residuals#Parameter Efficiency#Process Supervision2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Diffutron: A Masked Diffusion Language Model for Turkish LanguageAutoregressive (AR) Transformers는 현재 Large Language Models (LLMs) 분야에서 지배적이지만, 텍스트를 토큰별로 순차적으로 생성하는 본질적인 특성으로 인해 Generation Speed와 고려할 수 있는 Context에 한계가 있다.#Review#Masked Diffusion Language Models#Turkish NLP#Non-Autoregressive Generation#LoRA#Instruction Tuning#Morphologically Rich Languages#Parameter Efficiency2026년 3월 29일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language Models이 논문은 대규모 언어 모델(LLMs)에서 Mixture-of-Experts (MoE) 아키텍처가 겪는 효율성 한계를 극복하기 위해 임베딩 스케일링 을 새로운 희소성 스케일링 차원으로 탐구하는 것을 목표로 합니다.#Review#Embedding Scaling#N-gram Embedding#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency#Inference Optimization#Speculative Decoding2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.#Review#Large Language Models#In-Tool Learning#In-Weight Learning#Factual Recall#Retrieval-Augmented Generation#Scaling Laws#Parameter Efficiency#Catastrophic Forgetting2025년 8월 29일댓글 수 로딩 중
[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.#Review#Mixture-of-Experts (MoE)#LLM Compression#Matrix Decomposition#Parameter Efficiency#Deep Learning#Memory Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation본 논문은 이미지 이해, 텍스트-투-이미지 생성, 이미지 편집 기능을 단일 아키텍처 내에서 통합하는 1.5억 개 파라미터 의 자기회귀 모델 인 Skywork UniPic 을 소개합니다.#Review#Autoregressive Models#Multimodal AI#Image Generation#Image Editing#Visual Understanding#Unified Architecture#Parameter Efficiency2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Scaling Latent Reasoning via Looped Language Models본 논문은 현대 LLM이 명시적 텍스트 생성(Chain-of-Thought) 에 의존하는 추론 방식의 한계를 극복하고자 합니다.#Review#Looped Language Models#Latent Reasoning#Parameter Efficiency#Adaptive Computation#Pre-training Scaling#Knowledge Manipulation#Early Exit Mechanisms#Transformer Architecture2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Less is More: Recursive Reasoning with Tiny Networks이 논문은 기존의 Hierarchical Reasoning Model (HRM) 이 복잡하고 비효율적이라는 문제점을 해결하기 위해, 더욱 단순하면서도 효율적인 Tiny Recursive Model (TRM) 을 제안합니다.#Review#Recursive Reasoning#Tiny Networks#Deep Supervision#Hierarchical Reasoning Model (HRM)#Sudoku-Extreme#ARC-AGI#Generalization#Parameter Efficiency2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ARC-Encoder: learning compressed text representations for large language models본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.#Review#Context Compression#Large Language Models#Encoder-Decoder Architecture#Text Representation#In-Context Learning#Parameter Efficiency#Retrieval-Augmented Generation2025년 10월 27일댓글 수 로딩 중