[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.#Review#GUI Grounding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering#UI Automation#Perception-intensive AI2026년 2월 8일댓글 수 로딩 중
[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.#Review#Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics#Exploration-Exploitation#Policy Optimization#GRPO#Entropy Control#Discriminator Score2026년 2월 8일댓글 수 로딩 중
[논문리뷰] OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale본 논문은 MoE 아키텍처에서 전문가 전문화의 세분성과 하드웨어 실행 효율성 사이의 본질적인 trade-off를 해결하는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Fine-Grained Experts#Efficient Architectures#Transformer#Routing Algorithms#Hardware Acceleration#Sparse Models2026년 2월 8일댓글 수 로딩 중
[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions현재 LLM 에이전트 평가가 주로 연역적(deductive) 패러다임 에 집중되어 있어, 에이전트가 환경의 숨겨진 규칙을 자율적으로 발견하는 귀납적(inductive) 능력 을 측정하는 데 한계가 있음을 지적합니다.#Review#LLM Agents#Benchmarking#Inductive Reasoning#Long-Horizon Tasks#Active Exploration#World Models#Autonomous Discovery2026년 2월 8일댓글 수 로딩 중
[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다.#Review#Mobile GUI Agents#Memory Benchmarking#Short-Term Memory#Long-Term Memory#LLM-as-Judge#Dynamic Environments#Evaluation Metrics#Task Automation2026년 2월 8일댓글 수 로딩 중
[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.#Review#LLM Training Stability#Gradient Explosion#Stable Rank#Jacobian Alignment#Matrix Sign Operation#Optimizer#Transformer2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math연구 수준 수학 문제에 대한 LLM(Large Language Model) 생성 솔루션 의 검증은 전문가 시간을 많이 소모하고 기존 LLM 평가 모델은 신뢰할 수 없거나 편향되어 있습니다.#Review#LLM Evaluation#Mathematical Reasoning#Oracle-Free Validation#Consequence-Based Utility#Solution Quality#In-Context Learning#Research-Level Math2026년 2월 8일댓글 수 로딩 중
[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Iterative Reasoning#Reinforcement Learning#Large Language Models#Context Management#Summarization#Chain-of-Thought#Efficiency#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing본 논문은 기존의 개별 에이전트 중심, 트리 구조 진화 방식이 탐색적 다양성의 비효율적인 활용과 고립된 진화 브랜치로 인한 장기적인 누적 발전의 한계를 가지는 문제를 해결하고자 합니다. 궁극적으로 인간 개입 없이 스스로 구조적 설계를 수정하여 능력을 향상시키는 오픈엔드 자가 개선 에이전트 를 개발하는 것을 목표로 합니다.#Review#Open-Ended Learning#Self-Improving Agents#Evolutionary Algorithms#Experience Sharing#Meta-Learning#Code Generation#Agent Frameworks2026년 2월 8일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.#Review#Distributed Training#Matrix-based Optimizers#Load Balancing#Asynchronous Compute#Data Parallelism#Tensor Parallelism#ZeRO-1#LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Exploration-Exploitation#Group Relative Policy Optimization#Entropy Collapse#Generative Models#Confidence-Aware Rewards2026년 2월 8일댓글 수 로딩 중
[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders이 논문은 오디오 처리 모델, 특히 Whisper 와 HuBERT 의 복잡한 내부 표현을 Sparse AutoEncoders (SAEs) 를 통해 이해하고 해석하는 것을 목표로 합니다.#Review#Sparse Autoencoders (SAEs)#Audio Representation Learning#Model Interpretability#Whisper#HuBERT#Feature Steering#EEG Correlation#Audio Analysis2026년 2월 8일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon 맥북에서 MLX 네이티브 백엔드로 5Hz LM 추론 속도 혁신Apple Silicon 맥북의 Metal GPU를 활용하여 5Hz LM 추론 속도를 획기적으로 개선하는 MLX 네이티브 백엔드 도입.#MLX#Apple Silicon#Metal GPU#LLM Inference#Performance Optimization#ACE-Step2026년 2월 8일댓글 수 로딩 중
[Loki] LogQL 벤치마크에 오브젝트 스토리지 지연 시뮬레이션 추가Loki LogQL 벤치마크에 S3/GCS 같은 오브젝트 스토리지 지연을 시뮬레이션하는 플래그를 추가하여 프로덕션 환경에 가까운 성능 측정을 가능하게 한 PR 분석.#Grafana Loki#Go#Benchmarking#Object Storage#Latency Simulation#LogQL2026년 2월 7일댓글 수 로딩 중
[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.#Triton#NVIDIA#Blackwell#GPU#Gluon2026년 2월 6일댓글 수 로딩 중
[Ray] 메모리 모니터 리팩터링: cgroup 경로 주입으로 테스트 가능성 확보Ray의 메모리 모니터에 cgroup 경로를 주입할 수 있도록 리팩터링하여 가짜 cgroup으로 메모리 사용량을 모킹할 수 있게 한 PR 분석.#Ray#C++#Memory Monitor#Testability#Dependency Injection#Resource Isolation2026년 2월 6일댓글 수 로딩 중
[triton] FpSan - Floating Point Sanitizer 도입GPU 커널의 부동소수점 연산 오류를 런타임에 감지하는 FpSan(Floating Point Sanitizer)을 Triton에 도입한 PR을 분석합니다. MLIR 패스를 통해 FP 연산을 integer payload 방식으로 rewrite합니다.#Triton#GPU Compiler#Floating Point#Sanitizer#MLIR2026년 2월 6일댓글 수 로딩 중
[Loki] memory.Bitmap 슬라이싱 지원: 비정렬 오프셋 처리Loki의 memory.Bitmap에 슬라이싱 기능을 추가하고, 워드 경계에 정렬되지 않은 비트맵의 연산을 지원하도록 개선한 PR 분석.#Grafana Loki#Go#Bitmap#Memory#Data Structure#Performance2026년 2월 6일댓글 수 로딩 중