최신 포스트

[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정

MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.

#Ray #Python #Performance #Operator Fusion #Data Pipeline

2026년 2월 4일

[Ray Data] 중복 batch_format 유효성 검사 제거

Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.

#Ray #Ray Data #Code Cleanup #Python #Dead Code

2026년 2월 4일

[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.

#Review #Long-Horizon Agency #Data Synthesis #Pull Request Chains #Software Evolution #LLM Training #Agentic AI #Self-Distillation #Code Generation

2026년 2월 3일

[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling

본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.

#Review #Wide Research #Multi-Agent Systems #Reinforcement Learning #Information Seeking #Benchmarking #LLM Agents #Knowledge Graphs

2026년 2월 3일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.

#Review #Sparse Attention #Long-Context Inference #LLMs #Token Selection #Efficiency #Transformer #Dynamic Sparsity

2026년 2월 3일

[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy

본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.

#Review #Transformer Optimization #Normalization Strategy #Hessian Spectral Norm #Learning Rate Stability #Large Language Models #SimpleNorm #Second-Order Optimization

2026년 2월 3일

[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.

#Review #Software Engineering Agents #LLM #Docker-Free #Execution Simulation #Reinforcement Learning #Supervised Fine-tuning #World Model

2026년 2월 3일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.

#Review #World Models #Unified Framework #Multimodal AI #Embodied AI #Physical Understanding #Long-term Consistency #AI Agents #Generative Models

2026년 2월 3일

[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

대규모 언어 모델(LLM)의 병렬 추론 시 발생하는 상당한 계산 비용 문제를 해결하고, 기존의 로컬 신호 기반 효율성 증대 방법론의 한계를 극복하고자 합니다. 병렬 브랜치 간의 전역적인 동역학을 활용하여 효율적이고 하드웨어 친화적인 병렬적 사고를 위한 경량화된 글로벌 신호를 도입하는 것이 주된 목표입니다.

#Review #LLM Reasoning #Parallel Thinking #Efficiency Optimization #2D Probing #Consensus-based Early Stopping #Deviation-based Branch Pruning #Test-Time Scaling

2026년 2월 3일

[논문리뷰] No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

본 연구는 Large Language Models (LLMs)의 Chain-of-Thought (CoT) 추론 과정에서 내재된 계획 능력(latent planning horizon) 을 규명하는 것을 목표로 합니다.

#Review #Chain-of-Thought #LLM Planning #Probing Methods #Uncertainty Estimation #Reasoning Dynamics #Model Interpretability

2026년 2월 3일

[논문리뷰] MARS: Modular Agent with Reflective Search for Automated AI Research

본 논문은 높은 평가 비용, 불투명한 성능 귀속, 복잡한 아키텍처 등으로 인해 기존 LLM 기반 에이전트가 어려움을 겪는 자동화된 AI 연구의 한계를 해결하는 것을 목표로 합니다. 특히, 컴퓨테이션 비용을 고려하고 모듈식 코드 생성을 통해 자율적인 AI 과학 발견을 최적화하는 프레임워크를 제시합니다.

#Review #Autonomous AI #Agent Framework #Machine Learning Engineering #Monte Carlo Tree Search #Reflective Learning #Modular Programming #Code Generation #Resource Management

2026년 2월 3일

[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Instruction Purification #Interference Tokens #Sample Efficiency #Policy Optimization #Verifiable Rewards

2026년 2월 3일

[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.

#Review #DeepResearch #Rubric Generation #Human Preferences #Reinforcement Learning #Multi-agent Systems #LLM Evaluation #Reward Modeling

2026년 2월 3일

[논문리뷰] Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

본 논문은 적은 추론 단계(few-step inference)로 고품질 이미지를 빠르게 생성하기 위한 Distribution Matching Distillation (DMD) 과정에서 발생하는 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Model Distillation #Mode Collapse #Image Generation #Diversity Preservation #Flow Matching #Few-Step Synthesis

2026년 2월 3일

[논문리뷰] Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Large Language Model (LLM) 사전 학습에서 효과적인 데이터 혼합 비율을 결정하는 것은 여전히 어려운 문제입니다.

#Review #LLM Pre-training #Data Mixture Optimization #Model Merging #Proxy Models #Resource Efficiency #DeMix #Corpus Curation

2026년 2월 3일

[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

본 논문은 텍스트 기반 LLM의 선형적인 컨텍스트 길이 증가와 그에 따른 계산 비용 문제로 인한 코드 이해의 비효율성을 해결하고자 합니다.

#Review #Vision Language Models #Code Understanding #Visual Code Representation #Code Compression #Computational Efficiency #Multimodal LLMs #Software Engineering

2026년 2월 3일

[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Budget Allocation #Adaptive Learning #Capability-Oriented Value Function #Exploration-Exploitation #Resource Efficiency

2026년 2월 3일

[논문리뷰] Balancing Understanding and Generation in Discrete Diffusion Models

이 논문은 이산 확산 모델(Discrete Diffusion Models, DDM) 분야에서 Masked Diffusion Language Models (MDLM) 의 의미 이해 능력과 Uniform-noise Diffusion Language Models (UDLM) 의 고품질 소수 단계 생성 능력 간의 불균형을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Language Modeling #Image Generation #Masked Diffusion #Uniform Noise #XDLM #Stationary Noise Kernel #Pareto Frontier

2026년 2월 3일