최신 포스트

[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.

#Review #Chemical Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space #Molecular Optimization #Inference Efficiency #Reinforcement Learning #Chemical AI

2026년 2월 9일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing

본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.

#Review #Text Diffusion #Token Editing #Inference Acceleration #Mask-to-Token #Token-to-Token #Reinforcement Learning #Speedy Mode #Quality Mode

2026년 2월 9일

[논문리뷰] InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

본 논문은 기존 AI 과학자 시스템의 한계(도메인 특화 설계, 불완전한 추론 능력, 비효율적인 최적화 파이프라인, 장기 자율 운영 미흡)를 극복하고, 계산 및 경험적 영역 전반에 걸쳐 엔드투엔드 과학적 발견을 위한 통합 에이전트 프레임워크 인 InternAgent-1.5를 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Scientific Discovery #Long-Horizon Reasoning #Structured Memory #Knowledge Graph #Experimental Optimization #Multi-disciplinary

2026년 2월 9일

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.

#Review #Search Agents #Information Seeking #Benchmark #LLM-driven Agents #Human Trajectories #Deep and Wide Search #Deterministic Evaluation #Dynamic Evaluation

2026년 2월 9일

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

본 논문은 대규모 언어 모델(LLM)이 연역, 귀납, 귀추 와 같은 근본적인 추론 패러다임을 습득할 때, 세계 지식으로부터 분리된 상징적 추론 궤적 을 통해 도메인 외부(Out-of-Domain) 일반화 능력 이 어떻게 형성되는지 체계적으로 탐구하는 것을 목표로 합니다.

#Review #LLM Reasoning #Deduction #Induction #Abduction #Out-of-Domain Generalization #Symbolic Reasoning #Fine-tuning #Upcycling

2026년 2월 9일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

본 논문은 기존 언어 모델 기반 심층 연구 보고서 생성 시스템들이 겪는 한계를 극복하는 것을 목표로 합니다. 특히, 정적 계획에 의존하여 통찰력에 제한이 있고, 배포 및 데이터 보안 문제로 인해 대규모의 독점 모델에 의존하는 경향을 해소하고자 합니다.

#Review #Deep Research #Agentic Systems #Writing As Reasoning Policy (WARP)#Outline Generation #Iterative Refinement #Reinforcement Learning (RL)#Small Language Models

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[triton] 클러스터 환경을 위한 Membar 패스 확장

Triton의 membar 분석을 클러스터 환경에 맞게 확장하여, AllocationSlice에 buffer ID를 추가하고 slice/op 레벨의 세분화된 filter를 지원하는 PR을 분석합니다.

#Triton #Memory Barrier #Cluster #Shared Memory #Static Analysis

2026년 2월 9일

[Triton] TMA im2col 모드 — Gluon API 구현

TMA im2col 시리즈의 Gluon DSL API 구현으로, Python에서 im2col 모드 TMA 복사를 직접 사용할 수 있게 한다

#Triton #NVIDIA #TMA #im2col #Gluon #Convolution

2026년 2월 9일

[triton] AMD Async Load에 ROCDL Op 사용으로 전환

AMD GPU의 async load 연산에서 LLVM intrinsic 문자열 기반 호출을 타입 안전한 ROCDL op으로 교체한 NFC(Non-Functional Change) PR 분석.

#Triton #AMD #ROCDL #AsyncCopy #NFC #Refactoring

2026년 2월 9일

[Open WebUI] Knowledge 파일 배치 추가 시 N+1 쿼리 제거

파일 배치 추가 엔드포인트에서 개별 쿼리를 IN 절 단일 쿼리로 변경하여 N+1 문제 해결.

#Open WebUI #Python #Performance #Database #N+1 Query

2026년 2월 9일

[Ray Serve] stop_replicas()의 pop-all/re-add 사이클 제거

전체 replica를 pop했다 re-add하는 방식 대신, ID set 기반 단일 패스 remove로 최대 6배 속도 향상.

#Ray #Python #Performance #Serve #Algorithm

2026년 2월 9일

[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱

매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.

#Ray #Python #Performance #Serve #Caching

2026년 2월 9일

[triton] FPSan에서 Warp Specialization + TMem 사용 시 크래시 수정

Floating-point Sanitizer가 WarpSpecialize 파티션 내에서 tensor memory 접근 시 scope 외부 값을 참조하여 발생하는 크래시를 수정한 사례를 분석합니다.

#Triton #FPSan #NVIDIA #WarpSpecialize #TensorMemory #BugFix

2026년 2월 9일

[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선

PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #GitHub Actions

2026년 2월 9일

[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화

sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.

#Ray #Python #Performance #Cache #Distributed Systems

2026년 2월 9일