[논문리뷰] InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery본 논문은 기존 AI 과학자 시스템의 한계(도메인 특화 설계, 불완전한 추론 능력, 비효율적인 최적화 파이프라인, 장기 자율 운영 미흡)를 극복하고, 계산 및 경험적 영역 전반에 걸쳐 엔드투엔드 과학적 발견을 위한 통합 에이전트 프레임워크 인 InternAgent-1.5를 개발하는 것을 목표로 합니다.#Review#Agentic AI#Scientific Discovery#Long-Horizon Reasoning#Structured Memory#Knowledge Graph#Experimental Optimization#Multi-disciplinary2026년 2월 9일댓글 수 로딩 중
[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.#Review#Search Agents#Information Seeking#Benchmark#LLM-driven Agents#Human Trajectories#Deep and Wide Search#Deterministic Evaluation#Dynamic Evaluation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models본 논문은 대규모 언어 모델(LLM)이 연역, 귀납, 귀추 와 같은 근본적인 추론 패러다임을 습득할 때, 세계 지식으로부터 분리된 상징적 추론 궤적 을 통해 도메인 외부(Out-of-Domain) 일반화 능력 이 어떻게 형성되는지 체계적으로 탐구하는 것을 목표로 합니다.#Review#LLM Reasoning#Deduction#Induction#Abduction#Out-of-Domain Generalization#Symbolic Reasoning#Fine-tuning#Upcycling2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.#Review#Video Understanding#In-Context Learning#Procedural Knowledge#Multimodal LLMs#Benchmark#Direct Preference Optimization#Demonstration Selection2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Flow Matching#Text-to-Image Generation#Sparse Rewards#Credit Assignment#Turning Points#Group Relative Policy Optimization2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research본 논문은 기존 언어 모델 기반 심층 연구 보고서 생성 시스템들이 겪는 한계를 극복하는 것을 목표로 합니다. 특히, 정적 계획에 의존하여 통찰력에 제한이 있고, 배포 및 데이터 보안 문제로 인해 대규모의 독점 모델에 의존하는 경향을 해소하고자 합니다.#Review#Deep Research#Agentic Systems#Writing As Reasoning Policy (WARP)#Outline Generation#Iterative Refinement#Reinforcement Learning (RL)#Small Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중
[triton] FPSan에서 Warp Specialization + TMem 사용 시 크래시 수정Floating-point Sanitizer가 WarpSpecialize 파티션 내에서 tensor memory 접근 시 scope 외부 값을 참조하여 발생하는 크래시를 수정한 사례를 분석합니다.#Triton#FPSan#NVIDIA#WarpSpecialize#TensorMemory#BugFix2026년 2월 9일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#GitHub Actions2026년 2월 9일댓글 수 로딩 중
[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.#Ray#Python#Performance#Cache#Distributed Systems2026년 2월 9일댓글 수 로딩 중
[triton] Membar 분석 함수 호출 시 smem offset 수정Triton의 membar 분석에서 callee 함수의 shared memory 접근을 caller 컨텍스트로 변환할 때, allocation offset을 올바르게 반영하도록 수정한 PR을 분석합니다.#Triton#Memory Barrier#Shared Memory#Function Call#Bug Fix2026년 2월 9일댓글 수 로딩 중
[triton] 클러스터 환경을 위한 Membar 패스 확장Triton의 membar 분석을 클러스터 환경에 맞게 확장하여, AllocationSlice에 buffer ID를 추가하고 slice/op 레벨의 세분화된 filter를 지원하는 PR을 분석합니다.#Triton#Memory Barrier#Cluster#Shared Memory#Static Analysis2026년 2월 9일댓글 수 로딩 중
[triton] Generic Multi-CTA convert_layout 지원Triton의 convert_layout 연산을 multi-CTA 환경에서 범용적으로 처리하도록 확장한 PR을 분석합니다. CTA 간 데이터 전송을 위한 cluster barrier와 distributed shared memory 활용 방식을 살펴봅니다.#Triton#GPU Compiler#Multi-CTA#Layout Conversion#MLIR2026년 2월 9일댓글 수 로딩 중
[Triton] TMA im2col 모드 — Gluon API 구현TMA im2col 시리즈의 Gluon DSL API 구현으로, Python에서 im2col 모드 TMA 복사를 직접 사용할 수 있게 한다#Triton#NVIDIA#TMA#im2col#Gluon#Convolution2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Self-Improving World Modelling with Latent Actions본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.#Review#World Modeling#Latent Actions#Self-Improvement#Reinforcement Learning#LLMs#VLMs#Inverse Dynamics Model#Forward World Modelling2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Reasoning#Reinforcement Learning#Machine Translation#Question Understanding#Self-Improvement#Language Models#Cross-Lingual Alignment2026년 2월 8일댓글 수 로딩 중
[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.#Review#Multi-Turn Jailbreaks#LLM Safety#Red Teaming#Reinforcement Learning#Intent Drift#Response-Agnostic Generation#Self-Tuning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs논문은 LLM의 극단적인 2비트 양자화에서 발생하는 성능과 효율성 간의 치명적인 트레이드오프 를 해결하고자 합니다.#Review#LLM Quantization#2-bit Quantization#Residual Binarization#Quantization-Aware Training (QAT)#Inter-Path Adaptation#Hardware Efficiency#Model Compression#Low-Bit LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.#Review#Multimodal Models#Image Generation#Image Editing#Benchmark#Computer-Use Tasks#Planning#Evaluation Metrics2026년 2월 8일댓글 수 로딩 중