[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation본 논문은 기존 그래프 기반 RAG(Retrieval-Augmented Generation) 모델들이 겪는 'Static Graph Fallacy' 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Knowledge Graphs#Graph Traversal#Context-Aware Retrieval#Personalized PageRank#Multi-hop Reasoning#Semantic Drift Mitigation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmark이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중
[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#GEMM#WarpPipeline2026년 2월 5일댓글 수 로딩 중
[Loki] 대소문자 무시 정규식을 바이너리 연산자로 최적화정규식 엔진 대신 바이트 단위 대소문자 무시 비교 연산자를 도입하여 case-insensitive 매칭 성능을 대폭 개선한 분석.#Loki#Go#Performance#Regex#Query Engine2026년 2월 5일댓글 수 로딩 중
[Triton] AMD GFX9에서 AsyncCopy shared layout order 수정getElementsPerThread 대신 getContigPerThread를 사용하고 vecSize를 하드웨어 지원 범위로 clamp하여 coalesced direct-to-LDS 쓰기 보장#Triton#AMD#GFX9#Async Copy#Bug Fix2026년 2월 5일댓글 수 로딩 중
[pydantic-ai] Bedrock CachePoint가 여러 trailing 문서 사이에 잘못 배치되는 버그 수정AWS Bedrock에서 복수의 문서/비디오가 연속될 때 CachePoint가 마지막 문서 앞이 아닌 전체 그룹 앞에 올바르게 배치되도록 수정한 사례를 분석합니다.#pydantic-ai#AWS Bedrock#Caching#Bug Fix#Refactoring2026년 2월 5일댓글 수 로딩 중
[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합#vllm#Performance2026년 2월 5일댓글 수 로딩 중
[triton] ConSan 컴파일 타임 19분에서 34초로 단축 - 대규모 최적화Triton Concurrency Sanitizer의 컴파일 시간을 33배 개선한 대규모 PR을 분석합니다. IR 크기 축소, warp-local layout, 헬퍼 함수 중복제거 등 다양한 최적화가 포함됩니다.#Triton#ConSan#Compile Time#MLIR#Optimization2026년 2월 5일댓글 수 로딩 중
[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.#Triton#AMD#GFX1250#Stream-K#GPU-Optimization2026년 2월 4일댓글 수 로딩 중
[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Width Scaling#Large Language Models#Information Seeking#Task Decomposition#Parallel Execution#Lead-Agent-Subagent Framework#Orchestration2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration본 논문은 지난 10년간 모델 중심 패러다임이 지배했던 생성형 AI(AIGC) 분야의 한계, 특히 '의도-실행 격차(Intent-Execution Gap)'를 해결하는 것을 목표로 합니다.#Review#Agentic AI#Content Generation#Orchestration#Vibe Coding#Meta-Planner#Human-in-the-Loop#Intent-Execution Gap2026년 2월 4일댓글 수 로딩 중
[논문리뷰] VLS: Steering Pretrained Robot Policies via Vision-Language Models본 논문은 사전 학습된 로봇 정책이 새로운 객체, 장면, 또는 명령 변경과 같은 분포 외(Out-of-Distribution, OOD) 시나리오 에서 실패하는 문제를 해결하고자 합니다.#Review#Robot Learning#Vision-Language Models#Policy Steering#Inference-Time Adaptation#Out-of-Distribution Generalization#Diffusion Models#Generative Policies2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Process Reward Models (MPRMs)#Data Efficiency#Monte Carlo Annotation#Data Selection#Balanced-Information Score (BIS)#Label Mixture#Label Reliability#Computational Cost Reduction2026년 2월 4일댓글 수 로딩 중
[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.#Review#LLM Agents#Test-Time Improvement#Diagnostic Evaluation#Trajectory Analysis#Performance Metrics#Behavior Adaptation#Memory Management#POMDP2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation본 논문은 로봇의 소프트바디 조작 시 발생하는 복잡한 상호작용 속에서 변형 가능한 객체의 동역학을 정확하고 안정적으로 시뮬레이션하는 근본적인 문제를 해결하고자 합니다.#Review#Neural Simulator#Real-to-Sim (R2S)#Robotic Manipulation#Soft-body Dynamics#Gaussian Splatting#Deformable Objects#Action-conditioned Simulation#Long-horizon Simulation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#GRPO#Sparse Rewards#Self-Hinting#Policy Optimization#Adaptive Curriculum#On-Policy Training2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Residual Context Diffusion Language ModelsDiffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.#Review#Diffusion Language Models#Residual Learning#Context Aggregation#Parallel Decoding#Masked Denoising#Reasoning Benchmarks#Entropy Weighting2026년 2월 4일댓글 수 로딩 중