[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.#Review#Agentic Coding#Benchmarking#LLMs#Feature Development#Software Engineering#Test-Driven Development#Scalability2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.#Review#Omni-modal LLMs#3D Facial Animation#Speech-to-Face Generation#Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units#ARKit-52 Blendshapes#InstructEx Dataset#Multimodal Generation2026년 2월 11일댓글 수 로딩 중
[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Evaluation#Long-Horizon Planning#Interactive Economies#Benchmark#Agentic AI#Economic Simulation#Plan-and-Execute2026년 2월 11일댓글 수 로딩 중
[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.#Review#LLM Adaptation#Reinforcement Learning#Data Curation#Data Pipelines#Data Recipes#Data Verifier#Data-centric AI2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.#Review#Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition#Data Scaling#LLM Training#Generalization#Overfitting#Reasoning Models2026년 2월 11일댓글 수 로딩 중
[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.#Review#Agentic Coding#CLI Automation#Environment Inversion#Task Generation#Large Language Models (LLMs)#Software Engineering#Dockerfile#Terminal-Bench2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable RewardsGRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLMs#Credit Assignment#Multi-Objective Optimization#Advantage Estimation#Calibration#Structured Generation#Group Relative Policy Optimization2026년 2월 11일댓글 수 로딩 중
[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.#Review#Tool-Calling Agents#LLM Adaptation#Representation Engineering#Activation Steering#Training-Free#Inference-Time Control#Domain Adaptation2026년 2월 11일댓글 수 로딩 중
[Open WebUI] Redis 설정 조회 캐싱으로 /api/models 응답 속도 개선Open WebUI에서 매 루프 반복마다 Redis에서 설정값을 읽어오던 패턴을 로컬 변수 캐싱으로 변경하여 수백 번의 불필요한 Redis 라운드트립을 제거한 PR을 분석합니다.#Open WebUI#Redis#Performance#Python#API Optimization2026년 2월 11일댓글 수 로딩 중
[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.#Ray#Python#Compatibility#HuggingFace#LLM2026년 2월 11일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.#Apple Silicon#MLX#Diffusion Transformer#Performance Optimization#PyTorch2026년 2월 11일댓글 수 로딩 중
[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지#Triton#NVIDIA#Blackwell#MXFP#Bug Fix2026년 2월 11일댓글 수 로딩 중
[Grafana Loki] cmp.Diff 대신 cmp.Equal로 상태 비교를 단순화Kubernetes 컨트롤러에서 변경 감지를 위해 diff 문자열 생성 후 빈 문자열 비교하던 것을 Equal로 교체한 최적화 분석.#Grafana Loki#Go#Kubernetes#Operator#Performance2026년 2월 11일댓글 수 로딩 중
[Triton] grouped_gemm 벤치마크 min/max ms 반환 순서 수정perf_report에서 error bar가 뒤집히는 문제를 반환값 순서 교정으로 해결#Triton#Tutorial#Bug Fix#Benchmark2026년 2월 11일댓글 수 로딩 중
[Ray Data] 리소스 매니저 스케줄링에 논리적 메모리 포함Ray Data의 리소스 매니저가 CPU/GPU만 고려하던 스케줄링 결정에 논리적 메모리(memory)를 추가하여, 메모리 초과 할당을 방지하는 PR을 분석합니다.#Ray#Ray Data#Resource Management#Memory#Scheduling#Python2026년 2월 11일댓글 수 로딩 중
[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.#Triton#AMD#GPU#Attention#Optimization2026년 2월 10일댓글 수 로딩 중
[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.#Triton#AMD#LLVM#Shared Memory#Partitioning#MLIR2026년 2월 10일댓글 수 로딩 중
[논문리뷰] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos본 연구는 복잡하고 장기적인 태스크를 위해 레이블이 없는 실세계 비디오 데이터 로부터 전이 가능한 지식을 학습하는 것을 목표로 합니다.#Review#Transferable Knowledge#Real-world Video Learning#Latent Dynamics Model#Video Diffusion#Robotics Manipulation#Long-horizon Tasks#Unlabeled Data2026년 2월 10일댓글 수 로딩 중
[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.#Review#Vision-Language-Action (VLA)#Latent World Model#JEPA#Pretraining#Robot Learning#Generalization#Robustness#Human Videos2026년 2월 10일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical Report본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중