최신 포스트

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Meta-Learning #Error Attribution #Knowledge Internalization #Self-Distillation #Verifiable Rewards

2026년 2월 11일

[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite

본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Generative Fluid Intelligence #UMM Evaluation #Visual Generation #Ad-hoc Reasoning #Contextual Adaptation #Benchmark #Attention Intervention

2026년 2월 11일

[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization #Evolutionary Algorithm #Destroy Repair Operators #Co-evolution

2026년 2월 11일

[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models

추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.

#Review #Large Language Models #Reasoning Models #Context Management #Memory Pruning #LoRA Adapter #Long-Horizon Reasoning #Self-Forgetting

2026년 2월 11일

[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Coding #Benchmarking #LLMs #Feature Development #Software Engineering #Test-Driven Development #Scalability

2026년 2월 11일

[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #3D Facial Animation #Speech-to-Face Generation #Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units #ARKit-52 Blendshapes #InstructEx Dataset #Multimodal Generation

2026년 2월 11일

[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Evaluation #Long-Horizon Planning #Interactive Economies #Benchmark #Agentic AI #Economic Simulation #Plan-and-Execute

2026년 2월 11일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.

#Review #Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition #Data Scaling #LLM Training #Generalization #Overfitting #Reasoning Models

2026년 2월 11일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents

본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.

#Review #Tool-Calling Agents #LLM Adaptation #Representation Engineering #Activation Steering #Training-Free #Inference-Time Control #Domain Adaptation

2026년 2월 11일

[Open WebUI] Redis 설정 조회 캐싱으로 /api/models 응답 속도 개선

Open WebUI에서 매 루프 반복마다 Redis에서 설정값을 읽어오던 패턴을 로컬 변수 캐싱으로 변경하여 수백 번의 불필요한 Redis 라운드트립을 제거한 PR을 분석합니다.

#Open WebUI #Redis #Performance #Python #API Optimization

2026년 2월 11일

[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리

transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.

#Ray #Python #Compatibility #HuggingFace #LLM

2026년 2월 11일

[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상

PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.

#Apple Silicon #MLX #Diffusion Transformer #Performance Optimization #PyTorch

2026년 2월 11일

[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정

2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지

#Triton #NVIDIA #Blackwell #MXFP #Bug Fix

2026년 2월 11일

[Grafana Loki] cmp.Diff 대신 cmp.Equal로 상태 비교를 단순화

Kubernetes 컨트롤러에서 변경 감지를 위해 diff 문자열 생성 후 빈 문자열 비교하던 것을 Equal로 교체한 최적화 분석.

#Grafana Loki #Go #Kubernetes #Operator #Performance

2026년 2월 11일