[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#E-commerce#Vision-Language Models#Multimodal Understanding#Instruction Tuning#Attribute Extraction#Fine-tuning#Benchmarking#LLMs2026년 2월 12일댓글 수 로딩 중
[Ultralytics] IMX 벤치마크에 세그멘테이션 모델 지원IMX export 벤치마크에서 segmentation task를 허용하도록 검증 조건 수정#Ultralytics#YOLO#IMX#Segmentation#Edge AI2026년 2월 12일댓글 수 로딩 중
[CPython] PEP 810 -- CPython에 명시적 Lazy Import 구현lazy 소프트 키워드로 import 시점을 지연시켜 Python 시작 시간을 단축하는 PEP 810 구현 분석#Python#CPython#Performance#Import System2026년 2월 12일댓글 수 로딩 중
[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.#Open WebUI#Performance#Python#TTFT#Caching2026년 2월 12일댓글 수 로딩 중
[pydantic-ai] 자동 리뷰 봇 개선: Gateway 활용과 diff 라인 번호 주석Claude Code 자동 리뷰 워크플로우에 API gateway를 적용하고 diff에 라인 번호를 주석하여 인라인 코멘트 정확도를 높인 사례를 분석합니다.#pydantic-ai#GitHub Actions#Code Review#Claude Code#Automation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.#Review#Long-Context Reasoning#Large Language Models (LLMs)#Recurrent Memory#Gated Mechanisms#Reinforcement Learning#Memory Efficiency#Early Exit2026년 2월 11일댓글 수 로딩 중
[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다.#Review#Vision-Centric Jailbreak Attack#Image Editing Models#Safety Benchmark#IESBench#Multimodal Reasoning#Adversarial Attack#Defense Mechanism2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Towards Autonomous Mathematics Research본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.#Review#Mathematics Research#Large Language Models#AI Agents#Theorem Proving#Tool Use#Gemini Deep Think#Autonomous Research#Human-AI Collaboration2026년 2월 11일댓글 수 로딩 중
[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.#Review#Video Captioning#Multi-Scene Videos#Time-Aware#Structural Captions#Audio-Visual Understanding#Large Language Models#Reinforcement Learning#OmniDCBench2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.#Review#2D Strokes#3D Model Generation#Rigged Meshes#Latent Diffusion Models#Skeleton Generation#Text-to-3D#Graph Neural Networks#Preference Optimization2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparse Models#Inference Efficiency#Hybrid Attention#Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI#Long-Context Understanding2026년 2월 11일댓글 수 로딩 중
[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model CompressionROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.#Review#Model Compression#LLM#Training-Free#Knapsack Problem#Sparse Matrix Factorization#Dictionary Learning#Post-Training Optimization#Weight Sparsification2026년 2월 11일댓글 수 로딩 중
[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.#Review#Large Language Models (LLMs)#Query Understanding#Multi-Task Learning#Generative AI#Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu#Search Engines2026년 2월 11일댓글 수 로딩 중
[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.#Review#Multimodal Critics#Physical AI#Reinforcement Learning#Self-Referential Finetuning#Evaluation Models#Causal Reasoning#Embodied AI#RLVR2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization#Importance Sampling (IS) Ratio#Kalman Filter#Variance Reduction#Math Reasoning2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Meta-Learning#Error Attribution#Knowledge Internalization#Self-Distillation#Verifiable Rewards2026년 2월 11일댓글 수 로딩 중
[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.#Review#Generative Fluid Intelligence#UMM Evaluation#Visual Generation#Ad-hoc Reasoning#Contextual Adaptation#Benchmark#Attention Intervention2026년 2월 11일댓글 수 로딩 중
[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.#Review#Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization#Evolutionary Algorithm#Destroy Repair Operators#Co-evolution2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.#Review#Large Language Models#Reasoning Models#Context Management#Memory Pruning#LoRA Adapter#Long-Horizon Reasoning#Self-Forgetting2026년 2월 11일댓글 수 로딩 중