최신 포스트

[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.

#Review #Audio Tokenizer #Transformer Architecture #End-to-End Learning #Residual Vector Quantization #Speech Synthesis #Audio Foundation Models #Scalability #Autoregressive Models

2026년 2월 12일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments

법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.

#Review #Legal Reasoning #AI Agent #Large Language Models #Verification #Knowledge Management #Dynamic Environments #Procedural Compliance #Tool Use

2026년 2월 12일

[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.

#Review #VLA Models #World Models #Reinforcement Learning #Robotic Manipulation #Long-Horizon Control #Human-in-the-Loop #Continual Learning

2026년 2월 12일

[논문리뷰] EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

본 논문은 로봇 텔레오퍼레이션의 한계(높은 비용, 복잡성, 환경 제약)로 인해 부족한 휴머노이드 로코-조작(loco-manipulation) 데이터 문제를 해결하고자 합니다.

#Review #Humanoid Robotics #Loco-Manipulation #Egocentric Demonstration #Robot-Free Learning #Cross-Embodiment Transfer #View Alignment #Action Alignment #VLA Co-training

2026년 2월 12일

[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit

본 논문은 현재 대규모 언어 모델(LM) 및 멀티모달 대규모 언어 모델(MLLM)의 안전성 평가, 진단, 정렬 워크플로우가 파편화되어 외부 행동 위험만 파악하고 내부 원인을 규명하지 못하는 문제를 해결하고자 합니다.

#Review #LM Safety #Evaluation #Diagnosis #Multimodal AI #Frontier AI Risks #Black-box Analysis #White-box Insight #Open-source Toolkit

2026년 2월 12일

[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.

#Review #Multimodal Model #Image Generation #Image Editing #Diffusion Models #VLM-DiT Architecture #Stacked Channel Bridging #Reinforcement Learning #Lightweight Models

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale

본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #E-commerce #Vision-Language Models #Multimodal Understanding #Instruction Tuning #Attribute Extraction #Fine-tuning #Benchmarking #LLMs

2026년 2월 12일

[Ultralytics] IMX 벤치마크에 세그멘테이션 모델 지원

IMX export 벤치마크에서 segmentation task를 허용하도록 검증 조건 수정

#Ultralytics #YOLO #IMX #Segmentation #Edge AI

2026년 2월 12일

[CPython] PEP 810 -- CPython에 명시적 Lazy Import 구현

lazy 소프트 키워드로 import 시점을 지연시켜 Python 시작 시간을 단축하는 PEP 810 구현 분석

#Python #CPython #Performance #Import System

2026년 2월 12일

[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축

매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.

#Open WebUI #Performance #Python #TTFT #Caching

2026년 2월 12일

[pydantic-ai] 자동 리뷰 봇 개선: Gateway 활용과 diff 라인 번호 주석

Claude Code 자동 리뷰 워크플로우에 API gateway를 적용하고 diff에 라인 번호를 주석하여 인라인 코멘트 정확도를 높인 사례를 분석합니다.

#pydantic-ai #GitHub Actions #Code Review #Claude Code #Automation

2026년 2월 12일

[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.

#Review #Long-Context Reasoning #Large Language Models (LLMs)#Recurrent Memory #Gated Mechanisms #Reinforcement Learning #Memory Efficiency #Early Exit

2026년 2월 11일

[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다.

#Review #Vision-Centric Jailbreak Attack #Image Editing Models #Safety Benchmark #IESBench #Multimodal Reasoning #Adversarial Attack #Defense Mechanism

2026년 2월 11일

[논문리뷰] Towards Autonomous Mathematics Research

본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.

#Review #Mathematics Research #Large Language Models #AI Agents #Theorem Proving #Tool Use #Gemini Deep Think #Autonomous Research #Human-AI Collaboration

2026년 2월 11일

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Models #Inference Efficiency #Hybrid Attention #Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI #Long-Context Understanding

2026년 2월 11일

[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

ROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.

#Review #Model Compression #LLM #Training-Free #Knapsack Problem #Sparse Matrix Factorization #Dictionary Learning #Post-Training Optimization #Weight Sparsification

2026년 2월 11일