[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.#Review#Agentic Software Engineering#Mid-training#Large Language Models#Agent-native Data#Contextual Trajectories#Environmental Trajectories#SWE-Bench Verified#Code Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] VIBEVOICE-ASR Technical Report본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.#Review#Automatic Speech Recognition#Speaker Diarization#Long-form Audio#Large Language Models#End-to-end Speech Processing#Multilingual#Context-aware ASR2026년 1월 26일댓글 수 로딩 중
[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 '의미론적 간극'을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.#Review#Dialogue-to-Video Generation#Agentic AI#Cinematic Scripting#Long-Horizon Video Synthesis#Visual Coherence#Reinforcement Learning#Multimodal LLM2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability본 논문은 초기 성공률이 낮아 훈련 신호가 희박한 어려운 추론 문제 에 대해 대규모 언어 모델(LLM) 이 학습 정체기에서 벗어나도록 돕는 것을 목표로 합니다.#Review#Meta-RL#Curriculum Learning#Self-Play#LLM Reasoning#Sparse Rewards#Question Generation#Bilevel Optimization2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique Report본 논문은 SkyReels-V3 를 통해 시각적 참조, 비디오, 오디오 및 텍스트 입력을 통합하여 유연하고 제어 가능한 비디오 생성을 가능하게 하는 통합 멀티모달 조건부 비디오 생성 프레임워크 를 제시하는 것을 목표로 합니다.#Review#Video Generation#Multimodal AI#Diffusion Models#Transformer Architecture#Reference-guided Generation#Video-to-Video#Audio-driven Animation#Temporal Consistency2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility과학적 추론을 위한 멀티모달 데이터의 부족과 기존 Text-to-Image(T2I) 모델 이 시각적으로는 그럴듯하지만 과학적으로 부정확한 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Scientific Image Synthesis#Multimodal Reasoning#Text-to-Image#Benchmarking#Programmatic Synthesis#Large Multimodal Models#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion이 논문은 자연어 질의에 대한 테이블 검색(Table Retrieval) 과정에서 발생하는 비정형 질의와 정형 테이블 간의 심층적인 의미적 불일치 및 긴 테이블 처리 시 토큰 길이 제한 문제를 해결하는 것을 목표로 합니다.#Review#Table Retrieval#Semantic Representation#K-means Clustering#Weighted Fusion#Large Language Models#Query Generation#Information Retrieval2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.#Review#Deep Search#Agentic Data Generation#LLMs#Execution Feedback#Reinforcement Learning#Question Answering#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Cross-Domain Generalization#State Information Richness#Planning Complexity#State Augmentation#Step-by-Step Reasoning#Mid-Training2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models본 논문은 대규모 시각-언어 모델(LVLM)에서 시각 토큰 압축이 모델의 강건성(robustness) 에 미치는 보안적 영향을 최초로 체계적으로 탐구합니다.#Review#LVLM Security#Token Compression#Adversarial Attack#Robustness Degradation#Compression-Aware Attack#Efficiency-Security Trade-off#Black-box Attack2026년 1월 26일댓글 수 로딩 중
[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.#Review#End-to-End ASR#Speaker Diarization#Child Speech Processing#Whisper Model#Serialized Output Training#Multi-task Learning#State-Machine Decoding2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers표준 어텐션 메커니즘의 이차적인 복잡도로 인한 대규모 언어 모델(LLM)의 긴 컨텍스트 시나리오에서의 확장성 병목 현상을 해결하고자 합니다.#Review#Transformer#Sparse Attention#Adaptive Sparsity#Efficient LLM#Attention Router#Long-Context#Hybrid Attention2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Long-Horizon Planning#Benchmarking#Verifiable Constraints#Tool Use#Constraint Optimization#Information Acquisition#Travel Planning#Shopping Planning2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Academic Rebuttal#LLM Agents#Peer Review Automation#Generative AI#Retrieval-Augmented Generation (RAG)#Strategic Planning#Persuasion2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs본 논문은 LLM(대규모 언어 모델)이 데이터 준비(Data Preparation) 작업에 미치는 변혁적인 영향을 체계적으로 검토하는 것을 목표로 합니다.#Review#Data Preparation#LLMs#Data Cleaning#Data Integration#Data Enrichment#AI Agents#Semantic Reasoning#Workflow Automation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval본 논문은 일반적인 임베딩 모델이 테이블 검색에서 겪는 의미론적 압축(semantic compression) 및 쿼리-테이블 불일치 문제를 해결하고, 기존 LLM 기반 검색 증강 방법론인 QGpT의 한계(휴리스틱한 부분 테이블 선택 및 합성 쿼리의 불충분한 활용)를 극복하여 테이블 검색 성능을 향상시키는 것을 목표로 합니다.#Review#Table Retrieval#LLM Supervision#K-means Clustering#Partial Table#Contrastive Learning#Embedding Fine-tuning#Synthetic Query Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Agentic Very Long Video Understanding본 논문은 항상 켜져 있는 개인 AI 비서가 요구하는 매우 긴 비디오 이해의 과제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Video Understanding#Agentic AI#Entity Graph#Multimodal Reasoning#Video Question Answering#EgoLifeQA#Retrieval Augmented Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.#Review#Autoregressive Models#Multimodal AI#Any-to-Any Generation#Unified Model#Speech Generation#Image Generation#Transformer Decoder#Real-time Streaming2026년 1월 26일댓글 수 로딩 중
[Triton] TMA im2col 모드 — tma load op 수정NVIDIA TMA im2col 모드 시리즈의 세 번째 PR로, tma load op의 타입 매칭과 offset 처리를 수정한다#Triton#NVIDIA#TMA#im2col#Convolution2026년 1월 26일댓글 수 로딩 중
[triton] NVIDIA TMA im2col 모드 Tensor Descriptor 지원NVIDIA TMA의 im2col 모드를 Triton의 tensor descriptor 시스템에 통합한 PR을 분석합니다. TensorDescInterface 도입과 TensorDescIm2ColType 추가를 통해 convolution-friendly 메모리 접근 패턴을 지원합니다.#Triton#NVIDIA#TMA#Im2col#Convolution#MLIR2026년 1월 26일댓글 수 로딩 중