[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Prompt Optimization#Large Language Models (LLM)#Test-Time Scaling#Retrieval-Augmented Generation#Diffusion Models#Data Alignment2025년 10월 27일댓글 수 로딩 중
[논문리뷰] PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis제한된 실제 비디오 데이터로부터 변형 가능한 물체의 물리 일관성 있는 동역학 모델을 학습하는 데 따르는 데이터 부족 문제를 해결하고, 정확하면서도 빠른 추론이 가능한 월드 모델을 구축하는 것을 목표로 합니다. 특히, 시공간적으로 변이하는 물리적 특성을 가진 물체에 대한 모델링을 중점적으로 다룹니다.#Review#World Models#Deformable Objects#Physics Simulation#GNN#Digital Twin#Data Synthesis#Real-to-Sim#Physics-Aware Learning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Model Merging with Functional Dual Anchors본 논문은 파운데이션 모델의 finetuned 체크포인트에서 지식을 통합하는 모델 병합(Model Merging) 과정에서 발생하는 파라미터 충돌 과 태스크별 지식 충돌 문제를 해결하는 것을 목표로 합니다.#Review#Model Merging#Functional Dual Anchors#Input-Representation Space#Task Vectors#Knowledge Integration#Foundation Models#Gradient Matching#Post-training Strategy2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs본 논문은 Video Large Language Models ( VideoLLMs )가 비디오-텍스트 정보(spatiotemporal inputs)를 어떻게 내부적으로 추출하고 전파하여 비디오 질의응답 (VideoQA) 태스크에서 Temporal Reasoning을 수행하는지 그 메커니즘을 밝히는 것을 목표로 합니다.#Review#Video Large Language Models#VideoQA#Mechanistic Interpretability#Attention Knockout#Temporal Reasoning#Information Flow#Model Interpretability#Logit Lens2025년 10월 27일댓글 수 로딩 중
[논문리뷰] From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model이 논문은 비전-언어 확산 모델에서 발생하는 train-inference 불일치 로 인한 오류 연쇄(error cascade) 문제를 해결하는 것을 목표로 합니다. 특히 병렬 디코딩 시 초기 토큰 오류가 전체 생성 컨텍스트를 오염시켜 구문 오류 및 의미론적 환각 을 유발하는 문제를 극복하고자 합니다.#Review#Discrete Diffusion Models#Vision-Language Models#Error Cascades#Self-Correction#Refinement Framework#Parallel Generation#Image Captioning#Hallucination Mitigation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.#Review#Text-to-Audio#Video-to-Audio#Foley Synthesis#Diffusion Models#Cross-Attention#Frozen Backbones#Video Embeddings#Rotary Position Embeddings2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.#Review#Category Theory#Document Understanding#Large Language Models#Information Theory#Rhetorical Structure Theory#Document Summarization#Rate Distortion Analysis#Self-supervised Learning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.#Review#Autonomous Agents#Large Language Models#Tool Use#Reinforcement Learning#Memory Management#Tool Retrieval#Agentic Reasoning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.#Review#AI Agents#Benchmarking#Scientific Research#LLM Evaluation#Agentic AI#Tool Use#Reproducibility#Cost-Aware Evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.#Review#Machine Translation Evaluation#Large Reasoning Models#LLM-as-a-judge#MQM#Fine-tuning#Thinking Calibration#Computational Efficiency#Meta-evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ARC-Encoder: learning compressed text representations for large language models본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.#Review#Context Compression#Large Language Models#Encoder-Decoder Architecture#Text Representation#In-Context Learning#Parameter Efficiency#Retrieval-Augmented Generation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ALICE-LRI: A General Method for Lossless Range Image Generation for Spinning LiDAR Sensors without Calibration Metadata본 논문은 회전형 LiDAR 센서 로부터 제조사 보정 메타데이터 없이 손실 없는 레인지 이미지(Range Image)를 생성 하는 범용적인 방법을 제시하는 것을 목표로 합니다.#Review#LiDAR#Range Image#Lossless Projection#Sensor Calibration#Intrinsic Parameters#Point Cloud Reconstruction#Hough Transform#Weighted Least Squares2025년 10월 27일댓글 수 로딩 중
[논문리뷰] A Definition of AGI본 논문은 모호한 AGI(인공 일반 지능) 개념을 명확히 정의하고, 현재의 특수화된 AI와 인간 수준의 인지 능력 간의 격차를 해소하기 위한 정량적 프레임워크 를 제시하는 것을 목표로 합니다. 잘 교육받은 성인의 인지적 다재다능함과 숙련도에 필적하는 AI를 AGI로 정의하며, 이를 측정 가능한 기준으로 설정하고자 합니다.#Review#AGI Definition#Cognitive Assessment#Cattell-Horn-Carroll Theory#AI Evaluation#Multimodal AI#Cognitive Domains#Psychometrics2025년 10월 27일댓글 수 로딩 중
[Triton] Aggregate 멤버를 cache key에 포함시키기JIT 함수에 전달되는 aggregate 타입의 멤버를 cache key에 반영하여 캐시 일관성 보장#Triton#Frontend#Cache#JIT2025년 10월 24일댓글 수 로딩 중
[pydantic-ai] FastMCPToolset 추가 — FastMCP 기반 MCP 클라이언트 통합FastMCP 프레임워크를 활용한 새로운 MCP 툴셋으로 다양한 트랜스포트(HTTP, SSE, stdio 등) 지원#Python#Pydantic AI#MCP#Feature#Integration2025년 10월 24일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Thought Communication in Multiagent Collaboration본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템(MAS)에서 자연어 통신의 내재적 한계(손실, 모호성)를 극복하고자 합니다.#Review#Multiagent Systems#LLM Communication#Latent Variable Models#Identifiability Theory#Thought Communication#Sparse Autoencoder#Prefix Tuning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.#Review#Legal Information Retrieval#Embedding Models#Benchmark Dataset#Natural Language Processing#Retrieval-Augmented Generation#Jurisdictional Diversity#Legal Tech2025년 10월 24일댓글 수 로딩 중