[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models본 논문은 모방 학습을 통해 훈련된 Vision-Language-Action (VLA) 모델, 특히 Diffusion 및 Flow Matching 모델 에서 발생하는 액션 불일치(jerks, pauses, jitter) 문제를 해결하여 안정성과 궤적 드리프트로 인한 정밀 조작 실패를 방지하는 것을 목표로 합니다.#Review#Action Coherence#Flow Matching#VLA Models#Guidance#Robotics#Imitation Learning#Transformer#Self-Attention2025년 10월 28일댓글 수 로딩 중
[논문리뷰] A Survey of Data Agents: Emerging Paradigm or Overstated Hype?본 논문은 '데이터 에이전트' 용어의 종합적이고 체계적인 정의 및 분류 를 제공하고, 기능적 경계와 책임 분배를 명확히 하는 계층적 분류 체계를 제안하여 데이터 에이전트 연구의 개념적 모호성을 해소 하는 것을 목표로 합니다. 나아가 기존 연구를 검토하고 미래 연구 방향을 제시하여 이 분야의 건강한 발전을 돕고자 합니다.#Review#Data Agents#LLMs#Autonomy Levels#Hierarchical Taxonomy#SAE J3016#Data Management#Data Preparation#Data Analysis#Autonomous Orchestration2025년 10월 28일댓글 수 로딩 중
[vllm] torch.compile로 Qwen Vision 모델 속도 향상generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보#vllm#Performance2025년 10월 28일댓글 수 로딩 중
[Triton] vLLM 호환 CUDA Graph tracing for Expert ParallelismExpert Parallelism에서 symmetric memory pool 초기화와 CUDA Graph 호환성을 개선#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[Triton] Aggregate cache key 변경 일시 Revert기존 aggregate cache key 변경이 CI에서 문제를 일으켜 일시적으로 revert한 PR#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[pydantic-ai] CI에서 uv cache prune 비활성화 및 HuggingFace 캐시 키 개선CI에서 uv cache prune을 비활성화하고 HuggingFace 모델 캐시 키를 uv.lock 기반으로 변경#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 28일댓글 수 로딩 중
[Loki] 청크 재정렬 시 파이프라인 처리 바이패스로 CPU 최적화청크 flush 시 불필요한 라벨 파싱과 메타데이터 처리를 건너뛰는 최적화#Grafana Loki#Chunk Processing#CPU Optimization#Performance2025년 10월 17일댓글 수 로딩 중
[Loki] 쿼리 엔진 병렬 푸시다운 최적화 패스 추가Grafana Loki의 물리 플래너에 parallelPushdown 최적화 규칙을 추가하여, 필터링과 파싱 같은 작업을 Parallelize 노드 내부로 이동시켜 병렬 처리 범위를 확대한 PR을 분석합니다.#Grafana Loki#Query Engine#Performance#Go#Query Optimization#Parallelism2025년 10월 17일댓글 수 로딩 중
[논문리뷰] WithAnyone: Towards Controllable and ID Consistent Image Generation본 논문은 텍스트-투-이미지 생성 모델에서 레퍼런스 인물의 ID(Identity)를 일관성 있게 유지하면서도, 레퍼런스 이미지를 단순히 복사하는 듯한 'copy-paste' 아티팩트 를 줄이고 생성된 이미지의 표현, 포즈, 조명 등의 다양성 및 제어 가능성 을 높이는 것을 목표로 합니다.#Review#Identity-Consistent Generation#Text-to-Image Diffusion#Copy-Paste Artifacts#Contrastive Learning#Multi-Identity Dataset#Controllable Generation#ID-Preservation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 핵심 과제인 환각(hallucination) 탐지를 목표로 합니다.#Review#Hallucination Detection#Multilingual LLMs#Span-Level Annotation#Synthetic Data Generation#Question Answering (QA)#Encoder Models#Uncertainty Quantification#GPT-4o2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.#Review#Video Reward Models#Multimodal Reasoning#Thinking-with-Image#Visual Reasoning#Reinforcement Learning#Chain-of-Thought#Context Management2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Agentic Framework#Unseen Concept Manipulation#Out-of-Distribution Generalization#Tool Use#Web Retrieval#Object Detection#LIBERO Simulation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.#Review#Text-to-3D#Model Stitching#Multi-view Reconstruction#Video Generation#Latent Diffusion Models#Gaussian Splats#Pointmaps#Reward Finetuning2025년 10월 17일댓글 수 로딩 중
[논문리뷰] TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar본 논문은 Code LLM 이 사용하는 서브워드 토크나이저 와 프로그래밍 언어(PL) 문법 간의 불일치 문제를 해결하고자 합니다.#Review#Code LLMs#Subword Tokenization#Grammar-aware Tokenization#Semantic Preservation#Rewrite Rules#Model Robustness#Tokenization Misalignment2025년 10월 17일댓글 수 로딩 중
[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.#Review#German Commons#Large Language Models#Training Data#Openly Licensed Text#Data Curation#German NLP#Corpus Construction#Quality Filtering2025년 10월 17일댓글 수 로딩 중
[논문리뷰] SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis본 연구는 동적 3D 장면 모델링에서 정확한 변형을 포착하면서도 계산 효율성을 유지하는 데 따른 어려움을 해결합니다.#Review#4D Novel View Synthesis#Dynamic Scenes#3D Gaussian Splatting#Cascaded Optimization#Deformation Modeling#Point Tracking#Object Segmentation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.#Review#RAG Systems#Selective Refusal#Generative Evaluation#Linguistic Perturbations#LLM Evaluation#Informational Uncertainty#Model Calibration#AI Safety2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RealDPO: Real or Not Real, that is the Preference본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.#Review#Video Generation#Diffusion Models#Direct Preference Optimization#Preference Learning#Real Data#Human Motion Synthesis#RealDPO#RealAction-5K2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.#Review#Large Language Models#Retrieval Augmented Generation#Agentic Systems#Benchmarking#Intermediate Tasks#Error Analysis#LLM Evaluation2025년 10월 17일댓글 수 로딩 중