[논문리뷰] INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats현대 AI 하드웨어는 LLM의 아웃라이어를 처리하기 위해 저정밀 부동소수점(FP) 형식을 점차 채택하고 있으나, 다양한 과립도(granularity)에 걸친 FP와 정수(INT) 양자화에 대한 통합적인 비교 연구가 부족합니다.#Review#Quantization#Low-bit Formats#Integer Quantization#Floating-Point Quantization#Large Language Models (LLMs)#Hardware Efficiency#Fine-Grained Quantization#MXINT82025년 11월 9일댓글 수 로딩 중
[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.#Review#GUI Grounding#Uncertainty Calibration#Reinforcement Learning#Confidence Estimation#Brier Score#GUI Agents#Visual-Language Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Higher-order Linear Attention논문은 scaled dot-product attention의 이차 비용 문제를 해결하여 장문맥 언어 모델의 확장을 가능하게 하는 것을 목표로 합니다.#Review#Linear Attention#Higher-order Interactions#Causal Streaming#Associative Scans#Prefix Summaries#Transformer Architectures#State Space Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Defeating the Training-Inference Mismatch via FP16대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Fine-tuning#Training-Inference Mismatch#Floating Point Precision#FP16#BF16#RL Stability2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Continuous Autoregressive Language ModelsLarge Language Models (LLMs)의 비효율적인 순차적, 토큰 단위 생성 과정의 근본적인 한계를 극복하는 것이 목표입니다. 본 연구는 이산 토큰 예측에서 연속 벡터 예측 으로 패러다임을 전환하여, 각 생성 단계의 의미론적 대역폭을 증가 시킴으로써 LLM의 스케일링 및 계산 효율성을 향상시키고자 합니다.#Review#Large Language Models (LLMs)#Continuous Representation#Autoencoder#Likelihood-Free Modeling#Energy-Based Models#Next-Vector Prediction#Computational Efficiency#Temperature Sampling2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification텍스트-이미지(T2I) 모델을 활용한 합성 데이터 생성 에서 발생하는 과적합 및 다양성 감소 문제를 해결하고, 특히 소량 데이터(few-shot) 환경에서 미세 조정 분류(fine-grained classification) 성능을 극대화하는 것을 목표로 합니다.#Review#Text-to-Image Synthesis#Synthetic Data Generation#Fine-Grained Classification#Few-Shot Learning#Diffusion Models#Contextual Conditioning#Causal Intervention2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Survey on Efficient Vision-Language-Action Models이 논문은 대규모 Vision-Language-Action (VLA) 모델 이 직면한 막대한 계산 및 데이터 요구사항으로 인해 실제 로봇 환경에 배포되기 어려운 문제를 해결하는 것을 목표로 합니다.#Review#Embodied AI#Robotic Manipulation#VLA Models#Efficient AI#Model Compression#Efficient Training#Data Collection#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.#Review#Speech Tokenizer#Noise Robustness#Semantic Tokens#SpeechLLMs#Voting-LFQ#Consensus Training#Automatic Speech Recognition#Speech Synthesis2025년 9월 30일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Model#Linear Attention#Transformer#Long Video#Efficient Inference#Constant Memory#Low-Cost Training#RTX Deployment2025년 9월 30일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.#Review#Reinforcement Learning#LLM Reasoning#Policy Valuation#Markov Decision Process#Diversity#Math Reasoning#Verifiable Rewards2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing본 연구는 기존 데이터셋의 한계, 특히 실제 적용에 필요한 체계적인 구조와 난이도 높은 시나리오의 부족으로 인해 이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능이 제약받는 문제를 해결하고자 합니다.#Review#Image Generation#Image Editing#Multimodal AI#Dataset#Instruction Following#Taxonomy#GPT-402025년 9월 30일댓글 수 로딩 중
[논문리뷰] Multiplayer Nash Preference Optimization기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.#Review#RLHF#LLM Alignment#Nash Equilibrium#Multiplayer Games#Preference Optimization#Non-transitive Preferences#Game Theory2025년 9월 30일댓글 수 로딩 중
[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering기존 LLM 스티어링 프레임워크들이 겪는 계산 비효율성 , 제한된 확장성 , 및 부족한 기능성 문제를 해결하는 것을 목표로 합니다. 이는 연구 진행과 실제 배포를 저해하는 요인으로, 본 논문은 고성능 과 확장성 을 갖춘 통합 LLM 스티어링 프레임워크 를 구축하여 이러한 한계를 극복하고자 합니다.#Review#LLM Steering Framework#vLLM Integration#Hidden State Manipulation#Inference Optimization#Extensibility#Modular Architecture#Reasoning Mitigation#Hallucination Reduction2025년 9월 30일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction컴퓨터 비전, 음성 및 텍스트를 아우르는 다중 모달 인터랙티브 인간 에이전트 시스템에서 기존의 모듈형 파이프라인 방식이 야기하는 컨텍스트 불일치, 지연 및 오류 누적 문제를 해결하고자 합니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중
[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.#Review#Text-to-Video Retrieval#LLM#Chain-of-Thought#Explainable AI#Multimodal Retrieval#Bradley-Terry Model#Video Annotation2025년 9월 29일댓글 수 로딩 중