[논문리뷰] StepWiser: Stepwise Generative Judges for Wiser Reasoning본 논문은 대규모 언어 모델(LLM)이 복잡한 문제 해결을 위해 사용하는 다단계 추론(Chain-of-Thought) 전략에서 각 중간 단계의 논리적 유효성을 감독하는 과제를 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Process Reward Models#Reinforcement Learning#Generative Judges#Stepwise Feedback#Chain-of-Thought#Meta-Reasoning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning DecompositionVision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Rewarding#Reasoning Decomposition#Visual Perception#Language Reasoning#Hallucinations#Language Shortcuts2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.#Review#Language Modeling#Next-Token Prediction#Multi-Token Prediction#Token Order Prediction#Auxiliary Objective#Learning-to-Rank#Transformer#Large Language Models2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment본 논문은 기존 텍스트 기반 모션 생성 방법론이 겪는 언어적 설명과 모션 의미 간의 부정확한 정렬 및 느리고 비효율적인 다단계 추론 과정 의 문제를 해결하고자 합니다. 궁극적으로 강력한 의미론적 정렬, 고품질 모션 생성, 그리고 실시간 합성을 가능하게 하는 프레임워크를 개발하는 것이 목표입니다.#Review#Text-Guided Motion Generation#Rectified Flow Matching#Preference Alignment#Human Motion Synthesis#Real-time AI#Transformer Architecture#Self-supervised Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents본 논문은 MLLM 기반 스마트폰 에이전트 의 개인정보 보호 인식(Privacy Awareness) 능력을 체계적으로 평가하기 위한 최초의 대규모 벤치마크를 구축하고, 에이전트들이 민감한 사용자 정보에 접근할 때 적절한 개인정보 보호 조치를 취하는지 검증하는 것을 목표로 합니다.#Review#Multimodal LLMs (MLLMs)#Smartphone Agents#Privacy Awareness#Benchmarking#Sensitive Data Detection#Risk Assessment#UI Automation2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation본 논문은 다양한 입력 신호에 실시간으로 반응하며, 낮은 지연 시간과 높은 시각적 일관성을 유지하는 대화형 디지털 휴먼 비디오 생성 시스템 을 구축하는 것을 목표로 합니다. 기존 방식의 높은 지연 시간, 계산 비용, 제한된 제어 가능성 등의 한계를 극복하고자 합니다.#Review#Multimodal Generation#Digital Human Synthesis#Real-time Video Generation#Autoregressive LLM#Diffusion Models#Deep Compression Autoencoder#Exposure Bias Mitigation#Streaming Inference2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation기존 rPPG(remote PhotoPlethysmoGraphy) 데이터셋의 한계 (작은 규모, 사생활 침해 우려, 조건 다양성 부족, 접근 제한)를 극복하고, 원격 건강 모니터링 및 AI 의료 보조 시스템 개발 을 가속화하기 위한 포괄적인 대규모 다중 뷰 비디오 데이터셋과 베이스라인 모델을 구축하는 것을 목표로 합니다.#Review#rPPG#Multi-View Video Dataset#Health Biomarkers#Physiological Monitoring#Deep Learning#Telemedicine#Biosignals2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Action Decoding#Transformer#Robot Control#Masked Modeling#Adaptive Decoding#Reinforcement Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Diffusion Language Models Know the Answer Before Decoding본 논문은 확산 언어 모델(DLM)의 주요 단점인 느린 추론 속도를 해결하는 것을 목표로 합니다.#Review#Diffusion Language Models#DLM Acceleration#Early Answer Convergence#Early Commit Decoding#Confidence Gap#Inference Speedup#Training-Free2025년 8월 28일댓글 수 로딩 중
[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.#Review#Generative Research Synthesis#Live Benchmark#Automated Evaluation#LLM-as-a-judge#Related Work Generation#Retrieval-Augmented Generation#Verifiability2025년 8월 28일댓글 수 로딩 중
[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement LearningGUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.#Review#GUI Agents#Reinforcement Learning#Planner-Executor Architecture#Decoupled Training#Large Vision-Language Models#Specialization#Generalization#Computer Use Agent2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video Generation본 연구는 기존 오디오 기반 캐릭터 애니메이션 모델이 복잡한 영화 및 TV 프로덕션 시나리오(미묘한 상호작용, 현실적인 신체 움직임, 다이내믹한 카메라 워크)에서 한계를 보이는 문제를 해결합니다.#Review#Audio-Driven Video Generation#Cinematic Video#Diffusion Models#Transformer Architecture#Long Video Consistency#Human Animation#Multimodal Control#Data Curation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space본 논문은 기존 2D 이미지 기반의 3D 편집 방법론이 겪는 비일관성 및 비정밀성의 한계를 극복하고, 네이티브 3D 잠재 공간 에서 훈련 없이(training-free) 정밀하고 일관성 있는 3D 로컬 편집을 수행하는 것을 목표로 합니다.#Review#3D Editing#Training-Free#Diffusion Models#Latent Space#3D Inversion#Contextual Feature Replacement#3D Consistency#Edit3D-Bench2025년 8월 27일댓글 수 로딩 중
[논문리뷰] VibeVoice Technical Report본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.#Review#Speech Synthesis#Long-form Audio#Multi-speaker#Next-token Diffusion#Speech Tokenizer#Large Language Model#Variational Autoencoder#Audio Compression2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Unraveling the cognitive patterns of Large Language Models through module communities본 논문은 LLM의 내부 아키텍처와 인지 과정을 이해하기 어려운 ‘블랙박스’ 문제를 해결하고자 합니다. 특히 기존 연구에서 부족했던 스킬 간의 관계, 동적 적응성, 교차 도메인 일반화 및 메커니즘의 상세한 해석 가능성 탐색에 중점을 둡니다.#Review#Large Language Models#Network Community Structure#Cognitive Skills#AI Interpretability#Module Communities#Fine-tuning#Neural Plasticity2025년 8월 27일댓글 수 로딩 중
[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.#Review#Memory Networks#Mixture of Experts (MoE)#Long-Context Learning#Sparse Models#Transformer Architecture#LLMs#Efficient Inference2025년 8월 27일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Training Language Model Agents to Find Vulnerabilities with CTF-Dojo본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 사이버 보안 취약점을 자동으로 탐지하고 악용하는 것을 목표로 합니다.#Review#LLM Agents#Cybersecurity#CTF Challenges#Vulnerability Detection#Execution Environments#Docker#Automated Training#Verifiable Feedback2025년 8월 27일댓글 수 로딩 중