[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.#Review#3D Morphable Model#Face Stylization#Text-to-Image Translation#Diffusion Model#Attribute Preservation#Generative AI#Computer Graphics2025년 8월 18일댓글 수 로딩 중
[논문리뷰] SSRL: Self-Search Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.#Review#Reinforcement Learning#Large Language Models#Self-Search#Sim-to-Real Transfer#Agentic AI#Knowledge Retrieval#Reward Modeling2025년 8월 18일댓글 수 로딩 중
[논문리뷰] SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation의료 영상 분야에서 레이블링된 학습 데이터의 부족 으로 인한 딥러닝 모델의 한계를 극복하고, 특히 5개에서 50개 사이의 매우 적은 레이블링된 샘플 만 사용 가능한 저데이터(low-data) 환경 에서 강건한 이미지 분류 성능을 달성하는 것을 목표로 합니다.#Review#Semi-supervised Learning#Few-shot Learning#Medical Imaging#GAN-based Methods#Image-to-image Translation#Pseudo-labeling#Ensemble Learning2025년 8월 18일댓글 수 로딩 중
[논문리뷰] PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing이 논문은 기존 논문 검색 시스템이 추상 기반 인덱싱에 의존하여 세분화된 쿼리(flexible-grained queries) 를 효과적으로 처리하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#논문 검색#계층적 인덱싱#유연한 검색#대규모 언어 모델#정보 추출#뷰 인식#강화 학습2025년 8월 18일댓글 수 로딩 중
[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.#Review#Self-supervised Learning#Masked Autoencoder#Earth Observation#Multimodal#Multitemporal#Multispectral#Fusion Strategies#Target Normalization2025년 8월 18일댓글 수 로딩 중
[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.#Review#Audio-Driven Animation#Preference Optimization#Diffusion Models#Reward Modeling#Human Feedback#Multi-Objective Optimization#Timestep-Layer Adaptive2025년 8월 18일댓글 수 로딩 중
[논문리뷰] DINOv3본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Controlling Multimodal LLMs via Reward-guided Decoding본 논문은 MLLM(Multimodal Large Language Models)이 다양한 사용자 요구에 맞춰 동작을 조절할 수 있도록, 추론 과정에서 세밀한 제어 를 가능하게 하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reward Models#Guided Decoding#Visual Grounding#Hallucination Mitigation#Object Precision#Object Recall#Inference-time Control2025년 8월 18일댓글 수 로딩 중
[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.#Review#Visual Mathematical Reasoning#MLLMs#Knowledge System#Reinforcement Learning#Curriculum Learning#Dataset Construction#Mathematical Benchmark2025년 8월 15일댓글 수 로딩 중
[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT본 논문은 스크린샷만을 입력으로 받는 고성능 UI 에이전트인 UI-Venus 를 구축하는 것을 목표로 합니다. 기존 지도 미세 조정(SFT) 방식의 한계인 일반화 능력 부족과 높은 데이터 수집 비용을 극복하고, 복잡한 UI 환경에서의 탐색 및 추론 능력을 향상시키는 데 중점을 둡니다.#Review#UI Agent#MLLM#RFT#UI Grounding#UI Navigation#GRPO#Data Cleaning#Self-Evolving Trajectory2025년 8월 15일댓글 수 로딩 중
[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.#Review#Cartoon Generation#Video Diffusion Models#DiT#Post-Keyframing#Low-Rank Adaptation#Sparse Control#Generative AI#Animation2025년 8월 15일댓글 수 로딩 중
[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.#Review#3D Reconstruction#Causal Transformer#Sequential Modeling#Streaming Data#Pointmap Prediction#Online Perception#KVCache2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.#Review#Long-Context Understanding#Reasoning Benchmark#LLMs Evaluation#Natural Language Processing#Global Comprehension#Fluid Intelligence#Prequel Entailment#RAG2025년 8월 15일댓글 수 로딩 중
[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.#Review#Autoregressive Models#Text-to-Image Generation#Continuous Latent Tokens#Flow Matching#Image Editing#Multimodal Learning#Transformer Architecture2025년 8월 15일댓글 수 로딩 중
[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.#Review#Multimodal LLMs#Human-Centered AI#Empathy#Context-Awareness#MLLM Benchmark#Reinforcement Learning#Reasoning2025년 8월 15일댓글 수 로딩 중
[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.#Review#Automated Interpreting Assessment#Explainable AI#Data Augmentation#Variational Autoencoder#SHAP#Interpreting Quality#Natural Language Processing2025년 8월 15일댓글 수 로딩 중
[논문리뷰] A Survey on Diffusion Language Models본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.#Review#Diffusion Language Models#Generative AI#Parallel Decoding#Text Generation#Multimodal AI#Model Compression#Reinforcement Learning from Human Feedback#Inference Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing이 논문은 NLP 분야에서 사후 설명 가능성(Post-hoc Explainability) 과 차등 프라이버시(Differential Privacy) 의 교차점을 탐구하며, 프라이버시와 설명 가능성 달성의 동시 가능성 및 그들 사이의 상충 관계를 이해하는 것을 목표로 합니다.#Review#Natural Language Processing (NLP)#Explainable AI (XAI)#Post-hoc Explainability#Differential Privacy (DP)#Privacy-Utility Trade-off#Model Faithfulness#Text Privatization2025년 8월 15일댓글 수 로딩 중