[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Story2Board: A Training-Free Approach for Expressive Storyboard Generation논문은 자연어 프롬프트로부터 표현력이 풍부하고 시각적으로 일관된 스토리보드를 생성하는 훈련 불필요(training-free) 프레임워크인 Story2Board를 제시합니다.#Review#Storyboard Generation#Text-to-Image#Diffusion Models#Training-Free#Character Consistency#Scene Diversity#Visual Storytelling2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation이 논문은 비디오 생성에서 사용자가 지정한 정체성을 고품질로 일관되게 유지하면서도, 기존 방법론의 과도한 훈련 파라미터 및 다른 AI 생성 모델과의 호환성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 경량의 플러그-앤-플레이 프레임워크를 통해 실용적인 정체성 제어 솔루션을 제시하고자 합니다.#Review#Video Generation#Identity Preservation#Plug-and-Play#Diffusion Models#Self-Attention#Lightweight AI#Conditional Image Branch2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.#Review#Multimodal Agent#Long-Term Memory#Episodic Memory#Semantic Memory#Reinforcement Learning#Video Question Answering#Entity-Centric Memory2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models본 논문은 확산 모델에서 추론 시 계산 비용을 크게 증가시키는 테스트-시간 스케일링(test-time scaling) 의 문제점을 해결하고자 합니다.#Review#Diffusion Models#Hypernetworks#Test-Time Optimization#Reward-Guided Generation#Latent Space Optimization#LoRA#Generative AI2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.#Review#Molecule Discovery#Chain-of-Thought#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Molecular Generation#Explainable AI2025년 8월 14일댓글 수 로딩 중
[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Math Reasoning#Real-World Benchmark#Visual Perception#Robustness#K-12 Education#Dataset2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment이 논문은 대규모 언어 모델(LLM) 정렬(alignment) 방법론의 한계를 해결하고자 합니다. 기존 방법론들( SFT, DPO, PPO, GRPO )은 특정 정렬 방식에 고정되거나 정량적 지표만을 최적화하여 일반화 및 견고성 측면에서 부족함을 보였습니다.#Review#LLM Alignment#Reinforcement Learning from Human Feedback#Preference Learning#Group Relative Alignment Optimization#Self-Optimization#Mixture-of-Experts#Imitation Learning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding이 연구는 시각적 그라운딩(Visual Grounding) 태스크를 수행하는 Vision-Language Models (VLMs) 에 대한 새로운 입력 인지(Input-aware) 백도어 공격(Backdoor Attack) 시나리오와 방법론인 IAG 를 제시합니다.#Review#Backdoor Attack#Vision-Language Models (VLMs)#Visual Grounding#Input-aware Trigger#Adversarial Attack#Security#U-Net#Open-vocabulary2025년 8월 14일댓글 수 로딩 중
[논문리뷰] GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors본 논문은 적은 수의 입력 영상으로 3D Gaussian Splatting (3DGS) 장면을 재구성할 때 발생하는 시각적 아티팩트와 3D 불일치 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 생성 모델들이 생성된 콘텐츠와 입력 뷰 간의 일관성을 유지하는 데 어려움 을 겪는 한계를 극복하고자 합니다.#Review#3D Gaussian Splatting#Novel View Synthesis#Diffusion Model#Artifact Restoration#Sparse-view 3D Reconstruction#Reference-Guided2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing본 논문은 기존 오픈소스 Diffusion Large Language Models (dLLMs)가 Autoregressive (AR) LLMs에 비해 추론 속도에서 우위를 점하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Faster Inference#Discrete Diffusion Forcing (D2F)#Autoregressive Generation#KV Cache Optimization#Parallel Decoding#Text Generation#Model Distillation2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Model#Policy Optimization#Reward Hacking#Hybrid Annotation#Mathematical Reasoning#Verifiable Rewards2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study본 연구는 비용이 많이 들고 확장성이 낮은 인간 주석 기반 설명의 한계를 극복하기 위해, LLM이 생성한 텍스트 설명 이 자연어 추론(NLI)과 같은 다운스트림 예측 태스크에서 PLM 및 LLM의 분류 성능을 향상 시킬 수 있는지 실증적으로 평가하는 것을 목표로 합니다.#Review#Explainable NLP#Natural Language Explanations#Large Language Models#Pre-trained Language Models#Natural Language Inference#Model Performance Enhancement#Text Generation2025년 8월 14일댓글 수 로딩 중
[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving대규모 언어 모델(LLM) 기반 에이전트가 외부 도구를 활용할 때 발생하는 확장된 컨텍스트 및 노이즈/관련성 없는 도구 출력 으로 인한 시스템 신뢰성 및 정확도 저하 문제를 해결하고, 에이전트 기반 시스템의 안정성과 견고성 을 향상시키는 것을 목표로 합니다.#Review#Multi-Agent System#Agent Stability#LLM#Tool Use#GAIA Benchmark#Robustness#Dynamic Supervision#Maneuvering2025년 8월 14일댓글 수 로딩 중
[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Fine-tuning#Reinforcement Learning#Meta-learning#Adaptive Control#Imitation Learning#Exploration#Reasoning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion현재 원격 감지 위성은 지표면 온도(LST) 데이터의 공간 및 시간 해상도 간 트레이드오프 문제를 겪고 있으며, 특히 일별 10m 해상도 LST 추정은 어렵습니다.#Review#Spatio-Temporal Fusion#Land Surface Temperature#Generative Adversarial Network#Weakly-Supervised Learning#Remote Sensing#Deep Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] VertexRegen: Mesh Generation with Continuous Level of Detail기존 자동회귀 메쉬 생성 모델들이 부분-완료 방식으로 동작하여, 유효한 메쉬를 얻기 위해 전체 시퀀스를 생성해야만 하고 중간 단계에서는 불완전한 구조를 생성하는 문제를 해결하고자 합니다.#Review#Mesh Generation#Level of Detail (LOD)#Progressive Meshes#Vertex Split#Autoregressive Models#Transformer#3D Graphics2025년 8월 13일댓글 수 로딩 중
[논문리뷰] UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation본 논문은 Masked Generative Transformers (MGTs)를 사용한 텍스트-이미지(T2I) 생성 시 발생하는 조합적 충실도(compositional fidelity) 문제를 해결하고, 특히 속성 바인딩(attribute binding) 오류를 개선하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Masked Generative Transformers#Compositional Generation#Attention Guidance#Unmasking Strategy#Contrastive Learning#Training-Free#Attribute Binding2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중