Review

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.

#Review #Vision-Language-Action (VLA) Model #Robot Manipulation #Human Demonstrations #Video Generative Pretraining #Ego-Centric Video #Trajectory Prediction #ActionVAE #Transformer

2025년 9월 19일

[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems

본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.

#Review #Agentic Recommender Systems #Simulated Environments #LLM-driven Simulation #Multi-turn Interaction #Reinforcement Learning #User Retention #Instruction Following #Multi-agent Systems

2025년 9월 19일

[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Specification Alignment #Test-Time Deliberation #Safety-Behavior Trade-off #ALIGN3 #SPECBENCH #Prompt Engineering

2025년 9월 19일

[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.

#Review #Instruction-based Image Editing #Dataset #Multi-modal LLM #Image Generation #Style Transfer #Multi-task Learning #Fine-tuning

2025년 9월 19일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일

[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning

대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Distribution Matching #GFlowNets #Mode Collapse #Diverse Reasoning #Flow-Balanced Optimization

2025년 9월 19일

[논문리뷰] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning

본 연구는 LLM 기반 에이전트의 현실적인 금융 데이터 검색 및 추론 능력을 평가하기 위한 종단 간(end-to-end) 벤치마크 의 부재를 해결하는 것을 목표로 합니다.

#Review #Financial LLMs #Agent Benchmarking #Open-domain Search #Financial Reasoning #Time-Sensitive Data #Multi-hop QA #Tool Use

2025년 9월 19일

[논문리뷰] FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution Remote Sensing Change Detection

고해상도 원격 감지 변화 탐지에서 발생하는 두 가지 주요 문제, 즉 복사량 변화로 인한 가짜 변화(pseudo-changes)의 만연 과 깊은 추상적 특징과 얕은 세부 특징 간의 의미론적 간극 으로 인한 불분명한 경계 문제를 해결하는 것을 목표로 합니다.

#Review #Change Detection #Remote Sensing #Frequency-Spatial Analysis #Wavelet Transform #Attention Mechanism #Gated Fusion #Deep Learning

2025년 9월 19일

[논문리뷰] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

논문은 LLM이 라벨이나 외부 평가 없이 스스로 개선하려는 라벨-프리(label-free) 학습 환경에서 겪는 엔트로피 붕괴(entropy collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Label-free Reinforcement Learning #LLMs #Self-improvement #Entropy Collapse #Novelty Reward #Test-Time RL #GRPO #Evolutionary Computing Principles

2025년 9월 19일

[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

본 연구는 의사 전문성에 크게 의존하고 주관적이며 비효율적인 기존 초음파 진단의 한계를 극복하고, 일반적인 VLM(Vision-Language Model) 의 초음파 의료 도메인 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Ultrasound Imaging #Medical Diagnosis #Mixture-of-Experts (MoE)#Instruction Tuning #Multimodal AI #Report Generation #VQA

2025년 9월 19일

[논문리뷰] AToken: A Unified Tokenizer for Vision

ATOKEN은 기존 시각 토크나이저들의 모달리티 및 태스크별 분절 문제를 해결하고, 이미지, 비디오, 3D 에셋 전반에서 고품질 재구성 및 심층적인 의미론적 이해를 동시에 달성하는 범용 시각 토크나이저를 개발하는 것을 목표로 합니다.

#Review #Unified Visual Tokenizer #Multimodal AI #Transformer Architecture #4D Representation #Adversarial-free Training #Reconstruction #Semantic Understanding #Generative Models

2025년 9월 19일

[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

논문은 캐릭터 애니메이션과 교체를 위한 통합 프레임워크 를 제시하여, 동작, 표정, 환경 상호작용에 대한 총체적인 제어 를 고품질로 달성하는 것을 목표로 합니다. 기존 오픈소스 솔루션의 성능 및 기능적 한계를 극복하고, 다양한 시나리오에서 일관성과 표현력을 갖춘 캐릭터 비디오 생성을 가능하게 하고자 합니다.

#Review #Character Animation #Video Replacement #Diffusion Models #Transformer #DiT #Relighting LoRA #Holistic Replication #Open-Source

2025년 9월 18일

[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Tool-Integrated Reasoning #Reinforcement Learning #Hierarchical Optimization #Self-Correction #Large Language Models #Code Generation

2025년 9월 18일

[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

대규모 언어 모델(LLM)의 정렬 조작(alignment steering) 방법론들을 총체적으로 평가 하는 것을 목표로 합니다.

#Review #LLM Alignment #Representation Steering #Benchmark #Behavioral Entanglement #Bias Mitigation #Harmful Generation #Hallucination Control #Modular Framework

2025년 9월 18일

[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

본 논문은 Code Language Models (CLMs) 에서 발생하는 민감한 훈련 데이터의 의도치 않은 기억(memorization) 문제를 해결하고자 합니다.

#Review #Code Language Models #Machine Unlearning #Sensitive Memorization #Privacy #Gradient Ascent #Model Utility #Code Generation

2025년 9월 18일

[논문리뷰] SAIL-VL2 Technical Report

본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Understanding #Mixture-of-Experts #Progressive Training #Data Curation #Supervised Fine-tuning #Reinforcement Learning #SAIL-ViT

2025년 9월 18일

[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

본 논문은 기존 핀홀(pinhole) 비전에 비해 연구가 뒤처진 옴니디렉셔널(omnidirectional) 비전의 잠재력을 발현하고, 데이터 병목 현상, 모델 역량 한계, 애플리케이션 공백과 같은 주요 문제를 해결하여 신체화된 AI(Embodied AI) 시대에 포괄적인 환경 인식을 달성하는 것을 목표로 합니다.

#Review #Omnidirectional Vision #Embodied AI #Panoramic Perception #Multi-modal Learning #Dataset Development #Robot Navigation #Spatial Reasoning #System Architecture

2025년 9월 18일

[논문리뷰] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

논문은 MARS2 2025 Challenge 를 통해 멀티모달 기계 학습 및 LLM 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Language Models (LLMs)#Multimodal Large Language Models (MLLMs)#Visual Grounding #Visual Question Answering #Advertisement Video Analysis #Real-world Scenarios #Challenge Benchmark

2025년 9월 18일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

아랍어 고품질 명령어 데이터의 부족과 다국어 LLM에서 언어별 깊이의 불균형 문제를 해결하는 것을 목표로 합니다. 효율적인 번역-튜닝 파이프라인 을 통해 아랍어 중심의 명령어 및 번역 모델(HALA) 패밀리를 구축하고, 아랍어 벤치마크에서 최첨단 성능을 달성하여 특정 언어에 대한 역량 심화에 중점을 둡니다.

#Review #Arabic NLP #Instruction Tuning #Machine Translation #Large Language Models #FP8 Quantization #Data Bootstrapping #Model Merging #Language-Centric AI

2025년 9월 18일