[논문리뷰] Exploring Conditions for Diffusion models in Robotic Control본 논문은 사전 훈련된 텍스트-투-이미지 diffusion 모델 을 로봇 제어에 활용하여 태스크 적응형 시각 표현 을 얻는 것을 목표로 합니다.#Review#Diffusion Models#Robotic Control#Imitation Learning#Task-Adaptive Representations#Visual Prompts#Text-to-Image#Conditioning#Behavior Cloning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] EnzyControl: Adding Functional and Substrate-Specific Control for Enzyme Backbone Generation컴퓨테이셔널 단백질 엔지니어링에서 기질 특이적 기능성을 가진 효소 백본을 설계하는 핵심 과제를 해결하고자 합니다. 기존 생성 모델들이 바인딩 데이터, 기질 특이적 제어, 및 de novo 효소 백본 생성 유연성에서 한계를 보이는 문제점을 극복하는 것을 목표로 합니다.#Review#Enzyme Design#Protein Engineering#Generative Models#Flow Matching#Substrate-Specific Control#Functional Site Prediction#Biomolecular AI#Deep Learning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Emu3.5: Native Multimodal Models are World Learners본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image2025년 10월 31일댓글 수 로딩 중
[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.#Review#Electronic Health Records#Large Language Models#Reasoning Enhancement#Instruction Tuning#Reinforcement Learning#Data Synthesis#Medical AI#Clinical Decision Support2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.#Review#LVLMs#Self-Improvement#Matthew Effect#Data Bias Mitigation#Distribution Reshaping#Trajectory Resampling#Visual Reasoning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.#Review#Urban Sensing#Socio-Economic Status#Vision-Language Models#Reinforcement Learning#Generalization#Interpretability#Multi-modal Data2025년 10월 31일댓글 수 로딩 중
[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.#Review#Vision-Language Models (VLMs)#Chart Understanding#Visual Grounding#Dense Alignment#Benchmark#Robustness#Multimodal Learning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games논문은 OpenAI의 ChatGPT Atlas 에이전트 가 웹 환경에서 상호작용하는 능력을, 특히 웹 기반 게임을 통해 평가하는 것을 목표로 합니다.#Review#Web Agent#Large Language Models#Multimodal AI#Browser Automation#Game AI#ChatGPT Atlas#Performance Evaluation#Human-Computer Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark본 논문은 웨어러블 AI 시나리오를 위한 Multi-Modal Retrieval-Augmented Generation (MM-RAG) 시스템의 포괄적인 평가를 위한 벤치마크가 부족하다는 문제를 해결합니다.#Review#Multi-modal RAG#Benchmark#Wearable AI#Multi-turn Conversation#Egocentric Images#Knowledge Graph#Web Search#Hallucination2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs본 연구는 소규모 언어 모델(BabyLMs)이 명령어 튜닝(Instruction Tuning)을 통해 성능 향상을 얻을 수 있는지 탐구합니다.#Review#Instruction Tuning#BabyLMs#Small-scale LMs#Curriculum Learning#Conversational AI#Question Answering#Zero-shot Evaluation#SuperGLUE2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Video Generation Models#Zero-Shot Reasoning#Visual Reasoning#MME-COF Benchmark#Chain-of-Frame Reasoning#Temporal Coherence#Spatial Reasoning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[pydantic-ai] AnthropicProvider에 AsyncAnthropicVertex 클라이언트 지원 추가Anthropic Vertex AI 클라이언트를 AnthropicProvider에서 직접 사용할 수 있도록 타입 확장#Python#Pydantic AI#Anthropic#Vertex AI#Feature2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.#Review#Video Reasoning#Multimodal Large Language Models#Reinforcement Learning#Chain-of-Thought#Video Understanding#Temporal Grounding#Video Captioning#Autonomous Tool Use2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning기존 시각 효과(VFX) 생성 모델들이 겪는 자원 집약적인 '효과당 LoRA' 패러다임 과 미학습 효과에 대한 낮은 일반화 능력 이라는 근본적인 한계를 해결하고자 합니다.#Review#VFX Generation#In-Context Learning#Diffusion Models#Video Generation#Generalization#Attention Mask#One-Shot Adaptation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling본 논문은 기존 LLM 기반 상담 에이전트 가 가진 임상적 한계, 특히 장기 기억 부족 과 전략적 경직성 문제를 해결하는 것을 목표로 합니다.#Review#Longitudinal Counseling#Adaptive Agent#Dual-Loop Architecture#Large Language Models#Psychotherapy#Mental Health AI#Dialogue Management2025년 10월 30일댓글 수 로딩 중
[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarking#Long-Horizon Tasks#Realistic Environments#Multi-Application#Execution-Based Evaluation#Model Context Protocol (MCP)2025년 10월 30일댓글 수 로딩 중
[논문리뷰] The Principles of Diffusion Models본 논문(모노그래프)은 확산 모델(Diffusion Models)의 근본적인 원리를 심층적으로 분석하고, 다양한 정식화(formulations)들이 어떻게 공통된 수학적 아이디어에서 파생되었는지 추적하여 통일된 관점을 제시하는 것을 목표로 합니다.#Review#Diffusion Models#Generative AI#Variational Autoencoder#Energy-Based Models#Normalizing Flows#Score-Based SDEs#Flow Matching#Fokker-Planck Equation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs텍스트 전용 대규모 언어 모델(LLMs)이 시각 정보를 직접 처리할 수 없는 한계를 극복하고, 멀티모달 추론 능력을 효율적이고 비용 효과적으로 활용할 수 있도록 하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Text-only LLM#Agentic AI#Information Flow#VQA#Structured Intermediate Representation#Decoupled Architecture#Tool Use2025년 10월 30일댓글 수 로딩 중