[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs본 논문은 기존 MLLM 이 전체적인 이해에는 뛰어나지만, 복잡한 장면의 미세한 디테일과 객체 간의 복잡한 관계를 파악하는 데 한계가 있음을 지적합니다.#Review#Multimodal LLMs#Region Understanding#Contextual Pixel Understanding#RoI-aligned Feature Replay#Compositional Reasoning#GAR-Bench#Zero-shot Video Understanding2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Extracting alignment data in open models본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.#Review#Alignment Data Extraction#Large Language Models#Memorization#Neural Embeddings#Semantic Similarity#Chat Templates#Model Distillation#Reinforcement Learning#Supervised Finetuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.#Review#Verifiable Learning#Data Synthesis#Evolutionary Algorithm#Large Language Models#Reinforcement Learning#Model Distillation#Test Generation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial Intelligence논문은 관찰자와 객체가 동시에 움직이는 동적 3D 시나리오 에서 최신 Vision-Language Models (VLMs)의 제한적인 이해 능력을 해결하고자 합니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models (VLMs)#Benchmark#Video Understanding#Motion Perception#3D Spatial Intelligence#Hallucinations#Bias2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Chem-R: Learning to Reason as a Chemist현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.#Review#Chemical Reasoning#Large Language Models#Chem-R#Structured Reasoning#Multi-task Optimization#Chain-of-Thought#Chemical Discovery2025년 10월 22일댓글 수 로딩 중
[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.#Review#Automated Trading#Reinforcement Learning#LLM Agents#Tool Orchestration#Financial Markets#Algorithmic Trading#Interpretable AI#ReAct2025년 10월 22일댓글 수 로딩 중
[Triton] AxisInfo의 unrealized_conversion_cast 처리 강화rank 불일치 시 pessimistic state로 fallback하여 크래시를 방지#Triton#Compiler2025년 10월 22일댓글 수 로딩 중
[논문리뷰] When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling본 논문은 LLM(Large Language Model) 앙상블이 장문(long-form) 생성에서 겪는 불안정성과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#LLM Ensembling#Token-level Ensembling#Speculative Decoding#Tokenization Mismatch#Probability Sharpening#Long-form Generation#KV Cache Management2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling본 연구는 대규모 언어 모델(LLMs)에서 성공적인 추론 시간 스케일링(search) 전략이 연속적인 잠재 공간을 사용하는 확산 모델(Diffusion Models)에서는 제한적인 이점을 보이는 문제를 해결하고자 합니다.#Review#Visual Autoregressive Models#Diffusion Models#Inference Time Scaling#Beam Search#Image Generation#Text-to-Image Synthesis#Discrete Latent Space2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Diffusion Models#Reinforcement Learning#MLLM#Policy Optimization#Finetuning#Reward Modeling#Human Alignment2025년 10월 21일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation본 연구는 기존 RAG 시스템이 단일 모드 텍스트나 제한된 다중 모드 설정에만 초점을 맞춰, 실제 환경의 혼합 모드(mixed-modal) 질의 및 문서 처리에 한계가 있다는 문제를 해결하고자 합니다.#Review#Universal RAG#Multimodal Retrieval#Mixed-Modal Data Generation#Vision-Language Models#Contrastive Learning#Matryoshka Representation Learning2025년 10월 21일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFT본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중
[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.#Review#LLM#Problem Generation#Competitive Programming#Synthetic Data#Difficulty Estimation#Rejection Fine-tuning#Graph Sampling2025년 10월 21일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] On Non-interactive Evaluation of Animal Communication Translators이 논문은 AI 기반 동물 언어 번역기(예: 고래-영어 번역기)의 작동 여부를 상호작용 없이 검증하는 방법을 제시하는 것을 목표로 합니다.#Review#Machine Translation Quality Evaluation#Reference-Free Evaluation#Animal Communication#Language Models#Shuffle Test#Conlangs#Non-interactive Evaluation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.#Review#Multi-Turn Conversation#VLM Evaluation#Benchmark#Vision and Language Models#Contextual Understanding#Checklist-based Evaluation#Interactive AI2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Question Answering#Retrieval-Augmented Generation#Multimodal AI#Reinforcement Learning#Knowledge Base#Tool Learning#Information Filtering2025년 10월 21일댓글 수 로딩 중
[논문리뷰] GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer본 논문은 입력 3D 객체와 외형 객체 간의 기하학적 차이가 클 때, 기존 3D 외형 전이 방법론이 실패하는 문제를 해결하고자 합니다.#Review#3D Appearance Transfer#Rectified Flow#Generative Models#Optimization-Guided Sampling#Neural Latent Representations#Training-Free#GPT-Based Evaluation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Glyph: Scaling Context Windows via Visual-Text Compression논문은 대규모 언어 모델(LLM)의 컨텍스트 창을 수백만 토큰 수준으로 확장할 때 발생하는 막대한 계산 및 메모리 비용 문제를 해결하는 것을 목표로 합니다.#Review#Long-Context Modeling#Visual Compression#Vision-Language Models#Token Efficiency#Genetic Algorithms#Multimodal AI#LLM Scaling2025년 10월 21일댓글 수 로딩 중