최신 포스트

[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

본 논문은 기존 텍스트 프롬프트, 참조 이미지, LoRA 기반 스타일 생성 방식이 겪는 스타일 일관성 부족, 창의성 한계, 복잡한 스타일 표현 문제를 해결하고자 합니다.

#Review #Code-to-Style Generation #Discrete Style Space #Style Codebook #Autoregressive Model #Diffusion Models #Visual Stylization #Generative AI

2025년 11월 18일

[논문리뷰] A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition

본 논문은 기존 EEG 기반 감정 인식 모델들이 간과했던 뇌의 상이한 피질 영역 간의 동적 상호작용을 해결하고자 합니다.

#Review #EEG #Emotion Recognition #Transformer Architecture #Inter-Cortical Neural Interactions #Multi-Head Attention #Brain-Computer Interface #Affective Computing

2025년 11월 18일

[Triton] AMD gfx1250 tt.LoadOp에 multicast 지원 추가

cluster_load를 사용하여 여러 CTA에 동시 레지스터 로드를 수행하는 multicast 기능 구현

#Triton #AMD #gfx1250 #Multicast #Load

2025년 11월 18일

[pydantic-ai] CachePoint에 TTL 옵션 추가 — Anthropic 1시간 캐시 지원

Anthropic prompt caching의 TTL을 5분과 1시간 중 선택할 수 있도록 CachePoint와 모델 설정을 확장

#Python #Pydantic AI #Anthropic #Feature #Caching

2025년 11월 18일

[Triton] Pipeliner에서 cp_async의 alignment 정보 손실 수정

async_copy Op에 optional contiguity 정보를 추가하여 컴파일러 변환 후에도 정렬 정보 유지

#Triton #Compiler #Pipeliner #Async Copy #Bug Fix

2025년 11월 18일

[Triton] JIT 함수를 커널에 안전하게 전달하는 테스트 추가

JIT 함수(higher-order function)를 constexpr 인자로 커널에 전달하고 캐시 키가 올바르게 갱신되는지 검증

#Triton #Compiler

2025년 11월 18일

[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화

ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상

#Python #PyTorch #YOLO #Performance #Segmentation

2025년 11월 18일

[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

본 논문은 언어 중심의 접근 방식을 통해 멀티모달 이해, 추론 및 생성 능력을 통합하는 Uni-MoE-2.0-Omni 라는 효율적인 옴니모달 대규모 모델을 개발하는 것을 목표로 합니다.

#Review #Omnimodal Large Models #Mixture-of-Experts (MoE)#Language-Centric AI #Multimodal Understanding #Multimodal Generation #Progressive Training #Omni-Modality 3D RoPE

2025년 11월 17일

[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #Segmentation #Granularity Control #SAM #Foundation Models #Unsupervised Learning #Image Segmentation #Video Segmentation

2025년 11월 17일

[논문리뷰] UFO^3: Weaving the Digital Agent Galaxy

이 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 단일 운영체제나 기기에 국한되어 복잡한 크로스-디바이스 워크플로우를 수동으로 처리해야 하는 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Cross-Device Orchestration #LLM-Powered Agents #Task Constellation #Directed Acyclic Graph (DAG)#Agent Interaction Protocol (AIP)#Fault Tolerance #Asynchronous Execution

2025년 11월 17일

[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generative Models #Visual Reasoning #Benchmarking #Image-to-Video #TiViBench #VideoTPO #Prompt Optimization

2025년 11월 17일

[논문리뷰] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Vision-Language Models(VLM)이 테스트 시점의 도메인 변화(OOD)에 취약하여 성능이 저하되는 문제를 해결하고, 기존 Test-Time Adaptation(TTA) 방법론의 높은 계산 비용과 메모리 사용량, 그리고 frozen encoder 수정의 필요성 같은 제약을 극복하는 효율적이고 비침습적인 프레임워크를 개발하는 것이 목표입니다.

#Review #Vision-Language Models #Test-Time Adaptation #Zero-Shot Generalization #Spectral Decomposition #Latent Space Steering #SVD #Out-of-Distribution

2025년 11월 17일

[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.

#Review #Model Souping #Large Language Models #Weighted Averaging #Benchmark Optimization #State-of-the-Art #Category Experts #Parameter Averaging #Post-training

2025년 11월 17일

[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.

#Review #Multimodal Safety Alignment #Rule-Governed RL #Self-Rewarded Learning #MLLM Safety #Policy Optimization #Safety Benchmarking #Compositional Robustness

2025년 11월 17일

[논문리뷰] Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

본 논문은 기존 3D MLLM(Multimodal Large Language Model)이 3D 객체를 개별 부품으로 인식하고 조작하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #3D Multimodal LLM #Part-aware #3D Generation #3D Editing #3D Understanding #Bounding Box #Structured Program #Dual-encoder

2025년 11월 17일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Direct Preference Optimization #World Model #Reward Learning #Robotics #Embodied AI #Flow-Matching

2025년 11월 17일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일