[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Parallel Reasoning#Self-Distilled Reinforcement Learning#Policy Optimization#Inference Acceleration#Structured Output#Agentic Reasoning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Multi-view Pyramid Transformer: Look Coarser to See Broader본 논문은 대규모 3D 장면을 수십에서 수백 개의 이미지로부터 단일 순방향 패스로 재구성하는 트랜스포머 아키텍처의 확장성 문제 를 해결하는 것을 목표로 합니다.#Review#Multi-view Transformer#3D Reconstruction#Hierarchical Attention#Computational Efficiency#3D Gaussian Splatting#Novel View Synthesis#Scalability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] LongCat-Image Technical Report컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Diffusion Model#Multilingual Text Rendering#Photorealism#Efficiency#Open-Source2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Group Representational Position EncodingTransformer 모델의 필수 요소인 위치 인코딩(Positional Encoding) 메커니즘들을 군 이론(Group Theory) 기반의 통합된 프레임워크 로 제시하고, 기존의 주요 기법인 RoPE 와 ALiBi 를 특수 사례로 포괄하며, 더 넓고 원칙적인 설계 공간을 제공하는 것을 목표로 합니다.#Review#Positional Encoding#Group Theory#Transformer#RoPE#ALiBi#Lie Groups#Multiplicative PE#Additive PE2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent SystemsLLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.#Review#LLM Multi-Agent Systems#Debugging#Intervention-Driven#Failure Attribution#Automated Debugging#Verification#AI Agents#Reliability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Distribution Matching Variational AutoEncoder본 논문은 시각적 생성 모델에서 VAE 및 파운데이션 모델 인코더가 잠재 공간의 분포를 명시적으로 형성하지 못하는 문제를 해결합니다.#Review#Variational Autoencoder (VAE)#Distribution Matching#Diffusion Models#Latent Space#Self-supervised Learning (SSL) Features#Generative Models#ImageNet#Tokenizer2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue본 논문은 긴 컨텍스트 대화 시스템에서 모델이 오래된 이력에 과도하게 집중하여 새로운 충돌 정보가 있을 때 내부 상태를 업데이트하지 못하는 'State Inertia' 문제를 해결하고자 합니다.#Review#Long-Context Dialogue#Mutable State Tracking#Temporal Alignment#Preference Optimization#Attention Mechanism#State Inertia#Non-Destructive Alignment2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.#Review#Decoding-based Regression#Reinforcement Learning#Numerical Prediction#Large Language Models#Policy Gradient#Tokenization#Sequence Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs현재 RoPE(Rotary Position Embeddings) 구현이 어텐션 스코어 계산 시 복소수 값의 내적에서 실수부만 사용 하고 허수부를 버려, 장문맥 의존성 모델링에 중요한 관계형 정보 손실 이 발생하는 문제를 해결하고자 합니다.#Review#Rotary Position Embedding#Long-Context LLMs#Complex-Valued Neural Networks#Self-Attention#Positional Encoding#Information Loss#Length Extrapolation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty본 논문은 최첨단 제어 가능한 비디오 모델이 흔히 겪는 환각 현상과 불확실성 표현 능력 부족 문제를 해결하고자 합니다.#Review#Controllable Video Generation#Uncertainty Quantification#Video Models#Calibration#Out-of-Distribution Detection#Proper Scoring Rules#Latent Space2025년 12월 7일댓글 수 로딩 중
[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#One-step Generation#Self-Adversarial Learning#Flow Matching#Large Language Models#Text-to-Image#Efficient Inference#Diffusion Models2025년 12월 7일댓글 수 로딩 중
[논문리뷰] TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation논문은 지진 시 지반 운동의 시간-주파수 특성 을 효과적으로 포착하는 딥러닝 모델의 부재 문제를 해결하고자 합니다. 특히, 지역 지반 조건에 따른 지진파의 복잡한 시공간 및 스펙트럼 패턴 을 반영하여 사이트별 강진파(strong motion)를 생성 하는 조건부 생성 모델을 개발하는 것이 주된 목표입니다.#Review#Strong Motion Generation#Deep Learning#TimesNet#Conditional Generation#Site Effects#Seismology#HVSR#Time Series2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling본 연구는 3D 에셋 생성에서 직관적이고 정밀한 기하학적 제어가 부족하다는 문제에 주목합니다.#Review#3D Generative Models#Spatial Control#Test-Time Guidance#Rectified Flow#Superquadrics#Training-Free#Trellis2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Self-Improving VLM Judges Without Human Annotations본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Improvement#Judge Models#Synthetic Data Generation#Iterative Refinement#Reward Modeling#Human-free Alignment2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs대규모 언어 모델(LLMs)의 배포에 있어 저비트 양자화(low-bit quantization) 와 희소화(sparsification) 기술이 정확도와 효율성 사이에서 균형을 맞추기 어려운 문제를 해결하는 것이 목표입니다.#Review#LLM Quantization#Sparsification#Hardware Acceleration#Mixed-Precision#Post-Training Quantization#Data Format#GPU Optimization#AI Accelerator2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Character Animation#3D Pose Representation#In-Context Learning#Diffusion Transformer#Studio-Grade Animation#Spatio-Temporal Reasoning#Video Generation2025년 12월 7일댓글 수 로딩 중
[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards본 논문은 기존 텍스트-이미지(T2I) 생성 모델들이 보이는 '가짜 같은' AI 아티팩트(예: '지나치게 매끄러운 피부', '기름진 얼굴 광택') 문제를 해결하고, 현실과 구분 불가능한 수준의 사실적인 이미지 를 생성하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Photorealism#Reinforcement Learning#Diffusion Models#Adversarial Learning#Detector-Guided Rewards#LLM Prompt Optimization#Image Quality Assessment2025년 12월 7일댓글 수 로딩 중