#LoRA

59개의 포스트

[논문리뷰] LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

본 논문은 LLM Agent가 외부 기술을 프롬프트에 직접 주입할 때 발생하는 컨텍스트 오버헤드와 보안 노출 문제를 해결하고자 합니다. 기존의 In-Context Skill 방식은 매 단계마다 기술 텍스트를 삽입해야 하므로 추론 비용이 높고, 프롬프트 내에 기술 내용이 그대로 노출되어 공격에 취약하다는 단점이 있습니다.

#Review #LLM Agents #LoRA #Hypernetworks #Skill Composition #Weight Space #Prompt Efficiency #Modular Learning

2026년 6월 8일

[axolotl] ScatterMoE LoRA 최적화: Grouped-Gram 및 Sync-free 역전파 구현

대규모 MoE 모델의 LoRA 학습 시 발생하는 병목을 해결하기 위해 Grouped-Gram 커널과 동기화 없는 역전파 경로를 도입하여 성능을 최대 2.2배 개선했습니다.

#PyTorch #Triton #MoE #LoRA #PerformanceOptimization

2026년 6월 7일

[논문리뷰] SIA: Self Improving AI with Harness & Weight Updates

본 논문은 기존 AI 자기 개선 연구가 Harness(scaffold) 개선과 Test-time training(weight updates)이라는 두 가지 고립된 사일로(silo)로 나뉘어 있는 한계를 해결하고자 한다 .

#Review #Self-Improving Agents #Test-Time Training #Reinforcement Learning #Harness Engineering #Scaffold Generation #LoRA

2026년 6월 7일

[논문리뷰] LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models

본 논문은 에이전트 시스템에서 도구 호출과 계획 수립처럼 서로 다른 복잡도를 가진 작업이 수행됨에도 불구하고, 모든 단계에 동일한 연산량을 투입하는 비효율성을 해결하고자 합니다. 기존 LLM 추론 시스템은 고정된 transformer 레이어 구조를 사용하여 모든 토큰에 대해 동일한 컴퓨팅 비용을 소모합니다.

#Review #Layer Skipping #Agentic LLM #LoRA #Adaptive Inference #Straight-Through Estimator #Model Efficiency

2026년 6월 7일

[논문리뷰] How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

본 논문은 chord-symbol 시계열 데이터가 실제 음악 장르의 정체성을 얼마나 담아낼 수 있는지, 그 표현력의 한계는 어디인지를 규명하는 것을 목적으로 한다.

#Review #Chord-symbol modeling #Genre identity #PEFT #LoRA #Music Transformer #Representation boundary

2026년 6월 7일

[논문리뷰] Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

본 논문은 확산 모델(Diffusion Model) 학습 시 확신에 기반한 그래디언트 가중치 부여가 모델의 오류를 증폭시킬 수 있다는 기존의 고정관념을 반박하고, 이를 통해 구조적 이점을 얻을 수 있음을 입증합니다.

#Review #Diffusion Models #Belief Space #Music Generation #LoRA #Implicit Curriculum #Entropy #Log-Barrier

2026년 6월 7일

[논문리뷰] Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

본 연구는 다수의 LoRA를 결합하여 복합적인 개념을 생성할 때 발생하는 의미적 간섭(Interference)과 그에 따른 화질 및 충실도 저하 문제를 해결합니다.

#Review #LoRA #Diffusion Models #Multi-Concept Composition #Prompt-Aware Weighting #Training-Free #Image Generation

2026년 6월 3일

[논문리뷰] Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

본 논문은 이미지 레이어 분해(Layer Decomposition) 모델의 학습에서 발생하는 데이터 부족 및 정답의 모호성 문제를 해결하기 위해 제안되었습니다. 기존 모델은 합성된 레이어 데이터셋에 의존하여 학습되는데, 이는 단일 정답을 강요함으로써 레이어 분해의 유연성을 제한하고 다양한 편집 가능성을 저해합니다 .

#Review #Image Layer Decomposition #Reinforcement Learning #Vision-Language Model #Flow-GRPO #LoRA #VLM-as-Judge

2026년 6월 3일

[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .

#Review #Video Generation Models #Video Reasoning #Vision-Language Models #Test-Time Optimization #LoRA #Differentiable Rewards

2026년 6월 1일

[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.

#Review #PEFT #LoRA #Personal Models #Reinforcement Learning #MoE #Infrastructure #Scaling Laws

2026년 6월 1일

[논문리뷰] MAAT: Multi-phase Adapter-Aware Targeted Unlearning

본 논문은 기존의 기계 망각(machine unlearning) 연구들이 인과 관계(causal knowledge)를 다루는 'Why-type' 질문에 대한 평가가 전무하다는 결정적인 결함을 해결하고자 한다.

#Review #Machine Unlearning #LoRA #Causal Knowledge #5WBench #Adapter-Aware #SVD Pruning

2026년 5월 31일

[논문리뷰] How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

본 논문은 LoRA를 활용한 Parametric Memory의 용량 한계와 내부 기억 메커니즘을 정량적으로 규명하는 것을 핵심 문제로 다룹니다 .

#Review #LoRA #Parametric Memory Law #Exact Memorization #Deterministic Phase Transition #MemFT

2026년 5월 28일

[논문리뷰] Training Large Language Models to Predict Clinical Events

본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .

#Review #Large Language Models #Clinical Prediction #Foresight Learning #EHR #LoRA #Temporal Modeling #Probabilistic Forecasting

2026년 5월 21일

[논문리뷰] SceneAligner: 3D-Grounded Floorplan Localization in the Wild

본 논문은 대규모 환경 및 상업용 건물의 비정형(in-the-wild) 이미지 컬렉션 내에서 카메라 관측치를 2D floorplan에 로컬라이제이션하는 문제를 다룬다.

#Review #Floorplan Localization #3D Foundation Models #Cross-modal Correspondence #Density Map #LoRA #Computer Vision

2026년 5월 21일

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

본 논문은 기존 LoRA 방식이 고정된 rank $R$에 의존하여 최적의 성능을 찾기 위해 반복적인 grid search가 필요하다는 점을 해결하고자 합니다.

#Review #LoRA #Parameter-Efficient Fine-Tuning #Rank-Adaptive #Matryoshka Representation Learning #LLM #Hierarchical Low-Rank

2026년 5월 10일

[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.

#Review #Indic ASR #TTS-STT Flywheel #Entity-Dense Audio #LoRA #Script Fidelity Rate #Data Augmentation #Entity-Hit-Rate

2026년 5월 5일

[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용

CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.

#CUDA #PyTorch #Optimization #LoRA #Performance

2026년 4월 30일

[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions

본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .

#Review #Human Motion Understanding #Large Language Models #Structured Motion Description #Biomechanics #LoRA #Motion Question Answering #Motion Captioning

2026년 4월 23일

[논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

본 논문은 사전 학습된 피드포워드 3D 재구성 모델이 테스트 시점에 특정 장면의 기하학적 오류를 스스로 보정하지 못하는 경직된 문제를 해결합니다.

#Review #Test-Time Adaptation #Multi-View 3D Reconstruction #Self-Supervision #LoRA #Feature Consistency #Feed-Forward Models

2026년 4월 15일

[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.

#Review #Zero-Shot Anomaly Detection #Vision Foundation Models #Synthetic Data Generation #LoRA #Confidence-Weighted Loss

2026년 4월 9일

[논문리뷰] Diffutron: A Masked Diffusion Language Model for Turkish Language

Autoregressive (AR) Transformers는 현재 Large Language Models (LLMs) 분야에서 지배적이지만, 텍스트를 토큰별로 순차적으로 생성하는 본질적인 특성으로 인해 Generation Speed와 고려할 수 있는 Context에 한계가 있다.

#Review #Masked Diffusion Language Models #Turkish NLP #Non-Autoregressive Generation #LoRA #Instruction Tuning #Morphologically Rich Languages #Parameter Efficiency

2026년 3월 29일

[논문리뷰] AVControl: Efficient Framework for Training Audio-Visual Controls

비디오 및 오디오 생성 과정의 정교한 제어는 실제 창의적인 애플리케이션에 필수적이다. 그러나 depth, pose, camera trajectories, audio transformations 등 다양한 modalities에 걸친 control의 범위는 매우 광대하다.

#Review #Audio-Visual Generation #Video Control #LoRA #Parallel Canvas Conditioning #Diffusion Models #Modularity #Efficiency

2026년 3월 26일

[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가

Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.

#Axolotl #LoRA #DoRA #Triton #LLM Training #Performance #PEFT

2026년 3월 22일

[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소

ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.

#Axolotl #Triton #ScatterMoE #LoRA #Autotune #Performance #GPU

2026년 3월 21일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[논문리뷰] 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Immersive VR/AR, virtual production, next-generation e-commerce 등 다양한 분야에서 customized subject의 dynamic하고 view-consistent한 비디오 생성에 대한 수요가 증가하고 있습니다.

#Review #3D-aware video generation #subject-driven customization #multi-view conditioning #video diffusion models #LoRA #temporal dynamics #3Dapter #3DreamBooth

2026년 3월 19일

[axolotl] Triton LoRA 커널 Autotune 테스트 안정화: pytest-xdist 환경에서의 모듈 격리 전략

pytest-xdist 병렬 실행 시 sys.modules 공유로 인한 flaky 테스트를 _find_lora_ops_module 직접 패치 방식으로 해결한 사례를 분석합니다.

#Axolotl #Triton #Testing #pytest #LoRA

2026년 3월 19일

[논문리뷰] Mixture of Style Experts for Diverse Image Stylization

기존의 Diffusion-based Stylization 방법론들은 이미지의 Color Transfer 에 주로 집중하여 Complex Semantics 및 Material Details 를 효과적으로 처리하지 못하는 한계가 있었습니다.

#Review #Image Stylization #Mixture of Experts (MoE)#Diffusion Models #Semantic-aware Stylization #Style Transfer #LoRA

2026년 3월 17일

[논문리뷰] Efficient Reasoning on the Edge

Large Language Models (LLMs)는 Chain-of-Thought (CoT) Reasoning을 통해 복잡한 문제 해결에서 최첨단 성능을 달성하지만, Edge Device 배포에는 여러 제약이 따릅니다.

#Review #LLMs #Edge Computing #LoRA #Quantization #Budget Forcing #Switcher Module #Parallel Reasoning

2026년 3월 17일

[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화

axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.

#Axolotl #GRPO #RLHF #vLLM #Async Training #LoRA

2026년 3월 17일

[논문리뷰] LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

최근 LLM의 Context Length가 급증하면서 KV Cache 의 크기가 입력 시퀀스 길이에 비례하여 선형적으로 증가하며, 이는 long-context task 에서 메모리 병목 현상을 야기하여 inference scalability에 큰 제약을 초래하고 있습니다.

#Review #KV Cache Eviction #Long Context LLM #Attention Score Prediction #LoRA #Parameter-Efficient #Time-to-First-Token

2026년 3월 15일

[논문리뷰] Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

대부분의 영어 사용자가 비원어민(L2) 화자 임에도 불구하고, 현재의 Text-To-Speech (TTS) 시스템은 악센트 데이터 부족으로 인해 주로 미국식 영어 악센트(American-accented English) 를 모델링합니다.

#Review #Text-To-Speech #Controllable Speech Synthesis #Accented Speech Generation #Accent Vector #Multilingual TTS #LoRA

2026년 3월 12일

[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.

#Review #LLM Finetuning #LoRA #Mixture of Experts (MoE)#Reinforcement Learning #Parameter-Efficient Finetuning (PEFT)#Routing #Weight Collapse

2026년 3월 11일

[논문리뷰] PureCC: Pure Learning for Text-to-Image Concept Customization

본 논문은 텍스트-투-이미지(T2I) 개념 맞춤화 과정에서 기존 모델의 동작 및 기능을 손상시키지 않으면서 새로운 개인화된 개념을 '순수하게 학습' 하는 것을 목표로 합니다. 기존 맞춤화 방법들이 높은 충실도에 집중하여 원본 모델의 기능 저하와 예측 동작 방해를 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image #Concept Customization #Flow-based Models #Pure Learning #Model Preservation #Adaptive Guidance #LoRA

2026년 3월 9일

[논문리뷰] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

본 논문은 AR(Autoregressive) LLM 기반 ASR 시스템의 순차적 디코딩으로 인한 높은 지연 시간 및 병렬 처리 한계를 극복하는 것을 목표로 합니다.

#Review #Non-Autoregressive ASR #LLM-based ASR #Transcript Editing #CTC #Transformer #LoRA #Real-time ASR #Inference Speed

2026년 3월 9일

[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

수중 스테레오 깊이 추정에서 발생하는 도메인 시프트(domain shift) 문제를 해결하고, 특히 대규모 깊이 차이(large-disparity) 및 텍스처 없는(textureless) 영역에서의 기존 GRU 기반 반복 정제 방식의 효율성 및 정확도 한계 를 극복하는 것을 목표로 합니다.

#Review #Underwater Depth Estimation #Stereo Matching #State Space Model #Mamba Architecture #ConvSS2D #Data Synthesis #LoRA #Zero-shot Learning #Robotics

2026년 2월 19일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] DreamStyle: A Unified Framework for Video Stylization

본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Video Stylization #Unified Framework #Diffusion Models #LoRA #Data Curation #Multi-modal Input #Image-to-Video

2026년 1월 6일

[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Physics-Aware AI #Direct Preference Optimization #Groupwise Preference Learning #Vision-Language Model #LoRA

2025년 12월 31일

[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.

#Review #Video VFX Editing #In-Context Learning #Diffusion Transformers #Few-Shot Learning #LoRA #Spatiotemporal Tokenization #Instruction-Guided

2025년 12월 17일

[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample

본 논문은 이미지 생성 확산 모델의 높은 계산 비용과 많은 추론 단계를 해결하고자 합니다. 특히, 모델의 재훈련 비용과 일반화 성능 저하 없이, 단일 샘플만으로도 효율적인 가속화와 강력한 일반화 능력을 갖춘 경량화된 솔루션을 제공하는 것을 목표로 합니다.

#Review #Diffusion Models #Acceleration #Distillation #LoRA #Few-shot Learning #Phase-aware #Image Generation #Computational Efficiency

2025년 12월 2일

[논문리뷰] First Frame Is the Place to Go for Video Content Customization

비디오 생성 모델에서 여러 참조 이미지를 활용한 유연한 콘텐츠 맞춤화 시, 아키텍처 변경 이나 대규모 파인튜닝 없이도 일반화된 성능을 유지 하는 방법을 모색하는 것이 주된 목표입니다. 기존 모델들이 가진 '첫 프레임'의 잠재적인 역할을 재해석하여, 이를 시각적 엔티티를 저장하는 개념적 메모리 버퍼 로 활용하고자 합니다.

#Review #Video Generation #Content Customization #Few-shot Learning #LoRA #Vision-Language Models (VLMs)#First Frame Conditioning #Reference-based Generation

2025년 11월 20일

[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the Principals

RLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Parameter-Efficient Fine-Tuning #Optimization Bias #Spectral Geometry #Model Sparsity #LoRA

2025년 11월 11일

[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Speech Recognition #Large Language Models #Audio-Visual Speech Recognition #LoRA #Matryoshka Representation Learning #Elastic Inference #Parameter-Efficient Adaptation

2025년 11월 10일

[논문리뷰] MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

본 연구는 건강 관련 허위 정보, 특히 과학적 발견을 왜곡하거나 오해하는 주장 내에 숨겨진 논리적 오류를 탐지하는 LLM의 능력 을 향상시키는 것을 목표로 합니다.

#Review #Health Misinformation #Logical Fallacy Classification #Synthetic Data Generation #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Parameter-Efficient Fine-tuning (PEFT)#LoRA #MISSCI Benchmark

2025년 11월 9일

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일

[논문리뷰] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

기존 3D 인페인팅 방법론들이 다중 뷰 2D 이미지 인페인팅에 의존하여 발생하는 뷰 간 불일치, 흐릿한 텍스처, 공간 불연속성 문제를 해결하고자 합니다. 이를 극복하고 비디오 확산 모델 의 시공간적 일관성 유지 능력을 활용하여 고품질의 일관된 3D 객체 완성 및 편집을 목표로 합니다.

#Review #3D Inpainting #Multi-view Consistency #Video Diffusion Models #3D Object Completion #Generative Models #LoRA #3D Gaussian Splatting

2025년 8월 27일

[논문리뷰] Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

본 논문은 확산 모델에서 추론 시 계산 비용을 크게 증가시키는 테스트-시간 스케일링(test-time scaling) 의 문제점을 해결하고자 합니다.

#Review #Diffusion Models #Hypernetworks #Test-Time Optimization #Reward-Guided Generation #Latent Space Optimization #LoRA #Generative AI

2025년 8월 14일

[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.

#Review #Visual Effects #Video Generation #LoRA #Mixture of Experts #Spatial Control #Diffusion Models #Multi-VFX

2025년 8월 12일

[논문리뷰] OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

의료 및 생명 과학 분야에서 비정형 텍스트로부터 구조화된 정보를 추출하는 데 필수적인 Named Entity Recognition (NER) 의 성능과 효율성을 개선하는 것을 목표로 합니다.

#Review #Biomedical NER #Transformer #Domain Adaptation #LoRA #Open-Source #Named Entity Recognition #Healthcare AI

2025년 8월 7일

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.

#Review #Video Virtual Try-On #Diffusion Transformers #Stage-Wise Framework #Vision-Language Models #LoRA #Temporal Consistency #Garment Preservation

2025년 8월 7일

[논문리뷰] AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

대규모 언어 모델(LLM)의 LoRA 미세 조정 과정에서 발생하는 정렬 드리프트(alignment drift) 문제를 해결하여, 안전 및 행동 제약을 유지하면서도 새로운 태스크에 대한 성능 저하를 방지하는 것을 목표로 합니다.

#Review #Alignment Preservation #Fine-Tuning #LoRA #Fisher Information Matrix #Catastrophic Forgetting #LLM Safety #Riemannian Geometry #Parameter-Efficient Learning

2025년 8월 6일

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #2D-3D Fusion #Spatial Representation #Point Cloud #Image Features #Multimodal Learning #Semantic Segmentation #LoRA

2025년 10월 28일

[논문리뷰] TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

기존의 controllable diffusion model이 고정된 아키텍처와 정적인 컨디셔닝 전략을 사용하여 동적인 denoising 과정에 비효율적이라는 문제를 해결합니다.

#Review #Diffusion Models #Conditional Generation #LoRA #Hypernetwork #Dynamic Weight Adaptation #Generative AI #Controllable Generation

2025년 10월 13일

[논문리뷰] MixReasoning: Switching Modes to Think

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 비효율성과 과도한 중복성 을 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Efficiency #LoRA #Adaptive Reasoning #Token Uncertainty #Dynamic Switching #Reasoning Compression

2025년 10월 8일

[논문리뷰] Annotation-Efficient Universal Honesty Alignment

본 논문은 대규모 언어 모델(LLM)이 지식 경계를 인식하고 보정된 자신감을 표현하는 Honesty Alignment 를 달성하는 것을 목표로 합니다.

#Review #LLM Honesty Alignment #Confidence Calibration #Annotation Efficiency #Self-Consistency #Elicitation-Then-Calibration (EliCal)#HonestyBench #LoRA #Trustworthy AI

2025년 10월 21일

[논문리뷰] LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

본 연구는 불완전하거나 프레임 외부의 광원이 존재할 때 기존 단일 이미지 플레어 제거(SIFR) 모델 의 성능이 저하되는 문제를 해결하고자 합니다. 완전한 광원 정보를 재구성함으로써 SIFR 모델의 성능을 크게 향상시키고 시각적 사실성을 높이는 것을 목표로 합니다.

#Review #Lens Flare Removal #Diffusion Models #Image Outpainting #Deep Learning #Image Restoration #Preprocessing #LoRA

2025년 10월 20일