[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation본 논문은 사전 학습된 LM 을 VLM 으로 적응(adaptation)시키는 과정에서 발생하는 고유한 언어 능력의 퇴보 문제를 해결하고자 합니다.#Review#Vision-Language Models#Knowledge Distillation#Linguistic Ability#KV-cache Sharing#Multimodal Adaptation#Catastrophic Forgetting2026년 4월 2일댓글 수 로딩 중
[논문리뷰] LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model본 논문은 시각적 이해와 생성을 공유된 semantic latent space에서 통합하는 LatentUM을 제안한다. 핵심 방법론인 MBAQ는 VLM의 출력 분포를 보존하도록 설계되어, 시각적 특징을 복원 중심이 아닌 이해 중심의 디스크리트 토큰으로 양자화한다 .#Review#Unified Models#Cross-Modal Reasoning#Semantic Latent Space#MBAQ#Mixture-of-Modal Experts2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time본 논문은 급증하는 Autonomous Coding Agents 가 오픈소스 소프트웨어 생태계에 미치는 실질적인 영향과 그 결과물인 코드의 품질을 실증적으로 분석하는 것을 목표로 합니다.#Review#Autonomous Coding Agents#Large Language Models#Mining Software Repositories#Pull Requests#Code Churn#Empirical Software Engineering#Human-AI Collaboration2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Generative World Renderer본 논문은 generative inverse 및 forward rendering 기술을 실제 환경(in-the-wild)으로 확장하는 데 발생하는 데이터 병목 문제를 해결하는 것을 목표로 합니다.#Review#Generative World Renderer#Inverse Rendering#G-buffer#Dataset Construction#Video Diffusion Models#VLM-based Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.#Review#Diffusion Transformer#Linear Attention#Controllable Generation#Gated Condition Injection#On-device AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] GPA: Learning GUI Process Automation from Demonstrations본 논문은 기존 RPA의 취약성과 대규모 비전 언어 모델(VLM) 기반 GUI 에이전트의 비결정론적 한계를 극복하기 위해 GPA 를 제안합니다. 전통적인 RPA는 DOM 요소나 고정 좌표에 의존하므로 사소한 레이아웃 변화에도 스크립트가 파손되는 문제가 발생합니다.#Review#GUI Process Automation#Robotic Process Automation#Sequential Monte Carlo#UI Grounding#Demonstration-based Learning#Computer-use Agent2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.#Review#Mechanistic Interpretability#LLM#Entity Cells#Factual Recall#Causal Intervention#MLP Neurons#Canonicalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition본 논문은 Rectified Flow 기반 이미지 편집에서 학습 없이(training-free) 편집 강도를 안정적으로 조절할 수 있는 슬라이더 메커니즘 부재 문제를 해결합니다. 기존의 학습 기반 슬라이더 기법들은 추가적인 데이터와 학습 비용이 발생하며, 특정 도메인 분포에 의존적이라는 한계가 있습니다.#Review#Rectified Flow#Image Editing#Training-Free#Slider Control#Fidelity-Steering Decomposition2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.#Review#Parallel Execution#LLM#Code Generation#Latency#AST-based Chunking#Dynamic Batching#Error Interruption2026년 4월 2일댓글 수 로딩 중
[논문리뷰] EgoSim: Egocentric World Simulator for Embodied Interaction Generation본 논문은 기존의 egocentric world simulator들이 겪고 있는 3D 기반의 공간적 일관성 부족과 동적 상호작용에 따른 world state 업데이트 미흡 문제를 해결하기 위해 제안되었다.#Review#Egocentric World Simulator#Updatable 3D State#Embodied Interaction Generation#Video Diffusion Models#Scalable Data Pipeline2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial과학적 발견은 본질적으로 반복적이고 비용이 많이 드는 실험 설계 과정을 포함하며, 많은 연구자가 이를 직관적이고 비체계적으로 수행하여 자원을 낭비합니다.#Review#Bayesian Optimization#Scientific Discovery#Gaussian Process#Acquisition Function#Surrogate Model#Automated Experimentation#Sample Efficiency2026년 4월 2일댓글 수 로딩 중
[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Video Generation#Diffusion Models#Synthetic Motion Data#Optical Flow#Camera Control2026년 4월 2일댓글 수 로딩 중
[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .#Review#Data-Centric AI#Large Language Models#Dynamic Training#Data Selection#Data Mixture#Data Reweighting#LLaMA-Factory2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.#Review#Continual Learning#LLM#MoE-LoRA#Null-Space Projection#Meta-Router#Residual Boosting2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.#Review#Sparse Autoencoders#Morphological Trait Annotation#Multimodal Large Language Models#Fine-grained Visual Recognition#Biological Foundation Models2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration본 논문은 기존 MIA가 의존하는 정적인 핸드크래프트 휴리스틱의 낮은 적응성과 확장성 문제를 해결하기 위해 에이전트 기반의 자동화된 공격 프레임워크를 제안합니다.#Review#Membership Inference Attack#Agentic Framework#Strategy Self-Exploration#Large Vision-Language Models#Privacy Auditing2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.#Review#LLM Agents#Software Engineering#Underspecification#Uncertainty-Aware#Multi-Agent#Collaborative AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Chain-of-Thought#Efficiency#RLVR#Multi-Domain#Reasoning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] ASI-Evolve: AI Accelerates AI본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.#Review#Agentic AI#Autonomous Scientific Discovery#Neural Architecture Design#Pretraining Data Curation#Reinforcement Learning2026년 4월 2일댓글 수 로딩 중