Review

[논문리뷰] Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

아랍어 텍스트 검색에서 복잡한 형태학적 특성 과 다양한 방언 으로 인한 기존 검색 시스템의 한계를 극복하고, 질문과 문서 간의 의미론적 관련성을 더욱 효과적으로 모델링 하여 검색 성능과 순위 정확도를 향상시키는 것을 목표로 합니다.

#Review #Arabic NLP #Dense Passage Retrieval #Attentive Relevance Scoring #Information Retrieval #Question Answering #Transformer Models #Semantic Matching

2025년 8월 2일

[논문리뷰] Efficient Machine Unlearning via Influence Approximation

본 논문은 대규모 데이터셋과 빈번한 삭제 요청이 발생하는 환경에서 기존 영향 함수 기반 언러닝(unlearning) 방식의 높은 계산 비용과 메모리 오버헤드 문제를 해결하고자 합니다.

#Review #Machine Unlearning #Influence Function #Incremental Learning #Privacy Protection #Gradient Optimization #Model Editing #Computational Efficiency

2025년 8월 2일

[논문리뷰] C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

본 연구는 현존하는 음성 대화 모델(SDM)들이 인간의 복잡한 대화, 특히 음운론적/의미론적 모호성 과 맥락 의존성 (생략, 공참조, 다중 턴 상호작용)을 얼마나 효과적으로 이해하고 모방하는지에 대한 종합적인 벤치마킹의 부족을 해결하고자 합니다.

#Review #Spoken Dialogue Models #Bilingual Benchmark #Complex Conversations #Ambiguity Resolution #Context Understanding #LLM Evaluation #Human-Computer Interaction

2025년 8월 2일

[논문리뷰] Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification

본 논문은 전문가가 라벨링한 데이터의 부족과 복잡하고 비선형적인 스타일 요소의 상호작용으로 인해 어려움을 겪는 예술 스타일 분류의 문제를 해결하고자 합니다.

#Review #Kolmogorov-Arnold Networks #Knowledge Distillation #Art Style Classification #Self-Supervised Learning #Spline-Based Activation #Dual-Teacher #Gram Matrix

2025년 8월 2일

[논문리뷰] AgroBench: Vision-Language Model Benchmark in Agriculture

본 논문은 농업 분야에서 Vision-Language Model (VLM) 의 광범위한 지식과 실제 적용 가능성을 평가하기 위한 포괄적인 벤치마크 데이터셋인 AgroBench 를 구축하는 것을 목표로 합니다. 기존 농업 VLM 벤치마크의 부족한 범주 다양성과 합성 데이터 의존성이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Agriculture #Benchmarking #Disease Identification #Pest Management #Crop Management #Agronomy

2025년 8월 2일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models

본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.

#Review #Agentic Organization #Asynchronous Thinking #Language Models #Reinforcement Learning #Multi-agent Systems #Reasoning #Task Decomposition #Orchestration

2025년 10월 31일

[논문리뷰] The End of Manual Decoding: Towards Truly End-to-End Language Models

현재 LLM이 비미분 가능한 디코딩 하이퍼파라미터(온도, top-p)의 수동 튜닝에 의존하여 발생하는 비효율성과 비최적화 문제를 해결하는 것이 목표입니다. 논문은 모델이 자체 디코딩 전략을 학습하여 동적으로 제어함으로써 진정한 엔드-투-엔드 생성 을 가능하게 하는 새로운 아키텍처를 제안합니다.

#Review #Large Language Models (LLMs)#End-to-End Generation #Dynamic Decoding #Hyperparameter Optimization #Stochastic Sampling #Instruction Following #Transformer Architecture

2025년 10월 31일

[논문리뷰] Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

이 논문은 웹, 데스크톱, 모바일 환경 전반에 걸쳐 일반화하는 에이전트를 구축하는 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Cross-Platform #GUI Automation #Vision-Language Model #Hierarchical Architecture #Agent Orchestration #Visual Interaction

2025년 10월 31일

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일

[논문리뷰] Remote Labor Index: Measuring AI Automation of Remote Work

AI 기술의 연구 발전이 실제 경제적 가치와 노동 자동화로 어떻게 연결되는지 불분명하며, AI 자동화의 진척도를 모니터링할 표준화된 경험적 방법이 부족합니다.

#Review #AI 자동화 #원격 근무 #벤치마크 #AI 에이전트 #프리랜서 경제 #인간 평가 #자동화율

2025년 10월 31일

[논문리뷰] Performance Trade-offs of Optimizing Small Language Models for E-Commerce

본 논문은 대규모 상용 LLM의 높은 비용과 리소스 제약 문제를 해결하기 위해, 소규모 오픈-웨이트 모델이 특정 도메인 작업에서 효율적인 대안이 될 수 있는지 검증하는 것을 목표로 합니다.

#Review #Small Language Models #E-commerce #Intent Recognition #Fine-tuning #QLoRA #Quantization #GPTQ #GGUF #Hardware-aware Optimization

2025년 10월 31일

[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.

#Review #Phonetic Foundation Model #Multitask Learning #Speech Recognition #Phone Recognition #Grapheme-to-Phoneme #Encoder-Decoder #Low-Resource Speech

2025년 10월 31일

[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree

기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.

#Review #Tool-Use LLM #Reinforcement Learning (RL)#Policy Optimization #Rewarded Tree #Trajectory Optimization #Agentic System #Dynamic Tool Call

2025년 10월 31일

[논문리뷰] OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

본 논문은 기존 2D 리프팅(lifting) 방식이 외관 생성에만 치중하고 내재적 속성 인식을 간과하여 현대 그래픽스 파이프라인과의 통합이 어렵다는 문제를 해결하고자 합니다.

#Review #Panoramic Generation #Panoramic Perception #3D Scene Reconstruction #Graphics-Ready Scenes #Physically Based Rendering (PBR)#Flow Matching Models #Cross-Modal Adapters #Synthetic Dataset (PanoX)

2025년 10월 31일

[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

본 연구는 다양한 문서 레이아웃 데이터의 부족과 복잡한, 긴 시퀀스 시나리오에서 기존 문서 레이아웃 생성 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Document Layout Generation #Large Language Models (LLMs)#Coarse-to-Fine Learning #Dataset Curation #OmniLayout-1M #Document AI #Generative Models

2025년 10월 31일

[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.

#Review #Medical VQA #Large Multimodal Models (LMMs)#Data Synthesis #Generator-Verifier Framework #Rubric-Guided #Reinforcement Learning (RL)#Context-Aware

2025년 10월 31일

[논문리뷰] Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets

본 논문은 LLM 에이전트가 중재하는 경제적 의사결정 환경에서 에이전트의 행동과 가치를 이해하기 위한 연구를 목표로 합니다. 기존의 제한적인 환경 연구에서 나아가, 복잡하고 동적인 실제 시장 조건 에서 에이전트의 행동을 안전하게 연구할 수 있는 개방형 시뮬레이션 환경 을 개발하는 것이 주요 목적입니다.

#Review #Agentic Markets #Multi-Agent Systems #Large Language Models (LLMs)#Simulation Environment #Open-Source Platform #Market Mechanism Design #Behavioral Biases #Manipulation Resistance

2025년 10월 31일

[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Multi-Reward Learning #Flow Matching #User Preference Alignment #Training Efficiency #Compositional Reasoning #Conditional Generation

2025년 10월 31일

[논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

본 논문은 기존 대규모 언어 모델(LLMs)이 MOF(Metal-Organic Frameworks)와 같은 복잡한 3D 결정질 재료의 설계 및 이해에 필요한 다면적인 표현 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLM #Metal-Organic Frameworks (MOFs)#Materials Discovery #Crystal Representation Learning #Instruction Tuning #Structure-Property Prediction #Knowledge Generation

2025년 10월 31일