[논문리뷰] Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks본 연구는 기존 벤치마크들이 산점도(scatterplot) 관련 태스크를 충분히 다루지 못하여 AI 모델의 성능을 평가하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#Scatterplot Analysis#AI Benchmarking#Multimodal LLMs#Synthetic Data Generation#Cluster Detection#Outlier Detection#Data Visualization#Prompt Engineering2025년 10월 8일댓글 수 로딩 중
[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-SQL#LLM Evaluation#Multi-turn Interaction#Dynamic Environment#User Simulator#Ambiguity Resolution#LLM Agents2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Importance Sampling#Policy Optimization#PPO-Clip#Outcome-Supervised RL#Token Weighting#GRPO2025년 10월 8일댓글 수 로딩 중
[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.#Review#LLM#Scientific Problem Solving#AI Research#Iterative Refinement#Autonomous Agents#Generative AI#Evaluation Framework#Problem Extraction2025년 10월 8일댓글 수 로딩 중
[논문리뷰] A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling현재 선호도 정렬 기법인 Best-of-N (BoN) 샘플링 이 단순히 '더 나은' 응답을 선택할 뿐, '충분히 좋은' 응답의 절대적 허용 가능성을 판단하지 못하는 문제를 해결하고자 합니다.#Review#Reward Model#Best-of-N Sampling#Preference Alignment#Contextual Acceptability#Discrete Choice Model#Alignment Guardrail#Inference Accelerator2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.#Review#Computer Use Agents#Inverse Dynamics Model#UI Trajectories#Web Videos#In-Context Learning#Supervised Fine-Tuning#Large Language Models#OSWorld Benchmark2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중
[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.#Review#Video Generation#Chain-of-Thought#Multimodal Models#Reasoning#Inference-Time Tuning#Sparse Supervision#Diffusion Models#Keyframe Generation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Utility-Learning Tension in Self-Modifying Agents본 연구는 고도화된 AI 에이전트가 학습 메커니즘 자체를 변경하는 자기 수정(self-modification) 능력에 주목하여, 이러한 변화가 학습 가능성을 보존하는지 혹은 파괴하는지에 대한 학습 이론적 설명을 제공하는 것을 목표로 합니다.#Review#Self-Modifying Agents#PAC Learnability#VC Dimension#Capacity Bounds#Metacognition#Architectural Search#Algorithmic Stability#Generalization Theory2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Thai Semantic End-of-Turn Detection for Real-Time Voice Agents이 논문은 실시간 음성 에이전트를 위한 태국어 텍스트 전용 EOT(End-of-Turn) 감지 에 대한 최초의 체계적인 연구를 수행하는 것을 목표로 합니다.#Review#End-of-Turn Detection#Thai NLP#Voice Agents#Real-time Inference#Transformer Models#Few-shot Learning#Fine-tuning#Latency Optimization2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs본 연구는 훈련 없이 잠재 공간 추론을 사용하는 대규모 언어 모델(LLMs)이 겪는 두 가지 주요 문제점을 해결하고자 합니다.#Review#LLM Reasoning#Latent Thinking#Explicit Thinking#Training-Free#Token Efficiency#Accuracy Improvement#Dynamic Switching#Entropy-based Control2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Self-Reflective Generation at Test Time본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.#Review#Large Language Models#Self-Reflection#Test-Time Optimization#Uncertainty Monitoring#Proactive Error Prevention#Reasoning Tasks#Chain-of-Thought2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder이 논문은 대규모 텍스트-투-이미지 확산 모델의 이미지 편집 시 미세하고 연속적인 제어 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Diffusion Models#Sparse Autoencoder (SAE)#Text-to-Image#Disentangled Control#Continuous Control#Token-level Manipulation#Text Embeddings2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM TrainingLLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling#Policy Gradient#Reward Optimization#Signal Collapse#Variance Reduction2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models이 논문은 기존 Large Language Model (LLM) 의 stateless 특성과 quadratic한 계산 복잡성(O(L²)) 이 긴 대화에서 발생하는 비효율성(높은 비용, 지연 시간)을 해결하는 것을 목표로 합니다.#Review#Reactive Transformer#Stateful LLM#Event-Driven AI#Asynchronous Memory#Conversational AI#Linear Scaling#Short-Term Memory (STM)#Memory Attention2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Optimal Scaling Needs Optimal Norm이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.#Review#Optimal Scaling#Norm-Based Optimizers#Hyperparameter Transfer#Learning Rate Scaling#Batch Size Scaling#Transformer Models#Scion Optimizer#Large Language Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중
[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.#Review#LLM Reasoning#Tree Search#Pointwise Mutual Information (PMI)#Dynamic Sampling#Beam Search#Weighted Voting#Information Theory#Computational Efficiency2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.#Review#Test-Time Curriculum#Reinforcement Learning#Large Language Models#Self-Curated Learning#Continual Learning#Reasoning Benchmarks#Adaptive Training2025년 10월 7일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중