[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.#Review#LLM Data Preparation#Workflow Automation#Data-Centric AI#Synthetic Data#Multi-Agent System#Framework#Reproducibility2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction본 논문은 LLM이 인간이 인지하는 문항(질문 또는 과제) 난이도를 정확하게 예측할 수 있는지, 특히 초기 데이터 부족 문제(cold-start problem) 상황에서 인간-AI 난이도 정렬(Human-AI Difficulty Alignment) 을 달성할 수 있는지 실증적으로 분석하는 것을 목표로 합니다.#Review#Large Language Models#Item Difficulty Prediction#Human-AI Alignment#Proficiency Simulation#Metacognition#Curse of Knowledge#Educational Assessment#Zero-shot Learning2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Brain-Grounded Axes for Reading and Steering LLM States본 연구는 LLM(대규모 언어 모델)의 해석 가능성 방향이 종종 외부 접지(external grounding)가 부족하다는 문제에 주목합니다. 이를 해결하기 위해 인간의 뇌 활동을 LLM의 내부 상태를 해석하고 조종하기 위한 안정적이고 외부적으로 접지된 좌표계로 정의하는 것을 목표로 합니다.#Review#LLM Interpretability#Brain-Grounded AI#MEG#Phase-Locking Value#ICA#LLM Steering#Neural Decoding#Latent Space2025년 12월 22일댓글 수 로딩 중
[Triton] SWP 루프 로우어링에서 barrier 위치 결정 로직 수정MMA의 non-pipelined operand와 tmem_load 간 barrier 위치를 linearized schedule 기반으로 정확히 결정#Triton#NVIDIA#Pipelining#SWP#Bug Fix2025년 12월 22일댓글 수 로딩 중
[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결#Triton#AMD#RDNA#Performance#Kernel Tuning2025년 12월 22일댓글 수 로딩 중
[논문리뷰] When Reasoning Meets Its Laws이 논문은 대규모 추론 모델(LRMs) 의 비직관적이고 최적화되지 않은 추론 행동을 체계적으로 이론화하고, 바람직한 추론 패턴을 특성화하기 위한 Laws of Reasoning (LORE) 프레임워크를 제안합니다.#Review#Large Reasoning Models#Reasoning Behaviors#Compute Law#Accuracy Law#Monotonicity#Compositionality#Fine-tuning#LORE-BENCH2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.#Review#Multi-Turn Reinforcement Learning#LLM Agents#Proximal Policy Optimization (PPO)#Turn-Level MDP#Advantage Estimation#Generative AI#Deep Reinforcement Learning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] StageVAR: Stage-Aware Acceleration for Visual Autoregressive ModelsVisual Autoregressive (VAR) 모델은 고품질 이미지 생성을 가능하게 하지만, 특히 대규모 스케일 단계에서 상당한 연산 복잡도와 긴 런타임으로 어려움을 겪습니다.#Review#Visual Autoregressive Models#Image Generation#Model Acceleration#Low-Rank Approximation#Semantic Irrelevance#Stage-Aware Optimization#Text-to-Image Synthesis2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.#Review#Software Engineering Benchmarks#Large Language Models (LLMs)#Code Generation#Automated Benchmark Generation#Multilingual#GitHub Pull Requests#Test Oracle#Fine-tuning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Visual Degradation#Robustness#Reasoning Chains#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning#Interpretability2025년 12월 21일댓글 수 로딩 중
[논문리뷰] RadarGen: Automotive Radar Point Cloud Generation from Cameras본 연구는 자동차 레이더 포인트 클라우드 생성이 지닌 고유한 데이터 특성(희소성, 무질서성, RCS/Doppler 속성)으로 인한 어려움을 해결하고자 합니다.#Review#Radar Point Cloud Generation#Diffusion Models#Camera-to-Radar#BEV Representation#Autonomous Driving#Multi-modal Generative Models#Scene Editing2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.#Review#Scientific General Intelligence (SGI)#LLMs#Benchmarking#Scientist-Aligned Workflows#Practical Inquiry Model#Multi-modal Reasoning#Code Generation#Test-Time Reinforcement Learning (TTRL)2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers언어 모델 아키텍처 간의 성능 차이를, 특히 학술 규모의 사전 훈련에서 발생하는 높은 노이즈와 비용 문제 없이 신뢰성 있게 평가하고 이해하는 것을 목표로 합니다.#Review#Language Models#Transformer Architecture#Canon Layers#Synthetic Pretraining#Reasoning Depth#Linear Attention#State-Space Models#NoPE2025년 12월 21일댓글 수 로딩 중
[논문리뷰] PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence본 연구는 시점 불일치 문제로 인해 로봇 일반화에 한계가 있는 기존 VLM(Vision-Language Model)의 단점을 해결하고자 합니다.#Review#Egocentric Data#Physical Intelligence#VLM#Robot Control#Embodied AI#VQA Supervision#Human-Robot Interaction#Zero-shot Transfer2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Meta-RL Induces Exploration in Language Agents본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Meta-RL#LLM Agents#Exploration#Reinforcement Learning#Policy Adaptation#In-context Learning#Self-reflection#Multi-episode tasks2025년 12월 21일댓글 수 로딩 중
[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.#Review#Video Question Answering#Multi-evidence Integration#Video-LLMs#Benchmark#Temporal Reasoning#Frame Selection#Evidential Requirement#MRFS2025년 12월 21일댓글 수 로딩 중
[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.#Review#Text-to-Image Generation#Image Editing#Representation Encoders#Latent Diffusion Models#Variational Autoencoder (VAE)#Semantic Reconstruction#Off-manifold Latents#DINOv22025년 12월 21일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.#Review#LLM-as-a-Judge#Evaluation Metrics#Consistency#Robustness#Positional Bias#Transitivity#Situational Preference#Multi-agent Systems2025년 12월 21일댓글 수 로딩 중