[논문리뷰] Eliciting Secret Knowledge from Language Models이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.#Review#Language Models#Secret Elicitation#Mechanistic Interpretability#Black-box Methods#White-box Methods#AI Auditing#Model Organisms#Prefill Attacks2025년 10월 2일댓글 수 로딩 중
[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning#Large Language Models (LLMs)#Systematic Exploration#Adaptive Training#Tree-GRPO2025년 10월 2일댓글 수 로딩 중
[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.#Review#Curriculum Learning#LLMs#Reasoning#Gradient Optimization#Reinforcement Learning#Bayesian Inference#Sample Efficiency2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.#Review#Educational Video Generation#Code-centric AI#Multi-agent Framework#Manim#Vision-Language Models#Knowledge Transfer#Code Generation#MMMC Benchmark2025년 10월 2일댓글 수 로딩 중
[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Exploration#Rollout Size#Verifiable Rewards#PPO#Mass Balance Equation2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Boolean Satisfiability via Imitation Learning본 논문은 CDCL(Conflict-Driven Clause Learning) SAT solver 의 핵심 구성 요소인 브랜칭 정책의 비효율성을 개선하는 것을 목표로 합니다.#Review#Boolean Satisfiability#Imitation Learning#CDCL Solvers#Branching Policy#KeyTrace#Transformer Architecture#Perceiver AR2025년 10월 2일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.#Review#LLM Bias Mitigation#Benchmark#Evaluation Metrics#Prompt Engineering#Fine-tuning#Bias-Free Score#Fairness2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.#Review#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives#Negative Log Likelihood (NLL)#Model Capability Continuum#Generalization#Probability-based Loss Functions2025년 10월 2일댓글 수 로딩 중
[논문리뷰] An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications본 연구는 FM(Foundation Model) 기반 AI 에이전트 의 본질적인 비결정론적 특성과 재현 불가능성으로 인한 테스팅 및 품질 보증 문제를 해결하고자 합니다.#Review#AI Agent#LLM Agent#Testing#Empirical Study#Software Quality#Agent Frameworks#Agentic Applications#Non-Determinism2025년 10월 2일댓글 수 로딩 중
[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.#Review#LLM Agents#Context Compression#Long-horizon Tasks#Prompt Optimization#Knowledge Distillation#Memory Efficiency#Task Performance#Failure Analysis2025년 10월 2일댓글 수 로딩 중
[논문리뷰] jina-reranker-v3: Last but Not Late Interaction for Document Reranking본 논문은 문서 리랭킹에서 효율성과 효과성 사이의 근본적인 트레이드오프를 해결하고자 합니다.#Review#Document Reranking#Last but Not Late Interaction#Multilingual#Transformer Architecture#Cross-Encoder#InfoNCE Loss#Contextual Embedding#Qwen32025년 10월 1일댓글 수 로딩 중
[논문리뷰] dParallel: Learnable Parallel Decoding for dLLMs본 연구는 확산 언어 모델(dLLMs)이 가진 병렬 디코딩 잠재력 을 충분히 활용하지 못하는 문제, 즉 기존 dLLMs가 성능 유지를 위해 거의 토큰 길이만큼의 디코딩 스텝을 요구하는 병목 현상을 해결하는 것을 목표로 합니다.#Review#Diffusion Language Models#Parallel Decoding#Inference Acceleration#Certainty Distillation#Self-Distillation#Masked Language Models#LLaDA2025년 10월 1일댓글 수 로딩 중
[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Large Language Models (LLMs)#Inference Acceleration#KV Cache#Bidirectional Attention#Adaptive Caching#Token Selection2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning본 논문은 대규모 언어 모델(LLMs)의 Supervised Fine-Tuning (SFT) 과정에서 발생하는 데이터 비효율성 문제를 해결하고자 합니다.#Review#LLM SFT#Data Pruning#Sample Pruning#Token Pruning#Error-Uncertainty Plane#Q-Tuning#Data Efficiency#Dynamic Pruning2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated Judgments본 논문은 LLM이 생성한 평가(judgment)를 인간의 평가와 구별하는 판단 탐지(judgment detection) 태스크를 제안하고, 그 탐지 가능성을 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM-as-a-judge#Judgment Detection#Bias Quantification#Feature Engineering#Interpretability#Peer Review#AI Ethics#Evaluation2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Who invented deep residual learning?이 논문은 깊은 잔여 학습(deep residual learning) 의 발명 및 진화에 대한 명확한 연대기를 확립하고, 그 핵심 원리와 주요 개발을 주로 Schmidhuber 연구실의 연구, 특히 Sepp Hochreiter의 1991년 학위 논문 과 이후의 LSTM 및 Highway Network 작업을 통해 이루어졌다고 주장하는 것을 목표로 합니다.#Review#Deep Learning History#Residual Connections#Recurrent Neural Networks (RNN)#Long Short-Term Memory (LSTM)#Feedforward Neural Networks (FNN)#Highway Networks#ResNet#Vanishing Gradient2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.#Review#LLM Agents#Benchmarking#Interactive Tasks#Real-world Applications#Tool Use#Multi-turn Conversation#Task Complexity2025년 10월 1일댓글 수 로딩 중