[논문리뷰] TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas기존 Text-to-SQL 파싱 방법론들은 Full Schema Assumption 하에서 Large Language Models (LLMs) 의 발전과 함께 remarkable progress를 이루었습니다.#Review#Text-to-SQL#Unknown Schema#Multi-Turn Reinforcement Learning#Tool Integration#POMDP#Dual-Track GRPO#Schema Grounding#Hallucination2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Agent-as-a-Judge본 논문은 LLM-as-a-Judge의 한계(내재된 편향, 피상적인 추론, 실제 관찰에 대한 검증 불가능성)를 극복하기 위해 Agent-as-a-Judge 패러다임으로의 전환을 포괄적으로 탐구하는 것을 목표로 합니다.#Review#Agent-as-a-Judge#LLM Evaluation#Multi-Agent Systems#Tool Integration#AI Alignment#Automated Assessment#Survey2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.#Review#Spatial Reasoning#Vision Language Models (VLMs)#Geometric Constraints#Agentic AI#Tool Integration#Semantic-to-Geometric Gap#Task Formalization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] JoyAgent-JDGenie: Technical Report on the GAIA본 논문은 LLM 기반 에이전트 시스템들이 복잡한 실세계 태스크를 해결하는 데 있어 견고성, 적응성, 재현성이 부족하다는 문제를 제기합니다. 기존 시스템들이 툴킷 확장, 프롬프트 개선 등 개별적인 측면에만 집중하여 통합 프레임워크가 부재했기 때문입니다.#Review#Generalist Agent#Multi-Agent System#Plan-Execute#ReAct#Hierarchical Memory#Tool Integration#GAIA Benchmark#LLM Agent2025년 10월 2일댓글 수 로딩 중
[논문리뷰] GEM: A Gym for Agentic LLMs대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.#Review#Agentic LLMs#Reinforcement Learning#Environment Simulator#Multi-turn Interactions#Return Batch Normalization#Tool Integration#Benchmarking2025년 10월 2일댓글 수 로딩 중