[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.#Review#LLM Agents#Space Planning#Benchmark#Agentic Planning#Physics Constraints#Decision Making#Zero-Shot Learning2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Large Language Models Discriminate Against Speakers of German Dialects본 논문은 대규모 언어 모델(LLMs)이 독일 방언 사용자에 대한 사회적 고정관념을 반영하고 강화하는지 탐구하는 것을 목표로 합니다. 특히, 독일 인구의 40% 이상 이 지역 방언을 사용하는 상황에서, LLM의 편향이 실제 세계에 미칠 수 있는 차별적 영향을 분석하고자 합니다.#Review#Large Language Models#Bias#German Dialects#Sociolinguistics#Stereotypes#Implicit Association Test#Decision Making2025년 9월 24일댓글 수 로딩 중