[논문리뷰] Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

2025년 12월 22일수정: 2025년 12월 22일

링크: 논문 PDF로 바로 열기

저자: Aheli Poddar, Saptarshi Sahoo, Sujata Ghosh

핵심 연구 목표

본 연구는 LLM의 연역적 추론 능력 을 논리적(형식적) 및 직관적(자연어) 관점에서 깊이 이해하는 것을 목표로 합니다. 특히, LLM이 인간의 추론에서 흔히 나타나는 믿음 편향(belief bias) 을 보이는지, 아니면 형식 논리 규칙을 우선시하는지 분석하며, 이는 LLM이 인간과 유사한 추론자인지 또는 형식 논리 엔진에 가까운지 판단하기 위함입니다.

핵심 방법론

14개의 최신 LLM 을 대상으로 160개의 정언 삼단논법(categorical syllogisms) 벤치마크를 사용하여 평가했습니다. 논리적 구조와 자연어 의미의 영향을 분리하기 위해 이중 진실값(dual ground truth) 프레임워크 를 도입하여 구문적 유효성(syntactic validity) 과 자연어 타당성(natural language believability) 을 독립적으로 평가했습니다. 또한, 제로샷(Zero-shot), 원샷(One-shot), 퓨샷(Few-shot), 제로샷 CoT(Zero-shot Chain-of-Thought) 의 네 가지 프롬프트 전략 과 자기 일관성(self-consistency) 기반의 적응형 샘플링 을 적용하여 모델의 반응을 분석했습니다.

주요 결과

최상위 LLM(예: Gemini 2.5 Flash )은 99.6% 에 달하는 거의 완벽한 구문 정확도 를 보인 반면, 자연어 이해(NLU) 타당성 판단 에서는 52% 수준으로 무작위 성능에 가까웠습니다. 14개 모델 중 12개 가 양의 믿음 편향(+10.81 pp, p = 0.0280) 을 나타냈으나, 추론 능력이 뛰어난 모델일수록 의미론적 휴리스틱에 대한 의존도가 감소했습니다. 예상과 달리 퓨샷 프롬프트 는 제로샷 대비 성능을 유의미하게 저하시켰으며(∆ = -3.57 pp, p = 0.0165*), 추론 능력은 모델 아키텍처 및 훈련 방법에 크게 의존했습니다.

AI 실무자를 위한 시사점

현재 LLM은 형식 논리 구조를 처리하는 데는 탁월하지만, 자연어의 직관적인 타당성 판단에는 어려움을 겪는 경향이 있습니다. 이는 LLM이 인간의 추론 방식과는 반대로 형식 논리 엔진처럼 작동할 가능성을 시사합니다. 따라서 LLM의 추론 능력을 향상시키기 위해서는 단순한 모델 크기 확장보다는 아키텍처 설계와 훈련 데이터셋의 품질에 더 집중해야 합니다. 또한, 프롬프트 전략은 신중하게 선택해야 하며, 특히 퓨샷 프롬프트가 예상치 못한 성능 저하를 일으킬 수 있음을 인지해야 합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models
현재글 : [논문리뷰] Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives
다음글 [논문리뷰] WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion