본문으로 건너뛰기

[논문리뷰] DAR: Deontic Reasoning with Agentic Harnesses

링크: 논문 PDF로 바로 열기

메타데이터

저자: Guangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme, et al.


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Deontic Reasoning: 명시적인 규정, 법령, 정책을 특정 사례에 적용하여 논리적인 결론을 도출하는 추론 작업입니다.
  • DAR (Deontic Agentic Reasoning): 모델이 법령 전체를 프롬프트에 담지 않고, 필요할 때마다 Harness 환경 내에서 관련 정보를 검색하고 조회(query)하며 추론하는 에이전트 기반 방식입니다.
  • Harness: 모델이 외부 환경과 상호작용할 수 있도록 제공되는 샌드박스 인터페이스(예: Terminus-2, Terminus-KIRA)를 지칭하며, 파일 읽기나 쉘 명령 등을 수행합니다.
  • Direct Reasoning: 법령, 사례 정보, 질문을 단일 프롬프트에 모두 포함하여 한 번의 인퍼런스로 답을 도출하는 기존의 표준 방식입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM 기반의 Deontic Reasoning에서 발생하는 긴 법령의 구조적 복잡성과 정보 검색의 비효율성 문제를 해결하고자 합니다. 기존 Direct Reasoning 방식은 대규모 규정집을 한 번에 컨텍스트로 제공해야 하므로, 모델이 정작 필요한 규칙을 놓치거나 잘못 참조하는 한계가 있습니다 [Figure 1]. 저자들은 이러한 정적 컨텍스트 제공 방식이 아닌, 모델이 에이전트처럼 도구를 사용하여 능동적으로 정보를 탐색하는 것이 추론 성능을 높일 수 있을지 의문을 제기하며 이를 검증합니다.

Figure 1: Direct reasoning과 DAR 비교

Figure 1 — Direct reasoning과 DAR 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 DAR 프레임워크를 도입하여 모델이 Terminus-2Terminus-KIRA와 같은 Harness 환경에서 법령 파일에 직접 접근하도록 설계했습니다 [Figure 1]. 실험 결과, 모델의 역량에 따라 DAR의 효과가 극명하게 갈리는 현상이 발견되었습니다. Frontier models(예: GPT-5.2, Claude Sonnet 4.5)의 경우, Terminus-KIRA 사용 시 SARA-Numeric 작업에서 Accuracy가 1530%p 상승하는 등 뛰어난 성능 향상을 보였습니다. 반면, Open-source models(예: Qwen3.5 시리즈)는 동일한 환경에서 도구를 사용함에도 불구하고 오히려 성능이 1123%p 하락하는 결과를 보였습니다 [Figure 2]. 또한, 에이전트 방식은 더 많은 Token을 소비하게 되는데, 모델 역량이 부족할 경우 성능 향상 없이 비용만 증가하는 효율성 문제가 발생함을 확인했습니다 [Figure 3].

Figure 2: 모델별 Harness 성능 비교

Figure 2 — 모델별 Harness 성능 비교

Figure 3: 모델별 평균 토큰 소비량

Figure 3 — 모델별 평균 토큰 소비량

4. Conclusion & Impact (결론 및 시사점)

본 연구는 DAR가 고도로 유능한 Frontier models에게는 법령 추론 능력을 극대화하는 강력한 수단이 되지만, 모든 모델에 보편적인 해결책은 아님을 입증했습니다. 이 결과는 에이전트 기반 시스템 구축 시 모델 역량과 Harness 선택이 상호보완적이어야 함을 시사합니다. 향후 Deontic Reasoning 분야에서 고비용의 인퍼런스를 줄이면서도 정확도를 높이기 위한 효율적인 retrieval 시스템 설계의 필요성을 제시한다는 점에서 학계와 산업계에 중요한 가이드라인을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글