[논문리뷰] BABE: Biology Arena BEnchmark이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중