#Biology Benchmark

1개의 포스트

[논문리뷰] BABE: Biology Arena BEnchmark

이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.

#Review #Biology Benchmark #Large Language Models #Experimental Reasoning #Causal Inference #Cross-Scale Inference #Multimodal AI #Scientific Reasoning #Research Agents

2026년 2월 5일