CS336 12강 — 평가(Evaluation): 하나의 참된 평가는 없다
Stanford CS336 12강 정리. '하나의 참된 평가는 없다' — 무엇을 알고 싶은가에 따라 달라지는 평가. perplexity 같은 내재적 지표, MMLU·GPQA 등 지식 벤치마크, LM-as-judge와 Chatbot Arena, 에이전트·안전 벤치마크, 그리고 현실성·오염(contamination)·타당성이라는 평가의 함정까지.