另一方面:今天很多评测往往针对模型的单一能力,或者若干常见的通用能力。这就像高考考数学、语文、英语;但这些科考完,放到自己的业务里会发现,成绩好并不等于能力强。回到实际业务场景,我该怎么综合评估他的能力?