全新的 Gemini 深度研究 Agent 在人类最后的考试(HLE),用 46.4% 击败了刚刚发布的 GPT-5.2 Thinking(45.5%),并且在 Google 自己推出的 DeepSearchQA 测试,和 BrowseComp ...