如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-19 21:25:17
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-21 01:20:17如何评价《灵笼 2》第六集?
- 2025-06-21 00:35:17如何看待jemalloc停止维护?
- 2025-06-21 02:05:17和女生合租,都会发生什么事情?
- 2025-06-21 01:50:17江西通报救护车 800 公里收费 2.8 万「不合理,暂停医院转运服务」,该医院要承担怎样的法律责任?
- 2025-06-21 01:45:18为什么这么多人说 Gmail 好用?Gmail 和 QQ 邮箱相比到底好在哪里?
- 2025-06-21 01:40:17你健身是为了什么?
- 2025-06-21 02:05:17为什么个人需要公网ip?
- 2025-06-21 00:55:17在中国有多少开发者使用Rust编程语言?
- 2025-06-21 01:00:17iOS 26 的新设计被吐槽丑,苹果在设计更新时考虑了哪些因素?你对这一设计都有哪些评价?
- 2025-06-21 01:55:17我一直想不明白,日系车为什么就走下坡路了呢?
推荐产品
-
网传广东怀集洪水后赵一鸣超市被哄抢,县***回应相关单位正在核实,若属实哄抢者该承担哪些法律责任?
这是一种典型的破窗效应,太逆天了。 就像以前那种大规模偷药 -
中国预警机世界领先吗?
就雷达工作体制而言,中国预警机的确领选全世界,但就元器件、处 -
广东人吃东西讲究「食材本味」,那为什么西湖醋鱼没有在广东流行开来?
作为一个广东顺德人,我来回答一下吧。 以草鱼(鲩鱼)养殖为 -
请问您见过最惊艳的sql查询语句是什么?
财务里面,一条 SQL 算出资产负债表,要求每个项都是根据自
最新资讯