每经记者 岳楚鹏 每经剪辑 高涵 体育游戏app平台
近日,东谈主工智能初创公司xAI(马斯克斥地的东谈主工智能公司)发布了更新版Grok 3(模子名)大模子,埃隆·马斯克称之为“地球上最智慧的东谈主工智能”。
证据官方公开的测试界限,Grok 3在包括AIME(好意思国数学邀请赛)和 GPQA(筹商生水平的大众推理)等基准测试中,阐扬远超GPT-4o(模子名)、Gemini-2Pro(模子名)、DeepSeek V3(模子名)、Claude 3.5 Sonnet(模子名)等。
在大模子竞技场Chatbot Arena(一个通过东谈主类评估东谈主工智能的开源平台)测试中,xAI工程师暗示,早期版块的Grok 3获取了第一的得益,达到了140分,卓越了Gemini 2.0 Flash Thinking(模子名)实验版块、GPT-4o最新版块以及最近大火的DeepSeek-R1(模子名,以下简称R1)等。
但是,有些用户在体验后却对Grok 3的材干产生了质疑,他们合计Grok 3的材干并莫得马斯克宣称的那么稠密。OpenAI(一家灵通东谈主工智能筹商和部署公司)应用筹商垄断Boris Power(东谈主名)则对Grok团队在模子评估中的活动暗示失望,指出其存在舞弊和乱来动机。Boris Power提到,o3mini(模子名)在各项评估中均优于Grok 3。
真相到底奈何,马斯克娇傲了吗?《逐日经济新闻》记者测试发现,Grok 3确乎是天下顶级模子,但并莫得和其他模子拉开太大差距,唯独拉开差距的是它极快的反应速率。
庸碌拿下数字比大小
Grok 3是由马斯克旗下的东谈主工智能公司xAI发布的最新一代AI(东谈主工智能)模子。马斯克在发布会上称其为“地球上最智慧的东谈主工智能”,并暗示Grok 3的材干比前代居品Grok 2跳跃一个数目级,具备更强的推理、诡计和符合材干。
在新闻发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中阐扬出色,卓越了谷歌的Gemini、DeepSeek的V3模子、Anthropic(一家好意思国东谈主工智能企业)的Claude(模子名)和OpenAI的GPT-4o等竞争敌手。
Grok 3在发布后仅48小时内,xAI晓示将其免费灵通给悉数效户,直至行状器负载达到极限。现在用户每天不错体验十条“想考模式”Grok 3及不限量免费普通Grok 3。
《逐日经济新闻》记者在Grok 3发布后也躬行进行了测试,望望Grok 3是否真有马斯克宣传的那么猛烈。
率先,从最经典的基础问题启动:9.9和9.11谁大?
这个问题毫无难度,Grok 3庸碌拿下。
逻辑想考材干并不杰出
马斯克在发布会上自负的少量是,Grok 3“想考模子”下的逻辑推理材干。他宣称,Grok 3(想考模式)学会了立异其惩处问题的计谋,通过回溯矫正失误,简化本领,并诈欺其在预西宾技术获取的学问。就像东谈主类在惩处复杂问题时雷同,Grok 3(想考模式)不错消费几秒钟到几分钟的时候进行推理,闲居会推敲多种顺序,考证我方的惩处决议,并评估奈何精确欣慰问题的条目。
记者用弱智吧的问题来检修一下它的逻辑是不是确凿过关。“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户闲居发布包含双关语、多义词、因果特地和解音词等具有挑战性的内容,好多内容想象有逻辑陷坑,即使对东谈主类来说也颇具挑战。
第一个问题:用水来兑水,得到的是浓水如故稀水?
Grok 3答对了问题,况且还指出这是一个翰墨游戏。而OpenAI的o1就在这谈题上败下阵来,合计水兑水后得到的是稀水。天然除了o1,其他大模子诸如Gemini和R1都答对了这谈问题。是以这并不及以证明Grok的推理模式等于第一的水平,还得加浩劫度。
下一题:明天的某天,李同学在实验室制作高明材料时,随机发现实验室的老鼠在空中飞。分析发现,是因为老鼠不防范吃了高明材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你合计原因是什么?
很可惜,这谈题Grok 3莫得答对,它在想维链内部依然意想了老鹰自己就会飞的可能性,但是莫得在终末的输出界限里体现出来。其他大模子里只须R1奏效答对了问题,且推敲了两种情况。
记者还进行了屡次访佛问题的测试,发现Grok 3对汉文的融会和逻辑推理材干确乎彰着高于其他海外模子,但如故不如R1。
数学材干未拉开差距
既然逻辑想考无法夺魁,那么在基准测试里分最高的数学形式,Grok 3能不成扳回一局呢?
题目如下:三个东谈主打台球,两东谈主对局一东谈主不雅战,输的东谈主下场换不雅战的东谈主上场,如斯走动,最终,A输了6局,B输了8局,C输了10局,问各赢些许局?
这谈题只须Grok 3和OpenAI的o1答对。不外,Grok 3只用了1分15秒就得出了谜底,o1使用了2分53秒。
再进一步加浩劫度望望能不成分出迂回。底下是一皆群论问题:有几个阶为147的非同构群。
在这个问题上,Grok 3天然答对了具体的数目6个,但是中间的具体群却错了一个。而其他模子只找到了5个正确的非同构群。这意味着,在数学材干方面,Grok 3确乎是最佳的,但是好得有限,并莫得与其他同等第模子拉开显贵差距。
编程材干险胜o1
针对编程材干,《逐日经济新闻》记者借用了Kcores(公司名)麇集独创东谈主karminski-牙医(网名)的测评界限。
karminski-牙医复现了马斯克在发布会上关于火星辐射计划的代码模拟,并测试了多个模子进行相比。
在此次测试中,阐扬最佳的是Grok 3的推理模子(想考模式),天然在终末着陆时,动画火箭莫得与火星重迭,但轨谈需求诡计得很好。但是恒久莫得复现出马斯克在发布会时所展现的那么无缺的轨谈诡计和动画。Grok 3终末空洞得分排在了第一,再之后是OpenAI的o1,两者的空洞得分差距不大。
勾通悉数测试来看,Grok 3确乎是天下顶尖的AI模子,不愧于20万张GPU(图形处理器)的身价。但是,实验测试恶果并莫得马斯克在发布会上展示的那么夸张,马斯克所说的天下上最“智慧”的模子,可能还值得商榷。
在实测中,《逐日经济新闻》记者发现,Grok 3模子材干并莫得像基准测试得分那样远远甩开敌手一大截,唯独甩开竞争敌手的少量是它的反应速率,它得出界限的速率相较于其他同等第的大模子来说是最快的。

累赘剪辑:王许宁 体育游戏app平台