必发88官方网站_必发88游戏登录
    主页 / 资讯 / 观点 / 20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI结合开创

20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI结合开创

2025-02-20 09:02


20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI结合开创人:略强于 DeepSeek-R1 每经记者 岳楚鹏 每经编纂 兰素英 一度“跳票”的AI模子Grok 3终于迎来正式宣布。外地时光2月17日晚,马斯克旗下AI公司xAI宣布了Grok 3及其精简版Grok 3 mini。宣布会采取视频直播情势,不雅看人数超越100万人。Grok 3是xAI对OpenAI的o3-mini跟DeepSeek的R1等模子的回应,它能够剖析图像跟答复成绩,并为X上的很多功效供给支撑。前天马斯克就在X上造势称,Grok 3是“地球上最聪慧的人工智能”。图片起源:直播截图在宣布会上,马斯克跟三位xAI的工程师一同演示了Grok 3的种种功效。马斯克在直播演示中宣称,Grok 3在包含AIME(测试形式在数学识题上的表示)跟GPQA(测试模子在博士级物理、生物跟化学识题上的表示)在内的基准测试中击败了全部的市道上全部模子。马斯克仿佛也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看,测试数据表现,晚期版本的Grok 3(代号chocolate)在Arena排行榜上拿下了第一,吊打其余主流AI年夜模子,而且,Grok 3仍是第一个取得超越1400分的模子。但是,有效户在不雅看宣布会后指出,Grok 3给出的对于《放逐之路2》游戏的论断过错频出,尚有用户测试发明,Grok 3在经典的多边形小球编程成绩上也呈现了过错。OpenAI结合开创人Andrej Karpathy也在宣布会后放出了本人的感触。他以为,就现在长久上手的休会而言,Grok 3 + Thinking感到与ChatGPT的o1-pro差未几,略好于DeepSeek-R1跟谷歌的Gemini 2.0 Flash Thinking。 拿下Arena榜单第一!Grok 3是首个超1400分的模子 早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就表现,Grok 3估计将在2024年12月尾宣布。但到了岁尾,这个许诺并不兑现,一度有人猜忌这只不外是马斯克有数个年夜饼中的此中一个,Grok 3或者遥遥无期。 开展全文 不外,在上周的迪拜峰会上,马斯克却忽然发布,xAI将在一到两周内推出新一代AI模子Grok 3,而这个模子的强盛水平,用他的话说,“强到让人觉得惧怕”。马斯克乃至预言这可能是“最后一次有AI比Grok更优良”。 从xAI在直播中放出的基准测试成果来看,Grok 3在数学、迷信跟编程范畴的表示年夜幅当先于市道上其余主流的AI模子。 在数学才能测试(AIME'24)中,Grok 3取得52分,显明超越DeepSeek-V3的39分跟GPT-4o的9分;在迷信常识评价(GPQA)中,Grok 3以75分的成就当先,而DeepSeek-V3跟GPT-4o的得分分辨为65分跟50分;在编程才能测试(LCB Oct-Feb)中,Grok 3同样以57分超越DeepSeek-V3的36分合GPT-4o的34分。 图片起源:xAI 在推理模子的比拟中,Grok 3 Reasoning Beta也克服了OpenAI的o3-mini、DeepSeek的R1跟Gemini-2 Flash Thinking等推理模子。不外,演示团队表现容许Grok去停止更长时光的思考跟推理。 图片起源:xAI AI基准测试开放平台lmarena.ai也爆出猛料,最新测试数据表现,晚期版本的Grok 3(代号chocolate)在经由约8000次投票后,在Arena排行榜上拿下第一。 图片起源:X lmarena.ai称,Grok 3是第一个冲破了1400分的模子,而且在全部分类中都排名第一,而这一里程碑当前会越来约难以实现。 图片起源:X 三个月数据核心容量翻倍至20万块GPU 跟DeepSeek从技巧层面临模子停止改良差别,马斯克的新模子仍是属于“鼎力出奇观”。 此前有消息报道,马斯克组建了一个配有十万块H100 GPU的、天下上最年夜的超等盘算机集群Colossus来辅助练习Grok模子。在此次直播中,马斯克流露,现实上,到练习停止到92地利,集群的范围曾经扩展到了20万块GPU。 图片起源:xAI 也难怪有人说Grok 3是最终的Scaling Law测试了,是靠吞噬算力练习起来的怪物。 演示团队为了使各人更直不雅地懂得Grok 3的强盛之处,还演示了物理学跟游戏的例子。 起首,请求Grok 3天生一段代码绘制从地球发射火箭,下降在火星,而后鄙人一个发射窗口前往地球的三维动绘图表。这一义务波及大批的数学跟物理盘算,极具挑衅性。Grok 3很快天生了完全的动画,研讨职员在检讨后表现成果完整准确。 图片起源:xAI 之后,演示团队又请求Grok编写一个联合俄罗斯方块跟宝石迷城的游戏,Grok也顺遂实现了义务。 除了基础的模子才能之外,Grok 3也具有智能体功效。 xAI为Grok 3开辟了一个相似于OpenAI的DeepSearch智能体。DeepSearch能够对互联网停止片面搜寻,并为用户供给细致的整合讲演。马斯克表现,这能够省下你多少十次谷歌搜寻的时光,而公司将失掉多少十亿美元的报答。 OpenAI 结合开创人:Grok 3 + Thinking与o1-pro差未几,略好于DeepSeek-R1 在演示团队的展现中,Grok 3仿佛无所不克不及,拳打OpenAI,脚踢Deepseek,未然站上天下AI模子的顶峰,但有些不雅看了演示跟急不可待休会了Grok 3的用户却发明了一些奇异的成绩。 在宣布会中,为了演示DeepSearch功效,演示团队就马斯克近来在玩的游戏《放逐之路2》讯问了一个相干成绩。有游戏博主看后表现,Grok 3给出的游戏论断过错频出,感到不如马斯克声称的那么聪慧。 图片起源:哔哩哔哩 有专门直播该游戏的游戏博主也对《逐日经济消息》记者表现,Grok 3给出的谜底没一个是对的,不如GPT。 别的,有效户休会了Grok 3的编程功效,随后也表现,Grok 3的编程才能并不是很强盛。在经典的多边形小球编程成绩上,Grok 3呈现了过错。 图片起源:X OpenAI结合开创人Andrej Karpathy作为为数未几的提前拿到测试资历的人,也在宣布会后放出了本人的感触。他以为,就现在长久上手的休会而言,Grok 3 + Thinking感到与ChatGPT的o1-pro差未几,略好于DeepSeek-R1跟谷歌的Gemini 2.0 Flash Thinking。 Karpathy表现,Grok 3显然有一个开始进的头脑模子,而且在卡坦岛假寓者成绩上做得很好。很少有模子可能牢靠做到这一点。顶级的OpenAI推理模子(如o1-pro,月订阅费为200美元)也能做到这一点,但DeepSeek-R1、Gemini 2.0 Flash Thinking跟Claude的全部模子都没措施做到。 但Grok 3并不处理“心情标记之谜”成绩,即便以Rust代码的情势给出了有关怎样解码它的激烈提醒。而在这点上,Karpathy称其见过的最年夜停顿来自DeepSeek-R1,它已经局部解码了新闻。 别的,Karpathy以为,DeepSearch大概即是Perplexity DeepResearch的产物,但还不到达OpenAI近来宣布的“深度研讨”的程度。 不外,他同时也指出,斟酌到xAI团队在大概在1年前重新开端,这是相称令人难以相信的,到达开始进范畴的时光跨度是史无前例的。现在得出完全论断还为时过早,须要在在接上去的多少天/多少周内等候更多的评价。前往搜狐,检查更多

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!