20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排行榜，OpenAI结合开创

2025-02-20 09:02

20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排行榜，OpenAI结合开创人：略强于 DeepSeek-R1 每经记者岳楚鹏每经编纂兰素英一度“跳票”的AI模子Grok 3终于迎来正式宣布。外地时光2月17日晚，马斯克旗下AI公司xAI宣布了Grok 3及其精简版Grok 3 mini。宣布会采取视频直播情势，不雅看人数超越100万人。Grok 3是xAI对OpenAI的o3-mini跟DeepSeek的R1等模子的回应，它能够剖析图像跟答复成绩，并为X上的很多功效供给支撑。前天马斯克就在X上造势称，Grok 3是“地球上最聪慧的人工智能”。图片起源：直播截图在宣布会上，马斯克跟三位xAI的工程师一同演示了Grok 3的种种功效。马斯克在直播演示中宣称，Grok 3在包含AIME（测试形式在数学识题上的表示）跟GPQA（测试模子在博士级物理、生物跟化学识题上的表示）在内的基准测试中击败了全部的市道上全部模子。马斯克仿佛也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看，测试数据表现，晚期版本的Grok 3（代号chocolate）在Arena排行榜上拿下了第一，吊打其余主流AI年夜模子，而且，Grok 3仍是第一个取得超越1400分的模子。但是，有效户在不雅看宣布会后指出，Grok 3给出的对于《放逐之路2》游戏的论断过错频出，尚有用户测试发明，Grok 3在经典的多边形小球编程成绩上也呈现了过错。OpenAI结合开创人Andrej Karpathy也在宣布会后放出了本人的感触。他以为，就现在长久上手的休会而言，Grok 3 + Thinking感到与ChatGPT的o1-pro差未几，略好于DeepSeek-R1跟谷歌的Gemini 2.0 Flash Thinking。拿下Arena榜单第一！Grok 3是首个超1400分的模子早在2024年7月，马斯克在与乔丹·彼得森的访谈节目时就表现，Grok 3估计将在2024年12月尾宣布。但到了岁尾，这个许诺并不兑现，一度有人猜忌这只不外是马斯克有数个年夜饼中的此中一个，Grok 3或者遥遥无期。开展全文不外，在上周的迪拜峰会上，马斯克却忽然发布，xAI将在一到两周内推出新一代AI模子Grok 3，而这个模子的强盛水平，用他的话说，“强到让人觉得惧怕”。马斯克乃至预言这可能是“最后一次有AI比Grok更优良”。从xAI在直播中放出的基准测试成果来看，Grok 3在数学、迷信跟编程范畴的表示年夜幅当先于市道上其余主流的AI模子。在数学才能测试（AIME'24）中，Grok 3取得52分，显明超越DeepSeek-V3的39分跟GPT-4o的9分；在迷信常识评价（GPQA）中，Grok 3以75分的成就当先，而DeepSeek-V3跟GPT-4o的得分分辨为65分跟50分；在编程才能测试（LCB Oct-Feb）中，Grok 3同样以57分超越DeepSeek-V3的36分合GPT-4o的34分。图片起源：xAI 在推理模子的比拟中，Grok 3 Reasoning Beta也克服了OpenAI的o3-mini、DeepSeek的R1跟Gemini-2 Flash Thinking等推理模子。不外，演示团队表现容许Grok去停止更长时光的思考跟推理。图片起源：xAI AI基准测试开放平台lmarena.ai也爆出猛料，最新测试数据表现，晚期版本的Grok 3（代号chocolate）在经由约8000次投票后，在Arena排行榜上拿下第一。图片起源：X lmarena.ai称，Grok 3是第一个冲破了1400分的模子，而且在全部分类中都排名第一，而这一里程碑当前会越来约难以实现。图片起源：X 三个月数据核心容量翻倍至20万块GPU 跟DeepSeek从技巧层面临模子停止改良差别，马斯克的新模子仍是属于“鼎力出奇观”。此前有消息报道，马斯克组建了一个配有十万块H100 GPU的、天下上最年夜的超等盘算机集群Colossus来辅助练习Grok模子。在此次直播中，马斯克流露，现实上，到练习停止到92地利，集群的范围曾经扩展到了20万块GPU。图片起源：xAI 也难怪有人说Grok 3是最终的Scaling Law测试了，是靠吞噬算力练习起来的怪物。演示团队为了使各人更直不雅地懂得Grok 3的强盛之处，还演示了物理学跟游戏的例子。起首，请求Grok 3天生一段代码绘制从地球发射火箭，下降在火星，而后鄙人一个发射窗口前往地球的三维动绘图表。这一义务波及大批的数学跟物理盘算，极具挑衅性。Grok 3很快天生了完全的动画，研讨职员在检讨后表现成果完整准确。图片起源：xAI 之后，演示团队又请求Grok编写一个联合俄罗斯方块跟宝石迷城的游戏，Grok也顺遂实现了义务。除了基础的模子才能之外，Grok 3也具有智能体功效。 xAI为Grok 3开辟了一个相似于OpenAI的DeepSearch智能体。DeepSearch能够对互联网停止片面搜寻，并为用户供给细致的整合讲演。马斯克表现，这能够省下你多少十次谷歌搜寻的时光，而公司将失掉多少十亿美元的报答。 OpenAI 结合开创人：Grok 3 + Thinking与o1-pro差未几，略好于DeepSeek-R1 在演示团队的展现中，Grok 3仿佛无所不克不及，拳打OpenAI，脚踢Deepseek，未然站上天下AI模子的顶峰，但有些不雅看了演示跟急不可待休会了Grok 3的用户却发明了一些奇异的成绩。在宣布会中，为了演示DeepSearch功效，演示团队就马斯克近来在玩的游戏《放逐之路2》讯问了一个相干成绩。有游戏博主看后表现，Grok 3给出的游戏论断过错频出，感到不如马斯克声称的那么聪慧。图片起源：哔哩哔哩有专门直播该游戏的游戏博主也对《逐日经济消息》记者表现，Grok 3给出的谜底没一个是对的，不如GPT。别的，有效户休会了Grok 3的编程功效，随后也表现，Grok 3的编程才能并不是很强盛。在经典的多边形小球编程成绩上，Grok 3呈现了过错。图片起源：X OpenAI结合开创人Andrej Karpathy作为为数未几的提前拿到测试资历的人，也在宣布会后放出了本人的感触。他以为，就现在长久上手的休会而言，Grok 3 + Thinking感到与ChatGPT的o1-pro差未几，略好于DeepSeek-R1跟谷歌的Gemini 2.0 Flash Thinking。 Karpathy表现，Grok 3显然有一个开始进的头脑模子，而且在卡坦岛假寓者成绩上做得很好。很少有模子可能牢靠做到这一点。顶级的OpenAI推理模子（如o1-pro，月订阅费为200美元）也能做到这一点，但DeepSeek-R1、Gemini 2.0 Flash Thinking跟Claude的全部模子都没措施做到。但Grok 3并不处理“心情标记之谜”成绩，即便以Rust代码的情势给出了有关怎样解码它的激烈提醒。而在这点上，Karpathy称其见过的最年夜停顿来自DeepSeek-R1，它已经局部解码了新闻。别的，Karpathy以为，DeepSearch大概即是Perplexity DeepResearch的产物，但还不到达OpenAI近来宣布的“深度研讨”的程度。不外，他同时也指出，斟酌到xAI团队在大概在1年前重新开端，这是相称令人难以相信的，到达开始进范畴的时光跨度是史无前例的。现在得出完全论断还为时过早，须要在在接上去的多少天/多少周内等候更多的评价。前往搜狐，检查更多

上一篇：年夜模子震动时辰：DeepSeek掀桌百度开源收费成必答题返回列表下一篇：没有了

20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排行榜，OpenAI结合开创

最新动态

珠宝商城网站建设定制解决方案_广州网站制作公

美术电商网站建设解决方案_广州网站制作公司美术电商网站建设解决方案_广州

企业网站手机网站建设解决方案_广州网站制作公司

为什么你们的定制网站制作费用这么便宜?_广州网

要建站，如何和网站建设公司阐述清楚自已的想

企业如何利用定位进行网站建设_广州网站制作公

建设一个营销型网站或商城去创业_广州网站制作

企业进行网站制作需要准备什么资料？_广州网站

企业网站建设后台管理教程(通用版v1.0)_广州网站

相关资讯

服务支持