反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了
2025-07-11 12:23:45 - 闻秀
2 月 16 号,反超马斯克在 X 上发布了一条自家 Grok 3 模型的克钞发布预告。
并配文“地球上最聪明的砸出k终广州学院偷拍最新 AI”要来了。
北京时间 2025 年 2 月 18 日中午,于上马斯克如约带领着 xAI 的反超工程师和研究团队开启了 Grok 3 的首发实况。
这次发布会主要分为三个部分,克钞介绍了 Grok 3 在训练上比 Grok 2 多投入了 10 倍的砸出k终计算资源,解锁了更强大的于上计算能力,展示了基于 Grok 3 的反超 AI Agent,展现了 xAI 团队在自主智能体领域的克钞最新进展。
各项能力一骑绝尘
“我们非常高兴能够推出 Grok3,我们认为,于上广州学院偷拍最新在很短的反超时间内,它的克钞功能比 Grok2 强大一个数量级。这要归功于一支不可思议的砸出k终团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。
马斯克还透露,Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的10倍。
据 xAI 团队介绍,xAI 最开始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。显著的算力提升让 Grok 3 能够更高效地处理庞大信息集,缩短训练时间。随即他们便晒出了一组和 ChatGPT 的信息对比图,并表示虽然 Grok 起步较晚,但在 MMLU 得分上以超快地速度追上了 ChatGPT。
并且 Grok3 在 LMSYS(大模型竞技场)中的排名也是一骑绝尘。
其中 Grok-3 和 Grok-3 mini 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手。
发布会列出的信息显示,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro等。
而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本,则凭借强大的推理能力,超越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模型。
此外,xAI团队还现场演示了一个任务,要求Grok-3在现场生成一段关于太空发射的3D动画代码。在大约两分钟的思考后,Grok 3生成了可直接运行的Python代码,成功展示了可以运行的3D动画。
除此之外团队还要求 Gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在Grok-3 思考了数分钟后,给出了答案。
最后,xAI 团队演示了一个全新的产物,基于 Grok 3 的搜索引擎 —— DeepSearch 。
它不仅能够搜索网页并查找现有资料,还能“推测客户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。
Grok 3 搅动 AI 大模型格局
实况结束后,不少网友纷纷发声。
AI 大牛卡帕西总结了一下自己的“先行版”使用体验:
首先 Grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能解决相同问题。除此之外,Grok 3 也能尝试解决如黎曼假设等难题。
其次 Grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 Apple 新品发布、Palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的URL或不准确的事实)。
最后在测试一些简单的“陷阱”问题时,Grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。
但总的来说 Grok 3 整体表现接近 OpenAI 的 o1-pro 模型,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Imarena.ai 官方更是在经过测试后发文称:
Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。
更有网友直呼:Grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!当然也有网友在测试之后,认为 Grok 3 在编程方面并不是很擅长。
值得一提的是,Grok 3 第一批获得访问权限的人将首先从 X 上的 Premium+ 订阅者开始,而普通客户何时能用上,他们也并不清楚。
但基于网友们对 Grok 3 褒贬不一的评价,雷峰网(公众号:雷峰网)不禁猜测,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 AI 大模型王座?
时间还早,让子弹再飞一会。
参考链接:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
对话加拿大工程院于非院士:寻找 AI 领域的「香农定理」

当科学家把一些菟丝子移植到几株营养状态不同的山楂树上时,那些营养状况更好的山楂树会更容易获得菟丝子的「青睐」。这在以往被看作是植物内「被动」存在的东西,但据研究人员发现,植物也具备从过去的经验中学习区
商务部:已部署开展打击战略矿产走私出口专项行动

7月10日,商务部召开例行新闻发布会。有记者提问,有报道称,锑和镓等关键矿产正在通过转运方式运往美国。中国政府是否已采取任何措施打击关键矿产的转运和走私行为?商务部新闻发言人何咏前表示,锑和镓等战略矿
会员积分兑、星钻免费看 《临江仙》加更礼怎么看更划算?

来源标题:会员积分兑、星钻免费看 《临江仙》加更礼怎么看更划算?爱奇艺出品,白鹿、曾舜晞领衔主演的古装仙侠剧《临江仙》将于6月21日18:00开启加更嘉年华。解锁加更嘉年华的爱奇艺会员可直通大结局、观
也门胡塞武装:红海受袭希腊货轮沉没

来源:财联社财联社7月10日电,据新华社报道,也门胡塞武装9日发表声明称,该组织的武装部队击沉了在红海航行的希腊货轮“永恒C”号。这是该组织4天内在红海击沉的第二艘货轮。据胡塞武装旗下的马西拉电视台报
周伯文:下一代大模型 OS,工具和语言缺一不可丨GAIR 2023

作者丨孙溥茜编辑丨陈彩娴编者按:2023 年 8 月14日,第七届 GAIR 全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主
《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!

来源标题:《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!友情不惧时间,快乐永不打烊。由抖音和傲椒文化联合重磅推出的全女嘉宾治愈系旅行综艺《姐妹不打烊》已于6 月 10 日
60岁大叔扮女装与千余人发生亲密行为?警方通报

南京警方7月8日发布警情通报:近日,江宁警方接到群众报警称其隐私视频被他人传播至互联网。江宁警方立即开展调查并于7月5日将犯罪嫌疑人焦某某抓获归案。经查,焦某某男,38岁,外省来宁人员)假扮女性,相约
相声演员杨少华去世,曾登上春晚

9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭
2D变3D,电影之城邀你“入画”

来源标题:2D变3D,电影之城邀你“入画”在陆家嘴百丽宫影城的主视觉海报前,一桌二椅皆成实景,影迷可以入内拍照留念,也可在此交谈、小憩。 上海国际电影节供图今年上海国际电影节,影迷不仅能站在主题海报前
男演员身份证照片引热议,证件照怎样拍才规范?

近日,有网友表示在上海一公园捡到了演员金世佳的身份证,喊话“金世佳你身份证掉了”,相关话题登上微博热搜。▲图片来自某社交媒体截图▲图片来自微博截图7月6日下午,@金世佳工作室 回应身份证丢失一事:已联
航拍洛杉矶一隧道坍塌致15人被困 塌方疑损毁通信线路与被困者断联

7月9日,美国洛杉矶市消防局称威尔明顿地区一隧道坍塌,造成15人被困。目前搜救人员无法与受困人员取得联系,隧道塌方似乎损毁了通信线路。搜救人员表示,坍塌点距离隧道唯一入口处约9.66公里。据报道,事发
TikTok正开发仅面向美国用户的独立应用?TikTok回应

当地时间7月9日,TikTok发布公告称,路透社最近发布的一篇基于匿名、不知情信源的“独家”报道与事实不符。上述报道称,TikTok正在开发一款仅面向美国用户的独立应用程序,将“使用与全球版本不同的算