反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了
2025-07-11 13:59:25 - 风谈汇
2 月 16 号,反超马斯克在 X 上发布了一条自家 Grok 3 模型的克钞发布预告。
并配文“地球上最聪明的砸出k终抖音素人美女视频曝光合集 AI”要来了。
北京时间 2025 年 2 月 18 日中午,于上马斯克如约带领着 xAI 的反超工程师和研究团队开启了 Grok 3 的首发实况。
这次发布会主要分为三个部分,克钞介绍了 Grok 3 在训练上比 Grok 2 多投入了 10 倍的砸出k终计算资源,解锁了更强大的于上计算能力,展示了基于 Grok 3 的反超 AI Agent,展现了 xAI 团队在自主智能体领域的克钞最新进展。
各项能力一骑绝尘
“我们非常高兴能够推出 Grok3,我们认为,于上抖音素人美女视频曝光合集在很短的反超时间内,它的克钞功能比 Grok2 强大一个数量级。这要归功于一支不可思议的砸出k终团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。
马斯克还透露,Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的10倍。
据 xAI 团队介绍,xAI 最开始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。显著的算力提升让 Grok 3 能够更高效地处理庞大信息集,缩短训练时间。随即他们便晒出了一组和 ChatGPT 的信息对比图,并表示虽然 Grok 起步较晚,但在 MMLU 得分上以超快地速度追上了 ChatGPT。
并且 Grok3 在 LMSYS(大模型竞技场)中的排名也是一骑绝尘。
其中 Grok-3 和 Grok-3 mini 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手。
发布会列出的信息显示,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro等。
而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本,则凭借强大的推理能力,超越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模型。
此外,xAI团队还现场演示了一个任务,要求Grok-3在现场生成一段关于太空发射的3D动画代码。在大约两分钟的思考后,Grok 3生成了可直接运行的Python代码,成功展示了可以运行的3D动画。
除此之外团队还要求 Gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在Grok-3 思考了数分钟后,给出了答案。
最后,xAI 团队演示了一个全新的产物,基于 Grok 3 的搜索引擎 —— DeepSearch 。
它不仅能够搜索网页并查找现有资料,还能“推测客户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。
Grok 3 搅动 AI 大模型格局
实况结束后,不少网友纷纷发声。
AI 大牛卡帕西总结了一下自己的“先行版”使用体验:
首先 Grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能解决相同问题。除此之外,Grok 3 也能尝试解决如黎曼假设等难题。
其次 Grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 Apple 新品发布、Palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的URL或不准确的事实)。
最后在测试一些简单的“陷阱”问题时,Grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。
但总的来说 Grok 3 整体表现接近 OpenAI 的 o1-pro 模型,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Imarena.ai 官方更是在经过测试后发文称:
Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。
更有网友直呼:Grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!当然也有网友在测试之后,认为 Grok 3 在编程方面并不是很擅长。
值得一提的是,Grok 3 第一批获得访问权限的人将首先从 X 上的 Premium+ 订阅者开始,而普通客户何时能用上,他们也并不清楚。
但基于网友们对 Grok 3 褒贬不一的评价,雷峰网(公众号:雷峰网)不禁猜测,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 AI 大模型王座?
时间还早,让子弹再飞一会。
参考链接:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线

来源标题:网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线近日,网易云音乐正式推出BEATSOUL激励计划,推出“播放分成+云梯激励+年度奖金”三重支持体系,为Bea
北京:优化小客车指标配置,更好支持家庭用车需求

7月10日,《北京市深化改革提振消费专项行动方案》对外发布。《行动方案》提出,完善汽车消费新生态。优化小客车指标配置,更好支持家庭用车需求。培育壮大二手车经营主体,持续落实二手车销售“反向开票”、异地
人民日报:不少声音呼吁“同志”称呼重归主流

来源:北京青年报7月7日,《人民日报》刊发了题为《称呼与风气金台随感)》的文章。全文如下:称呼,一个老生常谈的问题。曾几何时,招呼人无须刻意措辞,一声“同志”便可,听者坦然、舒泰。后来,经济增长、文化
千年古都的时代华章,《城市风华录》走进文明城市洛阳

来源标题:千年古都的时代华章,《城市风华录》走进文明城市洛阳洛阳,一座拥有5000多年文明史、4000多年建城史和1500年建都史的古都。作为华夏文明的重要发祥地,这里既是丝绸之路的东方起点,也是隋唐
通用3D机器视觉平台是不是伪命题?

机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要
“众星云集”不是票房灵药

来源标题:“众星云集”不是票房灵药改编自民国四大奇案之一,陈可辛执导,章子怡、雷佳音、王传君、赵丽颖、杨幂、李现、易烊千玺等十几位明星组成“梦幻阵容”,去年亮相戛纳国际电影节&
多地官宣:音乐节可在现场领结婚证

每经编辑|何小桃音乐节可以在现场领证。据新疆广播电视台报道,7月12日至7月13日,2025新疆超级草莓音乐节将在乌鲁木齐市水磨沟区天山明月城火热开唱。此次音乐节不仅有超燃的音乐盛宴,更有一系列“花式
《船山先生》:追索王夫之“成贤入圣”之路

来源标题:《船山先生》:追索王夫之“成贤入圣”之路近期湖南卫视与芒果TV联合推出的纪录片《船山先生》,讲述了明末清初思想家王夫之的传奇人生。该片深入挖掘这位思想大家的精神世界,以创新的方式实现了中华传
美图视觉大模型3.0:让设计师做甲方

作者:郭思编辑:陈彩娴ChatGPT之前,国内最近一次的AI热潮是以“AI四小龙”的发展为代表,但这些公司烧钱程度与落地产出的不匹配,令市场倍感失望。时间来到2023年, 在ChatGPT 出来之后,
台湾一男子杀死妻子小姨子后直播逃亡动态

来源:三湘都市报[男子杀死妻子小姨子后直播逃亡动态 男子通知小姨子老公说我杀了你老婆 失业男不满家暴报警杀死妻子小姨子]台湾省新北市土城区一对姐妹,7日疑因家庭纠纷,遭姐姐的丈夫驾车追撞并当街刺死,两
电影《恋曲尘封》定档6月13日 金牌班底倾力打造老上海故事

来源标题: 电影《恋曲尘封》定档6月13日 金牌班底倾力打造老上海故事日前,由吴有音导演/编剧,蒋雯丽、黄轩、黄小蕾、罗辑、林栋甫主演,马思纯特别出演的电影《恋曲尘封》曝光定档海报。该片讲述了少年轩
吴艳妮母亲熊艳拒绝八十万公关费:抢跑又不是抢劫

近日,吴艳妮母亲熊艳在接受采访时表示:曾拒绝八十万公关费,艳妮是抢跑又不是抢劫。谈吴艳妮抢跑熊艳说道:我们就根本不知道她成绩取消了,艳妮自己也不知道,她已经做好了退场的准备。印度女孩她就去申诉,觉得是