新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude

2025-07-11 08:42:52 - 风站谈

8月2日,新王新超lmsys官方在推特发布一则消息,登基度更恭喜DeepMind研发的新王新超知乎带货博主翻车合集Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。登基度更

这是新王新超继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的登基度更Overall ranking宝座。

新王登基,新王新超Gemini 1.5 Pro再度更新,登基度更超越GPT 4o和Claude-3.5

Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。获得了超过12,登基度更知乎带货博主翻车合集000个社区投票,新王新超在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的登基度更好成绩。之前说GPT-4o有刷分技巧,新王新超现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。登基度更

新王登基,新王新超Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

Gemini 1.5 Pro 实验版(0801)不仅在综合表现上极为突出,在各个细分领域上也有着出色的表现。它在数学方面排名前三,指令遵循排名前二,编码排名前五,硬提示(英语)排名前五。

Gemini 1.5 Pro 实验版(0801)具有强大的多语言能力,在中文、日语、德语、俄语方面均表现第一。

从总体胜率图上,也能看出Gemini 1.5 Pro 实验版 (0801)实力强劲,对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

前OpenAI的开发者,现Google AI Studio的产物负责人Logan Kilpatrick火速转发,向大家宣布Gemini 1.5 Pro 实验版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

DeepMind的CEO Demis Hassabis也转发了这条消息,祝贺Gemini 1.5 Pro 实验版(0801)能够在极具竞争力的榜单中拿下第一,并且宣布这一版本的已经可以在 AI Studio上进行试用。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

带领研发Gemini的Jeff Dean也随后转发,对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪,也很期待未来能看到其他更好的模型。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5


听闻这则消息,其他从业人员也纷纷发来祝贺。


新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程影片,并总结道,Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象,Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力,也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线,希望能够API实现Gemini 1.5 Pro的实际运用。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

大家对Gemini 1.5 Pro这次发布的实验版本有什么看法,欢迎评论区留言分享~雷峰网(公众号:雷峰网)雷峰网


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

- END -

24627

蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO

蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO

「打造中国OpenAI」,「西湖心辰」这家创立时间不到两年的小公司怎么敢夸下海口?相比于国内的其他创业团队,心辰具有以下几大优势:1.在大模型的研究和商业化落地要早一年。积累了超过百万的用户,并训练出

微软人工智能公开课概览

微软人工智能公开课概览

人工智能无疑是当前最为热门的科技概念。作为科技界的领军企业,微软在人工智能领域耕耘已久。早在25年前微软研究院建立时,人工智能就已经成为整个微软的战略目标。微软为此倾注了许多精力和资源,并取得了亮眼的

《新说唱2025》魔王对抗赛:新老对决高潮迭起,多元说唱风格碰撞

《新说唱2025》魔王对抗赛:新老对决高潮迭起,多元说唱风格碰撞

来源标题:《新说唱2025》魔王对抗赛:新老对决高潮迭起,多元说唱风格碰撞7月5日,由爱奇艺出品,统一冰红茶独家冠名的s+级自制综艺华语青年说唱音乐真人秀《新说唱2025》迎来期待已久的魔王对抗赛,新

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

作者 | 赖文昕编辑 | 陈彩娴不久前,首届“人形机器人半程马拉松”在北京亦庄举办,为本就热度满满的具身智能行业再添了一把火。一共 20 支队伍组成的“钢铁生命竞赛”,让此前集中在实验室 demo 阶

60岁大叔扮女装与千余人发生亲密行为?警方通报

60岁大叔扮女装与千余人发生亲密行为?警方通报

南京警方7月8日发布警情通报:近日,江宁警方接到群众报警称其隐私视频被他人传播至互联网。江宁警方立即开展调查并于7月5日将犯罪嫌疑人焦某某抓获归案。经查,焦某某男,38岁,外省来宁人员)假扮女性,相约

骆言新剧《爱上海军蓝》燃情开播,飒爽戎装首次诠释军人形象

骆言新剧《爱上海军蓝》燃情开播,飒爽戎装首次诠释军人形象

来源标题:骆言新剧《爱上海军蓝》燃情开播,飒爽戎装首次诠释军人形象7月2日,备受期待的当代军旅情感大剧《爱上海军蓝》正式登陆腾讯视频、爱奇艺双平台。在这部恢弘的军旅群像剧中,演员骆言饰演的王晨,以其角

《非遗里的中国》带你探寻白山松水间的匠心传承

《非遗里的中国》带你探寻白山松水间的匠心传承

来源标题:《非遗里的中国》带你探寻白山松水间的匠心传承长白山巅的积雪映照着千年文明的星火,松花江流淌的碧波承载着多元文化的记忆。在东北这片广袤的黑土地上,吉林如同一部厚重的文化典籍,有55项国家级非物

《最美中轴线》沉浸式探秘游!

《最美中轴线》沉浸式探秘游!

来源标题:《最美中轴线》沉浸式探秘游!北京时间APP《最美中轴线》特别直播企划,迎来了两位特别的“探秘官”——理塘旅游形象大使丁真珍珠和青年音乐人兰天奇

北京:优化小客车指标配置,更好支持家庭用车需求

北京:优化小客车指标配置,更好支持家庭用车需求

7月10日,《北京市深化改革提振消费专项行动方案》对外发布。《行动方案》提出,完善汽车消费新生态。优化小客车指标配置,更好支持家庭用车需求。培育壮大二手车经营主体,持续落实二手车销售“反向开票”、异地

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

作者 | 赖文昕编辑 | 陈彩娴不久前,首届“人形机器人半程马拉松”在北京亦庄举办,为本就热度满满的具身智能行业再添了一把火。一共 20 支队伍组成的“钢铁生命竞赛”,让此前集中在实验室 demo 阶

“为一场演出赴一座城”,演唱会经济持续升温

“为一场演出赴一座城”,演唱会经济持续升温

“你总是心太软”“我等的船还不来,我等的人还不明白”,7月4日晚,任贤齐“齐迹”演唱会北京的首场演出在首都体育馆落下帷幕,歌迷们哼着熟悉的旋律从体育馆走出,兴奋劲儿久久不散。“我们去吃个夜宵吧,魏公村

重磅发布!新华医院联合商汤医疗推出AI儿童全科医生,“深思考”大医赋能儿科发展

重磅发布!新华医院联合商汤医疗推出AI儿童全科医生,“深思考”大医赋能儿科发展

2025 年 6 月 28 日,上海交通大学医学院附属新华医院奉贤院区正式起航。在开业仪式上,新华医院联合商汤医疗重磅发布基于商汤“深思考”大医·医疗大模型的AI 儿童全科医生,为基层儿科医生诊疗与儿