实测豆包1.5后,看到了字节不走捷径的底气
2025-07-11 08:11:21 - 今日吃瓜
2025 年 1 月,实测豆包大模型 1.5 全面上线火山方舟,豆包到字底气其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、节不径Claude 3.5 Sonnet 等业界一流模型,走捷模型效果达到全球领先水平。实测
通用模型 pro 实现了性能与推理成本极致平衡,豆包到字底气采用高效的节不径 MoE 模型结构,性能杠杆提升至 7 倍,走捷更有自研的实测高性能推理系统,可以达到 10 毫秒级低延迟。豆包到字底气并且,节不径豆包大模型 1.5 建了高度自主的走捷信息生产体系,未使用任何其他模型生成的实测信息。
除此之外,豆包到字底气豆包通用模型 pro、节不径豆包·视觉理解模型均有大幅增强,并发布豆包·实时语音模型。但豆包大模型 1.5 全产物,加量不加价,仍继续保持原有模型价格不变。
本文实测了豆包大模型 1.5 产物家族后,看到了字节不走捷径的底气。
一、综合能力优于业界一流模型
Doubao-1.5-pro 模型综合能力显著增强,在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)权威测评基准上获得最佳成绩,综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。
话不多说,先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力,设置一个大约在初级和中级水平的代码问题:问题:使用 Flask 框架创建一个简单的 Web API,包含以下两个端点:
/: 返回一个欢迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受两个整数参数 a 和 b(通过查询参数传递),返回它们的和,例如 {"sum": 5}。
要求:
提供可运行的完整代码。说明如何在本地运行此代码并进行测试。
这一测试题所传达的需求明确清晰且聚焦于核心功能,但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对:
可以看到 GPT-4o 的答案相对中规中矩,并针对问题本身包含的漏洞,给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案:
显而易见,豆包关于代码问题的输出格式设置,会更贴近原生的编码界面。相较于 GPT-4o ,能够进行必要且详细的代码说明,并且在这一部分对参数类型问题就给出了预设和解答,即如果参数并不有效,状态代码就为400,然后才给出了运行代码并进行测试的方法。总体而言,Doubao-1.5-pro 相较于 GPT-4o 输出的代码会更加精细一点。
针对“知识能力”一项,将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比,提出的问题是:唐代有哪些古诗中包含“过年”这件事?国内某大模型产物给出的答案是:
给出的答案数量有十个之多,但每个答案的颗粒度不够,仅包括作者和50字左右的大概介绍,于客户而言可能无法对提出的问题有深入的了解。
Doubao-1.5-pro 则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分,给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向,并且针对所给出的每一个答案的颗粒度也相对细些,包括了原文和解析,内容明显更丰富。
针对复杂问题的推理能力,Doubao-1.5-pro 在现实的中文语境中展现出了明显的优势,所提出的问题是:2025年上半年,我有3万元想进行理财,是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini 1.5 Flash 给出的回答如下:
也许是由于信息库的问题,Gemini 推理出的结果会相对空泛,并没有给出实质性的建议,也没有给出题目中要求的大致收益。而 Doubao-1.5-pro 的回答则具有针对性,并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产物的的不同收益,能够满足问题提出者对这一问题的基本需求。
中文能力方面,设置的问题是:请以爱情和轻舟已过万重山为主题,写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型,并能够更进一步给出首联、颔联、颈联、尾联解析。
而 GPT-4o 的中文能力则稍逊一节,回答得相对简单,词藻也较为朴素。
除了 Doubao-1.5-pro ,本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度,适用于对时延有更高要求的场景,模型配合精调使用可以获得更优质的效果,并且在轻量版语言模型中处于领先水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度,提问一个中等难度的推理问题:有三个人分别穿着红、蓝、绿三种颜色的衣服,他们分别来自 A、B、C 三个城市。已知:穿红衣服的人不是来自 A 城市;穿蓝衣服的人来自 C 城市;来自 A 城市的人没有穿绿衣服。请问,这三个人分别来自哪个城市,穿着什么颜色的衣服?
在不省略已知条件、推理过程的情况下, Doubao-1.5-lite 输出答案仅用了 1.55 秒,这个推理时间确实极致。再提出一个更复杂的专业问题:请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法),并分析在不同市场环境下,哪种方法更适用?
这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实,能够 cover 住垂直领域的专业知识,并且在面对庞杂的、体量大的问题时,总输出时长只有 6.77 秒,同样在一个低时延的水平范围内。
值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828,这意味着客户可以用 lite 模型的成本,获得过去 pro 模型的效果。
无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite,都是字节在追求模型性能与推理性能的极致平衡,也是字节一路积累下来的基本功的体现。
从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能,等效 7 倍激活参数的Dense模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。
基于 MoE 模型,豆包搭建了高性能推理系统,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中,表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。
更关键的是,在 PostTraining 阶段,豆包团队构建了一套完全自主的信息生产体系,将标注团队与模型 self play 工艺相结合,提升信息标注多样性和难度,确保信息来源的独立性和可靠性。在豆包大模型1.5的训练过程中,未使用任何其他模型生成的信息。这意味着,字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利,这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。
二、视觉推理、指令遵循达新高
本次发布中,豆包的视觉理解能力令人惊艳,具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态信息合成、动态分辨率、多模态对齐、混合训练上进行了全面的工艺升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现:
基于原生动态分辨率的架构设计,Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表,并向 Doubao-1.5-vision-pro 提问:该图表反映了什么内容?
从上述的回答中可以见得, Doubao-1.5-vision-pro 对图表内信息内容的解读是准确无误的,并能针对某些数值给出基本的关于趋势、显著性的结论。
针对低清晰度问题,给出如下一张清晰度低、分辨率低的界面,进而考察模型对其中内容识别和理解的准确程度。
从上述的回答中可知,Doubao-1.5-vision-pro 同样能够准确识别模糊内容,并做出基础的推理判断:客户正在为影片应用创意外观预设并进行色彩调整。再上一个难度,针对字迹潦草的手写图片,Doubao-1.5-vision-pro 能否准确识别?
不得不说,这个图片如果不仔细看的话,人眼都不一定能看清,而豆包则能提取道其中 95% 的关键词和主题,且识别出了部分关键词用蓝色笔标注来突出重点内容,并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力,Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。
上传四张同一时期拍摄的照片,模型能在处理多张图片时获取关键要点,并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点,通过系统性的原子能力拆解和多维度指令的逻辑组合,在后训练阶段引入了多样化的视觉指令信息,从而激发模型的指令遵循能力,从容应对需要遵循更复杂指令的场景。
不仅视觉大模型的能力得到提升,本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,不仅拥有高理解力(高智商),还具备语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。
在语音多模态上,我们提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。
可以说是一个情绪价值价值拉满、表现能力生动,也不怕被打断的豆包了。
三、豆包 1.5 发布后,AI 更普惠
2024 年 5 月,豆包主力模型就将推理输入价格降至“厘时代”,12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变,加量不加价,也会给火山引擎进一步做大 B 端市场带来更多可能性。
在这场旷日持久的大模型落地竞赛中,字节给行业留下的印象是“从容”。支撑豆包大模型全产物价格普惠的原因,是推理成本持续优化、毛利率的逐渐增加。据了解,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型 1.5,在推理成本优化上取得进一步突破,在火山引擎上售卖 API 的 Doubao-1.5-pro,毛利率仍能达到较为可观的 50%。
不能只看到火山引擎中 API 价格下调的从容,更需要看到的是,豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建信息标注工程等深厚的工艺优势,以及对于大模型这条路不走捷径的长期主义战略。
更高性价比的支持也让火山引擎在商业化落地的过程中跑在前列。2024 年,火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作;在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索;在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。
豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展,二者生生相息、共同推进 AI 惠普。
雷峰网(公众号:雷峰网)雷峰网雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
《遮天》短剧正式开播!掌阅科技引领AI与真人实拍融合创作方向

来源标题:掌阅科技引领AI与真人实拍融合创作方向6月20日,由掌阅科技、陕西文投影业、西安志和影视、成都星阅辰石、河北广电广告出品的仙侠题材短剧《遮天》举行首映暨主创见面会,系统呈现《遮天》短剧作为原
Kimi 正在重新定义「AI 搜索」

AI搜索的故事是这么讲的:传统搜索过程需要输入关键词,然后机械地反馈回来具有相关性的数十个蓝色链接。AI搜索则不是返回链接,而是帮助总结好的内容、聚合一份「答案」。为了让这份答案看起来更加丰富,很多产
孙晶晶惊艳千年花妖,于正《临江仙》定档开播

来源标题:孙晶晶惊艳千年花妖,于正《临江仙》定档开播备受瞩目的于正首部仙侠巨制《临江仙》正式官宣定档!该剧将于6月6日中午12点在爱奇艺全网独播。这部集结了白鹿、曾舜晞、何瑞贤、陈鑫海、孙晶晶、梁咏琪
超4.42亿!端午档票房很给力

来源标题:超4.42亿!端午档票房很给力根据猫眼专业版数据,截至6月2日18时,2025年端午档5月31日至6月2日)电影票房超过4.42亿元,较去年热度提升,为今年暑期档开了一个好头。票房方面,《碟
大模型「点火」,AI for Science 提速

在生产环节中,95% 是一个分水岭。以人为对照标准,人工的准确率在 92% 至 98% 之间,因此,行业对机器容忍度的判别标准取之中位数,未达到 95% 的部分,无论是 80% 乃至 90% 的准确率
《风驰赛车手》今日首播 黄景瑜李治廷让教练头疼

来源标题: 《风驰赛车手》今日首播 黄景瑜李治廷让教练头疼由淘宝独家冠名的首档赛车竞技生存真人秀《风驰赛车手》将于今天中午12点在优酷视频独家首播。作为填补赛车题材综艺市场空白之作,节目主打一个出其不
莫斯科“鱼周”浪潮掀起 邀请中国游客共享美食

来源标题:莫斯科“鱼周”浪潮掀起 邀请中国游客共享美食莫斯科“鱼周”5月30日至6月8日欣喜来袭,今年主题为“莫斯科—在浪潮上”。这是一场琳
《京东618夏日歌会》众多实力歌手齐聚,共创视听盛宴

来源标题:《京东618夏日歌会》众多实力歌手齐聚,共创视听盛宴由北京广播电视台和京东联合主办,京东手机总冠名,京东家电家居、京东买药、茅台作为行业赞助的《京东618夏日歌会》的全明星阵容揭晓,这场汇聚
昆仑万维开源「天工」13B系列大模型,0门槛商用

10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B
约50万丑萌鱼两天售罄!瑞幸与海绵宝宝联名玩具周边火爆出圈

来源标题:约50万丑萌鱼两天售罄!瑞幸与海绵宝宝联名玩具周边火爆出圈约50万丑萌鱼两天售罄!瑞幸咖啡凭借两款玩具周边再次火出圈。5月31日,瑞幸咖啡首次推出羽衣轻体果蔬茶,并与经典IP“海
全面焕新无广告 网易云音乐iPad端新版(beta)正式上线

来源标题:全面焕新无广告 网易云音乐iPad端新版beta)正式上线5月28日,网易云音乐宣布iPad端产品新版beta)正式上线,产品功能、界面设计、iPad系统适配等全面升级,打造无广告纯净版的大
明星效应加持,ASICS 亚瑟士西安快闪活动借田嘉瑞激活粉丝经济

来源标题: 明星效应加持,ASICS 亚瑟士西安快闪活动借田嘉瑞激活粉丝经济2025年5月30日,ASICS 亚瑟士「未来遗迹现场」主题快闪活动开幕当日,品牌大使田嘉瑞以 “一日明星店长&