上海AI实验室开源发布高质量语料“万卷CC”
2025-07-11 08:22:54 - 热趣
近日,万卷CC上海机器智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),上海实验室开首批开源的源发语料语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),布高约400GB的质量高质量英文信息。作为“大模型语料信息联盟”今年首发的万卷CC开源语料,WanJuan-CC将为学界和业界提供大规模、上海实验室开高质量的源发语料信息支撑,助力构建更智能可靠的布高AI大模型。
预训练信息的质量质量对大模型整体性能至关关键。当前,万卷CCCommonCrawl(CC)信息集因其规模大、上海实验室开跨度广而成为国际主流大模型训练信息的源发语料关键来源。与此同时,布高其原始信息格式复杂、质量信息质量低等问题,或将导致模型训练效率低,甚至可能引发价值观对齐等方面的隐患。
中国科研人员通过原创的信息清洗工艺,从CC信息库中抽取约1300亿份原始信息文档进行再处理,“萃取”出其中约1.38%的高质量内容,构建成WanJuan-CC语料库。实验结果显示,WanJuanCC具有高文本质量、高信息密度的特点,可满足当前大模型训练对大规模高质量语料的需求。
上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键信息作支撑,使训练效率和语言建模能力大幅提升,综合性能领先开源社区。
开源信息:https://opendatalab.com/OpenDataLab/WanJuanCC
高质量语料驱动,效率性能双提升
近期,上海AI实验室发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。回归语言建模本质,InternLM2综合性能达到同量级开源模型的领先水平。模型基座语言建模能力的提升,则得益于预训练文本质量及信息密度的增强。作为InternLM2的关键预训练语料,WanJuan-CC的文本质量和高信息密度经过了模型实际验证。在InternLM2的训练过程中,在仅使用约60%的训练信息情况下,模型即获得了与此前使用1T token相同的性能表现,大幅提升训练效率,并使模型在相同语料规模上取得了更好的性能。
绿色曲线为InternLM2使用WanJuan-cc作为预训练语料,在不同信息规模上取得的任务性能分布,结果显示,WanJuan-CC可大幅提升模型训练效率
研究团队通过对CC原始信息进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、信息噪声和信息价值等四个维度,对语言的流畅性进行评估。为验证信息质量,研究团队使用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预训练语料)分别重新训练了参数量1B的模型,并进行评测。结果显示,由WanJuan-CC作为训练信息的模型在多项验证中取得了更优效果。
基于WanJuan-CC训练的1B模型在Pile验证集评测效果更优,这表明由WanJuan-CC训练的模型在不同领域和各类知识上拥有更强能力
四重处理, 百里挑一“萃取”高质量信息
为从浩如烟海的CC信息库中“精选”最可靠的信息,研究团队搭建了高性能分布式信息处理基础设施,通过启发式规则过滤、多层级信息去重、内容保障过滤、信息质量过滤等四个步骤,从原始信息中“萃取”出高质量信息,信息留存率仅为原信息的1.38%。
通过原创工艺,对CC原始信息进行多阶段处理,得到了高信息密度的WanJuan-CC
研究团队首先从CC中抽取了约1300亿份原始信息文档,然后基于高性能信息处理工作流得到2.2T token(35.8亿个文档)保障信息,最后,根据质量排序精选出1T token(3.6亿个文档)质量最高的信息,构建成WanJuan-CC。如以下柱状图所示,在WanJuan-CC构建过程中的每一阶段,均进行了大比例的信息去除。对于仅占原CC信息比例2.76%的保障信息,研究人员再次“筛”掉五成低质内容,最终呈现出“百里挑一”的高质量信息。
各清洗阶段的文档保留率和去除率(本图使用对数坐标轴)
信息质量高,模型更可靠
为推动训练更智能可靠的AI大模型,研究团队以保障信息保障性为前提,在信息处理的各环节均实施了多项保障加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了保障加固的英文语料,因而在价值对齐方面具有更高的可靠性。
与部分开源CC语料多维度对比,在毒性、色情和个人隐私等方面,WanJuan-CC均进行了保障加固
研究人员分别对WanJuan-CC、Redpajama和Refineweb信息集进行了10万条信息的抽样,从毒性、侮辱、恐吓等7个维度进行评分,以验证各信息集的信息保障性。结果显示,WanJuan-CC在各维度上的体现出最高保障性。
WanJuan-CC与其他开源英文CC语料保障性对比
高质量、多模态、宽领域的信息已成为支持当前机器智能大模型增长的关键基石。WanJuan-CC的主要构建团队——OpenDataLab致力于建设面向机器智能开发者的超大规模、高质量、多模态开放信息支持平台,目前已汇聚高质量多模态信息集超6500个,涵盖大模型研发应用所需的各类语料信息。雷峰网(公众号:雷峰网)雷峰网雷峰网
下载更多开源语料,请登录大模型语料信息联盟开源信息支持指定平台:
https://opendatalab.com
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
- END -
牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团

大模型竞争已进入白热化阶段,盲目卷资源已不再是长久之计,AI 创业公司的可持续性和科学性则是更重要的考量因素。在这一背景下,背靠强大高校,有科研能力、学术资源和充足的后备人才作为补充,变得愈发重要。2
现实题材生活轻喜剧《蒸蒸日上》开机 高叶韩东君“澡堂律所”碰撞烟火气

来源标题:现实题材生活轻喜剧《蒸蒸日上》开机 高叶韩东君“澡堂律所”碰撞烟火气当律所走出高大上的写字楼,搬到澡堂子楼上,“草根律所”的“野路子”与&ld
电影《风云山林》:从江湖险路到革命征途

来源标题:电影《风云山林》:从江湖险路到革命征途秋风猎猎,马蹄声由远及近,金黄的陇东大塬在晨光中浮现出一抹肃穆与苍茫——电影《风云山林》便如此拉开了序幕。这部近日在电影频道首播
第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围

来源标题:第五届“金豪笔编剧之夜”入围名单揭晓 183位优秀编剧携74部作品入围6月9日,第五届“金豪笔编剧之夜”入围名单及终评评委名单揭晓,共有183位优秀编剧携74部作品入
相声演员杨少华去世,曾登上春晚

9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭
爱奇艺《新说唱 2025》首播热度破9500,刷新说唱系列热度纪录

来源标题: 爱奇艺《新说唱 2025》首播热度破9500,刷新说唱系列热度纪录爱奇艺华语青年说唱真人秀《新说唱2025》开播即爆!首期节目于6月7日开播,上线24小时爱奇艺内容热度破9500,强势登顶
文化·视点|互联网电视收费包自动续费治理:严控默认勾选,禁止强制捆绑

来源标题:文化·视点|互联网电视收费包自动续费治理:严控默认勾选,禁止强制捆绑新华社记者白瀛记者17日从国家广播电视总局获悉,总局近日实施针对互联网电视自动续费服务的专项规范管理措施。此次治理聚焦用户
2025微博电影之夜众星云集,共筑银幕华章致敬光影120载

来源标题:2025微博电影之夜众星云集,共筑银幕华章致敬光影120载6月13日,2025微博电影之夜在上海盛大举行。这场影坛盛会由微博主办,东方卫视联合主办,吸引了众多电影行业大咖、知名演员、导演及幕
“南京红老头”已被警方抓获

来源:法治日报[南京红姐被抓]记者从警方相关人士处了解到,网上盛传的南京60岁大叔男扮女装与1691名男性发生亲密行为并拍下“约会”视频的涉事男子网上被称为“红老头”)已经被公安机关抓获。其中,网上传
抖音非遗嘉年华亮相成都,用科技为非遗注入新活力

来源标题:抖音非遗嘉年华亮相成都,用科技为非遗注入新活力 5月28日-6月3日,抖音在成都国际非遗节落地「抖音非遗嘉年华」活动,作为传统技艺与现代科技对话的桥梁,活动向观众展现非遗在当代的生命力。通过
小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注

来源标题:小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注5月26日,在 “法治护航成长,共建阳光校园 —— 五老携手反欺凌法治教育进校园” 公益活
小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注

来源标题:小马宝莉卡生产商卡游:反欺凌卡牌登场,教育新招引关注5月26日,在 “法治护航成长,共建阳光校园 —— 五老携手反欺凌法治教育进校园” 公益活