Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb 原创 精华

发布于 2024-4-25 12:12
浏览
0收藏

Llama3是在15万亿个公共数据标记上进行训练的。但是,您可以在哪里找到这样的数据集和处理方法呢?

Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb -AI.x社区

近日,HuggingFace发布🍷Fineweb,一个高质量的大规模筛选网络数据集,优于目前所有同等规模的数据集。HuggingFace训练了200多个消融模型,精心制作了这个数据集,对Common Crawl进行了解析和过滤。HuggingFace对2013年至2024年间的所有CommonCrawl数据进行了筛选和去重。在FineWeb上训练的模型优于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama

所有的处理方法、数据、消融模型和超参数都是开源的,并且HuggingFace计划持续改进Fineweb。

这是什么?

🍷 FineWeb数据集由超过15T标记的英文网络数据组成,经过了清洗和去重处理,数据来源于CommonCrawl。数据处理流程针对LLM性能进行了优化,并在我们的大规模数据处理库🏭 datatrove上运行。

🍷 FineWeb最初旨在成为🦅 RefinedWeb的完全开放复制品,全套数据集将根据ODC-By 1.0许可证发布。然而,通过谨慎添加额外的过滤步骤,研究人员成功将🍷 FineWeb的性能推高到原始🦅 RefinedWeb的水平之上,并且在基准任务组上,基于数据集训练的模型也优于基于其他常用高质量网络数据集(如C4、Dolma-v1.6、The Pile、SlimPajama)训练的模型。

Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb -AI.x社区

发布了什么?

除了数据集之外,还包括自2013年以来的所有CommonCrawl转储数据。HuggingFace还在此处共享了使用🏭 datatrove库完全重现我们处理设置所需的所有代码。为了实现对结果的完全复制,HuggingFace还发布了我们使用nanotron训练的小型消融模型,以验证数据集并与其他参考数据集进行比较。您可以在此处找到它们,每1000步进行一次检查点。HuggingFace还在此处发布了我们的评估结果。

如何下载和使用🍷 FineWeb

Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb -AI.x社区

方法1

from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)

   方法2

from huggingface_hub import snapshot_download
folder = snapshot_download(
                "HuggingFaceFW/fineweb", 
                repo_type="dataset",
                local_dir="./fineweb/",
                allow_patterns="data/CC-MAIN-2023-50/*")

译自(有删改):https://huggingface.co/datasets/HuggingFaceFW/fineweb


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/5E5Om_9wL031apiXBRxFew​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐