The Stack(6TB)
下载链接:https://huggingface.co/datasets/bigcode/the-stack
The Stack 数据集,这是一个具有 3.1TB 的合法开源代码语料,拥有 30 种编程语言(注:最新版 The Stack v1.1 已经拓展到了 308 种语言,6TB 数据);
CodeParrot github-code(500GB)
下载链接:https://huggingface.co/datasets/codeparrot/github-code
PolyCoder(249GB)
下载链接:https://github.com/VHellendoorn/Code-LMs
用的是 GitHub 上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有 50 Stars,采用了多种编程语言代码集来训练,一共有 12 种
Google BigQuery(2B 文件)
Google BigQuery 提供了 GitHub 上许可存储库的快照,可以通过 SQL 查询进行过滤。AlphaCode,BLOOM,InCoder、CodeGen)都在他们的预训练数据集中包括了这部分数据。
CodeSearchNet(20GB)
下载链接:https://github.com/github/CodeSearchNet
其中包含了约 600 万种函数,取自 Go,Java,JavaScript,PHP,Python 和 Ruby 这六种编程语言的开源代码。
ProjectCodeNet(5 亿行)
下载链接:https://github.com/IBM/Project_CodeNet
该数据集包含 1400 万个代码样本,共有用 55 种编程语言编写的 5 亿行代码,其中 C++ 是样本中使用最多的语言,Python 位居第二。
CodeXGLUE
下载链接:GitHub - microsoft/CodeXGLUE: CodeXGLUE
microsoft 开源的,包含 10 个任务及 14 个数据集
比较大的几个数据集对比图
名字上有十字架的代表是开源的