“stack-smol-xxl” 数据集卡片

这是 deduplicated Stack dataset 的一个子集。

生成方式如下：

from datasets import load_dataset, Dataset
languages = ["css", "prolog", "c", "fortran", "solidity", "kotlin", "literate-agda", "julia", "java-server-pages",
             "isabelle", "idris", "lean", "powershell", "go", "erlang", "f-sharp", "ada", "pascal", "perl", "r", "protocol-buffer",
             "cmake", "sas", "ruby", "rust", "rmarkdown", "c-sharp", "smalltalk", "haskell", "maple", "mathematica", "ocaml",
             "makefile", "lua", "literate-coffeescript", "literate-haskell", "restructuredtext", "racket", "standard-ml",
             "systemverilog", "tex", "awk", "assembly", "alloy", "agda", "emacs-lisp", "dart", "cuda", "bluespec", "augeas", "batchfile",
             "tcsh", "stan", "scala", "tcl", "stata", "applescript", "shell", "clojure", "scheme", "antlr", "sparql", "sql",
             "glsl", "elm", "dockerfile", "cpp", "coffeescript", "common-lisp", "elixir", "groovy", "html", "java", "javascript",
             "markdown", "php", "python", "typescript", "verilog", "visual-basic", "vhdl", "thrift", "matlab", "yacc", "zig", "xslt", "json", "yaml"]

def dset_gen():
    for language in languages:
        dset = load_dataset("bigcode/the-stack-dedup", data_dir=f"data/{language}", streaming=True, split="train")
        sample = dset.take(250_000)
        for row in sample:
            yield row

dset = Dataset.from_generator(dset_gen)

数据集结构

num_examples: 11658586
download_size: 28807934580
dataset_size: 78577965159

数据实例

每个数据实例对应一个文件。文件的内容在“content”特征中提供，其他特征（“repository_name”，“licenses”等）提供一些元数据。请注意，一个给定的文件可以出现在多个满足我们的安全许可条件的仓库中。如果是这种情况，为了简单起见，只显示其中按字母顺序第一个的仓库。

数据字段

content（字符串）：文件的内容。
size（整数）：未压缩文件的大小。
lang（字符串）：编程语言。
ext（字符串）：文件扩展名。
avg_line_length（浮点数）：文件的平均行长度。
max_line_length（整数）：文件的最大行长度。
alphanum_fraction（浮点数）：文件中字母和数字字符的比例。
hexsha（字符串）：文件的唯一 git 哈希值。
max_{stars|forks|issues}_repo_path（字符串）：包含该文件的具有最多 {stars|forks|issues} 数的仓库中的文件路径。
max_{stars|forks|issues}_repo_name（字符串）：包含该文件的具有最多 {stars|forks|issues} 数的仓库的名称。
max_{stars|forks|issues}_repo_head_hexsha（字符串）：仓库的哈希头。
max_{stars|forks|issues}_repo_licenses（字符串）：仓库中的许可证。
max_{stars|forks|issues}_count（整数）：仓库中 {stars|forks|issues} 的数量。
max_{stars|forks|issues}_repo_{stars|forks|issues}_min_datetime（字符串）：{stars|forks|issues} 事件的第一个时间戳。
max_{stars|forks|issues}_repo_{stars|forks|issues}_max_datetime（字符串）：{stars|forks|issues} 事件的最后一个时间戳。

作者:

cakiki

数据集大小:

8.25 GB