数据集:

monash_tsf

英文

Monash时间序列预测存储库数据集卡片

数据集摘要

这是第一个包含相关时间序列数据集的全面的时间序列预测存储库,以促进全球预测模型的评估。所有数据集仅供研究目的使用。我们的存储库包含30个数据集,包括公开可用的时间序列数据集(以不同格式)和我们策划的数据集。许多数据集根据频率和缺失值的包含有不同的版本,使得数据集变种的总数达到58个。此外,它包括涵盖不同领域的现实世界和竞赛时间序列数据集。

下表显示了可用的数据集列表:

Name Domain No. of series Freq. Pred. Len. Source
weather Nature 3010 1D 30 1233321
tourism_yearly Tourism 1311 1Y 4 1234321
tourism_quarterly Tourism 1311 1Q-JAN 8 1234321
tourism_monthly Tourism 1311 1M 24 1234321
cif_2016 Banking 72 1M 12 1237321
london_smart_meters Energy 5560 30T 60 1238321
australian_electricity_demand Energy 5 30T 60 1239321
wind_farms_minutely Energy 339 1T 60 1239321
bitcoin Economic 18 1D 30 1239321
pedestrian_counts Transport 66 1H 48 12312321
vehicle_trips Transport 329 1D 30 12313321
kdd_cup_2018 Nature 270 1H 48 12314321
nn5_daily Banking 111 1D 56 12315321
nn5_weekly Banking 111 1W-MON 8 12315321
kaggle_web_traffic Web 145063 1D 59 12317321
kaggle_web_traffic_weekly Web 145063 1W-WED 8 12317321
solar_10_minutes Energy 137 10T 60 12319321
solar_weekly Energy 137 1W-SUN 5 12319321
car_parts Sales 2674 1M 12 12321321
fred_md Economic 107 1M 12 12322321
traffic_hourly Transport 862 1H 48 12323321
traffic_weekly Transport 862 1W-WED 8 12323321
hospital Health 767 1M 12 12321321
covid_deaths Health 266 1D 30 12326321
sunspot Nature 1 1D 30 12327321
saugeenday Nature 1 1D 30 12328321
us_births Health 1 1D 30 12329321
solar_4_seconds Energy 1 4S 60 1239321
wind_4_seconds Energy 1 4S 60 1239321
rideshare Transport 2304 1H 48 1239321
oikolab_weather Nature 8 1H 48 12333321
temperature_rain Nature 32072 1D 30 1239321

数据集用途

要加载特定数据集,只需指定其上表中的名称,例如:

load_dataset("monash_tsf", "nn5_daily")

注意:

  • 数据可能包含原始数据集中的缺失值。
  • 预测长度或者在数据集中指定,或者使用与原始存储库基准相同的频率的默认值。

支持的任务和排行榜

时间序列预测 单变量时间序列预测

单变量时间序列预测任务涉及学习数据集中时间序列的未来一维目标值,数据集中有一些用于预测长度的时间步。通过验证集中的真实值,可以验证预测模型的性能,并通过测试集进行测试。

多变量时间序列预测

多变量时间序列预测任务涉及学习数据集中时间序列的未来向量目标值,用于一些预测长度的时间步。类似于单变量设置,多变量模型的性能可以通过验证集中的真实值来验证,并通过测试集进行测试。

语言

数据集结构

数据实例

下面是训练集的一个样本:

{
  'start': datetime.datetime(2012, 1, 1, 0, 0),
  'target': [14.0, 18.0, 21.0, 20.0, 22.0, 20.0, ...],
  'feat_static_cat': [0], 
  'feat_dynamic_real': [[0.3, 0.4], [0.1, 0.6], ...],
  'item_id': '0'
}

数据字段

对于单变量通常时间序列,每个系列都有以下键:

  • start:数据集中每个时间序列的第一个条目的日期时间
  • target:实际目标值的array[float32]
  • feat_static_cat:包含数据集中每个时间序列的分类标识符的array[uint64]
  • feat_dynamic_real:可选的协变量特征数组
  • item_id:用于参考数据集中每个时间序列的字符串标识符

对于多变量时间序列,目标是每个时间点的多变量维度的向量。

数据拆分

根据数据集中指定的预测长度,数据集按时间划分。特别是对于数据集中的每个时间序列,验证集中有未来的预测长度窗口,测试集中有另外预测长度的窗口。

数据集创建

策划原因

为了促进全球预测模型的评估。我们存储库中的所有数据集都是为研究目的而创建的,用于评估新的预测算法的性能。

数据源

初始数据收集和规范化

在30个数据集中,23个已经以不同的数据格式在不同平台公开可用。上表中的数据集的原始来源已在数据集表中提及。

提取和整理这些数据集后,我们逐个进行分析,以确定包含具有不同频率和缺失观察的系列的数据集。有九个数据集包含属于不同频率的时间序列,存档包含每个频率的单独数据集。

谁是数据源语言生产者?

数据来自上表中列出的数据集。

注释

注释过程

注释来自上表中列出的数据集。

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

  • Rakshitha Godahewa
  • Christoph Bergmeir
  • Geoff Webb
  • Rob Hyndman
  • Pablo Montero-Manso

许可信息

Creative Commons Attribution 4.0 International

引用信息

@InProceedings{godahewa2021monash,
    author = "Godahewa, Rakshitha and Bergmeir, Christoph and Webb, Geoffrey I. and Hyndman, Rob J. and Montero-Manso, Pablo",
    title = "Monash Time Series Forecasting Archive",
    booktitle = "Neural Information Processing Systems Track on Datasets and Benchmarks",
    year = "2021",
    note = "forthcoming"
}

贡献

感谢 @kashif 添加了这个数据集。