数据集:
monash_tsf
任务:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
这是第一个包含相关时间序列数据集的全面的时间序列预测存储库,以促进全球预测模型的评估。所有数据集仅供研究目的使用。我们的存储库包含30个数据集,包括公开可用的时间序列数据集(以不同格式)和我们策划的数据集。许多数据集根据频率和缺失值的包含有不同的版本,使得数据集变种的总数达到58个。此外,它包括涵盖不同领域的现实世界和竞赛时间序列数据集。
下表显示了可用的数据集列表:
| Name | Domain | No. of series | Freq. | Pred. Len. | Source |
|---|---|---|---|---|---|
| weather | Nature | 3010 | 1D | 30 | 1233321 |
| tourism_yearly | Tourism | 1311 | 1Y | 4 | 1234321 |
| tourism_quarterly | Tourism | 1311 | 1Q-JAN | 8 | 1234321 |
| tourism_monthly | Tourism | 1311 | 1M | 24 | 1234321 |
| cif_2016 | Banking | 72 | 1M | 12 | 1237321 |
| london_smart_meters | Energy | 5560 | 30T | 60 | 1238321 |
| australian_electricity_demand | Energy | 5 | 30T | 60 | 1239321 |
| wind_farms_minutely | Energy | 339 | 1T | 60 | 1239321 |
| bitcoin | Economic | 18 | 1D | 30 | 1239321 |
| pedestrian_counts | Transport | 66 | 1H | 48 | 12312321 |
| vehicle_trips | Transport | 329 | 1D | 30 | 12313321 |
| kdd_cup_2018 | Nature | 270 | 1H | 48 | 12314321 |
| nn5_daily | Banking | 111 | 1D | 56 | 12315321 |
| nn5_weekly | Banking | 111 | 1W-MON | 8 | 12315321 |
| kaggle_web_traffic | Web | 145063 | 1D | 59 | 12317321 |
| kaggle_web_traffic_weekly | Web | 145063 | 1W-WED | 8 | 12317321 |
| solar_10_minutes | Energy | 137 | 10T | 60 | 12319321 |
| solar_weekly | Energy | 137 | 1W-SUN | 5 | 12319321 |
| car_parts | Sales | 2674 | 1M | 12 | 12321321 |
| fred_md | Economic | 107 | 1M | 12 | 12322321 |
| traffic_hourly | Transport | 862 | 1H | 48 | 12323321 |
| traffic_weekly | Transport | 862 | 1W-WED | 8 | 12323321 |
| hospital | Health | 767 | 1M | 12 | 12321321 |
| covid_deaths | Health | 266 | 1D | 30 | 12326321 |
| sunspot | Nature | 1 | 1D | 30 | 12327321 |
| saugeenday | Nature | 1 | 1D | 30 | 12328321 |
| us_births | Health | 1 | 1D | 30 | 12329321 |
| solar_4_seconds | Energy | 1 | 4S | 60 | 1239321 |
| wind_4_seconds | Energy | 1 | 4S | 60 | 1239321 |
| rideshare | Transport | 2304 | 1H | 48 | 1239321 |
| oikolab_weather | Nature | 8 | 1H | 48 | 12333321 |
| temperature_rain | Nature | 32072 | 1D | 30 | 1239321 |
要加载特定数据集,只需指定其上表中的名称,例如:
load_dataset("monash_tsf", "nn5_daily")
注意:
单变量时间序列预测任务涉及学习数据集中时间序列的未来一维目标值,数据集中有一些用于预测长度的时间步。通过验证集中的真实值,可以验证预测模型的性能,并通过测试集进行测试。
多变量时间序列预测多变量时间序列预测任务涉及学习数据集中时间序列的未来向量目标值,用于一些预测长度的时间步。类似于单变量设置,多变量模型的性能可以通过验证集中的真实值来验证,并通过测试集进行测试。
下面是训练集的一个样本:
{
'start': datetime.datetime(2012, 1, 1, 0, 0),
'target': [14.0, 18.0, 21.0, 20.0, 22.0, 20.0, ...],
'feat_static_cat': [0],
'feat_dynamic_real': [[0.3, 0.4], [0.1, 0.6], ...],
'item_id': '0'
}
对于单变量通常时间序列,每个系列都有以下键:
对于多变量时间序列,目标是每个时间点的多变量维度的向量。
根据数据集中指定的预测长度,数据集按时间划分。特别是对于数据集中的每个时间序列,验证集中有未来的预测长度窗口,测试集中有另外预测长度的窗口。
为了促进全球预测模型的评估。我们存储库中的所有数据集都是为研究目的而创建的,用于评估新的预测算法的性能。
在30个数据集中,23个已经以不同的数据格式在不同平台公开可用。上表中的数据集的原始来源已在数据集表中提及。
提取和整理这些数据集后,我们逐个进行分析,以确定包含具有不同频率和缺失观察的系列的数据集。有九个数据集包含属于不同频率的时间序列,存档包含每个频率的单独数据集。
谁是数据源语言生产者?数据来自上表中列出的数据集。
注释来自上表中列出的数据集。
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons Attribution 4.0 International
@InProceedings{godahewa2021monash,
author = "Godahewa, Rakshitha and Bergmeir, Christoph and Webb, Geoffrey I. and Hyndman, Rob J. and Montero-Manso, Pablo",
title = "Monash Time Series Forecasting Archive",
booktitle = "Neural Information Processing Systems Track on Datasets and Benchmarks",
year = "2021",
note = "forthcoming"
}
感谢 @kashif 添加了这个数据集。