DISCOX/DISCO-200K-high-quality | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

DISCOX/DISCO-200K-high-quality

许可:

cc-by-4.0

大小:

100K<n<1M

数据集介绍文件清单

英文

起步

您可以使用HuggingFace下载数据集：

from datasets import load_dataset
ds = load_dataset("DISCOX/DISCO-200K-high-quality")

该数据集包含了来自DISCO-10M数据集的200,000个高质量样本，该数据集可在此处找到 here 。

高质量是指通过相似度筛选，该数据集中的所有样本的搜索查询与视频标题之间的相似度大于0.8，并且Spotify预览与YouTube视频之间的相似度大于0.7。

数据集结构

该数据集包含以下特征：

{
 'video_url_youtube',
 'video_title_youtube',
 'track_name_spotify',
 'video_duration_youtube_sec',
 'preview_url_spotify',
 'video_view_count_youtube',
 'video_thumbnail_url_youtube',
 'search_query_youtube',
 'video_description_youtube',
 'track_id_spotify',
 'album_id_spotify',
 'artist_id_spotify',
 'track_duration_spotify_ms',
 'primary_artist_name_spotify',
 'track_release_date_spotify',
 'explicit_content_spotify',
 'similarity_duration',
 'similarity_query_video_title',
 'similarity_query_description',
 'similarity_audio',
 'audio_embedding_spotify',
 'audio_embedding_youtube',
}

有关数据集的更多详细信息，请参阅 here 。

作者:

DISCOX

数据集大小:

1.08 GB