DataRobot和葡萄酒项目：数据科学的优雅融合

2019年05月24日由人工智能爱好者发表 709064 0

DataRobot承诺自动机器学习，其中它选择最合适的机器学习算法，自动优化数据预处理，应用特征工程，并调整每个算法的参数。它创建并排列高度精确的模型，并为数据和预测目标推荐要部署的最佳模型。所以，当使用DataRobot的机会出现时，我决定尝试一下。

在本教程中，我使用了UCI机器学习库中的葡萄酒质量数据集，该数据集包含4898种白葡萄酒样品的质量评级（标签）。这些质量等级从3到9不等，其中9表示葡萄酒的最佳质量。有了这些不同的标签，我将其视为一个多类分类问题。为了简单，我将其转换为三个不同的类别（low=[3,4,5]，med=[6]，high=[7,8,9]）。其特点是葡萄酒的理化性质（共11个），我们利用这些理化性质来预测葡萄酒的质量。最后，我将数据分为两组，一组是培训数据集，另一组是测试数据集，以演示对新数据进行预测。DataRobot期望训练数据以平面文件的形式出现。对于这里使用的葡萄酒数据集，所需的准备工作非常少，您可以在Github上找到此教程的完整代码，了解中间步骤。

准备好培训数据并通过我的Python会话建立连接后，我创建了三个不同的项目来展示DataRobot在我的数据上可以使用的三种不同模式。分别是全自动驾驶模式、快速自动驾驶模式和手动模式。我称之为三个项目对应的三种模式：项目_Wine1、项目_Wine2和项目_Wine3。培训过程完成后，我将演示如何从各种模型中检索结果，以及如何使用所选模型生成新数据的预测。

自动驾驶模式

当一个给定的数据集，datarobot开始recommending A市的blueprints那是适当的任务的所有权利。图A是一系列的步骤或一paths，该数据集将通过市场会有这种预期从之前的生产数据。有可能为多blueprints同样取决于标的算法的预处理步骤，你可以杠杆和一个或更多的与他们的模型参数自动调谐。datarobot定义城市ITS模型冰的蓝图，训练数据的大小和特点。

在跑第一项目对全自动驾驶模式。在自动驾驶模式（这是默认的模式也在datarobot）和对这种特殊数据集，datarobot生成22和28 blueprints方式在这些blueprints模型中。

我比较的使用精度度量创建的所有模型，然后选择了一个模型并详细检查了它的性能。然后，我上传了上面的测试数据，用这个模型得到结果。

接下来，我发现了一个极端梯度增强模型，并详细检查了模型的度量，并用它来预测测试数据。

培训数据表现

我提取了混淆矩阵，并检索了所选模型的精度和召回信息。注意，DataRobot会自动划分上传的训练数据，并报告样本外的表现，这是一种良好的数据科学实践。

测试数据性能

接下来，我想研究所选模型在测试数据上的性能。我上传了测试数据，开始了一项预测工作，并检索了预测结果。

将检索结果作为数据框检索，可以使用scikit-learn轻松计算性能指标。

特征影响

DataRobot还可以进行功能影响，衡量模型中每个功能的相关性。计算预测解释的先决条件是您需要计算模型的特征影响（每个模型只需要执行一次）。

'impactUnnormalized'是在随机改组给定特征之后进行预测时误差度量分数的差异程度，同时保持所有其他特征相同。'impactNormalized'被归一化，因此最大值为1.在两种情况下，较大的值表示更重要的特征。如果在考虑其他特征后判断特征是冗余的，则将其包括在模型中对于附加精度没有太大贡献。'redundantWith'值是与此功能具有最高相关性的要素的名称。与功能影响一起，DataRobot还可以计算数据集的每一行的预测解释。

标签：

行业 DataRobot

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 PROPHESEE 在2019年嵌入式视觉峰会

下一篇将拟人推理引入无人驾驶汽车导航中

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线