Tensorflow的正确打开方式：Tensorboard调试神经网络和可视化训练

2017年07月18日由 yining 发表 496716 0

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

本文将向你推荐一个名叫Tensorboard的工具，是Tensorflow自带的可视化模块。Tensorboard对你的深度学习研究十分有帮助，你可以将它添加到深度学习的工具箱中。

注:

本文假设你了解构建神经网络的基础知识，并对keras有一定程度的了解。

如果没有，我建议先阅读这些文章，然后再回到本文

Fundamentals of Deep Learning – Starting with Artificial Neural Network “深度学习的基础——从人工神经网络开始”

Tutorial: Optimizing Neural Networks using Keras (with Image recognition case study)“教程:使用Keras优化神经网络(图像识别案例研究)”

Understanding and coding Neural Networks From Scratch in Python and R“在Python和R中从头开始理解和编码神经网络”

训练一个神经网络:是恩惠还是诅咒?

训练神经网络通常是一种高风险但高回报的策略。如果你对它做了正确的调整，你可能会有一个最先进的工作模型帮你来完成任务。举个例子，图像生成是神经网络最近的一个突破。只需用人工画笔画上几笔，你就可以创造出一幅真实的自然场景图像。

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

图片来源

但另一方面，培养一个生成神经网络是极其困难的。你必须经历一个严格的试验和错误阶段才能得到正确的成果。

几天前，当我试图建立一个用于年龄检测问题的工作模型时，我不得不经历了与训练神经网络类似的经历。当我为这个问题做了第一个模型时，它非常绝对地拒绝接受训练。在本文中，我将分享我如何调试神经网络的方法。请继续收看，因为本文有一个Happy Ending！

用神经网络解决年龄检测问题

在开始解决这个问题之前，让我先概述一下这个问题是什么。

对通过图像识别技术检测年龄是最近发布的一项实践问题，该问题涉及提取面部特征进行年龄分析。由于这是一个图像处理问题，我自然而然地选择了神经网络来解决这个问题。但就像我之前说的，网络不会进行培训。即使我让它在200次迭代中训练超过一个小时，也不会有任何的变化。这里有一个证明。

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

很明显，这是行不通的！

我在下面提到的这些步骤是当我陷入这种问题时通常会遵循的步骤。如果你仔细考虑，可能有两个主要的原因让你的神经网络无法正常工作:

1．你的神经网络架构是不正确的

2．你给的网络的数据出了问题

让我们一个接一个地讨论这些原因来消除这些“不可能”。

测试神经网络体系结构

步骤1:检查架构

在构建神经网络时，首先要检查的是是否正确地定义了体系结构。这里我们有一个三类问题，在数据集中有不同大小的图像。

为了简化，我把所有的图像都转换为32×32的尺寸。

temp = []



for img_name in train.ID:  



img_path = os.path.join(data_dir, 'Train', img_name)    



img = imread(img_path)    



img = imresize(img, (32, 32))    



temp.append(img.astype('float32'))    



train_x = np.stack(temp)

根据这一点，我已经定义了如下的结构。

# define vars



input_num_units = 32 * 32 * 3 # image is 3D (RGB) that is why multiply by 3



hidden_num_units = 500



output_num_units = 3 



epochs = 50



batch_size = 128

model = Sequential([    



InputLayer(input_shape=(input_num_units,)),



Dense(units=hidden_num_units, activation='relu'), 



Dense(units=output_num_units, activation='softmax'),



])

我在神经网络的架构中没有看到任何问题。

步骤2:检查神经网络的超参数

根据我的说法，这是处理神经网络时最重要的一步。因为有太多的参数需要调优，所以尝试这些参数有时会让人感到挫败。

（注:我做了一个关于超参数的调查，以及如何在这篇文章中对它们进行调优。）

幸运的是，我使用了一个非常简单的神经网络，该神经网络只有一个隐藏层，使用了经典梯度下降算法(SGD)。

model.compile(optimizer='sgd', loss='categorical_crossentropy', metrics=['accuracy'])

这里有一件值得注意的事情，当你用SGD训练神经网络时，它可能会缓慢地训练。为了克服这一问题，我们可以使用自适应梯度下降来更快地训练网络。

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

但问题是，即使把训练算法从SGD转换到Adam算法，网络也没有进行训练。这仅仅意味着网络的本质上是错误的。我不得不用Thor’s hammer来突破这个问题！

Tensorboard的概述

在理解神经网络的过程中，我已经经历了许多用于构建和可视化神经网络的工具。在所有这些方面，我发现tensorboard是一项重要的资产。在训练神经网络时，它能给你提供有用的帮助。

我将提到如何在你的系统中安装tensorboard的步骤。我建议你自己试一试。

你可以使用 Python包管理工具——pip 来安装Tensorboard。

pip install Tensorboard

安装之后，你可以通过进入终端和打字来打开tensorboard。

tensorboard --logdir=logs/

这里有一个视图显示它在浏览器上的样子

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

上面提到的“logs/”文件夹应该有关于神经网络如何训练的历史。你可以通过在kera中包含的一个tensorboard回调来获得它。

model.fit(train_x, train_y, batch_size=batch_size,epochs=epochs,verbose=1, 

validation_split=0.2, callbacks=[keras.callbacks.TensorBoard(log_dir="logs/

final/{}".format(time()), histogram_freq=1, write_graph=True, write_images=

True)])

在本例中，我已经传递了所有的参数，以便所有的内容都得到了保存。参数的意义如下:

write_graph: 打印在内部定义神经网络图。

write_images:通过结合神经网络的权重来创建一个图像。

histogram_freq:在神经网络中绘制出权重和偏差的分布

回去解决问题

步骤3:检查网络的复杂性

下面来检查我所建立的网络是否足够了解问题的分布。为此，我不再使用简单的神经网络，而是将架构更改为卷积神经网络。其结果是，准确度从一开始就大幅增加(从33%到54%)。即使在训练之后，它仍然保持不变。

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

似乎我们的小实验失败了。

测试数据

步骤4:检查输入数据的结构

在彻底检查网络体系结构之后，开始检查是否有合适的数据集。

需要检查的几件事:

是否所有的记录都是相同的大小?

正如步骤1所讨论的，我们已经确保在将图像发送到网络之前，图像的大小是相同的，所以这是毫无疑问的。

是否问题是不平衡的?

数据集并不是不平衡的，因为我们每个类仍然有大量的图像。

MIDDLE    0.542751



YOUNG     0.336883



OLD       0.120366

是否进行了适当的预处理?

在这里，我们应该检查是否有正确处理的输入。例如，在图像处理问题中，如果我们处理图像，并且结果输入有不规则的宽比，那么神经网络显然会被它打乱。

在这里它是一个简单的网络，我们还没有做任何预处理步骤。所以这也是毫无疑问的。

步骤5:检查数据的分布

在解决了我们可能遇到的大多数问题之后，我对真正的问题感到有些困惑。

幸运的是，我的困惑很快就被消除，因为我发现了一个很奇怪的bug，我应该早点发现它。

这个问题是，我发送给网络的输入数据的范围是0到255。理想情况下，这个范围应该在0到1之间。输入数据的分布如下:

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

让我向你解释一下为什么正常化(将范围从0设置为1)很重要。

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

图片来源

你可以看到，如果你的数据没有一个简单的分布，那么神经网络可能会发现这个分布很难去学习。它肯定会尝试收敛，但不能保证完全收敛。这个概念的扩展版本是batch normalization，它确保数据在一层神经网络之后被规范化。这有一篇文章主要讨论了batch normalization怎样更好地训练神经网络的深入分析。

这是我用来读取图像并使它们标准化的代码。

temp = []



for img_name in train.ID: 



img_path = os.path.join(data_dir, 'Train', img_name)    



img = imread(img_path)    



img = imresize(img, (32, 32))    



temp.append(img.astype('float32'))    



train_x = np.stack(temp) 



train_x = train_x / 255. # normalization step

瞧! 在我添加了一个简单的标准化步骤之后，我发现神经网络开始训练了。我实在是太高兴了! !

Tensorflow的正确打开方式：Tensorboard对神经网络的调试和可视化训练

总结

总结一下，这些是调试神经网络时应该注意的步骤。

步骤1:检查架构

步骤2:检查神经网络的超参数

步骤3:检查网络的复杂性

步骤4:检查输入数据的结构

步骤5:检查数据的分布

实用资源

Practical Guide to deep learning hyperparameter tuning by Yoshua Bengio

A great tool in visualizing the inner working of neural network (specifically Convolutional Networks) – DeepViz

TensorBoard official documentation

Nuts and Bolts of Applying Deep Learning by Andrew Ng

此文为编译作品，作者FAIZAN SHAIKH，原网站：https://www.analyticsvidhya.com/blog/2017/07/debugging-neural-network-with-tensorboard/

标签：

神经网络 TensorFlow 学习 Tensorboard

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇自动驾驶中机器学习算法应用大盘点

下一篇在Python中使用LIME框架：建立对机器学习模型的信任

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术