计算机眼中的世界，摆脱二维

2020年01月23日由 TGS 发表 334005 0

图像识别既是深度学习最早的突破，也是最成功的应用之一。但是随着应用的深入，传统深度学习方法逐渐黔驴技穷。甚至令一些业界大牛喊出来AI新的凛冬将至。不过，最近AI研究人员从物理学规律上寻找到了灵感，找到了让机器可以识别高维度对象的办法，然后物理学家又发现，AI的这一进展甚至还能为物理研究做出更大的贡献。

计算机看世界

描绘肺部3D形状的图像——新的深度学习技术有望更准确地识别出CT扫描的肺部肿瘤，从而帮助做出更好的医学诊断。

计算机（AI）现在能开车，下国际象棋和围棋之类的棋盘游戏比世界冠军还要厉害，甚至还会写文章。AI革命在很大程度上源于一种特殊类型的人工神经网络的力量，其设计灵感则源自哺乳动物视觉皮层里面的神经元连接层。事实证明，这些“卷积神经网络”二维数据模式学习能力惊人——这种AI尤其擅长计算机视觉任务，比方说识别手写体和数字图像里面的对象。

但是，如果应用到没有内置平面几何的数据集里面的话，这种强大的机器学习结构就做得不是很好了。2016年前后，出现了一种称为几何深度学习的新学科，其目标就是要让CNN挣脱二维平面。

研究人员现在已经提出一个新的理论框架，用来构建可学习任何几何表面模式的神经网络。由阿姆斯特丹大学与高通 AI研究中心的Taco Cohen、Maurice Weiler、Berkay Kicanaoglu以及Max Welling 等人联合开发的“规范等变卷积神经网络”，不仅可以检测2D像素数组里面的模式，而且还可以检测球体和不对称曲面立体的模式。

为了让深度学习突破二维空间，研究人员的解决方案跟物理有着密切联系。就像爱因斯坦的广义相对论与粒子物理学的标准模型那样，描述世界的物理理论表现出一种所谓的“规范等变”的属性。这意味着在这个世界上的数量及其关系并不依赖于任意参照系；无论观察者是移动还是静止，也不管标尺上的数字离得有多远，它们都是一致的。

摆脱二维

研究人员及其合作者知道，要想突破欧几里德平面，他们需要重新构思一种基本的计算方法，这方法先得让神经网络识别2D图像特别高效。这个方法叫做“卷积”，它然神经网络的一层对输入数据的一小块执行数学运算，然后把结果传递给网络的下一层。

在曲面（几何上称为流形）上进行卷积计算，就像在地球上拿着一小块半透明的方格纸，然后试图准确地画出格陵兰岛的海岸线一样。你是没办法在不让纸起皱的情况下把一张方形的纸盖上格陵兰岛，而这意味着当你再把纸铺平时，你所描绘的海岸线会变形。但是，用墨卡托投影一样也会产生变形。或者，你可以干脆把坐标纸放到一张平面的世界地图而不是地球上，然后再连这些变形也一并复制即可，比方说，地图的整个上边缘其实仅代表地球的一个点（北极）。

而且，如果流形不是像球形那样整齐的球体的话，而是类似瓶子的3D形状或折叠蛋白质之类更复杂或不规则物体的话，则在它上面进行卷积计算会变得更加困难。用这种方式改变滑动滤波器的属性能让CNN更好地“理解”某些几何关系。

同时， Taco Cohen和他在阿姆斯特丹的同事开始从相反的方向去解决同一问题。2015年，当时还是研究生的Cohen并没有研究如何让深度学习摆脱平面。相反，他对自认为很实用的一个工程问题很感兴趣：那就是数据效能，或者说，通常训练神经网络需要数千或数百万个样本，怎么才能把这个数量减少？

研究人员说：“深度学习方法可以说是非常迟钝的学习者。”

如果训练CNN是用来识别猫的话，几乎是不成问题的。但如果你想让网络检测出更重要的内容，比方说肺组织图像里面的癌性结节的话，想要找到足够的训练数据（需要在医学上进行准确适当的标记并且没有隐私问题）并非易事。训练网络所需的样本越少越好。

研究人员知道，提高神经网络数据效率的方法之一是预先对数据进行特定的假设——比方说，一张图像内的肺肿瘤经过旋转或者镜像后仍然是肺肿瘤。通常，卷积网络必须用同一模式在不同方向上的许多样本进行训练来从头学习才能掌握这一信息。

让计算机拜托二维的道路很长，目前的研究只是一个节点而已。

来源：36氪。

标签：

视觉识别卷积

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌发布史上最详细的大脑扫描3D图像

下一篇呼吁暂停面部识别，突出了防止监视技术的必要性

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术