为企业创造的十大安全价值

发布时间：2021-02-12 14:01:36 所属栏目：传媒来源：互联网

导读：现在剩下的问题是如何从那20000个锚到2000个区域建议(与之前的区域建议数量相同)，这是RPN的目标。 5. 如何训练区域建议网络要实现这一点，需要RPN告知框包含的是对象还是背景，以及对象的精确坐标。输出预测有作为背景的概率，作为前景的概率，以及增量 Dx

现在剩下的问题是如何从那20000个锚到2000个区域建议(与之前的区域建议数量相同)，这是RPN的目标。

5. 如何训练区域建议网络

要实现这一点，需要RPN告知框包含的是对象还是背景，以及对象的精确坐标。输出预测有作为背景的概率，作为前景的概率，以及增量 Dx, Dy, Dw, Dh，它们是锚点和最终建议之间的差异。

(1) 第一,我们将删除跨边界锚(即因为图像边界而被减去的锚点),这给我们留下了约6000张图像。

(2) 如果存在以下两个条件中的任一，我们需要标签锚为正：

在所有锚中，该锚具有最高的IoU，并带有真值框。
锚点至少有0.7的IoU，并带有真值框。

(3) 如果锚的IoU在所有真值框中小于0.3，需要标签其为负。

(4) 舍弃所有剩下的锚。

(5) 训练二进制分类和边界框回归调整。

那么一张图片总共有多少个锚点呢?

我们不打算在原始图像上创建锚点，而是在最后一个卷积层的输出特征图上创建锚点，这一点非常重要。例如，对于一个1000*600的输入图像，由于每个像素有一个锚点，所以有1000 *600*9=5400000个锚点，这是错误的。确实，因为要在特征图谱上创建它们，所以需要考虑子采样比率，即由于卷积层的大步移动，输入和输出维度之间的因子减少。

在示例中，如果我们将这个比率设为16(像在VGG16中那样)，那么特征图谱的每个空间位置将有9个锚，因此“只有”大约20000个锚(5400000/ 16^2)。这意味着输出特征中的两个连续像素对应于输入图像中相距16像素的两个点。注意，这个下降采样比率是Faster R-CNN的一个可调参数。

简而言之，RPN是一个直接寻找区域建议的小型网络。一种简单的方法是创建一个深度学习模型，输出x_min、y_min、x_max和x_max来获得一个区域建议的边界框(如果我们想要2000个区域，那么就需要8000个输出)。然而，有两个基本问题：

图像的大小和比例可能各不相同,所以很难创建一个能正确地预测原始坐标的模型。
在预测中有一些坐标排序约束(x_min < x_max, y_min < y_max)。

为了克服这个问题，我们将使用锚：锚是在图像上预设好不同比例和比例的框。(锚点是预定义的框，它们具有不同的比例，并在整个图像上缩放。)

例如，对于给定的中心点，通常从三组大小(例如，64px, 128px, 256px)和三种不同的宽高比(1/1,1/2,2/1)开始。在本例中，对于图像的给定像素(方框的中心)，最终会有9个不同的方框。

9.按代码行衡量编程进度就像按重量衡量飞机制造进度一样

更多代码行并不代表更多进度。同样，书写更多代码并不意味着你比别人更高效。最好的代码应该能够言简意赅地完成任务，这也是最难写的。这是一个众所周知的软件原理，叫作KISS，是“Keep It Simple, Stupid（保持简单、易懂）”的缩写。

如果对哪条感到不甚理解，没关系的，你只需要记住它们，然后静候实际经历的那一刻让你深刻理解它。

（编辑：阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!