为企业创造的十大安全价值
|
现在剩下的问题是如何从那20000个锚到2000个区域建议(与之前的区域建议数量相同),这是RPN的目标。 5. 如何训练区域建议网络 要实现这一点,需要RPN告知框包含的是对象还是背景,以及对象的精确坐标。输出预测有作为背景的概率,作为前景的概率,以及增量 Dx, Dy, Dw, Dh,它们是锚点和最终建议之间的差异。 (1) 第一,我们将删除跨边界锚(即因为图像边界而被减去的锚点),这给我们留下了约6000张图像。 (2) 如果存在以下两个条件中的任一,我们需要标签锚为正:
(3) 如果锚的IoU在所有真值框中小于0.3,需要标签其为负。 (4) 舍弃所有剩下的锚。
(5) 训练二进制分类和边界框回归调整。 那么一张图片总共有多少个锚点呢? 我们不打算在原始图像上创建锚点,而是在最后一个卷积层的输出特征图上创建锚点,这一点非常重要。例如,对于一个1000*600的输入图像,由于每个像素有一个锚点,所以有1000 *600*9=5400000个锚点,这是错误的。确实,因为要在特征图谱上创建它们,所以需要考虑子采样比率,即由于卷积层的大步移动,输入和输出维度之间的因子减少。
在示例中,如果我们将这个比率设为16(像在VGG16中那样),那么特征图谱的每个空间位置将有9个锚,因此“只有”大约20000个锚(5400000/ 16^2)。这意味着输出特征中的两个连续像素对应于输入图像中相距16像素的两个点。注意,这个下降采样比率是Faster R-CNN的一个可调参数。 简而言之,RPN是一个直接寻找区域建议的小型网络。一种简单的方法是创建一个深度学习模型,输出x_min、y_min、x_max和x_max来获得一个区域建议的边界框(如果我们想要2000个区域,那么就需要8000个输出)。然而,有两个基本问题:
为了克服这个问题,我们将使用锚:锚是在图像上预设好不同比例和比例的框。(锚点是预定义的框,它们具有不同的比例,并在整个图像上缩放。)
例如,对于给定的中心点,通常从三组大小(例如,64px, 128px, 256px)和三种不同的宽高比(1/1,1/2,2/1)开始。在本例中,对于图像的给定像素(方框的中心),最终会有9个不同的方框。 9.按代码行衡量编程进度就像按重量衡量飞机制造进度一样 更多代码行并不代表更多进度。同样,书写更多代码并不意味着你比别人更高效。最好的代码应该能够言简意赅地完成任务,这也是最难写的。这是一个众所周知的软件原理,叫作KISS,是“Keep It Simple, Stupid(保持简单、易懂)”的缩写。
如果对哪条感到不甚理解,没关系的,你只需要记住它们,然后静候实际经历的那一刻让你深刻理解它。 (编辑:阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
