加入收藏 | 设为首页 | 会员中心 | 我要投稿 阳江站长网 (https://www.0662zz.cn/)- 办公协同、云通信、区块链、物联平台、高性能计算!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

为企业创造的十大安全价值

发布时间:2021-02-12 14:01:36 所属栏目:传媒 来源:互联网
导读:现在剩下的问题是如何从那20000个锚到2000个区域建议(与之前的区域建议数量相同),这是RPN的目标。 5. 如何训练区域建议网络 要实现这一点,需要RPN告知框包含的是对象还是背景,以及对象的精确坐标。输出预测有作为背景的概率,作为前景的概率,以及增量 Dx

现在剩下的问题是如何从那20000个锚到2000个区域建议(与之前的区域建议数量相同),这是RPN的目标。

5. 如何训练区域建议网络

要实现这一点,需要RPN告知框包含的是对象还是背景,以及对象的精确坐标。输出预测有作为背景的概率,作为前景的概率,以及增量 Dx, Dy, Dw, Dh,它们是锚点和最终建议之间的差异。

(1) 第一,我们将删除跨边界锚(即因为图像边界而被减去的锚点),这给我们留下了约6000张图像。

(2) 如果存在以下两个条件中的任一,我们需要标签锚为正:

  • 在所有锚中,该锚具有最高的IoU,并带有真值框。
  • 锚点至少有0.7的IoU,并带有真值框。

(3) 如果锚的IoU在所有真值框中小于0.3,需要标签其为负。

(4) 舍弃所有剩下的锚。

(5) 训练二进制分类和边界框回归调整。
 

那么一张图片总共有多少个锚点呢?

我们不打算在原始图像上创建锚点,而是在最后一个卷积层的输出特征图上创建锚点,这一点非常重要。例如,对于一个1000*600的输入图像,由于每个像素有一个锚点,所以有1000 *600*9=5400000个锚点,这是错误的。确实,因为要在特征图谱上创建它们,所以需要考虑子采样比率,即由于卷积层的大步移动,输入和输出维度之间的因子减少。

在示例中,如果我们将这个比率设为16(像在VGG16中那样),那么特征图谱的每个空间位置将有9个锚,因此“只有”大约20000个锚(5400000/ 16^2)。这意味着输出特征中的两个连续像素对应于输入图像中相距16像素的两个点。注意,这个下降采样比率是Faster R-CNN的一个可调参数。
 

简而言之,RPN是一个直接寻找区域建议的小型网络。一种简单的方法是创建一个深度学习模型,输出x_min、y_min、x_max和x_max来获得一个区域建议的边界框(如果我们想要2000个区域,那么就需要8000个输出)。然而,有两个基本问题:

  • 图像的大小和比例可能各不相同,所以很难创建一个能正确地预测原始坐标的模型。
  • 在预测中有一些坐标排序约束(x_min < x_max, y_min < y_max)。

为了克服这个问题,我们将使用锚:锚是在图像上预设好不同比例和比例的框。(锚点是预定义的框,它们具有不同的比例,并在整个图像上缩放。)

例如,对于给定的中心点,通常从三组大小(例如,64px, 128px, 256px)和三种不同的宽高比(1/1,1/2,2/1)开始。在本例中,对于图像的给定像素(方框的中心),最终会有9个不同的方框。
 

9.按代码行衡量编程进度就像按重量衡量飞机制造进度一样

更多代码行并不代表更多进度。同样,书写更多代码并不意味着你比别人更高效。最好的代码应该能够言简意赅地完成任务,这也是最难写的。这是一个众所周知的软件原理,叫作KISS,是“Keep It Simple, Stupid(保持简单、易懂)”的缩写。

如果对哪条感到不甚理解,没关系的,你只需要记住它们,然后静候实际经历的那一刻让你深刻理解它。

(编辑:阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读