您现在的位置是：首页 > 资讯 > 正文

脸书人工智能研究应用Transformer架构简化对象检测模型

发布时间：2023-02-17 11:12:02来源：

导读脸书人工智能研究(FAIR)的六名成员使用流行的Transformer神经网络架构来创建端到端的对象检测人工智能，声称这种方法简化了对象检测模型的

脸书人工智能研究(FAIR)的六名成员使用流行的Transformer神经网络架构来创建端到端的对象检测人工智能，声称这种方法简化了对象检测模型的创建，并减少了对手动组件的需求。该模型被称为检测变压器(DETR)，可以识别图像中的物体一次。

FAIR在博文中表示，DETR是第一个成功将Transformer架构作为核心组件集成到检测管道中的对象检测框架。作者补充说，变形金刚可以彻底改变计算机视觉，或者缩小NLP和计算机视觉之间的差距，就像近年来的自然语言处理一样。

“通过结合通用CNN和Transformer架构，DETR可以直接(并行)预测最终检测结果，”周三发表的FAIR论文与开源版本的DETR一起阅读。“与许多其他现代探测器不同，新模型概念简单，不需要特殊的库。”

变压器网络架构由谷歌研究人员于2017年创建。它最初是作为一种改进机器翻译的方法，但它已经发展成为机器学习的基石，用于制作一些最流行的预先训练的最新语言模型，如谷歌的BERT、脸书的RoBERTa等。在与VentureBeat的对话中，谷歌AI负责人JeffDean等AI知名人士宣布，基于Transformer的语言模型是2019年的主要趋势，他们预计2020年会继续发展。

Transformer使用注意函数代替递归神经网络来预测序列中的下一步。当应用于对象检测时，Transformer可以减少构建模型的步骤，例如创建空间锚点和自定义图层。

根据arXiv的说法，DETR的结果与fastR-CNN的结果相当，fastR-CNN是微软研究公司创建的一个物体检测模型，自2015年推出以来，被引用了近1万次。DETR的研究人员使用COCO对象检测数据集和其他与全景分割相关的数据集进行了实验，全景分割是一种绘制图像区域而不是使用包围盒的对象检测类型。

作者说，他们遇到的主要问题之一是，DETR在大对象上比在小对象上工作得更好。“目前的探测器需要几年的改进来处理类似的问题，我们预计未来的工作将为DETR成功解决这些问题，”作者写道。

DETR是最新的脸书人工智能项目，旨在找到解决计算机视觉挑战的语言模型解决方案。本月早些时候，脸书引入了仇恨模因数据集和挑战，以支持创建多模态人工智能，能够识别模因中的图像和伴随文本何时违反脸书政策。在相关新闻中，本周早些时候，《华尔街日报》报道称，一项内部调查在2018年得出结论，脸书的推荐算法“利用了人脑对部门的吸引力”，但高管们基本上忽略了这一分析。

标签：

您现在的位置是：首页 > 资讯 > 正文

脸书人工智能研究应用Transformer架构简化对象检测模型

猜你喜欢

最新文章