在本文中提出了一种简单的注意力机制Box-Attention。它支持网格特征之间的空间交互(从感兴趣的Box中采样),并提高了Transformer针对多个视觉任务的学习能力。 具体来说,介绍的BoxeR,即Box Transformer的缩写,它通过预测输入特征图上的参考窗口的转换来处理一组Box。