12

2024

-

06

上海交大电子信息与电气工程学院卢策吾团队在人工智能《天然》子刊提出时空概念提取算法

来源:m6米乐娱乐    发布时间:2024-12-06 02:18:31


  导言:近期,上海交通大学电子信息与电气工程学院在《天然》机器智能杂志子刊上宣布关于高维度视觉序列了解上的研讨效果《Complex sequential understanding through the awareness of spatial and temporal concepts》。上海交通大学是该论文的仅有单位,也是我校第一篇当选该期刊的论文。于此一起,该团队将该码与近两年在视频了解范畴的先进效果开源为视频了解工具箱:(代码链接:)。在物体盯梢使命(MOT)和行为了解(AVA单模型)上都抵达最高精确率比起,比SlowFast[4]有12.6%的相对进步。

  图1 动作了解使命的时空信息特征图。左:输入序列;右:空间特征更重视物体形状,时刻特征更重视物体运动趋势。

  人类视觉了解机理:在人类的视觉认知过程中时刻和空间概念解耦。神经科学范畴的研讨发现在人类的回忆构成过程中,时刻信息与空间上下文信息是经过两个相对独立的信息通路抵达海马体以构成完好的回忆[1]。

  经过仿照人类的认知机制,本文提出了应用于高维度信息的半耦合结构模型(SCS)。 SCS自主开掘(awareness)时刻-空间概念,并让他们耦合协作以了解序列信息。这种才能代表着机器学习模型自主把握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的别离也让 “概念修改”成为了或许。

  半耦合结构首要解耦时空信息(仿照人脑中的两条信息通路),并在别离处理时刻和空间信息之后将二者耦合(仿照海马体):

  hs(·)担任处理空间信息,ht(·)担任时刻信息,F担任交融两种信息。

  经过堆叠这种半耦合的元结构,咱们咱们能够构建深度模型。其间时空信息一直以先解耦再交融的形式向后活动。为了让hs和ht各司其职,研讨者们将hs和ht规划为不对称的结构,一起,运用两个特别的监督方针rs,rt来进一步束缚二者重视自己的作业。研讨者们进一步提出了一种练习的注意力机制。这种注意力机制操控着模型在优化过程中学习哪种信息。例如在视频信息中,模型能够优先将注意力会集在空间信息上,待空间信息有用且稳守时,逐渐将模型练习的注意力转化到时刻信息上。

  SCS在视频动作分类,无人驾驶,天气预报等4个使命上的功能都逾越了传统的序列模型。

  有了时空别离的才能,SCS将能够开始做到“概念修改”。比方,经过修改空间概念且保存时刻概念,咱们咱们能够让一个本来用于猜测狗的运动轨道的模型做到猜测猫的轨道。这样将以比较小的价值完成模型的泛化,一起也扩宽模型的运用场景与布置难度。如图6.

  图. 6 概念修改demo。咱们让计算机看Flappy Bird的视频,然后看一张静态的Mario图片(外观形象)。在这样的一个过程中,模型并没有接触到任何mario在管道中络绎的运动信息。经过“概念修改”,测验时SCS也能够精确地猜测mario的运动轨道。

  视频了解工具箱AlphaVideo中,除了上述SCS时空概念分化,咱们也供给了单阶段端对端练习的多方针盯梢模型TubeTK和视频动作检测模型AlphAction。运用一行代码,即可调用预训好的各类模型。

  AlphAction是面向行为了解的开源体系,根据MVIG提出的交互了解与异步练习战略[5]在AVA数据集上抵达最好精确率,速度抵达10帧每秒。15个开源的常见行为根本模型mAP抵达约70%,挨近能够商用的水平。

  TubeTK是上海交大MVIG组提出的根据Bounding-Tube的单阶段练习模型(CVPR2020-oral),是第一个单阶段能够端对端练习的多方针盯梢模型,在MOT-16数据集上抵达了66.9MOTA的精度。这是现在online模型仅在MOT练习数据下抵达的最高精度[3]。

  卢策吾 上海交通大学特别研讨员。在他参加交大之前,他是斯坦福大学人工智能实验室研讨员。他的研讨爱好大多散布在在机器人、AI和机器人计算机视觉。担任《科学》《天然》人工智能方向审稿人,CVPR 2020的范畴主席。他还当选了MIT TR35-《麻省理工技能谈论》35位个35岁以下的立异者,求是杰出青年学者(近三年仅有AI方向)。Homepage:

  庞博 上海交通大学在读博士生,上海交通大学计算机系学士。首要研讨方向为计算机视觉和深度学习,尤其是视频了解算法包含动作了解,多方针盯梢,视频要害点估计等。Homepage:

  汤佳俊 上海交通大学在读硕士生,上海交通大学计算机系学士。首要研讨方向为计算机视觉和深度学习,尤其是视频动作了解算法。