本发明属于计算机技术领域,具体涉及一种基于深度学习的短视频去重方法,可在短视频平台级视频数量条件下构建视频特征库,从而快速、高效地检测重复视频。
随着用户使用习惯的改变和网络环境的改善,短视频越来越受到大家的喜爱。对于观众来说,良好的观看体验与视频内容有着很大的关系。当前,全网范围内的主要精品视频主要来自MCN机构,一些公司为了更快更好地去覆盖全网内容,会选择和内容代理合作,而代理手上会有很多重复版权的内容,导致重复内容出现。另外,搬运视频也会导致重复内容出现,这些重复内容会造成极差的用户体验。再者,大量内容相似的视频对于短视频平台存储也是一个极大的挑战,为了不必要的资源浪费,对视频内容进行去重是非常有必要的。
目前对视频相似度对比主要有如下两种:
(1)通过某一算法生成视频的关键帧,然后利用一些图像特征提取的算法计算图片的特征,把这些特征进行融合生成视频的特征,最后通过视频特征之间的匹配生成视频相似度。特征提取方式又分为基于传统手工特征提取方式和基于深度学习的方式,刘守群等人通过SIFT算法和LSH(局部敏感哈希,locality-sensetive hashing)的方式生成视频帧之间的匹配从而快速检测视频间的重复片段。特征的匹配又分为机器学习和深度学习的方式,宋晓康等人通过从重复视频特征数据库中选取特征组合成三元组,训练孪生神经网络,进一步减小重复视频之间的距离,同时对特征降维。
(2)舍弃关键帧算法,利用视频理解模型(如I3D,Inflated 3D ConvNets,膨胀卷积网络)作为backbone(主干网络)直接提取特征,张跃宇等人利用I3D提取的第一特征获取描述距离的EMD(Earth Mover's Distance,推土距离)距离,利用EMD距离构建帧间相似矩阵并通过孪生神经网络训练得到视频之间的相似度。
然而对于镜头晃动,视频目标持续运动的视频提取的关键帧比较模糊,通过关键帧将视频降维成图像的方法不适用于手工提取特征。另外,对于视频画面中嵌入文字的视频,如果对关键帧进行角点检测(如SIFT),得到的特征点很可能会聚集在文字的边缘,无法反应视频原画面的特征。这时只能用深度学习的预训练模型对关键帧抽取中高层语义信息作为图片的特征,但是这种做法非常耗时,不适用于大规模视频数量场景。而且视频的多张关键帧包含了比较多的冗余信息,提取的特征也会包含大量冗余,这样会造成卷积神经网络的识别效果变差。对于使用光流的方法计算复杂度高,不适用于大规模短视频去重场景,此外,基于视频帧的去重方式没有考虑时间维度的特征,导致无法判别画面不同但内容相似的重复视频。
了解该项发明专利所有内容可以联系裕阳获取,以上是关于“一种基于深度学习的短视频去重方法-每日一发明专利申请”的详细内容。了解更多发明专利申请请拨打400-660-3336 。