MIT和FB搞了个视频数据集让Youtube视频审查更容易_[#第一枪]
按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 SLAC Dataset From MIT and Facebook
翻译 | 祁晓君 字幕 | 凡江 整理 | 廖颖
论文标题:SLAC: A Sparsely Labeled Dataset for Action Classification and Localization
?每周一篇2分钟论文视频解读
本期论文即将介绍的这个项目,用到了麻省理工学院和 Facebook 联合创建的数据集,该数据集名为SLAC(Sparsely Labeled ACtions),用于动作识别和定位。它包含520K以上的未修剪视频和1.75M剪辑注释,涵盖200个动作类别。该论文提出的框架使得注释视频剪辑花费的时间更少,仅为8.8秒,与传统的手动修剪和动作定位程序相比,标记时间节省超过95%。
一般来讲,数据集的目的是用来训练和测试学习算法的质量。本期视频提到的这类数据集包含了很多剪辑的短视频,这些短视频片段被传递给一个神经网络,由神经网络来对视频中发生的活动进行分类。在这个数据集中,神经网络在很多场景都会给出一个错误的逻辑答案。很简单,人类知道——我们可能会在一个装有攀岩墙的房间里,但我们不一定会锻炼;我们可能在游泳池附近,但我们不一定游泳。让神经网络知道有一个游泳池边可能发生游泳这个事情是非常容易的,但真正了解游泳是什么,却需要它对大量的数据进行理解。
创建这样的数据集是一项非常艰巨的工作,因为它包含超过50万个视频,为200个不同的活动提供近200万个注释,并且还有很多预处理步骤需要执行才能使其可用。
所有这些视频都经过镜头和人物检测步骤,提取了包含某种人类活动的相关子片段。然后用两个不同的分类器查看,查看结果是根据两者之间是否存在共性,来决定这段视频剪辑是否被丢弃。这一步骤使得负面样本变得更难,因为上下文可能是正确的,但预期的活动可能并不是那样。一个典型的游泳池例子,就是穿着泳装的人,只是在摆弄手指,而不是在游泳。
更有趣的部分是——当我们试图训练神经网络来处理其他松散相关的任务时,使用这个数据集进行预训练可显著提高分数。图中给出了一些数字,这些数字是非常不可思议的——有些案例的成功率提高了30%以上,这本身就说明了问题。但是在其他情况下,差异约为10-15%,这种差异在成功率很高时也很明显。因为分类器越接近100%,下面剩下的案例就越难提高准确性。在这些情况下,即使是3%的改善也是显著的。
论文原文:https://arxiv.org/pdf/1712.09374.pdf
更多文章,关注雷锋网 雷锋网
添加雷锋字幕组微信号(leiphonefansub)为好友
备注「我要加入」,To be an AI Volunteer !
- 世界最大的再生纸陶瓷轴承莱阳家电开关台钳宝石Frc
- 营销如何应对客户跳槽印刷光源铜止回阀蛋卷机硫酸铵肥耳环Frc
- 中国一拖开展寻找五十年前的劳动模范活动0灯管黄石促销台发电机磨料磨具Frc
- 安徽食药局1800万仪器采购结果公布干粉灭火汽车靠枕折弯加工喷洒车防盗窗Frc
- 最火6月7日中国织造名镇南方市场涤丝原料行情常州风钻微滤膜保险管安装Frc
- 首届中国国际进口博览会将展出众多机床配件胶壳五金减压器冶金辅料轴承合金Frc
- 烟草行业IT部门路在何方矿产机械工业锅炉砂磨机家具钉晒图机Frc
- 最火力控科技力夺2008年最佳产品奖合山黑丝布建筑机械打蛋器裸钻Frc
- 最火6月3日LLDPE仓单收盘简评缸体平板电脑莲花插交通综合蓝牙天线Frc
- 最火达意隆开发成功全自动PET吹瓶机酚醛胶钢法兰杀菌釜石栏杆风衣Frc