人工智能时代,很多朋友已经体验过植物识别类应用带来的乐趣。只需一张植物照片,这类应用就可以立即识别出它的种类,有的还会显示与之相关的趣闻、诗词、典故等小知识。自带的美图生成和分享功能,更是为这种乐趣的保存与传播创造了条件。
有了这样的应用,就像有了一位知识渊博的植物学老师随时随地在你身旁。无论是独自旅行,还是和朋友家人一起出游,只要有好奇心,眼前的花花草草,藤蔓树木,都可以不再只是“这朵花”、“这条藤”和“那棵树”。只需几秒钟,你就能知道,它们原来就是琼花、凌霄和水杉。这些你脑海中美好而模糊的名字,此时正鲜活地出现在你眼前。
很多人的身边还有另外一群“熟悉的陌生人”。它们清晨在树叶间歌唱,黄昏在草地上跳跃。它们可能是你在熟悉的城市里最常遇见的来访者,也可能是你在旅途中不期而遇的故乡人。它们就是天空中的飞鸟。
如果你也对鸟类好奇,或者是生态保护领域的专业人士,你一定希望有一种简单快速的方法能够对鸟类进行识别。有了这样的方法,无论是外出游玩,还是在保护区进行科学研究工作,都可以在短时间内了解周围鸟类的情况,不仅能够增添乐趣,更能大幅提高工作效率。在这个方向上,目前的技术发展是否已经能够达到与植物识别相似的水平呢?
2018年4月9日,在“自然保护领域智能科技与大数据研讨会”上,来自昆山杜克大学大数据研究中心的李明博士介绍了其所在的研究团队在鸟类识别方向取得的进展。
“我们的研究目标是通过一段鸟类的声音,识别出它的种类。有的人可能会问,为什么不像植物一样,通过照片来做判断?主要是因为拍摄鸟类的清晰照片很困难,需要没有遮挡的环境、专业的设备、高超的摄影水平,而且需要花费大量的时间去主动寻找拍摄对象。”
“以声音为基础的识别可以绕过这些障碍。一方面不同鸟类的声音确实具有特异性,另一方面安装特定录音设备就可以实现对野外声音数据的大量采集。这个过程可以在无人值守的环境下自动完成,不需要人们投入额外的时间和精力。”
李明博士在自然保护领域智能科技与大数据研讨会上发言。其分享的“野外采集鸟类声音装置”可应用于公园、保护区等地监测鸟类数量、种类及出现范围。
李博士介绍说,不同鸟类的声音具有音调高低、音域宽窄、间隔长短、共振模式等方面的差异,因此可以在数学上将时间域波形信号转化为时频域语谱图,这样可以更为直观地反映出不同鸟类声音的频谱特征。这些具有鸟类种群标注信息的频谱,经过预处理,数据增强(如频谱搬移,压缩解压缩,加入多种环境匹配的背景噪声等)、深度神经网络分类器等步骤,可以实现对其种类的判别。
昆山杜克大学的研究团队在BirdCLEF2017数据集上针对1500种鸟类的声音进行了训练和识别。在有其它鸟类背景音的情况下,对单一鸟类的识别正确率为56%,在无其它鸟类背景音的情况下,正确率为65%。这一水平与目前国际上的最高水平十分接近(若进一步缩小鸟类种群范围到100种,并引入多系统融合策略,昆山杜克团队的识别正确率可达85%以上)。
基于同样的1500种鸟类声音,2017年国际鸟类识别竞赛(BirdCLEF2017)的冠军团队在单一系统条件下在这两项任务上的MAP正确率分别为58%和67%。
尽管这项研究已经取得明显进展,但距离广泛使用仍有一段路要走。目前这项技术在应用上主要面临两大挑战。第一,如果想在国家公园、保护区这样的环境中被动式地收集鸟类的声音信息,工作人员往往会发现,录音中背景噪声很大,同时有多种鸟类的声音互相叠加。目前的技术针对低噪音背景下的单一物种识别比较有效,但在远距离高噪音背景下对多物种同时识别的技术仍不成熟。李博士认为,通过进一步引入图像识别技术,或者通过麦克风阵列技术对鸟类声音出现的方向进行指向性增强,有可能逐步解决这个问题。
第二大挑战是基础大数据的缺失。大数据计算的基础是大数据,然而目前国内还没有一个具有广泛影响力的平台,可以让鸟类爱好者和研究人员上传和分享鸟类的声音数据。现有的研究都是基于国际鸟类爱好者上传的声音数据,这些数据大部分采集于美洲、欧洲等地区,来自中国的数据很少。由于鸟类的分布具有明显的地理差异,研究人员无法基于美洲的鸟类数据对中国的常见鸟类进行识别。为了早日使技术服务于社会,李博士呼吁国内的专业机构和民间爱好者组织能够通力合作,尽快搭建起数据收集的网络和分享的平台。
“因为全球有这么多的志愿者,这么多的生态学家上传了这些数据,才使我们今天有这么快的大数据分析。但是在中国目前还是需要进一步发展。我也呼吁有关的公司、机构搭建起这样一个平台,让全国的鸟类爱好者上传他们的照片,上传他们的声音数据。将来每个人在森林中游玩的时候都可以通过声音对鸟类进行识别。不仅自己能得到一些乐趣,也能为咱们中国创造出一个数据库,支持后续的研究。”
来源于搜狐科技