令人称奇的大神级AI,都曾经历过无数次训练,AI训练的核心是数据,尽管数据驱动并不是AI算法训练的唯一方式,但不能否认的是,相对来说,拥有海量数据的领域,是AI滋生的更好温床。
举一个简单的例子,与其他多个小语种翻译比起来,英汉翻译器的翻译能力往往会更强,就是因为英汉互译的使用频率远远高于其他各语种的互译。同理,人脸识别技术应用率远高于虹膜识别,因为人脸数据更方便收集。
数据匮乏或是采集成本高,是阻碍AI发展的一个重要原因。面对这种情况,数据增强技术应运而生。
所谓数据增强技术,就像是数据的繁殖皿,可以让数据进行“有丝分裂”,增强样本扩大数据集。
就拿图像数据来说,当图像数据不足时,可以对原图像做一些改动,例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。也许对人类来说,被改动过的图像很容易被识别,看出与原图的差异。但对于AI来说,即使几个像素点的变动,也是一个全新的数据样本。
而应用于文本数据,则有互译和词向量替换两种方法。通过机器翻译,将一句话从中文翻译成英文,再由英文翻译成中文,就可以实现语序、同义词等等的调整替换,得到语料乘二的效果。以及通过自然语言生成技术,将一句话中的不同对象进行划分并替换生成新的句子,就像同义词、近义词替换。
令人惊喜的是,这些数据增强技术也开始通过深度学习的加持逐渐提升效率。
去年4月,谷歌的AutoAugment技术,设计了一个自动搜索空间,利用搜索算法来确定适合数据集的图像增强策略,制定执行的顺序并且自动执行。比如将一个动物或植物照片数据集输入给AutoAugment,AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案,然后开始自动执行。是不是很精妙?