产品服务

大数据“轶事”：数据不够用，“伪”数据来凑数—AI与大数据的共生之理

来源：重庆数锋科技有限公司发布时间：2019-07-19 09:29:20

令人称奇的大神级AI，都曾经历过无数次训练，AI训练的核心是数据，尽管数据驱动并不是AI算法训练的唯一方式，但不能否认的是，相对来说，拥有海量数据的领域，是AI滋生的更好温床。

大数据大数据公司大数据技术大数据企业大数据时代大数据分析大数据应用大数据处理农业大数据科技大数据交通大数据未来大数据大数据培训大数据学习工业大数据

举一个简单的例子，与其他多个小语种翻译比起来，英汉翻译器的翻译能力往往会更强，就是因为英汉互译的使用频率远远高于其他各语种的互译。同理，人脸识别技术应用率远高于虹膜识别，因为人脸数据更方便收集。

数据匮乏或是采集成本高，是阻碍AI发展的一个重要原因。面对这种情况，数据增强技术应运而生。

所谓数据增强技术，就像是数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

就拿图像数据来说，当图像数据不足时，可以对原图像做一些改动，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。也许对人类来说，被改动过的图像很容易被识别，看出与原图的差异。但对于AI来说，即使几个像素点的变动，也是一个全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子，就像同义词、近义词替换。

令人惊喜的是，这些数据增强技术也开始通过深度学习的加持逐渐提升效率。

去年4月，谷歌的AutoAugment技术，设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略，制定执行的顺序并且自动执行。比如将一个动物或植物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。是不是很精妙？

上一篇：湖南大数据产业发展迅猛上半年产业规模突破300亿元下一篇：大数据辅助决策余杭中小微企业点点鼠标即可融资