大数据是指数据量很大么? 大数据到底有多大?
大数据和数据是两个完全不同的概念,数据是对客观事物的属性逻辑描述,大数据是对数据进行管理的存在形式。例如:煤炭按照性质有不同分类,且挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……足以见大数据的体量有多大?
大数据是最近才出现的一种新科技么?
不是。大数据就是互联网发展到现今阶段的一种表象或特征而已,数据在很久以前便存在,只是在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,只有通过各行各业的不断创新,大数据才会逐步为人类创造更多的价值。
大数据和云计算什么关系?
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
人们常指的大数据是什么?
大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
大数据可以应用在哪些领域?数据共享的能力体现?
数据源、数据工程能力以及数据挖掘能力没有哪个更为重要,三方相辅相成,同时也根据不同产品、不同定位随需而变,以满足用户多方位的需求。
人们一直在聊大数据、DT时代,我们发现除了数据寡头,各级政府、一些相关的机构都积累了大量的跟我们生活中息息相关的海量数据资源。市面上有较多免费的基础数据产品,但数据资源是稀缺的。
我经常会被问到“你认为数据源、数据工程能力以及数据挖掘能力,哪个是第一位的?”,这个问题对于不同的公司来说,答案肯定会不一样。
我首先要强调一点,共享不等于免费。是什么原因阻碍了数据能力共享的?
第一,在没有相应法律政策引导下,从业人员会担心数据共享引起的信息安全问题,数据泄密失控,对开放有恐惧。除了6月1号开始试行的《中华人民共和国网络安全法》之外,之前参考的更多是条例、办法、规定。比如互联网信息管理办法以及互联网个人信息保护规定。
这是一个非常现实的问题,从业人员都会有这个担忧。对于数据共享或者数据的开放造成的影响是不可避免的。随着进一步的媒体宣传大家对于数据有了敬畏之心,看到第一反应是说“什么事情我能做,什么事情我不能做”,第二就是数据的壁垒。数据一旦出门就失去了壁垒,这样的短线操作存在极大风险。这个担忧当然是有道理的。这也是目前很多data bank , data broker 在不停尝试努力并且要解决的问题。
除此之外,数据源五花八门,算法能力层次不齐,如何实现数据对接也是重中之重。以画像标签为例,某家的年龄标签是18-23,另一家是19-24,给你几个不同数据源标签画像,怎么使用?不同家标签对接方式也不一样。
关于数据对接,画像系统输入的先决条件大都以客户提供ID包为主,每一个群体画像查询都应该有一个查询主题。例如某服装品牌的人群画像、某部综艺节目女性观众的的APP使用习惯等等。然而,画像系统输入条件是ID包,这也是很多用户面对的难题之一。可以提供服务群体画像的ID包,或者当客户提供ID包时,我们可以ID-mapping.
当有多个数据源能力单元以及多个数据合作伙伴时,如何正确选择准确的标签,同时选择性价比最高的标签使用呢?
相同标签不同源之间的评估,合并后输出结果。
对于所提到的ID级数据,首先ID级不是输出ID的,在这里主要是强调和之前产品的一些区别,非配比、非推及、非调研的方式打造的ID级数据产品。不涉及配比的方式,不涉及推及的算法。比如,APP活跃画像标签一定是第一步够建的人群所对应的结果,而并不代表这些APP在中国网民的排名。
同时要了解的是,数据能力共享不是数据共享,不是把原始的数据生产资料发布出来。简单来说,假设所有人能够同时利用辨析画像能力,以及其他的头部数据源的画像能力,进而,允许你去选择所想要的标签。即便如此,由于场景不同,还需要第三方去验证每个标签的质量,统一整合之后发布,这样才会使得事半功倍、并且高效。
无需冒着各种风险大量采购数据,也无需招人完成数据工程能力。1000个ID起查,群体结果输出,不涉及个人隐私。同时规避数据留存问题,群体画像针对客户所构建的人群实现一次性结果。
群体画像能力共享的前提是DMP提供多种方式构建人群。特别是传统企业,除了CRM里的手机号,通常没有其它可供分析的ID包。
而将数据分IOS、安卓、PC端等;人群划分出核心人群、竞品人群、潜在人群、沉默人群等。同时,支持的方式有:一方ID、预设人群、标签DMP、APP定向,活跃域名,视频人群,地理围栏等方式构建人群。同时,内部研究团队会根据不同情况,设定不同特殊人群。
综上来说,对于受众管理和受众洞察有完整及丰富的处理经验。简单来说,受众管理在产品里的体现是利用DMP构建目标人群,生成ID包;而受众洞察在产品的体现是基于已构建的ID包,对接以及数据合作伙伴的画像能力去完成画像服务。