大型企业网络数据时代
企业被牢牢嵌入权力和控制网络中,它们共享公司董事会成员(建立紧密联系的董事会)、所有者和股份。大量文献表明,通过模仿和学习,这些网络有利于企业管理惯例和实践经验在董事会之间传播。作为一种沟通结构,网络促进了现有信念和思想的复制,以及新信念和思想的传播。长期以来,这些网络形成了独特的国家商业圈,并成为国家经济组织的一部分。然而,它们正逐渐超越国家层面,形成一个新且复杂的企业所有权和控制权的全球体系。
就在几年前,学者们还需要从“财富”500强等名单中靠人工识别出“100强”跨国企业,用来评估跨国精英关系的状况。对欧洲等特定地区的精英网络结构研究往往包括几十或几百家大企业。现在,学者们开始将研究范围扩大到全球领域,如列出世界上最大的100万家企业,或在全球企业控制结构中,从3000万家企业里筛选出最重要的60万家跨国企业。作者将其称之为大型企业网络数据(big corporate network data,以下简称BCND)的出现。
当前大数据研究仍面临诸多挑战。本文的目的不是提出一个具体的技术解决方案,而是进行元方法干预。本研究集合了来自六个不同国家的12所大学的国际学者的共同努力。经过多次双边讨论后,学者们在企业精英研究背景下如何解决大数据质量问题上达成了共识,提出一个用于处理BCND问题的标准流程。
大型企业网络数据:特征和问题
传统上,大数据具有“3Vs”特征,即大量(volume)、高速(velocity)和多样性(variety)。最近,一些学者又提出了两个特征,即准确性(veracity)和多变性(variability)。作者以这五个特点为框架,分析使用BCND时遇到的问题。
数量大是大数据最广为人知的特征,作者认为该特征本身在BCND中没有问题。如何处理与分析数据是大数据研究面临的挑战。本文不关注这些技术问题,因为作者认为,大数据和社会科学之间的整合与科技能力有关,这种认知是有问题的。当然,在BCND范围内,数据量确实比以前要大,但现有的工具和技术是可以对其进行管理的。然而,数据量改变了研究者与数据的关系,进而导致了一些与其他特征有关的(分析性)问题。
第一,BCND提供了多样化的信息。为了存储信息,研究人员使用了不同类型的结构化数据,这些数据通常缺乏通用的统一标识。虽然丰富性是这些数据的优点,但不同的数据源——甚至在不同时间点上的同一数据源——可能不会使用相同的规则来对数据进行收集和编码。此外,多样性意味着在不同的数据集或时间点上,数据之间的可比性和完整性可能会不一致。因此,除了解数据的生成过程之外,人们用来收集、整理和存储数据的机制也越来越重要。而且,掌握特殊信息的人并不总是愿意共享这些信息。所以,BCND的另一个关键挑战是评估数据的完整性。
第二,传统意义上,高速是指除了数据量大以外,数据流还可以持续不断地从各种资源处汇入。BCND源数据库几乎是持续更新的,因此随着时间的推移,数据的变化也很快。但这也意味着数据库的某些部分可能在更新,而另一部分不更新。在BCND的例子中,我们可以看到,国家越发达、越富裕,注册的公司越多,数据增长的速度越快。所以,在与其他国家进行比较时,可能会导致比较偏差。换言之,BCND的高速会导致准确性问题。
第三,准确性指向数据的质量往往模糊不清这一事实。这涉及数据的来源问题,包括数据收集的起点、创建和传输过程,以及数据扩展和优先顺序的一般逻辑。数据是通过多种方式收集的,通常情况下,正规的收集协议是不公开的,故而难以对其进行彻底审核。因此,这也导致了人们对其准确性和完整性的关注。
最后,多变性是指,使用者解释数据的方式可能会随着时间推移或根据研究问题发生改变。数据的使用要求我们了解数据是如何构成的。由于BCND的多变性,研究人员必须清楚其分析单位。虽然所有的研究都是如此,但作者认为,使用大数据,特别是BCND,由于数据收集不是针对研究问题量身定做的,故而出错的风险会增加。在实践中,我们经常看到研究人员设计的研究问题试图充分利用新数据源的潜力。这本身并不是问题,但意味着研究人员可能会倾向于使用数据结构中的单位或字段作为研究对象。因此,必须仔细考虑现有的BCND是否确实与适合的分析单位相对应。
表1:大数据的特征映射到企业网络分析中的问题
大型企业网络数据的诊断与修复
步骤1,确定分析单位:包括分析单位的问题;分析单位的诊断;分析单位问题的修正。
步骤2,检查实体歧义:包括实体歧义的问题是什么?实体歧义的诊断;实体歧义的处理。
步骤3,完整性:数据完整性问题;完整性诊断。
步骤4,准确性:数据准确性问题;准确性诊断;解决准确性问题。
(本部分原文篇幅较长,内容详尽,出于篇幅和阅读性考虑,推送中仅简要列出其结构)
结语
在本文中,针对大企业网络数据(BCND)的使用问题,作者进行了数据质量研究。他们提出了一个框架,该框架不仅可以作为研究人员的向导,而且在今后的数据质量和处理方法方面有指导意义。研究人员应确定数据是否符合分析单位;处理实体歧义、数据完整性和数据准确性;公布这些步骤及其诊断和修复方法。本文介绍了用于诊断BCND问题严重性的新工具和技术,以及处理这些问题的特定技术和修复方法。具体来说,在Figure 1的每个阶段中,作者都提供了一套用于识别、解决或最小化已知会出现的BCND问题的最佳方案。
大型企业网络数据的前景远远超出了一些描述性的贡献,如全球企业控制集中度的提高(Vitali et al. 2011);迄今为止无视董事会连锁网络的多级性质(Heemskerk et al. 2016);三大被动投资者在全球股市中前所未有的股东权力地位(Fichtner et al. 2017)。作者指出,未来研究的关键步骤应包括:利用先进的大数据建模框架,了解网络动态背后的驱动力,并最终准确描述出新模式的经济、政治和社会后果。然而如果不先解决BCND问题,就无法系统地做出这些贡献。