在学校学习数据分析时,你并没有听到太多关于资源——时间、金钱和技术——在分析发展中的作用。在与高级教师或导师交谈时,这种对话通常"在走廊里"。但是,可用资源在确定对给定问题和数据集可以做些什么方面确实发挥着重要作用。人们很容易认为情况是二元的——要么你有足够的资源进行"正确的"分析,要么你根本不做分析。但在现实世界中,这两个终点之间有相当多的灰色阴影。在数据分析中,有许多情况下,最佳方法不可行,但进行某种分析仍然很重要。因此,数据分析员掌握的一个关键技能是能够调和相互矛盾的想法,同时仍然产生有用的东西。
所有分析都必须处理对时间和技术的限制,这往往决定了可以做些什么的计划。例如,所使用的统计模型的复杂性可能受到分析员可用的计算能力、购买更多计算能力的能力以及运行复杂的马尔科夫链蒙特卡洛模拟的时间的限制。明天需要的分析将不同于下周需要的分析。然而,两者之间唯一不同的是有时间做这项工作。
时间、资金和技术等关键资源对数据分析最终完成方式有不同的影响:
时间。时间通常是最大的限制因素,显然与金钱有关。然而,即使资金充裕,如果没有钱,它也不能买更多的时间。复杂的分析通常涉及许多单独的部分,复杂的数据必须经过验证、检查和审问,才能对结果充满信心。所有这些都需要时间,而时间的减少导致做这些事情的减少。同样,如果一个人不能将其全部纳入他们的日程安排,则某些分析可能需要多人的时间。如果目前没有多个人员,这将更改所完成的分析的性质。
技术。我广泛使用"技术"一词来指计算资源和统计"资源"。有些模型可能比其他模型更优化,但数据集的特性(如其大小)可能会阻止它们被应用。更好的分析可以用更多的计算能力来完成,但是对可用计算能力的限制将决定哪些模型适合,以及完成了多少额外的工作。技术限制也可能与接受分析的受众有关。根据受众的复杂程度,可以调整用于分析的技术。
近似
也许统计人员在工具箱中用于处理资源限制的最古老的工具是近似。通常,写下问题的确切或理想解决方案是很简单的,但计算负担使得计算该解决方案变得困难。例如,许多 Bayesian 计算需要计算复杂的高维积分,这些积分在数字计算机发明之前是不可能的。对于复杂的非线性解决方案,经典的技巧是使用线性近似,并可能将其与关于无同位素常态的假设相结合。
在大多数计算难以处理的情况下,统计人员要么采用(无同化)近似,用(有时是可疑的)假设来代替困难的计算,要么选择不同的方法。一个关键点是,现实世界资源限制的严酷现实迫使采用不同的方法分析数据。虽然使用次优方法可能不满意,但根本不分析数据可能同样令人不满意。
随着上个世纪计算能力的增长,我们一直在慢慢用计算取代那些旧的假设。如果我们能用强大的计算机计算一个限制较少的解决方案,就没有必要使用无节制的常态。这方面的一个简单的例子是双样本排列测试,它与标准 t 测试一样强大,但没有任何分布假设。当然,问题在于,这些旧假设很难消亡,即使在今天,当一个公式就在眼前时,编写一个解决方案的编码也非常麻烦。
更便宜的分层建模
我自己工作的一个例子涉及空气污染和健康时间系列数据的分层建模。在21世纪初,我们正在研究美国死亡率和空气污染的国家数据。我们每天有关于美国100个主要城市的死亡率和污染(以及许多其他共伐物)的数据,时间跨度约为14年。为了有效地利用这一庞大的数据集,目标是采用分层模型来估计空气污染和死亡率之间的"全国性"关联,以及借用跨城市力量的城市特定估计值。这是一种熟悉的方法,在较小的数据集中效果很好。"正确"的方法是,对每个城市使用Posson可能性(模拟死亡率计数数据),然后对拦截和空气污染斜坡产生正常的随机效应。
但在当时,我们没有一台计算机可以实际计算模型的估计值(或者在我们的情况下,后分布)。因此,"正确"模型不是一个选项。我们最终所做的是使用一个正常近似的泊松可能性,我们拥有相当大的样本,这允许一个正常-正常两阶段模型,可以计算,而不必加载所有数据到内存(在最简单的情况下,它可以做封闭的形式)。时至今天,这是模拟空气污染和健康的多站点时间系列数据的标准方法,因为它快速、便宜、易于理解。
信用
归根结底,这些资源限制会影响分析的可信度。在值得信赖的分析中,分析结果往往得到许多事实和细节的支持,而这些事实和细节并没有被提出来。这些其他分析已经完成,但分析师已经决定(可能基于对数据的某种叙述),它们没有达到陈述的阈值。也就是说,如果有人要求这些细节,他们是现成的。有了更大的资源,所有可以做的事情的总和都更大,因此,我们希望,剩下的事情是正交的,以什么做了。
然而,由于资源较少,至少有两个后果。首先,使用数据可以做的事情可能更少。减少对数据的检查、对模型假设的检查、收敛检查、模型验证等。这增加了撤消物的数量,并使得它们更有可能对最终(呈现)结果产生影响。其次,某些类型的分析可能需要比现有时间或计算能力更大的时间或计算能力。为了提出任何分析,我们可能需要采用近似或"更便宜"的方法。这些方法不一定不正确,但它们可能会产生更嘈杂或不理想的结果。也就是说,参与分析的所有其他各方,如受众或赞助人,可能更喜欢做任何分析,无论其最佳性如何,而不是没有分析。有时问题本身仍然是模糊的或有点粗糙,所以没关系,如果它的分析是同样"快速和肮脏"。然而,鉴于现有资源,分析师必须划清合理分析与不合理分析之间的界限。
虽然资源限制会损害分析的可信度,但有时使用近似值来处理资源限制会产生好处。在上述有关空气污染和死亡率建模的示例中,我们使用的近似值使模型非常快速地与数据相适应。在这种情况下,计算成本低的好处使分析员能够循环使用许多不同的模型,以检查发现对各种混淆因素的稳健性,并进行重要的敏感性分析。如果每个模型需要数天时间计算,您可能只是满足于一个模型适合。换句话说,资源约束可能会产生一种分析,虽然这种分析近似,但实际上比最佳分析更值得信赖。
分析师的工作
数据分析员的工作是管理可供分析的资源,并根据现有限制提供最佳分析。资源的可用性可能不仅仅取决于分析师,但工作是确认可用资源,确定资源是否足以完成合理的分析,如果没有,则向能够提供资源的人提出更多要求。由于对可用资源与所需资源的理解不匹配,许多数据分析误入歧途。
优秀的数据分析员可以最大限度地减少严重不匹配的可能性,并会持续评估未来分析的资源需求。如果预期结果与分析现实之间似乎存在很大差异,则分析人员必须与相关其他人(赞助人或主题专家)沟通,以获取更多资源或修改数据分析计划。谈判额外的资源或修改后的分析计划要求分析师与有关各方保持良好关系。