取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
如何开展战略数据分析
来源:数据驱动智能  作者: 晓晓 2024-07-09 17:20:00
数据分析是什么?它的目的是什么?一般来说,分析是通过将一些复杂信息分解成更小、更简单的部分并首先理解这些部分来理解它们的过程。

在我从事数据工作的10年时间里,我注意到,为了进行数据分析,人们非常重视学习定量技术。我花了数千个小时完善从统计学到机器学习再到经济学等各个领域的知识。然而,我发现很少有人能指导我如何通过数据分析来回答业务问题的战略方法。我还遇到过许多初级分析师,他们经常把数据分析误认为是定量技术,而忽视了分析是一种强大的思维方式和一种很好的解决问题的工具这一事实——即数据分析不仅仅是其方法的产物。

在这个由多个部分组成的系列中,我希望编写一份数据分析入门指南,以提供使用分析来回答业务问题的结构化方法。在第1部分中,我将介绍数据分析及其可以帮助回答的四种类型的问题。这可以用作正确识别分析问题的指导。在以下文章中,我将提出一种回答每种类型问题的策略和一种选择正确技术的方法。

一、什么是数据分析

那么,数据分析是什么?它的目的是什么?一般来说,分析是通过将一些复杂信息分解成更小、更简单的部分并首先理解这些部分来理解它们的过程。这个过程用于帮助解决问题或回答问题。与一般情况一样,数据分析是通过尝试了解有关复杂数据的更易于管理的信息来理解复杂数据的过程。

分析师可以使用多种技术进行数据分析。例如,如果我们与医疗机构经理合作,他们要求我们描述典型患者,我们会使用统计方法(如取平均值或计算范围)来描述患者群体。因此,我们只需使用一些更简单的统计数据来总体描述诊所的所有患者。这个问题要求我们理解规模复杂的数据,我们可以通过了解一些不太复杂的数据来做到这一点。

数据分析是“通过分析数据来回答问题、提取见解和识别趋势的过程和实践”[1]。然而,尽管数据分析需要借鉴统计学、机器学习、数学和其他学科的技术,数据分析师并不是统计学家、数据科学家或数学家。虽然数据科学家应该非常了解他们正在研究的主题,但他们不必是该主题的专业专家。数据分析师的目标是足够熟悉各种技术,并成为正确应用这些技术的专家,以便产生见解和建议,并使业务合作伙伴能够做出更好的、基于数据的决策。但您不必成为数据分析师才能进行数据分析,任何熟悉定量技术和数据分析策略的人都可以使用它们来帮助做出基于数据的决策。

几乎所有需要数据分析的问题都属于四大类:描述性、诊断性、预测性和规范性。有些问题涉及已知值和变量(如描述性和诊断性问题);有些问题更多的是假设性的而非具体的(如诊断性和规定性问题)。回答这些问题需要批判性思维、创造性解决问题和逻辑推理。但是,如果我们能够对需要数据分析的问题进行分类,我们就可以根据其类别制定回答该问题的策略。因此,有必要熟悉问题的类型以及如何解决这些问题的策略。

本文的其余部分将介绍这四种问题类型,对其进行描述并提供示例以帮助我们识别每种类型。

描述性问题

描述性问题旨在获得对具体事物的理解。这可以包括对人口、不同变量之间的关系或各种趋势的描述。这些类型的问题通常最容易识别——它们通常指当前状态或过去,并且通常以“什么”或“是/做/做过”关键词开头。由于并非所有描述性问题都以这些关键词开头,因此识别描述性问题的另一种方法是检查问题关键词是否可以改写为以“什么”开头。这些问题的一些示例包括:

.我们今年第二季度的销售额是多少?

.自上个季度以来我们的收入有增加吗?

.今年我们的收入有什么变化?

.客户多久取消一次订阅?

.火车会晚点吗?

.我们的临床病人护理中是否存在性别偏见?

.来自哪个城市的游客倾向于在我们酒店停留更长时间?

.上个月气温有何变化?

.空气温度和海水温度有关系吗?

.我们雇用更多的呼叫中心代表后,等待时间有什么变化吗?

上述问题都涉及一些已知变量,可用于分析——诊所的性别记录、体温记录或年收入。如前所述,所有这些问题都可以重新表述为以“是什么”或“是”开头:“空气温度和海水温度相关吗?”与“空气和海水温度之间有关系吗?”是同一个问题,“客户取消订阅的频率是多少?”与“客户取消订阅的频率是多少?”是同一个问题。

诊断问题

诊断性问题旨在了解某事发生的原因或发生的方式,并尝试评估变量之间的依赖性。这些问题以“为什么”及其同义词关键词(“怎么会”、“什么原因”等)开头,并指已经发生或正在发生的事件。

诊断性问题的关键在于,它们要求分析师提出潜在原因并验证这些原因是否正确。这是非常直观的,也是大多数人试图诊断某件事的根本原因的方法。通常,所讨论的因变量已经发生变化,我们想知道原因。我们也可以将诊断性问题视为“因果”问题,其中“原因”未知。诊断性问题的一些示例如下:

.为什么某个客户群体比其他客户群体更愿意与我们互动?

.为什么本季度我们的销售额下降了?

.是什么原因造成热浪?

.为什么我们的客户取消了订阅?

.火车为什么晚点?

.为什么有些病人最终要进入ICU?

在诊断性问题中,未知因素是结果的原因。如果我们能够确定已知结果和未知原因,那么我们可能正在处理诊断性问题。

预测性问题

预测性问题旨在识别已知或未知变量中的未知值。我们想要预测的值可能与部分已知和完全未知的变量有关。例如,在预测未来销售额时,“销售额”变量是部分已知的(我们有当前或过去销售额的值);在客户细分中,“客户细分”是一个完全未知的变量,我们必须依靠其他特征或信息来推断新变量的值。

决策者经常会问一些预测性问题,以便做出战略性赌注和决策,或者评估他们对未来状态的准备程度。预测性问题通常用于寻找未知信息,但与描述性问题不同,答案总是不确定的。以下是一些预测性问题的示例:

.下个季度我们的销售额是多少?

.我们酒店预计未来90天内会接待多少位客人?

.我们的Instagram帖子会获得多少个赞?

.我们的客户在Yelp上给予我们五星评级的可能性有多大?

.今年冬天会下很多雪吗?

.我们如何根据家养植物的物理特性对其进行分组?

.座头鲸的数量未来将如何变化?

.火车还会继续晚点吗?

如上所述,预测性问题不仅仅是试图预见未来。它们处理的是部分或完全未知的事情。“我们如何根据植物的物理特征对家养植物进行分组?”这个问题与将来时态无关,而是想要解决家养植物的一个未知参数。“我们的Instagram帖子会获得多少个赞?”这个问题很可能与部分未知的变量有关:我们可能有关于我们其他Instagram帖子收到的点赞数量的信息,但这个特定帖子将收到的点赞数量是未知的。

规定性问题

规定性问题旨在预测在做出特定决策后会发生什么。从这个意义上讲,提出问题的决策者希望根据一组预测结果获得建议。一般来说,这些问题的表述方式有两种:“如果……会发生什么”或“应该怎么做才能……”。

规定性问题比预测性问题更进了一步,它评估当前情况的变化将如何导致特定结果,或者确定当前情况的最佳变化将导致最佳结果。就像回答预测性问题一样,我们的结果永远不会确定,并且会有一些不确定性。然而,答案可以帮助基于数据的决策,或者可以导致验证预测结果的研究。

一些规定性问题的例子包括:

.如果我们降低价格,销量会增加吗?

.如何最大限度提高员工的工作效率?

.我们如何才能减少碳排放?

.我们的商店每天应该营业多长时间?

.如果我们强制推行高等教育入学考试,毕业率会提高吗?

.如何减少病人在急诊室的等候时间?

.我们的产品价格应该是多少?

规定性问题可能会也可能不会暗示决策者计划采取的潜在行动。例如,“如果我们降低价格,销售额是否会增长?”包括我们将要分析的潜在行动:降低价格。但另一个问题,如“我们如何减少碳排放?”,不包括任何行动,而是要求列出最有可能减少碳排放的候选行动清单。这意味着我们必须在战略中采取额外步骤,以制定候选行动清单。

在第1部分中,我讨论了数据分析师试图回答的四种类型的问题以及识别每种问题类型的方法。如果你还记得的话,当我们提出描述性问题时,我们会试图了解某件事。这些问题通常以“是什么/是/做什么”开头,并且属于现在时或过去时。现在,让我们深入了解如何回答这些问题的策略。

二、回答描述性问题的策略

描述性问题往往是数据分析师最常遇到的问题,而这些问题的答案往往为后续问题奠定了基础。通常,经验丰富的分析师已经制定了一套策略(或至少是一些指导方针),用于回答描述性问题。更具体的策略因问题、行业、个人偏好和知识等而异。然而,任何策略的框架都应包括以下内容:

评估问题的目的

识别相关变量

定义问题的分析目标

这些步骤应该可以指导您选择最佳方法并提供最合适的答案。让我们深入了解一下。

\

图表由作者制作

步骤1:评估问题的目的

在应用任何技术来回答决策者提出的问题之前,我们必须首先了解提出这个问题的原因。这会极大地影响我们的策略和我们最终选择的方法。意图中的一些考虑因素包括:

.如何解释答案,

.我们的答案将为哪些决策提供参考,以及

.我们的受众的技术或统计素养

我最喜欢的一个关于意图意识的例子,泰勒认为分布的偏斜度不应构成选择平均值或中位数作为“平均值”指标的决定因素。相反,分析师应该关注决策者如何使用该指标进行推理。

问题的意图也可以引导我们选择正确的数据点。让我们看一个例子:“今年第二季度我们的销售额是多少?”我们的答案可以是总销售额(销售单位数乘以每单位价格)或净销售额(总销售额减去折扣和促销)的总和。在某些情况下,我们的决策者可能不知道这种差异,因此教育他们或明确如何使用这个值应该会告诉我们应该使用哪个值。

另一个考虑因素是受众,这也是意图的一部分。如果我们试图回答一个需要我们比较各组分布的问题,那么向不知道如何阅读箱线图的决策者展示箱线图等复杂的可视化效果可能并不明智。简单的统计数据可能是最佳选择,尤其是对于每天做出数百个决策且没有时间查看复杂图表的业务合作伙伴(例如高管)。另一方面,如果我们想向具有统计学知识的数据科学家展示信息,箱线图可能就是最佳选择。

第2步:确定相关变量

下一步是识别和明确我们想要以某种方式描述的问题中的变量,并确保这些变量具有代表性数据。

例如,“我们今年第二季度的销售额是多少?”,单个变量很明显——它是今年第二季度的销售额,我们可以轻松地从销售分类账中获取数据。

但是,如果问题缺乏明显的变量,则应重新表述问题,使其涉及清晰且可以用数据表示的变量。

例如,“我们的临床患者护理中是否存在性别偏见?”中的变量是“性别偏见”,但“性别偏见”本身不一定是一个数据点。然而,“两性结果差异”或“两性患者满意度”是“性别偏见”的潜在衡量指标。因此,我们可以将问题重新表述为“我们的临床患者护理中不同性别的患者结果是否存在差异?”

仔细查看问题的复杂性也很重要。有些问题可能包含几个名词,但要求我们找到一个特定的变量,我们应该将这个变量从问题中分离出来。

例如,“哪个城市的游客倾向于在我们酒店停留更长时间?”包括游客、城市和酒店,但我们要寻找的变量是游客的原籍城市。对于“在我们雇用更多呼叫中心代表后,等待时间是否有任何变化?”这个问题,两个变量是:1.时间序列(帮助我们推断变化前后的信息)和2.客户等待的时间。

步骤3:定义问题的分析目标

确定了问题中的变量后,我们现在可以对问题的目标进行分类。这可以通过将其改写为指令并对该指令进行分类来实现。确定目标可以帮助我们缩小一些适当的定量技术的范围,以便我们能够回答原始问题。

请记住:分析目标和问题的意图是不同的。问题的意图确定了决策者计划如何处理答案或他们计划如何解释分析结果。问题的分析目标决定了我们在确定变量后想要如何处理它们。

描述性问题可能寻求实现三种类型的目标,这些目标取决于我们之前确定的变量:

描述一个变量

如果问题的目标是描述一个变量,那么答案将要求我们找到描述主题的某个参数或一组参数。如果我们可以使用关键字“find”后跟问题的主题来重述我们的问题,那么问题的目标就是描述变量。

例如:“我们今年第二季度的销售额是多少?”的目标是获得一个代表所有销售额的值;因此,它要求我们找到销售额的总和。作为指示,我们可以将问题重述为“找到今年第二季度的销售额总和”。

可用于回答这些问题的大多数技术包括计算描述性统计数据(如总和、平均值、众数、范围等)或可视化工具(如直方图或核密度估计图)。但是,根据问题的性质,还存在更高级的技术。

比较组或变量

如果问题的目标是比较变量内的组或比较不同的变量,那么我们的问题可以使用“比较”关键字重新表述。这些问题还可以包括时间比较,这可能需要我们从时间序列中创建一个变量作为时间类别(例如用“之前/之后”、小时、月等表示的时间组)。

在“我们的临床患者护理中存在性别偏见吗?”这个例子中,问题旨在比较不同性别组之间的患者护理,也可以重新表述为指令:“比较所有性别的临床患者护理”。

有许多技术可以帮助比较组或变量。条形图或饼图等可视化工具可以帮助比较组,直方图和密度图可以帮助比较两个变量之间的值分布,折线图可以帮助比较时间上的值,散点图可以帮助比较单个点。可以采用描述性统计数据和统计比较检验(如t检验或方差分析)来比较两个或多个分布。

识别趋势或关系

如果问题的目标是识别一系列变量(如时间)中的模式或两个或多个变量之间的模式,那么我们可以使用关键字“识别联系/相关性”将描述性问题改写为指令。重要的是要注意,关系并不意味着因果关系,而只是试图建立变量之间的联系;因果关系在诊断问题中得到解决。

例如:“今年我们的收入如何变化?”旨在识别收入随时间的变化趋势。我们可以将其改写为指令:“识别收入和时间之间的联系。”

问题“气温和海水温度是否相关”旨在找出这两种温度之间的关系。我们可以将其改写为“识别气温和海水温度之间的相关性”。

为了识别变量之间的关系,散点图、气泡图和热图可以在视觉上提供帮助,而像Pearson或Spearman相关性这样的统计方法可以帮助识别变量是否存在关联。使用折线图和ARIMA等统计方法可以最好地直观地识别时间/序列中的趋势。

案例研究

让我们看一下第一部分中的一个问题:“火车会晚点吗?”为了找到正确有效的技巧来回答这个问题,让我们遵循上面概述的策略步骤。

评估意图:假设这个问题来自火车运营公司的副总裁。通过与她的交谈,我们发现副总裁想知道如果火车确实晚点,是否应该采取任何行动来调解当前的火车时刻表。如果火车实际上没有晚点,她还希望将晚点设为KPI指标并继续监控。此外,副总裁告诉我们,如果大多数火车晚点超过一分钟,她就认为“火车晚点”。

确定变量:“火车是否晚点”这个问题中感兴趣的身份是火车晚点,但哪个或哪些变量可以代表这个身份呢?通过对问题和意图的分析,我们可以确定变量选择的几个选项:

两个变量:火车预计到达时间和火车实际到达时间

一个变量:列车实际到达时间与预计到达时间之差

一个变量:如果列车实际到达时间和预计到达时间相差大于1分钟,则将二进制标志设置为1

我们的变量选择应该取决于问题的意图,并且肯定会影响我们如何确定问题的目标。从意图来看,我们知道如果大多数火车晚点,VP就会认为火车晚点。所以实际上——我们只需要一个二进制标志来识别每列火车是否确实晚点。这是我们可以提供的最简单的信息,它将帮助我们了解火车的总体晚点情况,并帮助我们的决策者确定下一步行动。

定义分析目标:既然我们已经确定了意图和相关变量,我们现在可以定义分析目标并选择一种技术。由于我们使用的是单个变量,即二进制“晚点列车”标志,我们知道问题的目标是描述该变量。问题的目的是确定大多数列车是否晚点。因此,我们可以选择的技术之一是计算所有晚点列车的百分比,以确定其中是否有50%以上的列车晚点。我们可以将最终信息传达给我们的副总裁,以便她决定下一步该怎么做。

如果问题的意图或受众不同,这种策略将有很大不同。如果我们的决策者想要了解火车晚点的分布,我们应该选择火车实际到达时间和预计到达时间之间的差异,并选择直方图等视觉技术来传达火车晚点的分布。

\

最后几点说明

欢迎您以适合方式使用上述策略,但以下是一些使其为您服务的提示:

保持事情简单,并根据需要增加复杂性。

战略过程应该直观地进行,但写下意图、变量和目标永远不是一个坏主意,这样你就能清楚地了解任务或在方法上养成纪律。

保持灵活性—您的策略可能会随着时间的推移而改变甚至演变。本文档是一个很好的开始,但不要让它限制您的创造力和思维。

别忘了分析!有些问题不像其他问题那么直观,需要我们思考和分析才能理解并找到最佳答案。

二、回答诊断性问题的策略

对于任何数据分析师来说,回答“为什么”的问题都是困难的。缺乏专业知识、缺乏技术储备和缺乏战略方法,都可能对帮助决策者找到正确答案产生不利影响。然而,只要有坚实的基础和方向,任何人都可以轻松解决这些诊断问题。

诊断性问题经常跟在描述性问题的答案之后。在提出诊断性问题时,决策者的目的是了解某些信息是如何产生的,或者是什么导致了某件事的发生。因此,当我们思考诊断性问题时,我们经常会想到因果推理。因此,熟悉因果推理的一般原则是有益的。

以下介绍:

.因果推理简介

.回答诊断问题的策略

.案例研究

.最后几点说明

因果推理简介

因果推理旨在揭示干预措施(或现状变化)如何影响结果。在因果推理中,我们假设当对某个单位实施某种干预措施(称为“治疗”)并导致该单位结果发生变化时,就会发生因果关系。如果我们比较有无治疗的单位结果,我们将能够观察到治疗的效果(即因果关系)。

例如,如果我们想知道在挂牌出售房屋之前粉刷外墙是否会使其更快出售,最理想的情况是需要我们同时比较粉刷和不粉刷房屋的销售时间。在这里,房子是我们的单位,粉刷外墙是我们的处理,销售时间是我们的结果。然而,不可能同时粉刷和不粉刷同一所房子。因此,“我们永远无法观察经过处理和未经处理的同一单位”[1]。

这就是因果推断的用武之地。我们不必直接衡量治疗对特定单位的影响,而是可以衡量关联和偏差。关联是所有接受治疗的单位和所有未接受治疗的单位之间的平均结果差异。偏差通过捕捉导致结果不同的所有因素来区分关联和因果关系。

在我们的房屋销售示例中,我们可以比较所有粉刷过的房屋和所有未粉刷过的房屋,并记录它们的销售时间。两组房屋的销售时间差异称为“关联”。如果没有偏见,我们可以确定在出售前粉刷房屋会导致房屋出售得更快。

然而,大多数决定在出售前粉刷房屋的原房主也可能负担得起,因为他们住在一个更好的社区;而更好社区的房子往往卖得更快。因此,偏见可能是房屋卖得更快不仅是因为新刷了一层油漆,还因为它们位于一个更好的社区。如果我们能消除这种偏见(以及其他偏见),我们就能确定在出售前粉刷房屋是否会导致房屋卖得更快。

这就是因果推理的要点。如果想深入了解,我强烈推荐MatheusFacureAlves的一本书:《勇敢而真诚的因果推理》,这本书非常详细地介绍了这个主题。因果推理的基础构成了回答诊断问题的策略,所以让我们更详细地探讨一下。

回答诊断问题的策略

诊断性问题之所以难以回答,是因为它们需要对主题有相当的了解。揭示某事发生或正在发生的原因的一般策略需要了解所有可能的原因和偏见,然后采用严格的技术方法来评估其影响。了解所有可能的原因需要花费精力和时间来调查。因此,回答诊断性问题所花费的大部分时间都花在了研究上。不幸的是,研究有时会让分析师陷入各种困境和死胡同。采用战略方法和严谨性可以帮助完成这一过程。

一般来说,回答诊断问题的方法包括:

确定结果

识别可能的原因和潜在的偏见

评估因果关系

在开始之前,需要注意的是,在几乎所有情况下,我们可能无法确定某件事的确切根本原因。相反,我们可以确定最有可能的影响因素,并评估其影响的可能性。

不仅要理解这一点,还要制定沟通策略,让决策者在我们承诺回答他们的诊断问题之前就意识到这一警告,这一点很重要。在寻找诊断问题的答案时,决策者承担着风险。答案越不确定,风险就越大。因此,决策者必须知道,在根据提供的答案做出决策时,必须权衡这一风险。下面,让我们详细看看这个策略。

第一步:确定结果

问题中的结果是受某些潜在原因影响的因变量。一般来说,诊断问题应该只有一个因变量。确定结果很重要,以便明确定义结果并验证结果是否可以衡量。如果问题有多个因变量,则应将问题分解为单独的问题。

例如,在第一部分的问题“是什么导致了热浪”中,结果是热浪,可以定义为温度突然急剧上升。在问题“为什么我们的客户取消订阅”中,我们要调查的结果是取消订阅。如果我们被问到“为什么房价上涨而租金下降”这样的问题,我们应该回答两个独立的诊断问题:“为什么房价上涨”和“为什么租金下降”。

第2步:确定可能的原因和潜在偏见

一旦我们确定了问题结果,我们就必须列出所有可能解释该结果并帮助我们回答“为什么”的事情。一般来说,这个过程可以分为三部分:原因、偏见和因果关系机制。应构建图形因果模型来协助识别过程。

\

可以通过研究、专业知识、访谈和联想来确定潜在原因。如果没有适当的专业知识或接触专家,这一点很难实现。因此,有必要收集尽可能多的有关该主题的知识(查看我的文章“首先我们必须发现。然后,我们可以探索”,了解有关为什么积累知识很重要的更多详细信息)。

列出潜在原因时,头脑风暴是一个很好的工具。头脑风暴的一种新方法是重复这一过程:首先:列出尽可能多的原因,而不判断其有效性;其次:仔细检查列表,确保列出的原因是合理且合乎逻辑的。

例如,为了回答第1部分的问题:“为什么我们的客户取消订阅”,我们可以首先进行研究,了解流失的客户是否报告了取消订阅的原因。我们可以采访我们的客户成功团队,了解他们经常收到哪些客户投诉。然后,我们可以通过与决策者的头脑风暴会议找出任何其他原因。

潜在偏见可能比潜在原因更难发现,但会对答案产生重大影响。与原因一样,偏见可以通过建立主题专业知识来确定。然而,与主要需要知识的潜在原因不同,偏见识别通常需要创造性和建设性的思考。

一个好的起点是熟悉数据分析中出现的常见偏见类型,并推断它们是否出现在您的用例中。一些常见的偏见类型包括确认偏差、选择偏差、历史偏差、幸存者偏差、可用性偏差和异常偏差。

幸存者偏差的一个非常突出的例子涉及亚伯拉罕·沃尔德在二战期间所做的工作。作为哥伦比亚大学统计研究小组的一员,沃尔德和他的团队的任务是优化战机应携带的防护罩数量:如果飞机携带的防护罩太多——它们会因为重量而无法飞行;如果飞机携带的防护罩太少——它们将得不到保护。在分析了安全返回但有弹孔的飞机后,亚伯拉罕·沃尔德建议应该在飞机上没有弹孔的地方增加防护罩(而不是屏蔽弹孔的位置)。为什么?由于分析只包括幸存的飞机,因此很可能没有幸存的飞机在某些关键区域有弹孔。如果这些关键区域有隐藏物,它们就无法返回,因此在关键区域之上放置防护罩是有意义的。

\

因果关系机制决定了潜在原因如何影响结果。如果没有因果关系机制,就很难区分原因和巧合。这在选择推断因果关系的模型时起着重要作用。

一个很好的巧合例子是离婚率与人造黄油消费量之间的相关性。这两种趋势可能是平行的,但没有可靠的机制可以解释为什么一个趋势会导致另一个趋势。因此,我们不能认为离婚率的上升会导致人造黄油消费量的上升,反之亦然。

应开发图形因果模型来帮助识别原因和偏见以及构成因果关系的机制。本质上,这些模型是包含所有原因和结果的有向图。开发图形模型来理解因果关系也有助于增加我们对该主题的理解,并可用于帮助我们与决策者的沟通。

例如,图形因果模型可以帮助我们发现混杂偏差。我们来自原因和偏差的变量不一定只影响结果——它们实际上可以相互影响。如果某个变量影响我们的潜在原因和结果,那么我们就是在处理混杂偏差。为了解决这个问题,我们应该控制所有常见的潜在原因。

假设我们正在调查在挂牌出售房屋之前粉刷房屋是否会影响出售时间。我们可以假设收入增加可能会影响房主是否决定在出售之前粉刷房屋。但是,我们可以认识到,收入增加意味着房主还可以获得可以缩短出售时间的资源。这是混杂偏差的一个例子,我们应该在最终模型中控制收入。

\

步骤3:评估因果关系

现在我们有了结果、原因和偏见,以及构成依赖关系的机制,我们可以评估因果关系了。最后一步需要我们验证我们假设的想法是否可行。根据情况和我们可用的资源,我们可以通过两种方式实现这一点:1.通过进行随机实验并比较结果或2.通过使用历史数据来衡量因果关系,开发统计模型。

进行包含治疗组和对照组的随机实验可以帮助我们减少偏差,确保实验中的两个(或更多)组具有相似的总体代表性。如果各组的构成相似,且样本量足够,我们应该能够比较各组之间的结果,并确定结果差异是否显著。

在我们的房屋销售示例中,我们可以抽样两组房屋卖家(确保两组均能代表房主群体)。我们可以要求其中一组在挂牌出售房屋之前粉刷房屋,也可以要求另一组保持外墙油漆原样。然后,我们将比较两组之间的销售时间分布。使用统计测试,我们可以查看销售时间指标是否存在显著差异。

实际上,由于多种原因,这一点很难实现,其中包括让自愿的房主参与我们的实验、确保实验资金充足以及确保我们的样本是随机的并且代表了卖房人群。但是,如果我们无法进行这样的实验,我们仍然有其他选择。

使用历史数据建立统计模型可以帮助我们控制混杂原因和偏见,并估计直接原因对结果的影响。使用回归之类的技术,我们可以为每个原因和广义偏差指标分配权重。我们可以通过使用历史可用数据训练模型来估计模型的参数(模型中的权重)。最终结果应该有助于我们了解变量对最终结果的因果影响。“即使我们不能使用随机对照试验来保持治疗和未治疗之间的其他因素相等,回归也可以通过将相同的因素纳入模型来做到这一点,即使数据不是随机的!”

然而,无论我们选择哪种技术来衡量因果关系,重要的是要注意我们的模型无法确定因果关系。我们可以将数百个特征纳入回归模型,但仅仅因为它们被纳入并且仅仅因为它们具有一定的权重,并不能保证它们是结果的原因。因此,在图形因果模型中捕捉因果关系的可能机制很重要,这样我们就可以避免包含不相关的特征并确保获得足够的结果。

案例研究

让我们继续第2部分的案例研究,我在其中制定了回答有关火车晚点的描述性问题的策略。假设我们的决策者现在想知道“火车为什么晚点?”按照本文概述的步骤,我们可以制定以下策略来回答这个问题:

确定结果。“火车为什么晚点”这个问题的结果是火车晚点(我们将其定义为“如果火车实际到达时间和预计到达时间之间的差异大于1分钟,则将二进制标志设置为1”)。

找出潜在原因和偏见。

为了找出潜在原因,我们可以与决策者安排一些访谈和头脑风暴会议,我们可以在站台上观察火车并乘坐火车,我们可以与列车乘务员和乘客交谈。潜在原因的例子包括站台卸货和装货时间延迟、轨道施工、缺乏专用轨道导致列车会车和通过延误、危险(如树叶、冰雪)、列车年龄和列车技术问题。对于每个原因,我们还应该确定原因对结果产生影响的机制。

为了识别潜在的偏见,我们可以熟悉偏见的类型,并评估其中是否有任何一种适用于我们的用例。例如,选择偏见不一定会给我们带来问题,因为我们可以在研究中包括所有列车,而不是选定的列车子集。另一方面,我们可能存在幸存者偏见的情况,因为一些列车机械问题可能导致列车永远无法到达,因此它将被排除在晚点列车数据集之外。

为了确定潜在的因果关系机制,我们应该确定每个潜在原因如何影响或影响结果。例如,危险(如树叶或雪)可能会导致火车晚点,因为危险会使火车减速。我们可以假设火车年龄会影响火车晚点,因为较旧的火车速度较慢。但这是真的吗?收集相关数据并进行探索性数据分析可以帮助我们验证这种因果关系机制是否合理。

我们可以整合一个图形因果模型,以评估我们提出的原因和与结果相关的偏见,并概述每个原因的潜在机制。此时,我们还可以进行一些更具探索性的数据分析,以发现原因之间的隐藏关联,并选择最终的潜在原因以纳入我们的模型。例如,如果我们发现出现技术问题的列车大多是较旧的列车,我们不需要将列车年龄作为模型参数,因为它已经通过技术问题参数暗示出来了。

\

评估因果关系。最后,我们准备评估因果关系。不幸的是,对于我们的情况来说,进行一系列实验来测试每个潜在原因既困难又昂贵。但是,由于我们有火车时刻表、火车问题以及天气和轨道状况的详细记录,我们应该致力于构建一个回归模型来验证可能的原因。在我们的案例中,我们可以使用可能的原因构建一个逻辑回归模型,以预测火车是否确实晚点。在训练模型后,与我们的模型参数相关的权重应该表明每个原因对结果的影响。

在选出权重非零的原因后,我们可以向决策者展示我们的调查结果,并回答他们最初的问题:“火车为什么晚点?”

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧
关键词: 数据分析  王建峰 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。