取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
从数据知情到数据驱动的决策|业务人员也要懂点数据分析
来源:数据驱动智能  作者: 晓晓 2024-08-20 10:46:30
那么数据科学家以及分析师和工程师如何利用他们的数据来支持决策呢?大多数数据到决策的流程都是从探索性数据分析开始的——清理和描述数据集的过程,主要使用统计分析和支持图表来展示许多特征之间的分布、异常值和相关性。

数据与决策

现代世界充斥着数据。经验数据,由机器人和人类抓取、收集和存储。人工数据,由科学家和工程师创建和运行的模型和模拟生成。甚至高管和主题专家的意见,记录下来以备日后使用,也是数据。

为了什么?我们为什么要花这么多时间和精力收集数据?数据革命的口号是数据驱动决策:我们可以利用这些数据做出更好的决策。对于企业来说,这可能意味着选择一组能够最大化未来收入的研发项目或营销推广。对于个人来说,这可能仅仅意味着对他们购买的下一辆汽车、手机或电脑的满意度增加。

那么数据科学家以及分析师和工程师如何利用他们的数据来支持决策呢?大多数数据到决策的流程都是从探索性数据分析开始的——清理和描述数据集的过程,主要使用统计分析和支持图表来展示许多特征之间的分布、异常值和相关性。探索性数据分析具有许多优点,可以加深对数据集的理解,进而加深对任何可能用它做出的决策的理解:

识别潜在错误或有缺陷的数据,以及纠正它们的方法

识别数据集中可能代表性不足或过度的子群体,以便进行数学调整或推动额外的数据收集

建立对可能发生的事情和常见事情的直觉

开始理解不同特征之间的潜在因果关系(但永远要注意相关性并不等于因果关系)

这是迈向决策的第一步!执行良好的探索性数据分析将产生可靠的数据集和一系列关于数据趋势的洞察,决策者可以使用这些洞察来指导他们的行动。稍微概括一下,趋势洞察涉及数据集中项目取特定值的频率:例如“这些东西通常是X”或“当这些东西是X时,其他东西通常是Y”。

不幸的是,许多现实世界的数据到决策流程都止步于此:将数据科学家使用探索性数据分析生成的一些趋势洞察抛给给业务决策者。然后,决策者负责将这些洞察推断出他们(可能有很多)不同行动方案的可能后果。说起来容易做起来难!这是一项具有挑战性的任务,无论是复杂性还是规模,尤其是对于非技术利益相关者而言。

\

数据科学家经常需要将趋势“抛给”做出商业决策的人,而无法了解这些决策是如何做出的,有时甚至不知道这些决策是什么!

如果我们想做出更好的决策,就需要打破数据与决策本身之间的隔阂。如果我们能够收集或生成与决策者可用的选择或行动方案直接对应的数据,我们就可以让他们免于根据趋势进行推断。根据所做决策的类型,这通常很简单:例如,购房者拥有一份其所在地区所有待售房屋的清单,或者工程公司拥有可以评估新组件的数千种潜在设计的模型。

创建以决策为中心的数据集需要的思维方式与传统探索性数据分析略有不同,结果更容易解释,因此更有可能充分支持决策。我们的探索不会止步于趋势,而是需要解决大海捞针的问题,找到集合中最好的单个数据点,以便从端到端完成数据到决策的流程。

从数据知情到数据驱动

在我们深入探讨权衡空间探索的细节之前,让我们先用一个示例决策来展开讨论。买车是许多人都熟悉的一个决策,它是一个很好的例子,原因如下:

.后果很严重,值得付出努力“改正”。汽车价格昂贵,理想情况下使用寿命长,大多数人每天都使用它们!任何买过次品的人都会告诉你,这是一个特别具有挑战性和令人沮丧的挫折。

.人们在比较汽车时会关心多种因素:价格、可靠性、安全性、操控性等。这不是您可以简单地选择马力最大的汽车并期望感到满意的问题。

.通常有很多选择。每个制造商的新车、来自停车场和在线市场的二手车,甚至摩托车等与汽车相邻的东西都可能是有效的解决方案。有很多潜在数据需要整理!

为了进一步简化这个例子,假设我们只想购买一辆二手车。

现在,让我们思考一下,针对这个问题的正常探索性数据分析工作可能是什么样子。首先,我会获得一个大型数据集,最常见的数据集是由经验观察组成:瓜子二手车的销售数据集就很好。像这样的平面数据文件,其中每个项目对应于由一组共享特征描述的汽车列表,是公开数据集的最常见格式。然后,我将开始总结、查找问题并清理数据以删除不完整/异常列表或定义不一致的列。数据清理完毕后,我将使用统计数据或图表分析数据集,以确定不同变量之间的相关性。

\

常见的探索性数据分析可视化是散点图矩阵,显示数据集中关键参数的成对关系。

现在再想想这个决定:我想买一辆二手车。探索性数据分析帮助了我吗?对于探索性数据分析粉丝和专家来说,好消息是:当然有帮助!我现在掌握了与我的决定高度相关的趋势见解。价格与车型年份显著相关,与里程表里程多少相关!大多数可用的汽车都有3-7年车龄!通过更好地了解二手车市场,我将更有信心地判断一辆车是否划算。

但是探索性数据分析是否找到了最适合我的汽车?答案是否定的!我实际上无法购买数据集中的汽车,因为它们是历史列表。如果其中有任何汽车仍然有效,我不知道是哪些,因为它们没有被标明。我没有实际可用的汽车数据,因此我仍然需要自己找到这些汽车——而且我的探索性数据分析只有在我发现的趋势可以帮助我在手动搜索其他数据集时找到好车时才有用。

\

当有关过去数据的趋势被“抛到”决策者面前,而决策者正在查看当前/未来的数据时,这些趋势就更难被用来做出正确的决策。

这就是所谓的数据和决策之间存在的隔阂,在实践中这种情况极为常见,因为绝大多数数据集都包含历史数据,但我们的决策是当前或面向未来的。尽管探索性数据分析可以将大量历史数据集处理成一组有用的见解,但见解和主动决策之间存在脱节,因为它们仅通过类比描述我的选择(即,如果我愿意假设当前的二手车市场与过去的市场相似)。也许将以这种方式做出的决策称为数据知情决策而不是数据驱动决策更好。真正的数据驱动决策将基于描述实际决策的数据集——在本例中,数据集由当前可用的汽车列表填充。

设置交易空间

交易空间探索,或者更具体地说多属性交易空间探索(MATE),是一个数据驱动的决策分析框架。它最初于2000年在麻省理工学院创建,经过数十年的改进和应用,至今仍未过时。MATE将以价值为中心的思维带入了大型数据集的世界,其明确目的是增加利用这些数据做出的决策所创造的价值。

MATE框架可帮助决策者和数据科学家/分析师批判性地思考如何定义和构建决策问题、如何进行数据收集,以及最终如何探索数据以产生实用、相关的见解并找到最佳解决方案。从高层次来看,MATE分为三个层次,分别对应于以下步骤:定义、生成和探索。

\

MATE的定义、生成、探索层将做出数据驱动决策所需的步骤划分为单独的任务,以全面描述问题、收集必要的数据,然后可视化/分析结果。

定义基本的MATE研究首先要从几个核心概念开始:

.利益相关者。谁做出决定或受其影响?为简单起见,我们假设我是购车的唯一利益相关者;但是,请记住,许多决策都有多个利益相关者,他们的需求和愿望可能截然不同,我们可以而且应该将他们全部考虑在内。

.替代方案。有哪些可能的解决方案,即有哪些可用的选择?在这个例子中,我已经将自己限制为购买二手车。我的替代方案是任何在我居住地附近合理距离内有售的二手车。重要的是,替代方案应该是唯一的:我可以用制造商、型号和年份等基本变量来定义我的选择,但如果有多个相同车型的列表,则还需要一个像VIN这样的唯一标识符。

.资源。利益相关者如何获得和使用替代方案,即需要花费多少钱?每辆车都有一次性购买价格。我还可以选择考虑以后产生的所有权成本,例如燃料和维护,但我们现在先忽略这些。

.好处。我们为什么想要一个替代方案,即利益相关者使用什么标准来判断替代方案有多“好”?也许我关心的是汽车可以搭载的乘客数量(为了实用性)、发动机气缸(为了乐趣)、里程表里程(为了耐用性)和安全等级(为了……安全)。

这个简单的大纲为我们指明了如何在生成步骤中收集数据。为了正确捕捉这一决定,我需要收集我在定义步骤中确定的所有替代变量、资源和收益的数据。如果数据不足,我的价值图景就会不完整——但我可以随时添加任何我认为有用的额外变量。

\

在尝试收集数据之前完成定义层有助于确保收集工作充分,并避免在不必要的参数上浪费时间。

想象一下,瓜子二手车汽车数据集确实包含一列,指示哪些列表仍可供购买,因此是我做决定的真正替代方案。我收集完数据了吗?没有——这个数据集包括我的替代变量(制造商、型号、年份、VIN)和我的资源(价格),但缺少我的两个优势:乘客人数和安全评级。我需要用其他数据补充这个数据集,否则我将无法准确判断我对每辆车的喜爱程度。这需要分析师做一些准备工作来获取新数据并将其与新列中的现有数据集正确匹配。

幸运的是,替代变量可以充当交叉引用不同数据集的“键”。例如,我需要为每个替代方案找到一个安全评级。安全评级通常针对汽车的品牌/型号/年份,因此我可以:

.查找有关安全评级的表格数据(由其他人编制),然后通过连接品牌/型号/年份等列的表格将其与我自己的数据相结合

.自行收集安全评级数据并将其直接插入我的表格中,例如通过搜索查找每个替代方案的品牌/型号/年份

我可能还想用其他替代方案补充瓜子二手车数据:毕竟,并非所有二手车都在瓜子二手车上出售。MATE的最佳做法是尽可能多地提供替代方案,以免预先限制决策。通过访问附近汽车经销商的网站并搜索他们的二手车库存,我可以将更多汽车作为附加行添加到我的数据集中。根据可用的汽车数量(以及我自己的动机),我甚至可以使用网络爬虫自动执行此过程,这通常是大规模执行数据收集的方式。但请记住:我仍然需要至少有数据集中每辆车的替代变量、资源和好处的数据。大多数经销商列表不会包含安全评级等详细信息,因此我需要以与以前相同的方式使用其他数据源来补充这些信息。

此时,我已经有了数据“大海捞针”,我几乎准备好启动探索层并寻找那根“针”。但我该怎么做?MATE与探索性数据分析有何不同?

什么才是好的解决方案?

现在我的数据集中已经填充了与实际决策相关的替代方案,我是否可以只对其进行探索性数据分析来解决问题并找到最佳汽车?嗯……既可以又不行。您可以也应该!对MATE数据集执行探索性数据分析—清除数据集中的潜在错误或异常仍然很重要,如果数据是通过网络抓取工具等自动化流程收集的,这一点尤其重要。建立对数据趋势的直觉的目标也没有什么不同:我们越了解不同标准之间的关系,我们最终的决策就越有信心。例如,我在几张图片之前展示的散点图矩阵也是MATE的常见可视化。

但即使拥有活跃汽车列表数据集和所有必要变量,探索性数据分析的基本相关性和分布分析也无法帮助提取单个高价值数据点。请记住:我们关心汽车的许多不同属性(多属性交易空间探索的多属性),因此我们不能简单地按价格排序并选择最便宜的汽车。仅凭探索性数据分析趋势洞察,我仍然需要手动检查许多潜在选择,直到找到具有理想功能、性能和价格组合的汽车。

我需要的是一种工具,可以将最好的汽车放在最前面。这种工具就是:价值建模。

从最基本的层面上讲,价值模型是一种数学函数,它试图复制利益相关者的偏好。我们将在定义层中确定的利益和/或资源输入其中,并得出一个价值分数,该分数表示每个替代方案的“好”程度。如果模型准确,我们的利益相关者将更喜欢得分较低的替代方案(汽车)。

\

价值模型的参数是为了模拟利益相关者的偏好而创建的,这样,如果传入汽车的收益/资源指标,模型就会返回一个分数,该分数可用于自动将其相对于其他汽车进行排名。

大多数数据科学家可能已经多次创建并使用了一个简单的价值模型(无论他们是否意识到这一点或用不同的名称称呼它),作为完成这项任务的一种手段:在数据集中创建一个新列,使用其他列的函数对行进行“评分”,以便可以对数据集进行排序并突出显示高分行。价值模型有很多种类型,每种都有自己的优点和缺点。更准确的价值模型通常更复杂,相应地需要更多精力来创建。

在这个例子中,我们将使用一个简化的效用函数来结合我从购买汽车中获得的四个好处。有一个正式的启发过程可以与利益相关者一起完成,以创建一个可验证的正确效用函数,但我们只需通过为每个属性分配一个阈值要求(最差可接受水平)、目标(最大价值水平,超过此点没有额外价值)和波动权重(重要性度量)来快速构建一个效用函数。还有其他方法可以自定义效用函数,包括非线性曲线和互补/替代效应,我们这次将跳过这些。

\

每个属性在需求和目标之间都有一条定义的效用曲线(在本例中为线性曲线),以及将单属性效用组合成多属性效用的摆动权重。背景中的条形图显示了该参数在数据集中的分布。

但是等一下:为什么我没有将价格纳入效用函数?技术上的答案是,大多数人在收益和资源之间表现出“不完全排序”——这是一种花哨的说法,即利益相关者通常无法明确说明他们是喜欢低成本低收益的替代方案还是高成本高收益的替代方案,因为两者都不是严格意义上优于另一个。顺便说一句,这也是为什么通过优化函数来“解决”决策非常困难的原因:在实践中,决策者通常喜欢看到一组从低成本低收益到高成本高收益的替代方案,并自己判断,这比将收益/成本结合到一个价值模型中更可靠。这个集合称为帕累托集(或以图形方式查看时为帕累托前沿),是交易空间中价值最高的区域。

\

交易空间的散点图,突出显示了帕累托前沿——最理想的替代方案通常位于前沿附近。请注意,左上角的收益率低于100%,因为数据集中并非所有汽车都符合我们的要求。

这就是“权衡空间”。散点图的y轴表示收益,x轴表示成本(每个散点图都可能是一个由多个属性组成的价值模型)。收益和成本之间的权衡是迄今为止最常见的现实世界中用通俗英语表达的决策框架,而MATE框架的存在是为了指导我们以数据为驱动的决策分析,将其纳入利益相关者和决策者所熟悉的这种结构中。这些点中的每一个都是我可以购买的汽车——一个我可以实际做出的选择,以及一种无需依赖过去趋势推断就能解决我的决策的方法。

现在只剩下探索层,我需要从那堆点中找到我最喜欢的针。

找到大海里的针

让我们使用程序对我的汽车数据集进行快速探索。首先,因为它们可能是我要购买的候选车型,所以我将用火焰突出显示帕累托集中的汽车-一个自定义标记,它出现在图的“顶部”,即使我更改图尺寸也会保留。我还对里程表里程与交易空间的价值维度之间的关系感到好奇,所以我将使用该参数为点着色。

\

交易空间按里程表里程数着色,帕累托集汽车以洋红色三角形标记。

我立刻想到了两个问题:

.辨别里程表里程的模式有点困难,因为17,000多辆汽车的交易空间非常密集,以至于点相互遮挡:一些点遮住了其他点。我可以看出,这些点通常沿着y轴向上从暗变亮,但如果我可以消除遮挡,我就可以更清楚地看到不同里程等级在我的收益/资源维度上的分布。

/我还看不出帕累托集中汽车的里程表里程数,因为它们是洋红色的。如果我仍能突出显示这些汽车,同时还能看到它们的里程颜色,那就太理想了。

为了解决这些问题,我将以两种方式修改我的情节:

.我将用凸包替换交易空间中的点——本质上将里程表的里程范围划分为更小的块,并在每个块中的所有汽车周围绘制一个“气泡”。

.我将保留我的帕累托集火焰,但对其进行更新,使三角形填充相应的里程表里程颜色。

通过这两个更改,我得到了以下结果:

\

交易空间以里程表里程的凸包表示,其中帕累托集中的个别汽车仍以火焰突出显示。看看这个!我可以看到里程表里程和效用之间的明确关系,这是有道理的,因为这是我在价值模型中使用的收益指标之一。此外,除了图右下角的几个卖家外,很明显里程数较高的汽车的最高要价较低——但也许更有趣的是,里程数似乎不会对最低要价产生很大影响。即使是低里程数的汽车也可以便宜买到!

但是让我们回到通过关注帕累托集来做出决定。我没有筛选数据集来删除高成本的汽车,因为正如我之前提到的,在开始探索层之前不减少替代方案的数量被认为是MATE的最佳实践。但实际上,我的购买预算为10,000美元,也许我想要在这个限制内最好的汽车——尤其是现在我知道我仍然能够找到在这个价格范围内里程数较低的汽车。我将添加我的预算要求并切换回散点图:

\

交易空间,以里程表里程数为颜色,x轴上的预算要求为10,000美元。请注意,由于预算原因,左上角的收益率进一步下降至约36%。

好的,现在我们看到的是一张放大版的经济型汽车图片。如果我只想购买最符合我预算的汽车,那么它就是最右上方的帕累托设定点。我可以用鼠标悬停来查看该汽车的详细信息:

\

将鼠标悬停在某个点上会显示详细信息的工具提示。一辆行驶里程为14,000英里、售价为9,000美元的2006款克莱斯勒300。还不错!但等等……它被漆成了白色。我忘了我讨厌白色汽车!MATE的探索层的一部分是完善利益相关者的偏好,这些偏好通常会在接触到新信息时发生变化:即我的数据驱动决策的数据。使用交互式工具的一个优点是,我可以轻松更新价值模型或过滤器以响应这些变化。我只需添加一个删除白色汽车的过滤器,保存一个新的帕累托集并:

\

再次过滤交易空间以移除白色汽车,并保存带有绿色方块的新帕累托集。

好了!现在我预算范围内最好的车是一辆银色的2009款大众途锐。与克莱斯勒相比,我少了一名乘客(6比5),这并不理想,但由于里程表明显较低(14,000比158),这辆车的实用性几乎一样高。它几乎是全新的,而且只需3500美元!

我们找到了:大海捞针。我们可以用数据驱动的证据来证明我们的决定是正确的!

\

我对它一见钟情——但我必须先从20,000辆其他汽车中发现它!

结论

本文展示了探索性数据分析和权衡空间探索如何相似/互补,但强调当最终目标是找到数据集中的“最佳”点时,数据收集和可视化方式的一些关键差异。权衡空间探索可以成为探索性数据分析的“一步之遥”,推动决策从数据知情转向真正的数据驱动。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧
关键词:   数据分析  数据驱动  MATE  王建峰 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。