视野

数据沉迷的结果：恢复数据策略活力的原则

Published: December 13, 2018

关于数据之于企业的意义有大量的比喻。我们都听说数据是新石油，甚至可能是新货币或竞争优势。那么，你是否还听过新企业超级力量,或者资本主义命脉这样的比喻呢？

各种比喻也许有所不同，但其含义相同。数据是有价值的，数据是必不可少的，数据是个好东西。没能以令人惊叹的方式收集和使用数据的企业注定会落后，甚至可能会被淘汰。

这引起了许多企业的恐慌。企业彻夜难眠（或者说，如果企业需要睡觉的话，它们也许会彻夜难眠），苦苦思索：我的数据是否算是“大”数据？我做得对吗？我应该如何存储数据，谁可以访问数据，我应该让谁来管理数据？我需要多少数据科学家或人工智能解决方案？

对数据的兴趣骤增（请见下图）引起的自然反应是试图捕获任何一丁点的数据。于是乎，我们进入了数据沉迷时代。多即是多。数据规模越大越好。拥有基于数据的商业模式的企业（如亚马逊、优步、爱彼迎等）呈指数式增长（并且估值惊人），这些进一步助推了数据热潮。

对数据的搜索兴趣随时间推移的变化

来源: Google Trends

我们都听过成功的故事。自 2009 年投入使用大数据驱动的推荐引擎以来，网飞在客户留存方面已经估计节省了 10 亿美元。即使动作迟缓的 UPS 也通过采用数据分析加强了物流网络，计划每年节省 3 亿美元。普华永道研究发现，超过一半 (54%) 的企业高管认为采用人工智能解决方案提高了生产率。

然而，数据倡议并不总能奏效，即便许多人持相反观点。一些企业投入了大量资源收集和存储数据，进行分析，建设庞大的数据湖，但并未带来多大变化。据估计，85% 的大数据项目以失败告终。组织发现自己拥有丰富的数据，但能获得的见解却寥寥无几。

为什么会这样呢？部分原因是因为数据热潮创造了需要打破的神话。谷歌搜索数据显示，对“大数据”一词的兴趣略有降低，而对“数据科学家”和“人工智能”的兴趣反而持续增加。这表明企业正在寻找理解这股数据热潮的方法。毫无疑问，大多组织都需要制定数据战略，但数据战略现在比以往任何时候都更应该以紧贴现实的原则为基础。我们向 Thoughtworks 内外部的领先数据科学家询问了具体的原则。我们利用这些专家的见解提出问题，帮助组织评估他们是已经走上正轨还是仍处于数据幻想的阶段。

原则 1：数据需要与业务目的直接相关

Thoughtworks 全球人工智能负责人 Christoph Windheuser 博士说：“永远不要做纯粹的基础设施项目，这种项目无法立即创造商业价值，几乎注定会失败。在启动数据项目之前，企业领导者应该问自己的最重要的问题是‘我这么做的目的是什么？’‘我会为我的公司创造什么价值？’”

企业应该将数据和业务价值网格化，这一点似乎是显而易见的。但是在组织如此热衷于“跟上潮流”的同时，他们忘记了询问最重要的问题——为什么要这么做？所有认为数据是新黄金或新石油的言论可能都无济于事。重要的是要区分数据（数值或参数的集合）和信息（解决不确定性或对接收者有用的数值，也就是数据“噪声”的“信号”）。

Dr. Christoph Windheuser, Global Head of Artificial Intelligence at Thoughtworks

“永远不要做纯粹的基础设施项目，这种项目无法立即创造商业价值，几乎注定会失败。”

Thoughtworks 全球人工智能负责人 Christoph Windheuser 博士

最好的信息会产出见解，教授数据接受者新事物，并能作为行动的基础。但是，鉴于企业通常会由于最普通的日常操作而产生和存储数据雪崩，因此企业需要知道在哪里找到数据，哪些数据需要优先排序、收集和处理，才能找到/生成信息。如果不能充分了解企业需要回答的问题，或者企业正在努力解决的问题，就无法做到这一点。

将数据项目与具体业务目标联系起来是有必要的，这也是企业高层领导者需要在项目之初就参与进来的显而易见的原因，同时也意味着数据项目绝不应该是严格的“技术”项目。

如果我们认同最初的驱动因素必须是业务结果这个前提条件的话，那么你必须有企业主愿意来建立一支队伍，这支队伍既可以洞察你正在解决的问题，也可以开始在实际利用数据进行决策方面影响其他决策者。这是一个组织和商业问题，而非技术问题。

Dr. Rebecca Parsons

Thoughtworks 首席技术官

原则 2：越多并不总是越好（或者，初创企业可以教你一点东西）

如果数据真的越大越好，许多成熟企业将占有优势，因为这些企业拥有的历史数据通常比初创企业更多。大企业的确在数量上表现突出，但这往往是以牺牲清晰度为代价的。正如 Kroger 旗下公司 84.51° 的产品高级副总裁 Rachael Hadaway 在 Thoughtworks 的执行活动“ParadigmShift”上指出的那样，“拥有大量数据不是资产，是负债。大量数据导致效率低下且成本高昂。清楚如何处理数据才是资产。”

Parsons 说：“大多数企业拥有更多的可用数据，仅仅是因为企业本身成立的时间有那么长。但这些数据都被锁在不完全集成的系统里，特别是在发生各种并购活动的情况下，你有不同组织机构提供的数据必须进行核对，因此从实施角度来看，你必须处理的问题属于完全不同的范围。”

同样，成熟企业中可能会有人来推广新的数据处理方法，但独立咨询师 Mark Brand 认为这类人往往会被忽视。他说：“[他们] 淹没在大量其他一般性角色和不重视数据驱动决策的人当中。因此，这类人永远无法突出重围，取得成功。”

相比之下，渴望取得成果的年轻初创企业可以在文化中嵌入数据，采用更灵活的架构，取得飞速进展。Brand 指出，初创企业中几乎所有人都“用指标和数据来表达观点，编写自己的算法或规则，再要求技术人员部署这些算法或规则。即使是负责品牌建设等工作的人也要基于数据做决策。他们总是在收集数据，以数据谈论企业成果。这才是数据驱动的业务——不一定非要使用人工智能或拥有尖端产品。”

传统企业背后的技术与数据驱动业务

Windheuser 表示赞同，他说：“成功数据驱动初创企业的真正共同点在于数据驱动心态贯穿了整个组织。这类企业的流程设计本身就是数据驱动的。数据治理是企业文化的一部分，而非必须通过繁琐的流程来研究或定义的东西。所有 IT 系统和架构都以数据自由流通为主要诉求。但在传统大企业中，情况并非如此。传统大企业必须改变其文化和 IT 系统。”

原则 3：数据湖不能拯救你（人工智能也不能）

通常随着基于数据的新方法而出现的热潮在某些方面催生了企业“跟上潮流”的心态。相关解决方案既包括从整个企业汇集数据的数据“湖”，也包括标榜能够标志异常或预测客户趋势的人工智能系统。组织也许会跳过理解相关解决方案带来的结果或者考虑解决方案能在哪些方面帮助实现业务目的或是否能够实现业务目的的步骤就进行采用。

Windheuser 指出，人们喜欢把这些创新当作能够一举解决所有数据相关问题的“魔术”，这种观点是错误的。然而，认为这些创新都只是一种风格而没有实际意义也是错误的。最正确的观点应该是：数据湖、机器学习和人工智能就是“技术工具”，别无其他。企业一方面通过在需要的地方战术性地应用这些“技术工具”来取得预先定义的结果，另一方面也充分认识到“技术工具”自身的需求和局限性。

“人们常说‘我需要‘数据湖’或‘现代数据架构’，但却很少了解这种需要的最终目的。”

独立咨询师 Mark Brand

Brand 说：“人们常说‘我需要‘数据湖’或‘现代数据架构’，但却很少了解这种需要的最终目的。这种情况很常见，因为这些人通常有两个特征——他们拥有数据和数据架构，但不做任何决策或产出任何结果。最常见的结果是人们试图建造数据湖，比如建造数据仓库。起初，人们试图把所有数据都放进数据仓库并贴上标签，但是因为这有点困难，他们后来就放弃了。所以，他们试图把其中一整套关键系统中的全部数据放进去，了解所有状态；因此，如果数据点的质量每 60 秒变化一次，他们试图以某种方式收集和标记这条信息。但在此之前他们其实并不知道为什么要保存这些信息。”

同样，《敏捷分析》的作者 Ken Collier 指出，尽管许多企业都热衷于采用机器学习，但“并非所有问题都需要采用机器学习解决方案。有些问题最合适的解决方法就是开发一些标准软件或写其他代码。”

Collier 说：“人工智能本身就是计算机科学的一个庞大子领域，有很多不同学科。每当我听到企业领导者把机器学习当作某种流行词，但其真正意思却是‘我们希望采用更前沿的做事方法时，我就会感到烦恼。”

企业为了采用数据驱动解决方案而采用数据驱动解决方案的直接风险十分明确，包括项目失败和资源浪费，但 Collier 认为这种做法影响可能更广泛：“我担心的是，我们将迎来下一个人工智能的寒冬。所有热潮退去，只有部分项目会被保留下来或证明有价值。人工智能就会突然之间因为没有达到某些不切实际的期望而遭到无端指责。”

“我担心的是，我们将迎来下一个人工智能的寒冬。所有热潮退去，只有部分项目会被保留下来或证明有价值。人工智能就会突然之间因为没有达到某些不切实际的期望而遭到无端指责。”

《敏捷分析》作者 Ken Collier

拙匠常怨工具差。Windheuser 说：“大多数数据项目失败的原因并非技术因素，而是因为人为因素，比如：需要新的组织 [方法]，或者变革遭到组织，或者没有定义数据流程。” 这些原因指向了下一原则。

原则 4：文化和设计与技术同样重要（如果不是更重要）

数据热潮使许多企业急于聘请数据科学家和额外设立专门处理数据的部门。这使关键市场上的数据科学家随着前沿人工智能和机器学习技能越来越受所有行业追捧而严重紧缺——据领英估计，这类人才缺口仅在美国就超过 15 万人。

美国各城市数据科学家缺口

来源: Linkedin Workforce Report, August 2018

考虑到数据倡议需要产生于业务之中，并与业务保持一致，设立专门的数据科学家部门可能并非最佳办法。Hadaway 指出：“不是聘请了数据科学家就会成功。组织的其他部门也需要知道如何使用数据。”

Collier 表示：“人们疯狂雇佣数据科学家，却并不真正清楚应该把数据科学家放到组织的什么位置，所以就把他们安置在共享的服务团队中或者作为营销或财务部门的一部分。数据科学家困在自己的一片小天地里，没能通过真正与企业其他部门良好互动来确定他们所面临的重要问题和挑战。”

要实现这种交互和生成业务就绪的见解，企业不仅需要开放的数据架构，还需要有凝聚力的团队。为了更好地处理数据，团队需要由共同的章程和明确定义的结果驱动，并且同时由技术人员和企业领导者组成。

Collier 说：“你必须愿意打破 IT 与企业其他部门之间的壁垒，并系统地将受命制造产品的跨职能团队组织起来。然后，你必须让合适的人加入这些团队，这些团队不仅要实施先进的机器学习，而且还让商业专家说‘是的，这样的机器学习很重要，这个机器学习模式的确做了一些有用和有意义的事情。’”

这个过程是双向的。正如数据科学家需要了解企业的目标一样，企业其他部门也需要认识到数据是共同的资源和责任。数据治理的基本要素（如定义谁对数据拥有最终所有权和访问权）通常是自上而下进行建立和管理的。但是每条业务线上的人员都应该检查日常运营过程中产生的数据，确定数据在决策中可能发挥的作用，并确保保持一致的标准。

Windheuser表示：“这就是我们所说的数据民主化，每个人都能利用数据，但是每个人又都有责任清理数据，管理数据，因此数据有较好的质量，而且是最新的。这就像住在同一个屋檐下的一家人一样。”

这种理念还应该延伸到处理和梳理数据的过程中，以便数据能够适合用于业务目的。这项任务非常枯燥，常常被称为“数据整理”，而且通常交由技术人员完成。

Parsons 说：“企业用户必须参与这个过程，因为只有他们才理解为什么某些数据是脏数据。你还需要技术人员，最好是已经在组织中工作了很长一段时间的技术人员，因为数据中存在各种各样的陷阱，尤其是已经存在多年的数据。所以你需要了解系统历史的人，也需要了解数据在业务环境中的实际意义的人来解决问题。”正如最新一期的 Thoughtworks《技术雷达》所概括的那样，新的数据工具和创新仅仅意味着出现了更多孤立的流行词汇。真正能推动进展的工作是确定如何将数据创新与使命明确的团队中长期实施的工程实践相结合。

原则 5：从小事做起，学习，重复……

大数据可能会激发人们对大型项目和解决方案的兴趣，但是如果将所有资源投入到一项大规模行动或一个全面转型倡议，其失败风险同样非常大。尤其是在涉及人工智能等学科时，组织几乎没有可用于指导的过往经验或基准。

重要的是，将数据驱动视为逐步改进的过程或旅程，而非终点或者完成的事情。用 Windheuser 话说，就是要“目光放长远一些，但同时从小事做起，从一些可行的事情做起。”

当然，方法必须是正确的。许多处理机器学习或数据科学的企业可能会忍不住想从概念验证 (POC) 入手，但这些方法并不是为了生产而设计的，因此企业很少能走完概念验证阶段。Windheuser：“最终，企业永远无法证明概念验证对自身有用，概念验证也永远不会真正获得认可。”

更好的方法是从最小化可行产品入手。先创建一个对客户或最终用户具有直接效用的“小用例”，然后在实施过程中以更大的应用程序或项目为目标。

与持续交付和集成等敏捷开发实践相结合的数据倡议最有可能蓬勃发展。Windheuser 说：能够以富有成效的方式快速部署的产品“将为整个组织创造价值，并真正令整个组织信服。而你只需继续这段旅程即可。”

要确定正确的方法，你需要知道你去过哪里，利用数据在你过去的成功（和失败）中吸取经验，并且知道你要前往何方。

Brand 指出，在数据驱动型企业中，“工作方式对于取得成果起到至关重要的作用。我们希望数据始终得到版本控制和保存，这样我们就能回顾我们做出的决定。即使是记录在一张纸上，即使我们每月做一个决定，我们也想知道收集到的数据是什么、数据如何变化、数据的发展方向是什么、我们采取了哪些行动，以及我们需要了解哪些影响。”

这样，变得更加数据驱动的过程本身就是由为基于以往迭代的决策提供信息的数据所驱动。

……不要停下脚步

数据驱动型企业特点并非算法或前沿分析平台，而是不断构建和测试、收集、分析结果以及基于结果开展行动。

由于纳入了一个个迭代产生的见解，产品或解决方案会处于持续改进状态。换句话说，持续情报包括尽量缩短数据-信息-行动周期的持续交付原则。近年来，敏捷出现了各种各样的含义，但最好的定义是能够快速无缝完成这个周期的能力。这也是令许多企业仍然苦苦挣扎的一点。

数据周期

将敏捷和持续交付与数据科学相结合

Brand 指出：“对许多组织而言，获取数据、提取信息、获得见解和知识，再将其转化为决策和行动的周期需要几个月或几年的时间。这并没有做到敏捷。很多时候，由于孤立的数据科学团队在数据和数据模型的孤立环境中工作才导致这种情况出现。数据科学团队从零开始开发可扩展的高效用户应用程序，再交由运营在 IT 环境中集成和运行应用程序。连续交付可以将整个周期缩短至几天，因此或多或少是自动化的。”

数据在这个过程（以及敏捷）中的作用应得到认可和赞赏。利用这个过程的数据和快速发展的技术比值得囤积的商品更接近构建块。

“一有任何新事物出现，企业领导者都觉得他们应该立刻就去投资。但是如果你投资于孤立的单个事物，你往往会全然不得要领。数据只是另一种组件，而不是你为了使企业取得成功而需要做的唯一一件事。”

Dr. Rebecca Parsons,

Thoughtworks 首席技术官

作者 Daniel Pallozzi

在收件箱中获取《视野》

为数字领导者提供及时的商业和行业洞察。

《视野》订阅为您提供我们专家的最佳播客、文章、视频和活动，以扩展我们广受欢迎的《视野》出版物。

行业

数字出版物和工具

所有洞见