R 语言程序员最快乐，Java 开发者最年轻

发布时间：2021-02-21 12:39:48 所属栏目：传媒来源：互联网

导读：在上面的用例图中，用例#7和#6在三个维度上都得分很高。用例#3是下一个候选者，尽管它缺少所需的所有数据。一个挥之不去的问题是：有多少数据是足够的这个问题没有明确的答案。解决这个问题的经验法则是回答以下问题：可用的数据是否足以构建最小可行模型

在上面的用例图中，用例#7和#6在三个维度上都得分很高。用例#3是下一个候选者，尽管它缺少所需的所有数据。

一个挥之不去的问题是：有多少数据是足够的

这个问题没有明确的答案。解决这个问题的经验法则是回答以下问题：

可用的数据是否足以构建最小可行模型

如果上述问题的答案是“是”，那么建议继续并考虑潜在开发的用例。

2. 构建高效的数据平台

数据是新的石油。这种新的石油扩散到整个公司。有必要从中提取价值。有必要对其进行改进。人工智能和数据有一种共生关系。他们需要彼此的繁荣和兴旺。

从远古时代起，各个公司就试图创建一个数据分析平台。企业数据仓库、数据集市、数据湖都试图驯服这头猛兽。随着数据技术的进一步发展，新的数据体系结构模式不断涌现。

2017年，我写了一篇博客：Demystifying Data Lake Architecture，强调了创建一个有用的人工智能数据平台的关键组件。此后，数据技术不断发展。然而，核心仍然是相同的。这些概念仍然可以应用。

然而，需要思考的问题如下:

利用人工智能的数据平台的原则是什么

以下是我的三条建议：

以原始格式存储所有数据：数据的性质比较复杂。一个人只有在使用它的时候才知道它的用法。最好的策略是将它们全部存储为它们自己的格式。没有转换。没有管理。只是原始的存储。随着云技术的出现，数据存储变得廉价。可以使用许多存储层选项。例如，在Azure中，人们可以在许多层(高级、热、冷、存档)中存储前50TB的数据，平均成本为0.044美元/GB/月，即4.4美元/TB/月(比一杯星巴克高杯摩卡还低)。作为指导原则，我建议至少在过去5年内存储数据。在此之后，如果发现无用，总是可以归档。
解耦存储和计算：存储是常年的。处理是短暂的。处理引擎可以是批处理的，也可以是面向流的。处理也可能是一项昂贵的操作。因此，按需处理是有意义的。根据所需的处理类型，创建适当的处理引擎。一旦任务完成，处理引擎就可以暂停或销毁。解耦计算和存储节省了大量成本。它还提供了很大的灵活性。一般来说，这是明智的做法。
分类目和管理数据：防止数据湖变成交换空间的一个最重要的原则是仔细地分类目和管理数据。作为一个经验法则，任何持久化的东西都会被编类目。主动编类目将使业务分析人员、数据科学家或任何希望以正确格式查找正确数据的人能够轻松地搜索数据元素。积极编类目的重要性再怎么强调也不为过。编类目和管理决定了数据分析平台的成败。

这些领域不是孤立的。它们是相互关联的。这些领域中的每一个都需要共同努力，才能产生明显的影响。

作为一名数据战略家有其优势。在本文中，我将详细说明实现这个框架的实际方法。

1. 识别正确的用例

当公司已决定踏上人工智能之旅。第一个任务是识别正确的用例。发散收敛法是一种行之有效的方法。头脑风暴来探索尽可能多的AI用例。一旦完成，聚合到前3个用例的候选列表。

如何聚合用例?探索的维度是什么

我建议以从下几个方面入手：

业务影响：这个用例有实际的业务影响吗?对其进行量化。
技术可行性：当前的技术环境是否支持此用例的实现?创建一个技术地图。
数据可用性：是否有相关的数据点可用来交付用例?探索这些。

在这三个维度上映射用例提供了一个关于什么可行，什么不可行的用例图。这方面的一个例子如下：

（编辑：阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!