【机器学习】深入指导企业中的机器学习

语言 Chinese, Simplified

SEO Title

In-depth guide to machine learning in the enterprise

企业正在快速采用机器学习技术。在这本机器学习指南中，我们详细介绍了您需要了解的关于这项变革性技术的内容。

用于企业的机器学习正在爆炸式增长。从改善客户体验到开发产品，现代商业中几乎没有一个领域不受机器学习的影响。

机器学习是创造人工智能的途径，而人工智能又是企业使用机器学习的主要驱动因素之一。对于人工智能和机器学习之间关系的确切性质，存在一些分歧。一些人将机器学习视为人工智能的一个子领域，而另一些人则将人工智能本质上视为机器学习的一个子领域。一般来说，人工智能旨在复制人类感知或决策的某些方面，而机器学习可以用于增强或自动化几乎任何任务，而不仅仅是与人类认知相关的任务。无论你如何看待它们，这两个概念都是紧密联系在一起的，它们正在相互影响。

机器学习的实践包括获取数据，检查其模式，并对未来结果进行某种预测。随着时间的推移，通过向算法提供更多的数据，数据科学家可以提高机器学习模型的预测能力。根据这一基本概念，已经发展出许多不同类型的机器学习：

监督机器学习。机器学习最常见的形式是监督学习，它包括向算法提供大量标记的训练数据，并要求算法根据从标记数据中学习到的相关性对从未见过的数据进行预测。
无监督学习。无监督学习通常用于人工智能的更高级应用。它包括将未标记的训练数据提供给算法，并要求它自己拾取任何关联。无监督学习在聚类（揭示数据中的组的行为）和关联（预测描述数据的规则）的应用中很流行。
半监督学习。在半监督学习中，算法在小的标记数据集上进行训练，然后像在无监督学习中一样，将其学习应用于未标记数据。这种方法通常在缺乏高质量数据的情况下使用。
强化学习。强化学习算法接收一组指令和指导方针，然后通过试错过程自行决定如何处理任务。决策要么被奖励，要么被惩罚，作为引导人工智能找到问题最佳解决方案的一种手段。

从这四种主要类型的机器学习中，企业开发了一系列令人印象深刻的技术和应用。从相对简单的销售预测到当今最尖端的人工智能工具，一切都基于机器学习模型。本企业中的机器学习指南探讨了机器学习的各种用例、采用的挑战、如何实施机器学习技术等等。

https://youtu.be/ATedpHnMpg0

企业使用案例和好处

用于企业的机器学习正在加速，而不仅仅是在外围。越来越多的企业将机器学习应用程序置于其商业模式的中心。正如技术作家玛丽·普拉特在“商业中机器学习的10种常见用途”中所解释的那样，这项技术使企业能够以以前无法实现的规模执行任务，不仅为公司带来了效率，还带来了新的商业机会。“机器学习在关键业务流程中的应用越来越多，这反映在它发挥不可或缺作用的一系列用例中。以下是示例：

推荐引擎。如今，大多数知名的面向消费者的在线公司都使用推荐引擎在正确的时间将正确的产品呈现在客户面前。在线零售巨头亚马逊在过去十年的早期开创了这项技术，此后它已成为在线购物网站的标准技术。这些工具考虑了客户一段时间以来的浏览历史，并将该历史所描述的偏好与客户可能还不知道的其他产品相匹配。
欺诈检测。随着越来越多的金融交易转移到网上，欺诈的机会前所未有地大。这使得欺诈检测的必要性变得至关重要。信用卡公司、银行和零售商越来越多地使用机器学习应用程序来排除可能的欺诈案例。在非常基本的层面上，这些应用程序的工作方式是学习合法事务的特征，然后扫描传入事务以查找偏离的特征。然后，该工具标记这些事务。
客户分析。如今，大多数企业都会收集大量客户数据。这个所谓的大数据包括从浏览历史到社交媒体活动的所有内容。它太过庞大和多样化，人类自己无法理解。这就是机器学习的用武之地。算法可以搜索企业存储原始数据的数据湖，并发展对客户的见解。机器学习甚至可以开发针对个人客户的个性化营销策略，并为改善客户体验提供信息。
金融交易。华尔街是机器学习技术最早的采用者之一，原因很清楚：在一个数十亿美元危在旦夕的高风险世界里，任何优势都是有价值的。机器学习算法能够检查历史数据集，发现股票表现的模式，并预测某些股票未来的表现。
虚拟助理。到目前为止，大多数人都熟悉苹果和谷歌等科技公司的虚拟助理。他们可能不知道机器学习在多大程度上为这些机器人提供了动力。机器学习以多种不同的方式进入，包括深度学习，这是一种基于神经网络的机器学习技术。深度学习在开发自然语言处理（机器人如何与用户互动）以及学习用户偏好方面发挥着重要作用。
自动驾驶汽车。这就是机器学习进入人工智能领域的地方，人工智能旨在与人类智能不相上下。自动驾驶汽车使用神经网络来学习解读摄像头和其他传感器检测到的物体，并确定在道路上行驶时应采取什么行动。通过这种方式，机器学习算法可以使用数据来接近复制类似人类的感知和决策。

这些只是一些例子，但还有无数的例子。任何产生或使用大量数据的业务流程——尤其是结构化、标记的数据——都已经成熟，可以使用机器学习实现自动化。所有行业的企业都学到了这一点，并正在努力在整个过程中实施机器学习方法。

machine learning use cases

Common machine learning use cases

不难看出为什么机器学习进入了如此多的情况。采用机器学习的企业正在解决商业问题，并从这种人工智能技术中获得价值。以下是六项业务优势：

提高生产力；
劳动力成本降低；
更好的财务预测；
更清楚地了解客户；
工人的重复性任务更少；和
更先进、更人性化的输出。

准备好参加机器学习面试了吗？准备好这些问题和答案。

挑战

问题不再是是否使用机器学习，而是如何以返回最佳结果的方式操作机器学习。这就是事情变得棘手的地方。

机器学习是一项复杂的技术，需要大量的专业知识。与其他一些技术领域不同，在这些领域，软件大多是即插即用的，机器学习迫使用户思考他们为什么使用它，谁在构建工具，他们的假设是什么，以及技术是如何应用的。很少有其他技术具有如此多的潜在故障点。

错误的用例是许多机器学习应用程序的失败。有时，企业以技术为先导，寻找实现机器学习的方法，而不是让问题决定解决方案。当机器学习被硬塞进一个用例中时，它往往无法交付结果。
错误的数据比任何事情都更快地破坏了机器学习模型。数据是机器学习的生命线。模型只知道它们显示了什么，所以当它们训练的数据不准确、无组织或在某种程度上有偏见时，模型的输出就会出错。

这个时间线描绘了机器学习的一些主要发展，可以追溯到20世纪40年代。

偏见经常阻碍机器学习的实现。可能破坏机器实现的许多类型的偏见通常分为两类。当为训练算法而收集的数据根本不能反映真实世界时，就会出现一种情况。数据集不准确、不完整或不够多样。另一种类型的偏见源于用于对数据进行采样、汇总、过滤和增强的方法。在这两种情况下，错误都可能源于监督培训的数据科学家的偏见，并导致模型不准确，更糟糕的是，不公平地影响特定人群。在他的文章《减少机器学习中不同类型偏见的6种方法》中，分析师Ron Schmelzer解释了可能破坏机器学习项目的偏见类型以及如何减轻这些偏见。
黑盒功能是偏见在机器学习中如此普遍的原因之一。许多类型的机器学习算法——尤其是无监督算法——对开发人员来说是不透明的，或者是“黑匣子”。数据科学家提供算法数据，算法对相关性进行观察，然后根据这些观察结果产生某种输出。但大多数模型都无法向数据科学家解释为什么它们会产生这样的输出。这使得检测模型的偏差或其他故障变得极其困难。
技术复杂性是企业使用机器学习的最大挑战之一。将训练数据馈送到算法并让其学习数据集的特征的基本概念听起来可能足够简单。但是，这背后隐藏着许多技术上的复杂性。算法是围绕先进的数学概念构建的，算法运行的代码可能很难学习。并不是所有的企业都拥有开发有效的机器学习应用程序所需的内部技术专业知识。
缺乏可推广性。在大多数企业中，由于缺乏可推广性，机器学习无法扩展到新的用例。机器学习应用程序只知道它们被明确训练了什么。这意味着模型不能像人类那样，把它从一个领域学到的东西应用到另一个领域。每个新的用例都需要从头开始训练算法。

为了了解更多关于机器学习的信息，这里列出了九本书，从初学者的简明介绍到人工智能顶尖专家关于尖端技术的高级文本。

How bias infects AI applications

Bias is one of the biggest challenges in machine learning.

实施：6个步骤

实现机器学习是一个多步骤的过程，需要来自许多类型的专家的输入。以下是六个步骤的流程概述。

任何机器学习的实现都是从识别问题开始的。最有效的机器学习项目应对特定的、明确定义的商业挑战或机遇。
在问题制定阶段之后，数据科学团队应该选择他们的算法。不同的机器学习算法更适合不同的任务，正如TechTarget编辑Kassidy Kelley在“9种机器学习算法”的文章中所解释的那样。简单的线性回归算法在用户试图基于另一个已知变量预测一个未知变量的任何用例中都能很好地工作。前沿的深度学习算法更擅长图像识别或文本生成等复杂的事情。还有几十种其他类型的算法覆盖了这些示例之间的空间。选择正确的方法对机器学习项目的成功至关重要。
一旦数据科学团队确定了问题并选择了算法，下一步就是收集数据。收集正确种类和足够数据的重要性经常被低估，但这不应该被低估。数据是机器学习的生命线。它为算法提供了他们所知道的一切，反过来又定义了他们的能力。数据收集涉及复杂的任务，如识别数据存储、编写脚本将数据库连接到机器学习应用程序、验证数据、清洁和标记数据，并将其组织在文件中供算法处理。虽然这些工作既乏味又复杂，但其重要性怎么强调都不为过。
现在是魔法开始的时候了。一旦数据科学团队掌握了所需的所有数据，就可以开始构建模型。机器学习过程中的这一步骤将显著不同，这取决于团队是使用有监督的机器学习算法还是无监督的算法。当训练受到监督时，该团队将提供算法数据，并告诉要检查哪些特征。在无监督学习方法中，该团队基本上对数据放松算法，并在算法生成数据模型后返回。了解如何在这个专家提示中建立一个神经网络模型。
接下来是应用程序开发。既然该算法已经开发出了数据的模型，数据科学家和开发人员就可以将这种学习构建到一个应用程序中，以解决流程第一步中确定的业务挑战或机遇。有时这很简单，就像一个根据不断变化的经济状况更新销售预测的数据仪表板。它可以是一个推荐引擎，它已经学会了根据过去的客户行为定制建议。或者它可能是尖端医学软件的一个组件，该软件使用图像识别技术检测医学图像中的癌症细胞。在开发阶段，工程师将根据新的输入数据测试模型，以确保其提供准确的预测。
尽管主要工作已经完成，但现在还不是放弃模型的时候。机器学习过程的最后一步是模型验证。数据科学家应该验证他们的应用程序在持续的基础上提供了准确的预测。如果是这样的话，可能就没有什么理由做出改变了。但是，模型性能通常会随着时间的推移而降低。这是因为模型所训练的基本事实——无论是经济状况还是客户倾向——都会随着时间的推移而变化。当这种情况发生时，模型的性能会变得更差。这是数据科学家需要重新训练他们的模型的时候了。在这里，整个过程基本上重新开始。

Machine learning adoption roadmap

Most enterprises follow these steps toward adoption.

ML的管理和维护

企业中机器学习应用程序的管理和维护是一个有时被忽视的领域，但它可能决定用例的成败。

机器学习的基本功能取决于模型学习趋势，如客户行为、库存表现和库存需求，并将其预测到未来，为决策提供信息。然而，基本趋势在不断变化，有时略有变化，有时大幅度变化。这被称为概念漂移，如果数据科学家在他们的模型中没有考虑到这一点，模型的预测最终将偏离基准。

纠正这种情况的方法是永远不要将生产中的模型视为已完成。他们要求持续进行验证、再培训和返工，以确保他们继续取得成果。

验证。数据科学家通常会拿出一段新的、传入的数据，然后验证模型的预测，以确保它们接近新的、传出的数据。
再培训。如果一个模型的结果开始与实际观测数据显著偏离，那么是时候对模型进行重新训练了。数据科学家需要获得一组反映当前情况的全新数据。
重建。有时，机器学习模型应该预测的概念会发生很大变化，以至于模型中的基本假设不再有效。在这些情况下，可能是时候从头开始完全重建模型了。

MLOps

机器学习操作，或称MLOps，是一个新兴的概念，旨在积极管理这一生命周期。MLOps工具不是在适当的时候采用特别的方法来验证和再培训，而是将每个模型都安排在开发、部署、验证和再训练的时间表上。它寻求将这些流程标准化，随着企业将机器学习作为其运营的核心组成部分，这种做法变得越来越重要。

未来趋势

当我们展望机器学习的未来时，一个总体趋势占主导地位。企业采用率将继续增加，使该技术从前沿走向主流。

这一趋势已经在顺利进行。

AI adoption trends

分析公司Gartner 2019年的一项调查发现，37%的企业采用了某种形式的人工智能。这比2015年的10%有所上升。按照目前的发展轨迹，机器学习有望在未来几年成为一项无处不在的技术。在2020年前十大数据和分析趋势的排名中，该分析公司将“更智能、更快、更负责任的人工智能”列为年度最佳趋势。该报告指出，机器学习和其他人工智能技术在深入了解全球冠状病毒疫情方面至关重要，并预测到2024年，75%的组织将从试点转向操作人工智能。由于企业中机器学习的采用率很高，机器学习工具的市场正在快速增长。分析公司Research and Markets预测，到2022年，机器学习市场将从2017年的14亿美元增长到88亿美元。

原因很清楚。如今最成功的公司，如亚马逊、谷歌和优步，都将机器学习应用程序置于其商业模式的中心。正如技术作家乔治·劳顿在《学习人工智能各种技术的商业价值》一书中所探讨的那样，行业领先的企业并没有将机器学习视为一种很好的技术，而是将机器学习和人工智能技术视为保持竞争优势的关键

深度学习（一种基于神经网络的机器学习）的进步在将人工智能带到企业的前沿方面发挥了巨大作用。如今，神经网络在企业应用中相对常见。这些先进的深度学习技术使模型能够做任何事情，从识别图像中的对象到为产品描述和其他应用程序创建自然语言文本。如今，有许多不同类型的神经网络，它们被设计用于执行特定的工作，并且一直在开发具有增强能力的新的神经架构。一个例子是谷歌2017年首次推出的transformer神经网络架构，它正在彻底改变自然语言处理领域。正如技术作家David Petersson在《细胞神经网络与RNN：它们的区别和重叠之处》一书中所解释的那样，了解不同类型算法的独特性是充分利用它们的关键。

现在人们认为，大量的知识工作将实现自动化是不可避免的。甚至一些创意领域也正在被机器学习驱动的人工智能应用渗透。这引发了人们对未来工作的质疑。在一个机器能够管理客户关系、在医学图像中检测癌症、进行法律审查、在全国范围内驾驶集装箱并生产创造性资产的世界中，人类工人的角色是什么？人工智能的支持者表示，自动化将通过消除死记硬背的任务，让人们自由地从事更具创造性的活动。但也有人担心，不断推进自动化将给人类工人留下很少的空间。

https://youtu.be/bDAyquF-BrQ

供应商和平台

希望部署机器学习的企业不乏选择。机器学习领域的特点是开源工具和由传统供应商构建和支持的软件之间的激烈竞争。无论企业是从供应商还是开源工具选择机器学习软件，应用程序都通常托管在云计算环境中并作为服务提供。供应商和平台的数量比一篇文章所能说出的还要多，但下面的列表对该领域一些更大的参与者提供的产品进行了高级概述。

供应商工具

AmazonSagemaker是一个基于云的工具，允许用户在一系列抽象级别上工作。用户可以为简单的工作负载运行预先训练的算法，也可以为更广泛的应用程序编写自己的代码。
谷歌云是一系列服务，从即插即用的人工智能组件到数据科学开发工具。
IBM Watson机器学习通过IBM云提供，允许数据科学家构建、培训和部署机器学习应用程序。
Microsoft Azure机器学习工作室是一个图形用户界面工具，支持在Microsoft云上构建和部署机器学习模型。
SAS Enterprise Miner是一家更传统的分析公司提供的机器学习产品。它专注于构建企业机器学习应用程序并快速将其产品化。