人工智能教程（一）：基础知识

如今，计算机科学领域的学生和从业者绝对有必要了解人工智能artificial intelligence、数据科学data science、机器学习machine learning、深度学习deep learning方面的基本知识。但是应该从哪里开始呢？

为了找到答案，我浏览了大量人工智能的教材和教程。它们有的从大量数学理论开始，有的用编程语言无关的方式（不要求你了解某一门特定的编程语言）讲解，有的假设你是线性代数、概率论和统计学专家。在很大程度上，它们都很有用。但它们都没有回答最重要的问题：真正的初学者应该从哪里开始学习人工智能？

开始学习人工智能的方式多种多样，但是我对它们各有担忧。涉及太多的数学会让人分心，但如果数学介绍得太少就好像驾驶员不知道汽车引擎在哪里一样。对于未来的人工智能工程师和数据科学家来说，从进阶概念开始讲解是最有效率的方式，因为他们精通线性代数、概率论和统计学。如果从基础知识开始，然后在中间某个地方结束也可以，只要学员想要在这里结束学习。考虑到所有这些事实，我认为初学者的人工智能教程应该从基础知识开始，并以一个实际的人工智能项目结束。这个项目可能很小，但是在相同任务上它将会超越任何传统项目。

本系列将从最基础的知识讲到中等水平内容。除了讨论人工智能，我还希望对相关的话题进行一些澄清，因为人们对人工智能、机器学习、数据科学等术语有很多困惑。人工智能程序是必要的，因为我们每天会产生海量的数据。根据互联网上查询到的结果，我们每天大约会产生 2.5x10¹⁸ 字节的数据。但是，这些数据中的大多数与我们完全无关，包括大量没有价值的 YouTube 视频，不经思考就发送的电子邮件，琐碎的新闻报道等等。然而，这片浩瀚的数据海洋中同样蕴含着无价的宝贵知识。传统软件无法完成处理这些数据的艰巨任务。人工智能是少数能够应对这种信息过载的技术之一。

当谈到到人工智能时，我们还需要区分事实和假象。我记得几年前听一位人工智能专家的演讲。他讲述了一个人工智能图像识别系统，它能近乎绝对准确地分辨西伯利亚雪橇犬和西伯利亚雪狼的图像。在互联网上搜索一下，你会看到这两种动物有多么相似。如果这个系统确实那么准确，它将是人工智能的奇迹。可惜的是，事实并非如此。该图像识别系统只是对图像的背景进行了分类。西伯利亚雪橇犬是家养动物，它的图像背景中几乎总会有一些矩形或圆形的物体。而西伯利亚雪狼是野生动物，它所在的背景中有雪。这些例子导致近年来人们对人工智能提出了准确性担保要求。

确实，最近几年人工智能展现了一些真正的力量。举个简单例子就是 YouTube、Amazon 等网站的推荐系统。很多时候我惊讶于它们的推荐结果，就好像它们会读心术一样。然而不论这些推荐的质量如何，“人工智能到底是好是坏？”都是一个很热门话题。我认为，一个像《终结者》中机器有意识地攻击人类的未来还遥遥无期。然而，前面那句话中的“有意识地”一词非常重要。目前的人工智能系统可能发生故障，并且意外地伤害到人类。但是，许多号称具有人工智能能力的系统实际上只是包含大量分支和循环的常规软件。因此目前可以安全地说，我们还没有在日常生活中看到人工智能的真正威力。不论是好的影响（如治愈癌症），还是坏的影响（合成的世界领导人视频导致的暴动和战争），我们都只能拭目以待了。就个人而言，我相信人工智能是一种福祉，并将大大提高未来几代人的生活质量。

什么是人工智能？

在我们进一步探讨之前，让我们试着理解人工智能（AI）、机器学习（ML）、深度学习（DL）、数据科学（DS）等之间的联系和区别。这些术语经常被误用为同义词。图 1 表示了人工智能、机器学习、深度学习和数据科学之间的关系。当然这不是唯一的划分方式，你可能会看到其它的划分图。但在我看来，图 1 是最贴切的，它能够最大程度地概括这些领域之间关系。

图 1：人工智能体系结构和数据科学

在本系列的第一篇文章中，我不会对每个术语定义进行精确的定义。我认为在现阶段，精确地定义它们是适得其反的，是浪费时间。但在后续的文章中，我们将重新讨论这些术语并正式定义它们。目前我们可以暂时把人工智能看作是可以在某种程度上模仿人类智能的程序。那人类智能又是指什么呢?

想象一下你的人工智能程序是一个一岁大的婴儿。这个宝宝会通过听周围人说话来学习母语。他/她将很快学会识别形状，颜色，物体等，没有任何困难。此外，他/她将能够对周围人的情绪做出反应。例如，任何一个三岁的婴儿都知道如何用甜言蜜语让父母给他/她巧克力和棒棒糖。同样，人工智能程序也将能够感知并适应环境，就像婴儿一样。然而，这种真正的人工智能只能在遥远的未来实现。

图 1 显示机器学习是人工智能的真子集，它也是实现人工智能系统的技术之一。机器学习是使用大量数据来训练程序的技术，以便有效地执行必要的任务。它的准确性随着训练集的增大而增加。请注意，还有其它技术用于开发人工智能系统，如基于布尔逻辑的系统，基于模糊逻辑的系统，基于遗传编程的系统等。然而，如今机器学习是实现人工智能系统的最主流的技术。图 1 还显示深度学习是机器学习的真子集，它只是众多机器学习技术中的一种。但目前实际上大多数严肃的机器学习技术都用到了深度学习。在这一点上，我甚至避免尝试定义深度学习。请记住，深度学习涉及到使用大型人工神经网络。

那数据科学（图 1 中的红圈）是做什么的呢？数据科学是计算机科学/数学领域中的一门处理和解读大规模数据的学科。我说的“大”，有多大呢？早在 2010 年，Facebook 等一些企业巨头就声称它们的服务器可以处理几 Pb 的数据。当我们说大数据时，通常指的是 Tb 或 Pb 级的数据规模，而不是 Gb 级的。许多数据科学应用涉及人工智能、机器学习和深度学习技术的使用。因此，当我们讨论人工智能时，很难不提到数据科学。数据科学也使用很多传统的编程和数据库管理技术，比如使用 Apache Hadoop 进行大数据分析。

本系列的讨论将主要集中在人工智能和机器学习上，并涉及数据科学。

教学环境搭建

在表明了本系列文章的主题后，现在说说本教程的前置条件。你需要一台 Linux 电脑（当然 Windows 或 macOS 机器也可以，只是在一些安装步骤上可能需要额外的协助），并了解基本的数学和计算机编程知识。我希望在细心地阅读本系列文章后，你会感受到人工智能的强大。

用编程语言无关的方式来学习人工智能是可能的，但本系列将基于一门编程语言并涉及大量的编程。在决定使用哪一门编程语言之前，我们先来回顾一下人工智能、机器学习、深度学习和数据科学领域流行的编程语言。Lisp 是一种函数式编程语言，它是最早用于开发人工智能程序的语言之一。Prolog 是一种逻辑编程语言，在 20 世纪 70 年代也被用于同样的目的。我们将在接下来的介绍人工智能历史的文章中更详细地介绍 Lisp 和 Prolog。

如今，Java、C、C++、Scala、Haskell、MATLAB、R、Julia 等编程语言也被用于开发人工智能程序。Python 在人工智能程序开发中被广泛使用，这使我们选择它作为本教程的编程语言。但我必须声明，从这里开始做的选择（更确切地说，是我替你做的选择），主要考虑的因素是易用性、受欢迎程度、（在少数情况下）我自己对该软件/技术的适应和熟悉程度、对本教程效率的提升。但同时，我也鼓励你尝试其它的编程语言、软件和工具。也许从长远来看，它们对你来说可能是更好的选择。

现在我们需要立即做出另一个选择：使用 Python 2 还是 Python 3？考虑到本系列有许多年轻的读者，他们还有漫长的职业生涯，我将选择使用 Python 3。在 Ubuntu 系统终端中执行命令 sudo apt install python3 安装最新版本的 Python 3（你的系统中可能已经安装了 Python 3）。在其它 Linux 发行版、Windows 和 macOS 机器上安装 Python 3 也非常容易。执行下面的命令查看安装的 Python 3 的版本:

python3 --version
Python 3.8.10

分享说明：转发分享请注明出处。

上一篇：七国集团将就企业开发先进AI系统行为准则达成一致

下一篇：为何GPT-4P容易受到多模态提示注入图像攻击？