机器学习入门教程1-机器学习简介

Nadia ·

更新时间:2024-11-13

· 581 次阅读

机器学习是一门为了预测某个值而对系统应用算法来学习数据中模式的科学。利用足够的数据，在所有输入变量与待预测值之间建立关系。在给定其他输入变量的情况下，系统更容易预测一个新的值。这种方法不同于传统编程，在传统编程中，应用程序是基于先前设置的规则开发的。虽然机器学习的基本概念已经存在了一段时间，但这一领域最近才迅猛发展，这要归功于先进的处理器和丰富的可用数据，这两者都是实现精确预测的关键。因为介绍机器学习历史的内容很多，所以本文不再赘述。我们在这里为您提供了一种实用的方法来理解必要的概念，帮助您入门。本文解释了以下概念：

机器学习基础知识
有监督学习与无监督学习的比较
构建模型
机器学习中的管道

机器学习基础知识

在本节中，我们将讨论在处理机器学习项目时使用的一些基本术语。

线性代数

线性代数是数学中处理变量之间相关性的一个领域。之所以称为线性，是因为输出变量可以用幂（指数）不大于 1 的输入变量来表示。了解线性代数的基础知识，对理解机器学习的一些基础知识大有帮助。在本节中，我们定义了一些经常使用的关键术语。

什么是张量？

我们先从标量讲起。标量基本上是任何数字，如 1、5、23.5 或 42。如果将多个标量组合在一起，最后就会得到一个矢量。例如，(1, 5, 23, 2) 就是一个长度为 4 的矢量。在矢量中，所有元素都应该属于相同的数据类型，而在元组中，可以混用类型。矩阵是大小相等的矢量的列表。在矩阵中，行数可以不同于列数，但每个元素必须具有相同的类型。具有 m 行和 n 列的矩阵称为 m x n 矩阵。张量是在多维空间中表示的数据。张量是表示上述内容的通称。例如，零维张量就是标量，一维张量是矢量，二维张量则是矩阵。下图显示了一个三维张量的例子，它基本上是一个矩阵的扩展，但却是三维的。

张量在某些方面使用起来很方便，比如图像处理。可以用一个维度表示高度，一个维度表示宽度，一个维度表示颜色。

高维矢量空间

理解高维矢量空间有助于为理解机器学习的工作原理打下坚实的基础。下图显示了一个包含三列的数据集。这些列被称为“维度”或“特征”。该表也称为三维数据集。在一个三维空间中绘制这些点时，我们观察到三个点云。

线是在二维空间中对点的基本分割。在前面的图像中，您看到了分割线，这标志着三维空间中点的分割。三维空间中的这条线称为平面。如果从三维变为四维或者更高维，平面就变成了超平面。

识别这些分割非常关键，因为在进行分割之后，预测新数据只不过是识别数据点位于分割的哪个部分。

有监督机器学习与无监督机器学习的比较

有监督机器学习

有监督机器学习是指数据集中的每条记录都包含一个标签或标志的一类问题。

以下表为例，其中包含有关最高温度、最低温度和最大振动的信息。

最后一列的 asperity（粗糙度）就是标签。在给定温度和振动数据的情况下，我们想要预测粗糙度。这是一个有标签的数据集。使用这个包含标签的数据集，我们可以训练一个算法，为无标签的数据预测值。您可以将它放入算法中，算法现在就可以预测该数据的标签。这被称为有监督学习。有监督学习有两种类型：回归和分类。