[MachineLearning] 机器学习的概念

1. 机器学习的概念

1.1 Arthur Samuel的定义

机器学习是在特定的编程环境下，给予机器学习能力的领域。

1.2 Tom Mitchell的定义

机器学习是指一个程序被认为能从经验 E 中学习，解决任务 T，达到性能度量值P，当且仅当，有了经验 E 后，经过 P 评判，程序在处理 T 时的性能有所提升。

1.3 例子

例如下棋程序经过自己与自己的下棋练习，最后棋力大增。在这个例子中：

经验E：程序上万次的自我练习的经验
任务T：自己与自己下棋
性能度量值P：在与一些新的对手比赛时，赢得比赛的概率

1.4 机器学习算法

监督学习：教计算机如何去完成任务。
无监督学习：让计算机自己学习完成任务。

2. 监督学习

2.1 概念

百度百科：监督学习是从标记的训练数据来推断一个功能的机器学习任务。

在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。

通俗的理解就是，通过一组已知的数据（包括输入和输出）建模，当输入为x时，预测输出值y。这个数据集由“正确答案”构成，即该数据集中对于每个x都知道了对应的y的值。

根据训练数据的输出值是连续值还是离散值，监督学习问题又分为回归问题和分类问题。

2.2 回归问题

回归问题指训练数据的输出值是连续值，可以预测一个连续的输出，一般建模函数以直线或曲线的方式表示。

例子：通过一组房子面积（输入值）与房价（输出值）的数据，从而预测当房子面积为x值，房价y是多少。

2.3 分类问题

分类问题指训练数据的输出值是离散值，预测一个离散的结果，一般建模函数以常量值或点来表示。

分类问题中的输入值（即特征值）可以为多类，例如特征值是肿瘤大小和年龄，预测值为肿瘤的良恶性。

例子：通过一组肿瘤大小与肿瘤是良性还是恶性的数据，从而预测当肿瘤大小为x时，肿瘤的性质y是良性还是恶性。

3. 无监督学习

3.1 概念

百度百科：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。

无监督学习即从没有标记的数据集中找出某种结构。

通俗的理解就是，在给定的一个数据集中，我们事先并不知道每个数据点是什么，如何处理这些数据点，即没有给算法对应的“正确答案”来回应数据集中的数据，而是由算法自行找出数据中的结构。

3.2 聚类算法

聚类算法是无监督学习算法中的一种，即在整个数据集中把具有相似特征的东西聚成一类。

3.3 例子

谷歌新闻将网络上的新闻按照某种特征（一般是根据新闻主题）进行分组，组成有关联的新闻。
社交网络关系分析：根据社交网络的通信关系分出几个社交圈子。
市场分类：根据顾客数据集，自动地发现市场分类，并自动地把顾客划分到不同的细分市场中。

文章参考
吴恩达机器学习课程

赏

支付宝打赏

微信打赏

赞赏一下