前言

最近在学习有关Memristor的相关文献,其核心功能在于取代CPU、GPU等传统硬件,而采用一种新的非冯·洛伊曼体系的架构来实现机器学习。“事物因其有用性而存在。”为了更深入地了解忆阻器的机理,更是为了让忆阻器能够物尽其用,最近开始在B站系统性的学习吴恩达教授的机器学习课程。此博客将对本课程做一个简单的复盘,便于以后在遇到实际算法问题时翻阅。

image-20210109115006396

机器学习是什么?

在目前学界中,对于机器学习还没有一个公认的定义。吴恩达教授在课程中介绍了两种现有的定义,分别如下:

1、Arthur Samuel (1959):Field of study that gives computers the ability to learn without being explicitly programmed.

2、Tom Mitchell (1998):A computer program is said to learn from experience E with respect to some task T and some performence measure P, if its performence on T, as measured by P, improves with experience E.

以一个AI跳棋对手为例:experience E即它自己和自己对弈万次的过程,task T即在不同情况下赢得跳棋比赛,performance measure P即它走的每一步是否有利于它赢得比赛。

监督学习

image-20210109120047785

以房价预测为例(回归问题),给定的数据集中,每个对应的自变量(房屋面积)都有一个确切的因变量(房屋价格)相对应。算法的目的是给出“尽可能准确的正确答案”。

image-20210109120335643

以肿瘤预测为例(离散问题),给定的数据集中,某点的属性是确定的(即数据集中,任意点是否得肿瘤是确切的)。算法的目的是在给出一个新的数据点后,“尽可能准确预测其属性”。

从以上两个例子可以看出,监督学习的核心在于是否有一个准确给定的“正确答案”,算法要做的只是比较待预测数据点与数据集中数据点是否一致(或近似),而非自己进行分类区分。

无监督学习

image-20210109121138098

在谷歌搜索中搜索机器学习,我们得到的是一个整合各种有关“机器学习”信息的网页。这实际上就是谷歌利用无监督学习将爬虫爬到的网页自动聚类整合的结果。

image-20210109121358202

另一个例子,从基因图谱中如何区分不同类的人,这个问题显然没有一个提前已知的确定答案。机器学习算法要做的是提取数据集中某几个数据的共同点,并将它们整合在一起构成一个类别,从而进行区分。

本节课里,吴教授还举了一个鸡尾酒会的例子,利用机器学习算法我们可以实现将不同人的人声进行分离。

从以上例子可以看出,无监督学习与监督学习最大的不同在于它没有一个已知的“正确答案”,而需要算法自己进行聚类整合,从数据集中提取不同类别的关键属性,进而将他们区分。

总结

本篇博客主要是记录了第一章机器学习基础的相关内容。主要包括了:机器学习定义、监督学习、无监督学习三个部分。第二章将简单介绍一些简单的机器学习算法。

吴恩达教授的授课方式非常易懂,课程中大量实例不仅有趣还能帮助读者更能深刻理解机器学习的奥义。相信看完这一百多节课后,对机器学习的认识一定会非常系统。

image-20210109122246292