上次呢我们回顾一下上次我们回顾一下上次讲的这个东西啊
上次我们基本上讲的这么这么一些概念
就是说包括supervised learning
就是说有监督的学习
还有unsupervised learning
就说无监督的学习
这两个的这两个的这个区别区别在什么
在什么方面呢
它的主要的方面是在于给出的那个label
或者我们叫做标签
它有有不同
有监督学习是给你一个一个数据
然后给你一个标签
然后呢5000多的学习了是只有数据
没有标签
那么那么一般来说的话
对于有监督学习的话
我在这里列出了列出了几个方面
包括了我们要学的要一开始要学的是关于supervised learning
有监督学习
我们会学到svm support vector machine
今天我们会讲到support support vector machine
支持向量机
接下来我们会讲neural networks
包括deep learning
都属于有监督学习当中的一些模型
我们首先这门课的一开始呃
前面的一半会讲几个比较有代表性的
有监督有监督学习的模型
接下来呢包括无监督的是无监督的
这个学习的话
我们也会讲到一个最典型的无监督学习
叫做包括cluster聚类
包括em算法
em m e m algorithm
包括了p c a就说降维的一些一些手段等等
然后在有监督和无监督学习的中间
还有他们的一个中间状态叫做samsupervised learning
叫做半监督学习
半监督学习的概念呢
它是这样子的
就说给你一大堆的数据
一些数据有这个label
有这个标签
另外一些数据是没有label
没有标签的
那么我们要如何利用那些有标签和没标签的数据统一起来
学习到一个学习到一个模型
这这样的模型比单纯的用有标签的数据也要好
比单纯的用无标签的数据也要好的一个状况
这个东西叫做samsuprise的supervised learning
叫做半监督学习
所以说所以说的话
我们把把这次这个学这个就说基于是否有标签
我们把学习分成了这样的三类
supervised learning
unsupervised learning和semisupervised learning
接下来呢我们基于目标
我们又把它分分出了另外一类叫做reinforcement learning
这是一个新的一类
就是说前面三类他有一个学习的目标
就是说他的学习的目标
就是说前面三类虽然说他给出的训练数据的变有没有标签有不同
但是它的目的是一样的
它的目的是对于测试数据
我们的算法要预测这个测试数据的标签
但是呢reinforcement learning就是增强学习的话
他所做的事情不是这样
他所做的事情呢类似于比如说上一次我们也讲到了一些
比如说自动驾驶
这就是一个比较典型的reinforcement learning
他要他学习的那个内容
不是不是说就是说我们驾驶
比如说走的这一步走的对还是不对
如果说你走的
你如果学习
就是说驾驶的时候
这个车走这一步走的对和不对的话
这叫做有标签的学习
但是我们并不是关心关心每一步
它对还是不对
而我们是要关心一个最终的结果
比如你比如说你从一个你用无人驾驶的车
从这个地方开到另外一个地方
你有很多种很多种路径可以选择
有很多种策略可以可以采用
其实没有严格意义的
对和不对
但是呢它会有一个总体的评价
这个总体的评价可能就是在遵守所有交通规则的情况下
你比如说用最快的时间从这个地方到那个地方
当然在这在这个评价的机制下的话
有可能你你能够有对于每一部里有多种的选择选择
比如说我们最简单的一个例子
就说前方有一辆车
你其实你可以选择它往左边去抄这个车和往右边抄这个车
这这这两个选择你没有办法
没有太多的办法去说他的对和错
但是我们最后那个总体的目标就是在补位部委交规的情况下
尽快的从一个地方到另一个地方
所以说这叫做reinforcement learning
包括我们的计算机下棋
这也是一个reinforcement learning
我们只关心最后的输赢
而对于每一步
哪怕是高手相互不同的高手之间
哪怕是同一个高手
在不同的时间段
对于每一个具体的步骤
它的走法有可能也会也会不一样
但是我们最终关注的是最后的那个结果
所以说所以说根据这个根据这个任务是预测标签
还是预测最后的那个结果
我们把它分成了把上面的三个分成了同一类
我们统一的叫做叫做supervised learning
下面这个reinforcement learning就是增强学习
是另外一类
接下来根据我们我要说的是
我们最主要的是要要学习的是是是前面就是预测标签
这关于真强学习
我们会用一节课的时间讲一讲其中基本的一些一些概念
然后呢关于前面这个对于标签的这个学习了
我们也可以把它分成两类
这两类的话叫做叫做classification and regression
这两类的话是根据标签的性质的不同
分成了两类
其实用一句话就能够的就能够描述
关于classification
我们中文翻译成分类
它的意思是什么呢
它的意思是我的所有的标签都是离散的值
请大家先记清楚
classification的意思是所有的标签是离散的值
而相对应的regression就说叫做回归它的
它的这个意思是所有的标签是连续的值
我举分别举一个classification of regression的一个例子
大家就能够非常快的能够能够理解
我还是举上了前面这个例子啊
比如说包括了这个人脸的识别
人脸的识别
这里这样子的一个例子啊
你大家可以想象一下
想象这样一个系统
就是第一个作业
我给你两张图片
你要判断是同一个人还是不同的人
那么它的标签是什么呢
它标签只有两个值
一个只叫同一个人
一个字叫不同的人
但在计算机里面我们没有办法
我我们我们一般来说在计算机里面
我们要用数值值来表示这两个
比如说我们用一我们预测给你两张图片
这个这个程序的输出假设是一个一
我们就规定只要程序输出一
它就是这两张照片就意味着是同一个人呃
如果说程序输出是零的话
它就代表是不同的人
所以说这个标签它的它可以它这个它这个一零也不是固定的
你可以取一-1
你也可以取一和二
这都是无所谓的
但是目前来说
在人脸这个识别做这个任务当中
他的标签是离散的
哪怕人人脸识别还有另外一个任务
比如说比如说给你一张图片
你要识别这张图片是数据库
比如说1000个人当中的哪一个人
如果说你你以这样的任务给你
它仍然是一个classification的问题
仍然是一个分类的问题
为什么呢
数据库虽然有1000个人
但是呢它的标签是离散的
你可以用第1号到1000号来标记这1000个人
然后然后这个数据输出的仍然只是一个
只是只是一只是一个离散的数值
那么regression是什么样子呢
regression的话就是说回归的话是这样子的
比如说这里的这个年龄的估计
你可以把它看成是一个回归的问题
年龄的估计的话
它输出你给你一张图片
输出年龄的话
你可以把它看成是一个实数
当然了
你你可以说精确到小数点后两位
我预测到你生了
你生了生命当中的每一天
这当然也都是也是可以的
就是说你如果精确到小数点或者两位
那么这个年龄的话是一个连续的值
是一个连续的值
所以说根据所以说在这里年龄的估计的话
它是一个回归的一个问题
包括回归还有其他的一些问题啊
比如说给你给你就说这10年以来股票市场交易的这个走势
然后要你预测今后某一只股票或者某几只股票
它在今后今后一段时间
他的表现类似于这样子的一个一个111个预测的问题
也是回归问题
当然了
我要说的是呃
分类和回归其实是没有一个
中间没有一个特别特别明确和具体的概念和界限
比如说对于年龄估计这个问题
你如果说你年龄估计出来的年龄是一个实数
那么它是一个回归问题
但是你如果说我就估计到一个一个整数的一个岁数
比如说它是一岁两岁
一直到100岁
那么你也可以把它看作是一个分类问题
因为因为你可以把它分成从零岁到100岁这样的一个这110
101个类
所以说所以说的话
所以说的话在classification
就是说分类和回归当中其实是没有一个明确的界限的
以至于所几乎所有做classification的这个这个算法也可以用来做回归的算法
也可以用来做regression的算法
所以说在在这里面的话
我们没有一个特别明确的界限
那我们呢我们的讲课的话
其实也是采取了一个折中的方案
这个方案是我们基本上会基本上在讲supervised learning
监督学习的时候
我们只讲分类问题
而回归问题的话
留作作业
让大家自己去推导我们的那个嗯那个叫什么三次大作业当中
有一次就是大致就是说把克拉斯维跟成问题变成回归的问题
有做作业
大家自己自己去推导