吴恩达机器学习
刘皓铭

课程 1 Supervised Machine Learning: Regression and Classification

Week 1: Introduction to Machine Learning

监督学习

监督学习是输入 到输出标签 映射的算法。算法从事先给的“正确答案”中学习。

第一种监督学习算法,回归,从无限多个可能的数中预测出一个数。如预测房价。

第二种监督学习算法,分类,预测类别在一个小的、有限的输出类别集合。如判断猫狗。

无监督学习

在数据集中找到一些结构或者模式。不事先给“正确答案”。

聚类算法,一种无监督学习算法,将未标记的数据放在不同的簇中。

其他的无监督学习算法:异常检测,降维。

线性回归

方差代价函数:

梯度下降

这里的 是赋值。 为学习率,取值应适当,不能太小太大。因为在梯度下降的过程中,导数会自动变小,所以更新的步幅也会自动变小。 批量梯度下降指的是每一步梯度下降,都会考虑到所有的训练样本。

Week 2: Regression with multiple input variables

多元线性回归

特征缩放

为了让特征 的取值范围接近

Week 3: Classification

逻辑回归

一种分类模型。

sigmoid function: 逻辑回归模型: 决策边界: 损失函数: 代价函数:

过拟合

高偏差的模型,欠拟合。高方差的模型,过拟合。

解决过拟合的方法:1.收集更多的数据。2.选择并使用特征子集。3.利用正则化减小参数的大小。

正则化

线性回归的正则化: 逻辑回归的正则化:

课程 2 Advanced Learning Algorithms

Week 1: Neural Networks

神经网络

输入层,输出层,隐藏层。神经网络结构的问题就是,要有多少个隐藏层,每个隐藏层要有多少个神经元。

对于神经网络的第 层的第 个神经元: 其中 为激活函数。这个过程称为前向传播。

Week 2: Neural network training

激活函数

Linear activation function:

Sigmoid:

ReLU:

对于输出层:

二分类问题,使用 Sigmoid。

可正可负,使用 Linear activation function。

非负,使用 ReLU。

对于隐藏层,使用 ReLU。

多分类

多分类问题,如数字识别,结果为

Softmax 回归算法是逻辑回归的推广,用来解决多分类问题。

可以取 个值:

时即为逻辑回归。

损失函数:

多标签分类

多标签分类,如判断图片上有无汽车,公交车,行人。

Adam 算法

自动调整学习率,过小时增大,过大时减小。

Week 3: Advice for applying machine learning

模型评估

解决方案:

高偏差:增加特征,增加多项式特征(如 ),减小

高方差:更多训练样本,减少特征,增大

Week 4: Decision trees

决策树

熵,对一组数据不纯度的衡量。

信息增益: 其中, 为左子树中带有正标签的样本的比例, 为根节点到左边子分支的样本的比例。

停止条件:

一个节点所有数据标签相同。

树的深度大于某一阈值。

最大信息增益小于某一阈值。

一个节点数据数小于某一阈值。

One-hot 编码

对多分类问题的决策树应用 One-hot 编码,即可转化为二分类问题。如耳朵为椭圆,尖角,耷拉转化为耳朵是否椭圆等。

连续值

若特征为连续值,则取阈值 ,阈值通常为 ,这里 有序。将特征转化为 ,变为

回归树

和决策树类似,不再预测分类,而是输出一个

信息增益: 为方差函数。

集成树

使用集成树后,不用担心整体算法会对任何一棵树的预测过于敏感。

通过有放回抽样,得到和原数据集大小相等的新数据集,用新数据集来构建集成树。

随机森林算法

对每个节点,当要选特征来分裂时,若有 个特征可选,则随机选 个特征来考虑。通常取

boosting 指再构建一棵新树时,优先选取在当前决策树森林中被错误分类的样本。

课程 2 Unsupervised Learning, Recommenders, Reinforcement Learning

Week 1: Unsupervised learning

聚类

K-means

第一步是将点分配给簇质心(簇的中心),第二步是移动簇质心。

代价函数(distortion 函数): 为第 个簇质心, 表示第 个点 当前对应的簇(最近的簇质心)。

第一步是固定 ,通过调整 来让 最小,第一步是固定 ,通过调整 来让 最小。在每一次迭代中,代价函数下降或不变。

一开始随机选样本点来作为簇质心。

异常检测

通过观察正常事件的未标记数据集,从而学会检测异常或在异常事件发生时发出危险信号。

密度估计

对于 个样本,每个样本有 个特征: 等式右边的 为高斯(正态)分布。若 ,则认为异常。

Week 2: Recommender systems

协同过滤

代价函数: 表示用户 有给商品 评分, 为对应的评分, 为用户 评分商品的数量, 为有 个特征的向量。

是常量,可以去掉: 用来学习 的代价函数: 用来学习 的代价函数: 合并到一起: 用梯度下降来迭代。

对于二元分类,类似逻辑回归处理即可。

基于内容过滤

用深度学习实现。

代价函数:

Week 3: Reinforcement learning

强化学习有若干概念,状态,行动,奖励,折扣因子,回报,策略,马尔可夫决策过程。

状态动作价值函数, 表示在状态 时,采取行动 后行动最优所得到的回报。

贝尔曼方程: 其中 表示状态 的奖励, 是状态 采取行动 后转移到的状态。感觉就是动态规划转移方程。

实际情况中,状态不一定能顺利转移,因此考虑的回报是期望回报:

 评论