Andrew Ng经典机器学习课程的Python实现(第1部分)

柯里磷火
• 阅读 2315
摘要: 本文讲述了如何用Python实现Andrew Ng经典机器学习课程。

几个月前,我在Coursera(免费大型公开在线课程项目)上完成Andrew Ng机器学习的MOOC教学。对于任何一个想进入人工智能和机器学习世界的人来说,这都是一个很好的入门课程,但其中的项目是用Octave语言编写的。我一直想知道这门课如果用Python的话该有多么神奇,最终我决定重做一遍,这次用Python来完成。

在这一系列的博文中,我打算用Python编写程序。这么做有以下几个原因:

1、这会帮助那些想要Python版本课程的人;

2.、对于有些R语言爱好者来说,他们也愿意学习熟悉的那些算法的Python实现,那会受益匪浅;

基础知识

强烈建议你先看第1周的视频讲座,之后就应该对Python的体系结构有基本的了解。

在这一节中,我们将研究最简单的机器学习算法。

仅有一个变量的线性回归

首先是关于场景的描述。在这里,我们将仅用一个变量来执行线性回归以预测一个食品货车的收益。假设你是一家餐厅的CEO,正在考虑在每个不同的城市开设一家分店,并且在各个城市都有货车,你可以从这些分店获得收益和顾客的相关数据。

ex1data1.txt文件包含了我们线性回归练习的数据集。第一列表示城市的人口,第二列是该城市的食品货车的收益。如果收益为负则表示亏损。

首先,与执行任何机器学习任务一样,我们需要导入一些库

Andrew Ng经典机器学习课程的Python实现(第1部分)

读取数据并进行可视化

在开始任何任务之前,通过可视化数据来理解数据通常来说是非常有用的。对于这个数据集,可以利用散点图来可视化数据,然而它只有两个属性(收益和用户)。

(在现实生活中我们遇到的许多问题都是多维的,不能仅仅用二维图来表示。要创建多维的表达方式,必须要灵活地运用各种表现形式,如色彩、形状、深度等。)

Andrew Ng经典机器学习课程的Python实现(第1部分)

Andrew Ng经典机器学习课程的Python实现(第1部分)

这里我们使用了pandas的read_csv函数来读取以逗号分隔的一组值。此外,我们还使用了head函数来查看数据的前几行。

Andrew Ng经典机器学习课程的Python实现(第1部分)

Andrew Ng经典机器学习课程的Python实现(第1部分)

添加拦截项

在下面的代码中,我们给数据添加另一个维度以适应拦截项(这么做的原因已在视频中进行了解释)。我们还将参数theta初始化为0,并把学习率alpha初始化为0.01。

Andrew Ng经典机器学习课程的Python实现(第1部分)

使用np.newaxis可以将一维数组(shape: N elements)转换为行向量(shape: N rows, 1 column)或列向量(shape: 1 row, N columns)。在这里,我们将X和y重新排列到列向量里。

下一步,我们将计算成本和梯度下降,Andrew Ng在视频讲座中很好地讲解了这一操作过程。这里我仅提供Andrew Ng在讲座中使用的基于Python的伪代码。

成本计算

Andrew Ng经典机器学习课程的Python实现(第1部分)

你应该期望看到成本的计算结果是32.07。

用梯度下降法求最优参数

Andrew Ng经典机器学习课程的Python实现(第1部分)

期望的theta值的范围是[-3.6303, 1.1664]。

我们现在有了优化的theta值,利用上面的theta值来计算:

Andrew Ng经典机器学习课程的Python实现(第1部分)

上面的输出应该会给你一个比32.07更好的结果:4.483。

绘制最佳拟合线图

Andrew Ng经典机器学习课程的Python实现(第1部分)

Andrew Ng经典机器学习课程的Python实现(第1部分)

让我们用扩展线性回归的思路来处理多个独立的变量。

多元线性回归

情景描述:

假设你正在出售房子,你想知道近期比较好的市场价格。一个方式是首先收集最近房子买卖的信息,并创建一个房子价格模型。你的任务是基于其它的变量来预测房价:

文件ex1data2.txt包含一组俄勒冈州波特兰市的房子价格数据。第一列是房子的面积,第二列是卧室的数量,第三列是房子的价格。

在前一节中你已经创建了必要的基础环境,这些基础环境也可以很方便地应用在本节中。在这里,将使用我们在上一节中所给的公式进行计算。

Andrew Ng经典机器学习课程的Python实现(第1部分)

Andrew Ng经典机器学习课程的Python实现(第1部分)

正如在上面看到的那样,我们正在处理的不止是一个独立变量(你在前一节中所学习的概念也适用于这里)。

特征标准化

通过观察这些数据,我们注意到房子的面积大约是卧室数量的1000倍。当特征量级不同的时候,首先执行特征比例缩放操作可以使梯度下降收敛地更快。

我们的任务是:

  • 从数据集中减去每个特征的平均值;
  • 在减去平均值之后,再按各自的“标准偏差”缩放(分配)特征值;

Andrew Ng经典机器学习课程的Python实现(第1部分)

增加拦截项和初始化参数

Andrew Ng经典机器学习课程的Python实现(第1部分)

成本计算

Andrew Ng经典机器学习课程的Python实现(第1部分)

你应该期望看到一个输出的成本是65591548106.45744。

用梯度下降法求最优参数

Andrew Ng经典机器学习课程的Python实现(第1部分)

你的最优参数应该是 [[334302.06399328],[ 99411.44947359], [3267.01285407]]。

我们现在有了优化过的theta值,使用上面输出的theta值。

Andrew Ng经典机器学习课程的Python实现(第1部分)

这应该会输出一个比65591548106.45744好很多的值:2105448288.6292474。

现在你已经学会如何用一个或多个独立变量执行线性回归了。

本文作者:【方向】

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
深度学习技术开发与应用
关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习DQN算法系列9.深度策略梯度DDPG,PPO等第一天9:0012:0014:0017:00一、强化学习概述1.强化学习介绍2.强化学习与其它机器学习的不同3.强化学习发展历史4.强化学习典
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
3年前
AI研习丨针对长尾数据分布的深度视觉识别
  !(http://dingyue.ws.126.net/2020/0812/714a3e94j00qey3su000xd000q100dup.jpg)  摘要  本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展,主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析,并针对长尾数据分布的
Stella981 Stella981
3年前
Python快速实战机器学习(2) 数据预处理
导语机器学习是如今人工智能时代背景下一个重要的领域,它应用广泛,如推荐系统,文本分析,图像识别,语言翻译等等。要想学通这个大的领域不是一件容易的事情,所以我打算集大家之长,开通一个“Python快速实战机器学习”系列,用Python代码实践机器学习里面的算法,旨在理论和实践同时进行,快速掌握知识。前面课程:Pyt
Stella981 Stella981
3年前
CPU推理性能提高数十倍,旷视天元计算图、MatMul优化深度解读
  机器之心发布  机器之心编辑部  !(http://dingyue.ws.126.net/2020/0806/6a6e4896j00qemtzy001ad000p000aop.jpg)本文针对旷视天元深度学习框架在推理优化过程中所涉及的计算图优化与MatMul优化进行深度解读。  背景及引言  在深度学
迁移学习核心技术的开发与应用
一、机器学习简介与经典机器学习算法介绍1.什么是机器学习?2.机器学习框架与基本组成3.机器学习的训练步骤4.机器学习问题的分类5.经典机器学习算法介绍章节目标:机器学习是人工智能的重要技术之一,详细了解机器学习的原理、机制和方法,为学习深度学习与迁移学习打下坚实的基础。二、深度学习简介与经典网络结构介绍1.神经网络简介2.神经网络组件简介3.神经网
人工智能人才培养
No.1第一天一、机器学习简介与经典机器学习算法介绍什么是机器学习?机器学习框架与基本组成机器学习的训练步骤机器学习问题的分类经典机器学习算法介绍章节目标:机器学习是人工智能的重要技术之一,详细了解机器学习的原理、机制和方法,为学习深度学习与迁移学习打下坚实的基础。二、深度学习简介与经典网络结构介绍神经网络简介神经网络组件简介神经网络训练方法卷积神经网络介