博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
入门·开始使用机器学习
阅读量:6879 次
发布时间:2019-06-27

本文共 849 字,大约阅读时间需要 2 分钟。

入门·开始使用机器学习

标签(空格分隔): 100DaysOfMLCode


步骤1:导入库

NumPy和Pandas,这两个是我们每次都需要导入的库。NumPy是一个包含数学计算函数的库,Pandas用于导入和管理数据集。

步骤2:导入数据集
---
数据集通常是.csv格式。csv以文本格式存储表格数据。文件的每一行是一条数据记录。我们使用Pandas的read_csv方法来读取本地CSV文件,作为一个数据帧。然后我们从数据帧中制作自变量和因变量独立的矩阵和向量。
步骤3:处理丢失的数据
---
我们得到的数据很少是完整的数据可能会由于各种原因丢失,为了不因此降低我们机器学习模型的表现,需要进行处理。我们可以用整条数据的平均值或者中位数来代替丢失的数据。使用sklearn.preprosessing库中的Imputer类来实现此任务。
步骤4:编码分类数据
---
分类数据是包含标签值而不是数字值的变量。取值的可能通常在固定的范围。例如“Yes”和“No”这样的值不能用于模型的数学计算,因此我们需要将这些变量编码成数字。为了实现这个操作,我们从sklearn.preprosessing库中导入LabelEncoder类。
步骤5:将数据集拆分为训练集和测试集
---
数据集分为两部分,将用于训练模型的一部分成为训练数据集,用于验证模型的数据集叫做测试数据集。比例常为80/20.我们导入sklearn.crossvalidation库中的train_test_split()方法。
步骤6:特征缩放
---
大多数机器学习算法在计算中使用两个数据点之间的欧几里德距离,这样特征在幅度、单位、和范围姿态问题上变化很大。在距离计算中,高幅度的特征比低幅度的特征权重更大。可以使用特征标准化或Z值归一化解决。导入sklearn.preprosessing库的StadardScalar类。
中文翻译

英文原图

转载于:https://www.cnblogs.com/yihe/p/9459195.html

你可能感兴趣的文章
C# 远程链接指定计算机,获取该计算机的计算机名等信息
查看>>
[Flume][Kafka]Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic)
查看>>
OpenGL入门笔记(十一)
查看>>
kill命令
查看>>
python3爬虫(二)实战- 爬糗事百科
查看>>
windowsXP用户被禁用导致不能网站登录
查看>>
第 8 章 TokyoCabinet/Tyrant
查看>>
智慧城市逐步推进 未来城市建设突破口分析
查看>>
是谁在推动路由器智能连接功能的普及?
查看>>
物联网软件更新政策不明 智能冰箱也易沦为犯罪工具
查看>>
基于 SaaS 解决库存问题, Nextail 获 160 万美元融资
查看>>
Windows 10新版可以更新了!这些新功能值得升级
查看>>
《微信公众平台开发最佳实践》——2.2 微信开发者中心
查看>>
《IPv6精髓(第2版)》——1.4 常见误解
查看>>
《精通ArcGIS Server 应用与开发》——2.2 ArcGIS Server架构
查看>>
《UNIX网络编程 卷1:套接字联网API(第3版)》——2.10 TCP端口号与并发服务器...
查看>>
Centrifugo —— 用 Golang 实现的实时消息通信平台
查看>>
《善用佳软:高效能人士的软件应用之道》一2.6 小工具之计算器
查看>>
《Web前端工程师修炼之道(原书第4版)》——关于浏览器
查看>>
关于CKEditor4.5.6的使用,自定义toolbar配置,上传图片案例(SpringMVC+MyBatis案例),自定义行高,去编辑器的中内容,将编辑器中内容设置到指定的位置等...
查看>>