机器学习的常用概念
目录
特征(属性)
通常是训练样本集的列,可看作是每个列的列名,比如区分鸟的品种可以用体重,后背颜色此类的特征来加以区分
特征实例
某一特征列其中的数据
特征的种类
- 数值型
- 二值型(类似布尔型)
- 枚举类型(颜色色值)
训练集
训练集是用于训练机器学习算法的数据样本集合
训练样本
样本集的每一行就是一个训练样本
目标变量
机器学习算法的预测结果
分类:
- 分类算法中,通常为标称型,目标变量称为
类别
- 回归算法中,通常为连续型
训练样本集前必须要确定目标变量的值,比如根据鸟的身高,体重,颜色这些特征可以具体确定鸟的品种,品种就是目标变量, 而品种的值就是具体的品种名称,也就是目标变量的值
知识表示
指展示机器分类的结果的工作
形式包括:规则集
概率分布
训练样本集中的实例
Why?
以便机器学习算法发现特征与目标变量的关系
机器学习的主要任务就是分类
将实例数据划分到合适的分类中
分类的基本流程:
- 得到全部特征信息
- 算法训练(学习如何分类)
- 测试机器学习算法的效果
如何测试算法的效果?
为了测试效果,通常会使用两套独立的样本集:训练数据
和 测试数据
机器学习另外一个重要的任务:回归
主要用于预测数值型数据
程序开始运行:
训练样本集提供目标变量 => 输入到算法 => 训练完成 => 输入测试数据(不包含目标变量) => 比较测试结果与实际目标变量的差别(回归拟合) => 得出算法的实际精确度
监督学习与无监督学习
监督学习指算法知道预测什么,也就是有明确的目标
回归和分类都是属于监督学习
与监督学习相比,无监督学习没有目标值
非监督学习
作用:
- 减少数据特征的维度
聚类(分析)
把相似的对象通过静态分类的方法分成不同组别或者更多的子集,相当于是把一个训练集分成了多个训练集,每个新训练集中的数据的特征相似
密度估计
指寻找描述数据统计值的过程,可以理解为要得到关于描述数据的 频率分布直方图
,降低特征维度,使其更直观
浅谈算法的选择
- 以目的为导向:根据要完成的任务,选择监督学习的或者是非监督学习的算法
- 以数据来源为导向:需要分析或收集的数据是什么
开发机器学习应用程序的大概步骤
-
收集数据
-
准备输入数据
-
分析输入数据(人工)
-
训练算法(机器学习)
-
测试算法
-
使用算法