机器学习的常用概念

目录

特征(属性)

通常是训练样本集的列,可看作是每个列的列名,比如区分鸟的品种可以用体重,后背颜色此类的特征来加以区分

特征实例

某一特征列其中的数据

特征的种类

  • 数值型
  • 二值型(类似布尔型)
  • 枚举类型(颜色色值)

训练集

训练集是用于训练机器学习算法的数据样本集合

训练样本

样本集的每一行就是一个训练样本

目标变量

机器学习算法的预测结果

分类:

  • 分类算法中,通常为标称型,目标变量称为类别
  • 回归算法中,通常为连续型

训练样本集前必须要确定目标变量的值,比如根据鸟的身高,体重,颜色这些特征可以具体确定鸟的品种,品种就是目标变量, 而品种的值就是具体的品种名称,也就是目标变量的值

知识表示

指展示机器分类的结果的工作

形式包括:规则集 概率分布 训练样本集中的实例

Why?

以便机器学习算法发现特征与目标变量的关系

机器学习的主要任务就是分类

将实例数据划分到合适的分类中

分类的基本流程:

  1. 得到全部特征信息
  2. 算法训练(学习如何分类)
  3. 测试机器学习算法的效果

如何测试算法的效果?

为了测试效果,通常会使用两套独立的样本集:训练数据测试数据

机器学习另外一个重要的任务:回归

主要用于预测数值型数据

程序开始运行:

训练样本集提供目标变量 => 输入到算法 => 训练完成 => 输入测试数据(不包含目标变量) => 比较测试结果与实际目标变量的差别(回归拟合) => 得出算法的实际精确度

监督学习与无监督学习

监督学习指算法知道预测什么,也就是有明确的目标

回归和分类都是属于监督学习

与监督学习相比,无监督学习没有目标值

非监督学习

作用:

  • 减少数据特征的维度

聚类(分析)

把相似的对象通过静态分类的方法分成不同组别或者更多的子集,相当于是把一个训练集分成了多个训练集,每个新训练集中的数据的特征相似

密度估计

指寻找描述数据统计值的过程,可以理解为要得到关于描述数据的 频率分布直方图,降低特征维度,使其更直观

浅谈算法的选择

  • 以目的为导向:根据要完成的任务,选择监督学习的或者是非监督学习的算法
  • 以数据来源为导向:需要分析或收集的数据是什么

开发机器学习应用程序的大概步骤

  1. 收集数据

  2. 准备输入数据

  3. 分析输入数据(人工)

  4. 训练算法(机器学习)

  5. 测试算法

  6. 使用算法