3.5. 小结

3.5.1. 概要

预期收益

  • ★ 从不同视角对机器学习问题进行分类, 以便快速、高效选取相对应的处理方法

时间成本

  • 阅读 03 分钟
  • 思考 05 分钟

3.5.2. 汇总

分类 类别 备注
标签类型
  • 回归问题, 数值(无限可能), 模型: 线性回归、决策树、SVM等模型, 如: 房价预测
  • 分类问题, 类别(有限个类别), 模型: 感知机、逻辑回归、决策树、SVM等模型, 如: 信用卡申请
  • 结构问题, 结构(序列), 如: 词性标注
 
有无标签
  • 监督问题, 有标签列, 如: 回归问题、分类问题等
  • 非监督问题, 无标签列, 如: 聚类问题、异常值检测等
  • 半监督问题, 一部分有标签列, 标签成本太高
  • 强化学习, 过程问题, 中间过程有激励函数, 如: 游戏、自动驾驶
 
学习策略
  • 批量学习, 成千上万数据训练, 将最终的模型应用到生产线
  • 在线学习, 在生产线上进行训练, 有新的样本就训练, 然后立即更新模型
  • 主动学习, 在学习过程中, 机器主动有技巧提出问题, 以便加速学习、提高效率和性能, 如:手写数字识别(反馈哪些没有把握的数字图片)
 
输入含义
  • 具体特征, 物理含义复杂, 包含人类智慧, 如信: 用卡申请(年龄、工龄、…)
  • 原生特征, 物理含义简单, 如: 手写数字识别(手写数字图片)
  • 抽象特征, 没有(较少)有物理意义, 如: 用户ID, 图片ID