3.4. 机器学习不同输入

预期收益

  • ☆ 可以根据输入数据的复杂程度、是否有物理含义, 划分特征: concrete features、raw features、abstract features
  • ☆ 了解处理三类不同输入特征的一般基本思路

时间成本

  • 阅读 01 分钟
  • 思考 03 分钟

在进行机器学习过程中, 根据特征(输入空间中的各列)包含信息的多少进行分类, 每一类输入特征形成了相对成熟的技术方向

类型 特点 示例 备注
具体特征 concrete features
  • 复杂的物理含义
  • 含有人类智慧
  • 信用卡申请, 用户信息: 年龄、工龄、…
  • 硬币分类, 大小、重量
  • 数字识别, 密度(笔画多少)、是否对称
  • 简单
  • 特征工程
原生特征 raw features
  • 含义简单
  • 未经处理
  • 数字识别, 手写数字图片(像素点)
  • 语音识别, 声音频谱
  • 相对复杂
  • 深度学习构造特征
抽象特征 abstract features
  • 未有(很少)物理含义
  • Titanic 生存预测, 乘客ID
  • 在线广告, 图片ID
  • 包含物理含义少
  • 抽取对应物理特征, 进一步处理