3.1. 不同的输出空间

预期收益

  • ★ 根据输出空间的不同, 可以将问题正确分类: 2分类、多分类、回归问题、结构化问题
  • ★ 可以根据输出空间类型不同, 举出相关实例

时间成本

  • 阅读 03 分钟
  • 思考 05 分钟

3.1.1. 机器学习基本流程回顾

  1. 从问题出发, 设定问题的假设空间\(H\)
  2. 利用机器学习算法, 在假设空间上中, 找到一个在历史数据集上表现最好的假设作为最终假设, 即模型

问题

  • 是不是所有问题的假设空间都一样呢?
  • 如果不一样, 和哪些因素相关?

本节从问题的输出空间类型视角出发, 对机器学习进行问题进行分类, 以便我们快速确定候选的假设空间

3.1.2. 2分类问题

  • 信用卡审核是否通过
  • 邮件是否为垃圾邮件
  • 就诊的人是否患某病
  • 判定答题是否正确

这类问题, 其输出结果只有两种: 是/否, 我们称为2分类问题 Binary Classification.

感知机作为解决2分类问题的一种, 可以作为候选求解这类问题的机器学习方法

3.1.3. 多分类问题

日常生活中, 输出结果不仅仅是两种类型, 可能是更多种, 比如

  • 数字识别0-9
  • 物体识别
  • 自动售卖机识别币值
  • 识别患上哪种疾病

其输出不再是两种, 通常是两种以上, 称为多分类问题 Multiclass Classification.

  • 2分类的问题, 我们可以看作是判断题
  • 多分类问题, 可以类比为多选题

3.1.4. 回归问题

回归问题和2分类/多分类问题有明显的区别, 比如

  • 预测考生的成绩
  • 预测房价
  • 预测股票
  • 根据历史天气数据预测未来温度

上述例子有以下特点

  • 输出结果通常不再是有限个元素, 通常是实数(整数)
  • 输出有序关系(大小关系)

3.1.5. 结构化问题(标注问题)

除了分类问题和回归问题, 现实生活中还有一种更为复杂的输出结构, 这类结果通常有以下特征

  • 潜在可能结果很多, 通常无法直接枚举
  • 输出结果不具有序关系
  • 单个输出结果不在是单一的数值, 内部包含结构关系, 比如某些数值的排列

示例

  • 自动词性标注, NLP基础问题 \(I_{Pronoun} {love}_{verb} {Machine-Learning}_{noun}\)
    • 其输出空间\(Y={PVN, NVN, PVP, PV, \ldots}\)
    • 句子长短不同, 其输出空间中元素的长度不同, 一般无法(很难)穷举, 不适合直接作为多分类问题处理
  • 蛋白质的3维空间结构, 蛋白质和生物体之间作用