主动学习(Active Learning), 半监督学习(Semi-Supervised Learning)与直推学习(Transductive Learning)
半监督学习又称为归纳学习(Inductive Learning)
补充知识
“开放世界”假设
- 学得的模型能适用于训练过程中从未观察到的数据
- 也就是说:测试集未知
“封闭世界”假设
- 学得的模型仅仅能适用于训练过程中观察到的未标记样本
- 也就是说:测试集就是训练时观察到的未标记数据
相同点
- 都是用于解决有少量标注数据和海量未标注数据的问题的算法
- 都是迭代扩充标记数据集的算法:
- 每次迭代时添加如一部分新的标记数据(由未标记数据标记产生的)
不同点
主动学习
- 主动学习添加了专家知识(人工确认或者打标签),每次迭代时加入的新的标记数据都是由专家打出来的标签
- 半监督学习和直推学习都是全自动的(无需人工干预),主动学习是半自动的
半监督学习与直推学习
- 直推学习将当前的为标签数据看成是最终的测试数据
- 半监督学习和主动学习的测试集都是未知数据
- 半监督学习是基于”开放世界”假设的
- 直推学习是基于”封闭世界”假设的
总结
总体概览
表格概览
学习算法 | 是否需要专家知识(人工) | 是否具有泛化性 |
---|---|---|
半监督学习 | 否 | 是(“开放世界”假设) |
主动学习 | 是 | 是(“开放世界”假设) |
直推学习 | 否 | 不具有,测试集是已知的未标记数据(“封闭世界假设”) |