【机器学习】042_迁移学习-编程知识

一、概述、定义

目的：

迁移学习的目的是将某个领域或任务上学习到的模式、知识应用到不同但相关的领域里，获取更多数据，而不必投入许多时间人力来进行数据的标注。

举例：

已经会下中国象棋，就可以类比着来学习国际象棋；已经会编写Java程序，就可以类比着来学习C#；已经学会英语，就可以类比着来学习法语；已经学会了骑自行车，就可以类比学习骑摩托车等等。

定义：

Transfer Learning Definition:
Ability of a system to recognize and apply knowledge and skills learned in previous domains/tasks to novel domains/tasks.

通俗地讲，迁移学习就是运用已有的知识、模型来学习新的知识，构建新模型。其核心是找到已有知识与新知识的相似性与关联性。

重要概念：

域：某个时刻的某个特定领域——例如书本评论、电影评论；

任务：所要完成的任务与实现的功能——例如情感分析、实体识别；

给定源域 $D_s$ 和学习任务 $T_s$ 、目标域 $D_t$ 和学习任务 $T_t$ ，迁移学习的目的是获取源域 $D_s$ 和学习任务 $T_s$ 中知识来帮助提升目标域 $D_t$ 中预测函数 $f_t(.)$ 的学习。其中 $D_s\neq D_t$ 或者 $T_s\neq T_t$ 。

二、迁移学习的分类

1. 基于实例的迁移

研究如何从源域中找出对目标领域训练有作用的实例。

例：在对源域的有标记数据实例中进行有效的权重分配，让源域的实例分布接近目标域的实例分布，从而在目标领域中建立一个分类精度较高并且可靠的学习模型。

迁移学习中，源域与目标域的数据分布不一致，故源域中并非所有有标记的数据实例都对目标域有作用。基于实例的迁移有现有的一些迁移算法，来对源域的有效数据迁移到目标域中。

TrAdaBoost算法就是典型基于实例的迁移。

TrAdaBoost算法的工作机制如下：

初始化：算法开始时，对源域和目标域数据的权重进行初始化。通常，目标域数据的初始权重会高于源域数据。
迭代更新：在每一轮中，算法使用当前的权重来训练一个弱分类器。分类器首先在目标域上测试，然后在两个域上进行误差评估。
权重调整：算法根据分类器的表现来调整数据点的权重。对于源域数据，分类正确的数据点权重会增加（使得算法在后续迭代中更少地关注这些点），而分类错误的数据点权重会减少。这与传统的AdaBoost相反，其核心思想是减少源域中对目标域帮助不大或有害的数据点的权重。对于目标域数据，权重更新与传统AdaBoost相同，即增加被错误分类数据点的权重。
终止条件：算法会在达到预定的迭代次数后停止，或者当目标域上的误差不再显著减少时停止。
组合弱分类器：最后，算法结合所有的弱分类器，形成一个强分类器。每个弱分类器根据其在目标域上的性能加权，性能越好的分类器影响越大。