对于数据集中的一个对象及组成对象的零件元素,统计学家常分别称之为观测(Observation)、变量(Variable); 数据库分析师则称之为记录(Record)、字段(Field); 数据挖掘/机器学习研究者则习惯称之为样本(Example)或示例(Instance)、属性(Attribute)或特征(Feature)。
对当前学习任务有用的属性称为相关特征(Relevant Feature),无用的属性称为无关特征(Irrelevant Feature)。从给定的特征集合中选出相关特征子集的过程,称为特征选择(Feature Selection)。
在机器学习中,特征选择是一个重要的数据预处理(Data Preprocessing)过程,即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集,接着再利用数据子集来训练学习器;稀疏学习(Sparse Learning)则是围绕着稀疏矩阵的优良性质,来完成相应的学习任务。
WIP,以下为后续篇章简述
12 计算学习理论
计算学习理论(Computational Learning Theory)是通过“计算”来研究机器学习的理论,其目的是分析学习任务的本质。例如:在什么条件下可进行有效的学习、需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证,并根据分析结果指导算法设计。
13 半监督学习
此前介绍的算法均属于监督学习或无监督学习。监督学习指的是训练样本包含标记信息的学习任务,例如常见的分类与回归算法;无监督学习则是训练样本不包含标记信息的学习任务,例如聚类算法。在实际生活中,常会出现一部分样本有标记而较多样本无标记的情形,例如做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃无标记样本集,使用传统的监督学习方法,常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。
为了利用未标记的样本数据,一种简单的做法是通过专家知识对这些未标记的样本进行打标,但随之而来的就是巨大的人力耗费。若先使用有标记的样本数据集训练出一个学习器,再基于该学习器对未标记的样本进行预测,从中挑选出不确定性高或分类置信度低的样本来咨询专家并进行打标,最后使用扩充后的训练集重新训练学习器,则可大幅降低标记成本。这便是主动学习(Active Learning),其目的是使用尽量少的、有价值的咨询来获得更好的性能。
显然,主动学习需要与外界进行交互/查询/打标,其本质仍属于一种监督学习。事实上,无标记样本虽未包含标记信息,但其与有标记样本一样都是从总体中独立同分布采样得到,因此其所包含的数据分布信息对学习器的训练大有裨益。让学习器不依赖外界的咨询交互、自动利用未标记样本所包含的分布信息来提升学习性能的方法称为半监督学习(Semi-supervised Learning),即训练集同时包含有标记样本数据和未标记样本数据。
此外,半监督学习还可以进一步划分为纯半监督学习和直推学习,两者的区别在于:前者假定训练数据集中的未标记数据并非待预测数据,而后者假定学习过程中的未标记数据就是待预测数据。主动学习、纯半监督学习以及直推学习三者的概念如下图所示:

14 概率图模型
机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测。概率模型(Probabilistic Model)提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为推断(Inference),其核心是如何基于可观测变量推测出未知变量的条件分布。具体来说,假定所关心的变量集合为Y,可观测变量集合为O,其他变量的集合为R,生成式(Generative)模型考虑联合分布P(Y, R, O),判别式(Discriminative)模型考虑条件分布P(Y, R\mid O)。给定一组观测变量值,推断的过程为由P(Y, R, O)或P(Y, R\mid O)得到条件概率分布P(Y\mid O)。
概率图模型(Probabilistic Graphical Model)是一类用图结构来表达变量相关关系的概率模型。一般而言,图中的一个结点表示一个或一组随机变量,结点之间的边表示变量间的相关关系,从而形成了一张变量关系图。根据边的性质可分为如下两类:使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网(Bayesian Network);使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网(Markov Network)。
15 规则学习
机器学习中的规则(Rule)通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念、可写成“若……,则……”形式的逻辑规则。规则学习(Rule Learning)是从训练数据中学习出一组能用于对未见示例进行判别的规则。
与神经网络、支持向量机这样的“黑箱模型”相比,规则学习具有更好的可解释性,能使用户更直观地对判别过程有所了解。另一方面,数理逻辑具有极强的表达能力,绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达。
16 强化学习
强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支。在强化学习中,包含状态与动作这两种基本的元素。策略指在某个状态下执行某种动作,学习器要做的就是通过不断地探索学习,从而获得一个好的策略。
若将状态看作为属性,动作看作为标记,易知监督学习和强化学习都是在试图寻找一个映射,从已知属性/状态推断出标记/动作,则强化学习中的策略相当于监督学习中的分类/回归器。但在实际问题中,强化学习并没有监督学习那样的标记信息,通常都是在尝试动作后才能获得结果,因此强化学习是通过反馈的结果信息不断调整之前的策略,从而算法能够学习在何种的状态下选择何种的动作可以获得最好的结果。