机器学习方法

约 2470 字大约 8 分钟

机器学习 AI

2025-07-11

机器学习是人工智能的核心分支，其本质是让计算机通过数据学习规律，实现对未知数据的预测或决策。

根据学习方式和数据特点，机器学习可分为多种方法，其中监督学习、无监督学习、强化学习是三大主流范式，此外还有半监督学习、自监督学习等衍生方法。

一、监督学习（Supervised Learning）

概念

监督学习

监督学习是指利用带有标签的训练数据，让模型学习输入（特征）与输出（标签）之间的映射关系，最终实现对新的无标签数据的预测。

这里的“监督”类比人类学习中“老师给出标准答案”的过程——模型通过对比预测结果与真实标签的差异，不断调整参数以降低误差。

核心特点

训练数据包含明确的输入（X）和对应的输出（Y）；
目标是学习函数 $f: X \rightarrow Y$ ，使 $f(X)$ 尽可能接近真实标签 $Y$ ；
学习过程依赖“误差反馈”（如损失函数）优化模型。

分类及典型算法

根据输出标签的类型，监督学习可分为两类：

分类任务（Classification）
标签为离散值（如“是/否”“猫/狗”），目标是将输入数据划分到预定义的类别中。
- 典型算法：
  - 逻辑回归（Logistic Regression）：用于二分类或多分类，输出类别概率；
  - 决策树（Decision Tree）：通过树形结构逐步划分特征，解释性强；
  - 支持向量机（SVM）：寻找最优超平面分隔不同类别，适用于高维数据；
  - 随机森林（Random Forest）：集成多个决策树，降低过拟合风险；
  - 神经网络（Neural Network）：通过多层非线性变换拟合复杂分类边界，适用于图像、文本等复杂数据。
回归任务（Regression）
标签为连续值（如房价、温度），目标是预测输入对应的连续数值。
- 典型算法：
  - 线性回归（Linear Regression）：拟合输入与输出的线性关系；
  - 岭回归（Ridge Regression）：在 linear regression 基础上加入 L2 正则化，防止过拟合；
  - 多项式回归（Polynomial Regression）：通过高阶多项式拟合非线性关系；
  - 梯度提升树（GBDT、XGBoost、LightGBM）：集成多个弱回归器，精度高，广泛用于竞赛和工业界。

应用场景

分类任务：
- 垃圾邮件识别（标签：“垃圾邮件/正常邮件”）；
- 图像识别（标签：“猫/狗/汽车”）；
- 疾病诊断（标签：“患病/健康”）。
回归任务：
- 房价预测（标签：具体价格）；
- 股票价格预测（标签：未来价格）；
- 销量预测（标签：商品销量）。

二、无监督学习（Unsupervised Learning）

概念

无监督学习

无监督学习是指利用无标签的训练数据，让模型自主发现数据中隐藏的规律或结构，无需人工提供“标准答案”。其核心是从数据中挖掘内在模式（如聚类、分布特征）。

核心特点

训练数据仅有输入（X），无输出标签（Y）；
目标是发现数据的内在结构（如聚类、降维、密度分布）；
学习过程不依赖误差反馈，而是通过定义“相似度”“结构规则”优化模型。

典型任务及算法

聚类（Clustering）
将相似的样本划分为同一组（簇），不同样本划分为不同组，适用于数据分组或异常检测。
- 典型算法：
  - K-means：指定簇数 K，通过迭代优化簇中心，使簇内样本距离最小；
  - DBSCAN：基于密度划分簇，可识别任意形状的簇，无需预设 K；
  - 层次聚类（Hierarchical Clustering）：通过构建树状结构逐步合并或拆分簇，形成层次化聚类结果。
降维（Dimensionality Reduction）
在保留数据核心信息的前提下，将高维特征映射到低维空间，解决“维度灾难”（高维数据稀疏、计算量大）。
- 典型算法：
  - 主成分分析（PCA）：通过线性变换提取方差最大的主成分，实现降维；
  - t-SNE：非线性降维方法，擅长保留数据的局部结构，常用于可视化高维数据（如将图像特征降维到 2D 展示）。
密度估计（Density Estimation）
估计数据在特征空间中的概率分布，用于异常检测（如远离分布中心的数据视为异常）。
- 典型算法：高斯混合模型（GMM）。

应用场景

聚类：用户分群（如电商根据购买行为将用户划分为“价格敏感型”“品质导向型”）、文本主题聚类（如新闻自动分类为“政治”“体育”）；
降维：图像压缩（将高维像素特征降维）、特征可视化（如将 100 维用户特征用 2D 图表展示）；
异常检测：信用卡欺诈检测（正常交易符合特定分布，异常交易偏离分布）。

三、强化学习（Reinforcement Learning）

概念

强化学习

强化学习是指智能体（Agent）通过与环境交互，从“试错”中学习最优行为策略的方法。智能体在环境中执行动作，获得“奖励”（正反馈）或“惩罚”（负反馈），最终目标是最大化长期累积奖励。

核心要素

智能体（Agent）：执行动作的主体（如机器人、游戏 AI）；
环境（Environment）：智能体交互的外部场景（如游戏地图、物理世界）；
动作（Action）：智能体可执行的操作（如“向左走”“攻击”）；
状态（State）：环境在某一时刻的特征（如游戏中角色的位置、血量）；
奖励（Reward）：环境对动作的反馈（如游戏得分增加为正奖励，失败为负奖励）。

核心思想

强化学习的核心是学习“策略（Policy）”—— 即从状态到动作的映射（ $\pi: S \rightarrow A$ ），使智能体在长期交互中获得的累积奖励最大。由于奖励可能延迟（如游戏中“击败BOSS”才获得高奖励，中间步骤无直接奖励），需要通过“价值函数”评估状态或动作的长期价值。

典型算法

Q-Learning：通过学习动作价值函数 Q(s,a)（状态 s 下执行动作 a 的预期累积奖励），指导智能体选择最优动作；
深度强化学习（如 DQN、PPO）：结合深度学习与强化学习，用神经网络拟合策略或价值函数，处理高维状态（如游戏画面的像素数据）。

应用场景

游戏领域：AlphaGo（围棋 AI）、游戏机器人（如《星际争霸》《王者荣耀》AI）；
机器人控制：自动驾驶（通过与道路环境交互，学习加速、刹车、转向策略）、机械臂操作（学习抓取物体的最优动作）；
资源调度：电网负荷调度（通过调整发电量获得最大效率奖励）、推荐系统（动态调整推荐策略以最大化用户留存奖励）。

四、其他重要学习方法

1. 半监督学习（Semi-Supervised Learning）

概念：结合少量有标签数据和大量无标签数据进行学习，解决“标签成本高”的问题（如标注图像、文本需要大量人力）。
核心思想：利用无标签数据的分布信息辅助优化模型，提升在小样本标签场景下的性能。
应用场景：医疗影像诊断（标注数据少，可结合大量无标签影像训练）、语音识别（部分语音有转录标签，大部分无）。

2. 自监督学习（Self-Supervised Learning）

概念：一种特殊的无监督学习，通过“自生成标签”实现监督信号（无需人工标注）。例如，从图像中遮挡部分区域，让模型预测被遮挡内容（标签为原图被遮挡部分）。
核心思想：从数据本身挖掘监督信息，学习数据的内在特征。
应用场景：预训练模型（如 BERT、ViT 先用自监督学习在海量无标签数据上训练，再用少量有标签数据微调）、图像修复（预测图像缺失部分）。

3. 迁移学习（Transfer Learning）

概念：将从一个任务（源任务）学到的知识迁移到另一个相关任务（目标任务），解决目标任务数据不足的问题。
核心思想：利用任务间的共性（如“猫识别”和“狗识别”都依赖图像的边缘、纹理特征），复用源任务的模型参数。
应用场景：小样本学习（如用预训练的 ImageNet 模型微调，实现少量“熊猫”图片的识别）、跨领域迁移（如将从“英语文本”学到的语言模型迁移到“法语文本”任务）。

五、各类方法的对比与选择

学习方法	数据要求	核心目标	典型场景	优缺点
监督学习	大量有标签数据	学习输入到输出的映射	预测（分类、回归）	精度高，但依赖标签，成本高
无监督学习	无标签数据	发现数据内在结构	聚类、降维、异常检测	无需标签，但结果解释性较弱
强化学习	与环境交互的经验数据	学习最大化累积奖励的策略	动态决策（游戏、机器人）	适用于序列决策，但训练复杂、样本效率低
半监督学习	少量标签+大量无标签	利用无标签数据提升性能	标签稀缺场景（医疗、科研）	平衡标签成本与性能，但模型设计复杂