Skip to content

机器学习方法

约 2470 字大约 8 分钟

机器学习AI

2025-07-11

机器学习是人工智能的核心分支,其本质是让计算机通过数据学习规律,实现对未知数据的预测或决策。

根据学习方式和数据特点,机器学习可分为多种方法,其中监督学习、无监督学习、强化学习是三大主流范式,此外还有半监督学习、自监督学习等衍生方法。

一、监督学习(Supervised Learning)

概念

监督学习

监督学习是指利用带有标签的训练数据,让模型学习输入(特征)与输出(标签)之间的映射关系,最终实现对新的无标签数据的预测

这里的“监督”类比人类学习中“老师给出标准答案”的过程——模型通过对比预测结果与真实标签的差异,不断调整参数以降低误差。

核心特点

  • 训练数据包含明确的输入(X)和对应的输出(Y);
  • 目标是学习函数 f:XYf: X \rightarrow Y,使 f(X)f(X) 尽可能接近真实标签 YY
  • 学习过程依赖“误差反馈”(如损失函数)优化模型。

分类及典型算法

根据输出标签的类型,监督学习可分为两类:

  1. 分类任务(Classification)
    标签为离散值(如“是/否”“猫/狗”),目标是将输入数据划分到预定义的类别中。

    • 典型算法:
      • 逻辑回归(Logistic Regression):用于二分类或多分类,输出类别概率;
      • 决策树(Decision Tree):通过树形结构逐步划分特征,解释性强;
      • 支持向量机(SVM):寻找最优超平面分隔不同类别,适用于高维数据;
      • 随机森林(Random Forest):集成多个决策树,降低过拟合风险;
      • 神经网络(Neural Network):通过多层非线性变换拟合复杂分类边界,适用于图像、文本等复杂数据。
  2. 回归任务(Regression)
    标签为连续值(如房价、温度),目标是预测输入对应的连续数值。

    • 典型算法:
      • 线性回归(Linear Regression):拟合输入与输出的线性关系;
      • 岭回归(Ridge Regression):在 linear regression 基础上加入 L2 正则化,防止过拟合;
      • 多项式回归(Polynomial Regression):通过高阶多项式拟合非线性关系;
      • 梯度提升树(GBDT、XGBoost、LightGBM):集成多个弱回归器,精度高,广泛用于竞赛和工业界。

应用场景

  • 分类任务:
    • 垃圾邮件识别(标签:“垃圾邮件/正常邮件”);
    • 图像识别(标签:“猫/狗/汽车”);
    • 疾病诊断(标签:“患病/健康”)。
  • 回归任务:
    • 房价预测(标签:具体价格);
    • 股票价格预测(标签:未来价格);
    • 销量预测(标签:商品销量)。

二、无监督学习(Unsupervised Learning)

概念

无监督学习

无监督学习是指利用无标签的训练数据,让模型自主发现数据中隐藏的规律或结构,无需人工提供“标准答案”。 其核心是从数据中挖掘内在模式(如聚类、分布特征)。

核心特点

  • 训练数据仅有输入(X),无输出标签(Y);
  • 目标是发现数据的内在结构(如聚类、降维、密度分布);
  • 学习过程不依赖误差反馈,而是通过定义“相似度”“结构规则”优化模型。

典型任务及算法

  1. 聚类(Clustering)
    将相似的样本划分为同一组(簇),不同样本划分为不同组,适用于数据分组或异常检测。

    • 典型算法:
      • K-means:指定簇数 K,通过迭代优化簇中心,使簇内样本距离最小;
      • DBSCAN:基于密度划分簇,可识别任意形状的簇,无需预设 K;
      • 层次聚类(Hierarchical Clustering):通过构建树状结构逐步合并或拆分簇,形成层次化聚类结果。
  2. 降维(Dimensionality Reduction)
    在保留数据核心信息的前提下,将高维特征映射到低维空间,解决“维度灾难”(高维数据稀疏、计算量大)。

    • 典型算法:
      • 主成分分析(PCA):通过线性变换提取方差最大的主成分,实现降维;
      • t-SNE:非线性降维方法,擅长保留数据的局部结构,常用于可视化高维数据(如将图像特征降维到 2D 展示)。
  3. 密度估计(Density Estimation)
    估计数据在特征空间中的概率分布,用于异常检测(如远离分布中心的数据视为异常)。

    • 典型算法:高斯混合模型(GMM)。

应用场景

  • 聚类:用户分群(如电商根据购买行为将用户划分为“价格敏感型”“品质导向型”)、文本主题聚类(如新闻自动分类为“政治”“体育”);
  • 降维:图像压缩(将高维像素特征降维)、特征可视化(如将 100 维用户特征用 2D 图表展示);
  • 异常检测:信用卡欺诈检测(正常交易符合特定分布,异常交易偏离分布)。

三、强化学习(Reinforcement Learning)

概念

强化学习

强化学习是指智能体(Agent)通过与环境交互,从“试错”中学习最优行为策略的方法。 智能体在环境中执行动作,获得“奖励”(正反馈)或“惩罚”(负反馈),最终目标是最大化长期累积奖励。

核心要素

  • 智能体(Agent):执行动作的主体(如机器人、游戏 AI);
  • 环境(Environment):智能体交互的外部场景(如游戏地图、物理世界);
  • 动作(Action):智能体可执行的操作(如“向左走”“攻击”);
  • 状态(State):环境在某一时刻的特征(如游戏中角色的位置、血量);
  • 奖励(Reward):环境对动作的反馈(如游戏得分增加为正奖励,失败为负奖励)。

核心思想

强化学习的核心是学习“策略(Policy)”—— 即从状态到动作的映射(π:SA\pi: S \rightarrow A),使智能体在长期交互中获得的累积奖励最大。由于奖励可能延迟(如游戏中“击败BOSS”才获得高奖励,中间步骤无直接奖励),需要通过“价值函数”评估状态或动作的长期价值。

典型算法

  • Q-Learning:通过学习动作价值函数 Q(s,a)(状态 s 下执行动作 a 的预期累积奖励),指导智能体选择最优动作;
  • 深度强化学习(如 DQN、PPO):结合深度学习与强化学习,用神经网络拟合策略或价值函数,处理高维状态(如游戏画面的像素数据)。

应用场景

  • 游戏领域:AlphaGo(围棋 AI)、游戏机器人(如《星际争霸》《王者荣耀》AI);
  • 机器人控制:自动驾驶(通过与道路环境交互,学习加速、刹车、转向策略)、机械臂操作(学习抓取物体的最优动作);
  • 资源调度:电网负荷调度(通过调整发电量获得最大效率奖励)、推荐系统(动态调整推荐策略以最大化用户留存奖励)。

四、其他重要学习方法

1. 半监督学习(Semi-Supervised Learning)

  • 概念:结合少量有标签数据和大量无标签数据进行学习,解决“标签成本高”的问题(如标注图像、文本需要大量人力)。
  • 核心思想:利用无标签数据的分布信息辅助优化模型,提升在小样本标签场景下的性能。
  • 应用场景:医疗影像诊断(标注数据少,可结合大量无标签影像训练)、语音识别(部分语音有转录标签,大部分无)。

2. 自监督学习(Self-Supervised Learning)

  • 概念:一种特殊的无监督学习,通过“自生成标签”实现监督信号(无需人工标注)。例如,从图像中遮挡部分区域,让模型预测被遮挡内容(标签为原图被遮挡部分)。
  • 核心思想:从数据本身挖掘监督信息,学习数据的内在特征。
  • 应用场景:预训练模型(如 BERT、ViT 先用自监督学习在海量无标签数据上训练,再用少量有标签数据微调)、图像修复(预测图像缺失部分)。

3. 迁移学习(Transfer Learning)

  • 概念:将从一个任务(源任务)学到的知识迁移到另一个相关任务(目标任务),解决目标任务数据不足的问题。
  • 核心思想:利用任务间的共性(如“猫识别”和“狗识别”都依赖图像的边缘、纹理特征),复用源任务的模型参数。
  • 应用场景:小样本学习(如用预训练的 ImageNet 模型微调,实现少量“熊猫”图片的识别)、跨领域迁移(如将从“英语文本”学到的语言模型迁移到“法语文本”任务)。

五、各类方法的对比与选择

学习方法数据要求核心目标典型场景优缺点
监督学习大量有标签数据学习输入到输出的映射预测(分类、回归)精度高,但依赖标签,成本高
无监督学习无标签数据发现数据内在结构聚类、降维、异常检测无需标签,但结果解释性较弱
强化学习与环境交互的经验数据学习最大化累积奖励的策略动态决策(游戏、机器人)适用于序列决策,但训练复杂、样本效率低
半监督学习少量标签+大量无标签利用无标签数据提升性能标签稀缺场景(医疗、科研)平衡标签成本与性能,但模型设计复杂