机器学习方法
机器学习是人工智能的核心分支,其本质是让计算机通过数据学习规律,实现对未知数据的预测或决策。
根据学习方式和数据特点,机器学习可分为多种方法,其中监督学习、无监督学习、强化学习是三大主流范式,此外还有半监督学习、自监督学习等衍生方法。
一、监督学习(Supervised Learning)
概念
监督学习
监督学习是指利用带有标签的训练数据,让模型学习输入(特征)与输出(标签)之间的映射关系,最终实现对新的无标签数据的预测。
这里的“监督”类比人类学习中“老师给出标准答案”的过程——模型通过对比预测结果与真实标签的差异,不断调整参数以降低误差。
核心特点
- 训练数据包含明确的输入(X)和对应的输出(Y);
- 目标是学习函数 f:X→Y,使 f(X) 尽可能接近真实标签 Y;
- 学习过程依赖“误差反馈”(如损失函数)优化模型。
分类及典型算法
根据输出标签的类型,监督学习可分为两类:
分类任务(Classification)
标签为离散值(如“是/否”“猫/狗”),目标是将输入数据划分到预定义的类别中。- 典型算法:
- 逻辑回归(Logistic Regression):用于二分类或多分类,输出类别概率;
- 决策树(Decision Tree):通过树形结构逐步划分特征,解释性强;
- 支持向量机(SVM):寻找最优超平面分隔不同类别,适用于高维数据;
- 随机森林(Random Forest):集成多个决策树,降低过拟合风险;
- 神经网络(Neural Network):通过多层非线性变换拟合复杂分类边界,适用于图像、文本等复杂数据。
- 典型算法:
回归任务(Regression)
标签为连续值(如房价、温度),目标是预测输入对应的连续数值。- 典型算法:
- 线性回归(Linear Regression):拟合输入与输出的线性关系;
- 岭回归(Ridge Regression):在 linear regression 基础上加入 L2 正则化,防止过拟合;
- 多项式回归(Polynomial Regression):通过高阶多项式拟合非线性关系;
- 梯度提升树(GBDT、XGBoost、LightGBM):集成多个弱回归器,精度高,广泛用于竞赛和工业界。
- 典型算法:
应用场景
- 分类任务:
- 垃圾邮件识别(标签:“垃圾邮件/正常邮件”);
- 图像识别(标签:“猫/狗/汽车”);
- 疾病诊断(标签:“患病/健康”)。
- 回归任务:
- 房价预测(标签:具体价格);
- 股票价格预测(标签:未来价格);
- 销量预测(标签:商品销量)。
二、无监督学习(Unsupervised Learning)
概念
无监督学习
无监督学习是指利用无标签的训练数据,让模型自主发现数据中隐藏的规律或结构,无需人工提供“标准答案”。 其核心是从数据中挖掘内在模式(如聚类、分布特征)。
核心特点
- 训练数据仅有输入(X),无输出标签(Y);
- 目标是发现数据的内在结构(如聚类、降维、密度分布);
- 学习过程不依赖误差反馈,而是通过定义“相似度”“结构规则”优化模型。
典型任务及算法
聚类(Clustering)
将相似的样本划分为同一组(簇),不同样本划分为不同组,适用于数据分组或异常检测。- 典型算法:
- K-means:指定簇数 K,通过迭代优化簇中心,使簇内样本距离最小;
- DBSCAN:基于密度划分簇,可识别任意形状的簇,无需预设 K;
- 层次聚类(Hierarchical Clustering):通过构建树状结构逐步合并或拆分簇,形成层次化聚类结果。
- 典型算法:
降维(Dimensionality Reduction)
在保留数据核心信息的前提下,将高维特征映射到低维空间,解决“维度灾难”(高维数据稀疏、计算量大)。- 典型算法:
- 主成分分析(PCA):通过线性变换提取方差最大的主成分,实现降维;
- t-SNE:非线性降维方法,擅长保留数据的局部结构,常用于可视化高维数据(如将图像特征降维到 2D 展示)。
- 典型算法:
密度估计(Density Estimation)
估计数据在特征空间中的概率分布,用于异常检测(如远离分布中心的数据视为异常)。- 典型算法:高斯混合模型(GMM)。
应用场景
- 聚类:用户分群(如电商根据购买行为将用户划分为“价格敏感型”“品质导向型”)、文本主题聚类(如新闻自动分类为“政治”“体育”);
- 降维:图像压缩(将高维像素特征降维)、特征可视化(如将 100 维用户特征用 2D 图表展示);
- 异常检测:信用卡欺诈检测(正常交易符合特定分布,异常交易偏离分布)。
三、强化学习(Reinforcement Learning)
概念
强化学习
强化学习是指智能体(Agent)通过与环境交互,从“试错”中学习最优行为策略的方法。 智能体在环境中执行动作,获得“奖励”(正反馈)或“惩罚”(负反馈),最终目标是最大化长期累积奖励。
核心要素
- 智能体(Agent):执行动作的主体(如机器人、游戏 AI);
- 环境(Environment):智能体交互的外部场景(如游戏地图、物理世界);
- 动作(Action):智能体可执行的操作(如“向左走”“攻击”);
- 状态(State):环境在某一时刻的特征(如游戏中角色的位置、血量);
- 奖励(Reward):环境对动作的反馈(如游戏得分增加为正奖励,失败为负奖励)。
核心思想
强化学习的核心是学习“策略(Policy)”—— 即从状态到动作的映射(π:S→A),使智能体在长期交互中获得的累积奖励最大。由于奖励可能延迟(如游戏中“击败BOSS”才获得高奖励,中间步骤无直接奖励),需要通过“价值函数”评估状态或动作的长期价值。
典型算法
- Q-Learning:通过学习动作价值函数 Q(s,a)(状态 s 下执行动作 a 的预期累积奖励),指导智能体选择最优动作;
- 深度强化学习(如 DQN、PPO):结合深度学习与强化学习,用神经网络拟合策略或价值函数,处理高维状态(如游戏画面的像素数据)。
应用场景
- 游戏领域:AlphaGo(围棋 AI)、游戏机器人(如《星际争霸》《王者荣耀》AI);
- 机器人控制:自动驾驶(通过与道路环境交互,学习加速、刹车、转向策略)、机械臂操作(学习抓取物体的最优动作);
- 资源调度:电网负荷调度(通过调整发电量获得最大效率奖励)、推荐系统(动态调整推荐策略以最大化用户留存奖励)。
四、其他重要学习方法
1. 半监督学习(Semi-Supervised Learning)
- 概念:结合少量有标签数据和大量无标签数据进行学习,解决“标签成本高”的问题(如标注图像、文本需要大量人力)。
- 核心思想:利用无标签数据的分布信息辅助优化模型,提升在小样本标签场景下的性能。
- 应用场景:医疗影像诊断(标注数据少,可结合大量无标签影像训练)、语音识别(部分语音有转录标签,大部分无)。
2. 自监督学习(Self-Supervised Learning)
- 概念:一种特殊的无监督学习,通过“自生成标签”实现监督信号(无需人工标注)。例如,从图像中遮挡部分区域,让模型预测被遮挡内容(标签为原图被遮挡部分)。
- 核心思想:从数据本身挖掘监督信息,学习数据的内在特征。
- 应用场景:预训练模型(如 BERT、ViT 先用自监督学习在海量无标签数据上训练,再用少量有标签数据微调)、图像修复(预测图像缺失部分)。
3. 迁移学习(Transfer Learning)
- 概念:将从一个任务(源任务)学到的知识迁移到另一个相关任务(目标任务),解决目标任务数据不足的问题。
- 核心思想:利用任务间的共性(如“猫识别”和“狗识别”都依赖图像的边缘、纹理特征),复用源任务的模型参数。
- 应用场景:小样本学习(如用预训练的 ImageNet 模型微调,实现少量“熊猫”图片的识别)、跨领域迁移(如将从“英语文本”学到的语言模型迁移到“法语文本”任务)。
五、各类方法的对比与选择
学习方法 | 数据要求 | 核心目标 | 典型场景 | 优缺点 |
---|---|---|---|---|
监督学习 | 大量有标签数据 | 学习输入到输出的映射 | 预测(分类、回归) | 精度高,但依赖标签,成本高 |
无监督学习 | 无标签数据 | 发现数据内在结构 | 聚类、降维、异常检测 | 无需标签,但结果解释性较弱 |
强化学习 | 与环境交互的经验数据 | 学习最大化累积奖励的策略 | 动态决策(游戏、机器人) | 适用于序列决策,但训练复杂、样本效率低 |
半监督学习 | 少量标签+大量无标签 | 利用无标签数据提升性能 | 标签稀缺场景(医疗、科研) | 平衡标签成本与性能,但模型设计复杂 |