AI 基础知识 · 第二篇
机器学习是什么?
AI 怎么”学习”的?
上一篇我们聊到,AI 是一种”基于数据和概率的计算系统”。但它到底是怎么从数据里”学”到东西的?
🔑
核心要点
- 机器学习是 AI 的核心技术之一,让计算机从数据中自动找规律
- AI 的”学习”不是像人一样读书理解,而是通过大量试错、不断调整
- 训练数据的质量和数量,直接决定 AI 的能力上限
🧠
通俗理解
想象你在教一个小朋友认识猫和狗。你不会给他一本《猫狗定义大全》让他背,而是指着照片一张一张告诉他:”这是猫,这是狗,这是猫……”
见得多了,他自然就能总结出规律——比如”猫耳朵尖、眼睛大,狗鼻子长”。
机器学习的原理和这几乎一模一样。我们给计算机大量带标签的数据,它通过反复分析,自动找出特征,最终形成一套判断规则。这个过程,就叫做训练(Training)。
📌
举例说明
场景 · 垃圾邮件过滤
早期的垃圾邮件过滤器,是工程师手动写规则:”如果邮件里含有’免费领取’这几个字,就标记为垃圾邮件。”
但发垃圾邮件的人很聪明,换个说法就能绕过去。
后来换成了机器学习:给系统输入几十万封邮件,标注哪些是垃圾、哪些正常;系统自动分析语言模式、发件人特征、链接规律……最终学会识别各种”变种”垃圾邮件,哪怕从没见过这种写法。
关键洞察
机器学习比”手写规则”强大得多——它能自己发现人类没想到的规律。
📖
进一步理解
机器学习的学习过程,可以简单分成三步:
01
输入数据
喂给系统大量有标注的样本(比如:这张图是猫,那张是狗)
02
反复试错
系统先瞎猜,猜错了就调整内部参数,再猜,再调整……这个过程会重复成千上万次
03
形成模型
准确率越来越高,最终形成稳定的”判断模型”,可以用来预测新数据
💡 再打个比方
这就像学骑自行车。你不是靠背”重心偏左时脚往左蹬”这种说明书学会的,而是摔了几十次,身体自动记住了平衡感。机器学习的”学习”,本质上也是一种通过反馈不断校正的过程。
⚠️
需要注意的是
机器学习的能力,完全依赖于训练数据。
- 如果训练数据有偏差(比如只见过白猫),系统遇到橘猫可能就懵了
- 如果训练数据包含错误或歧视性内容,AI 也会学到这些偏见
- 数据量不够,AI 的泛化能力就会很差
这也是为什么,AI 的问题很多时候不是”计算机出错了”,而是”学习材料本身就有问题“。