目录
article
算法图解 - K 最近邻算法
算法图解 - K 最近邻算法
K 最近邻 (K-nearest neighbours, KNN) 算法
1. 特征抽取
抽取特征
根据特征绘图
计算距离
使用毕达哥拉斯公式
$$\sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}$$
特征更多时仍然使用相同的计算公式
$$\sqrt{(a_1 - a_2)^2 + (b_1 - b_2)^2 + (c_1 - c_2)^2 + (d_1 - d_2)^2 + (e_1 - e_2)^2}$$
结果越小则表示特征越相似
2. 回归(regression)
分类就是编组
回归就是预测结果(如一组数字)
3. 挑选合适的特征
机器学习
OCR 光学字符识别(optical character recognition)
浏览大量的文字图像,将这些文字的特征提取出来(训练(training))
遇到新图像时,提取该图像的特征,再找到它最近的邻居是谁。
小结
KNN 用于分类和回归,需要考虑最近的邻居
分类就是编组
回归就是预测结果(如数字)
特征抽取意味着将物品转换为一些列课比较的数字
能否挑选合适的特征事关 KNN 算法的成败