Python 实现 KNN 分类算法

Faye ·

更新时间:2024-09-21

· 742 次阅读

文章目录1. KNN1.1 KNN 分类算法步骤1.2 KNN 的优缺点2. python 实现

本文将详细讲述 KNN 算法及其 python 实现

1. KNN

KNN（K-Nearest Neighbour）即 K最近邻，是分类算法中最简单的算法之一。KNN 算法的核心思想是 如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则将该样本归为该类别

1.1 KNN 分类算法步骤

有 N 个已知分类结果的样本点，对新纪录 r 使用 KNN 将其分类

1.确定 k 值，确定计算距离的公式，如常用欧氏距离 d(x,y)=∑i=1n(xi−yi)2d(x,y)=\sqrt{\displaystyle \sum^n_{i = 1}{{(x_i-y_i)}^2}}d(x,y)=i=1∑n(xi−yi)2 2.计算 r 和其他样本点之间的距离 dird_{ir}dir，其中 i∈(1,N)i\in(1,N)i∈(1,N) 3.得到与 r 最接近的 k 个样本 4.将 k 个样本中最多归属类别的分类标签赋予新纪录 r，分类结束 1.2 KNN 的优缺点

优点：

原理简单，容易理解，容易实现重新训练代价较低时间复杂度、空间复杂度取决于训练集（一般不会太大）

缺点：

KNN 属于 lazy-learning 算法（对于每一个新加入的预测点，都要从头开始计算与每个样本点的距离），得到的结果及时性差 k 值对结果影响较大不同类记录相差较大时容易误判样本点较多时，计算量较大相对于决策树，结果可解释性不强 2. python 实现

已知分类如图所示（由于是随机产生，所以具体的样本点可能不一样）

其中顺时针依次是第1、2、3类，即红色是第 1 类，蓝色是第 2 类，灰色是第 3 类

# coding=utf-8
"""
@author: shenke
@project: AITest
@file: knn.py
@date: 2020/2/26
@description: python 实现 KNN（K-最邻近）分类算法
"""
import numpy as np
import matplotlib.pyplot as plt
from math import sqrt
class KNN():
    def __init__(self, k):
        self.k = k
    def generate_points(self, x_scope, y_scope, size):
        """
        产生给定范围内的二维坐标点
        """
        x = np.random.randint(x_scope[0], x_scope[1], size=size)
        y = np.random.randint(y_scope[0], y_scope[1], size=size)
        points = np.dstack((x, y))[0]
        return points
    def generate_data(self, size):
        """
        随机产生三个范围内的数据
        """
        points1 = self.generate_points([0, 8], [12, 20], size)
        labels1 = [1] * size
        points2 = self.generate_points([12, 20], [12, 20], size)
        labels2 = [2] * size
        points3 = self.generate_points([7, 13], [0, 8], size)
        labels3 = [3] * size
        plt.scatter(points1[:size, 0], points1[:size, 1], color='red')
        plt.scatter(points2[:size, 0], points2[:size, 1], color='blue')
        plt.scatter(points3[:size, 0], points3[:size, 1], color='gray')
        data = np.concatenate([points1, points2, points3])
        label = np.concatenate([labels1, labels2, labels3])
        return data, label
    def classify(self, target):
        """
        实现 KNN 分类
        """
        k = self.k
        # 设定每个类别中有 10 个样本点
        data, label = self.generate_data(10)
        # 计算欧氏距离
        distance = [sqrt(np.sum((target - point) ** 2)) for point in data]
        # 返回距离最近的 k 个样本的下标
        k_index = np.argsort(distance)[:k]
        # 返回 k 个样本的标签
        k_labels = [label[item] for item in k_index]
        # 返回 k 个样本中最多归属类别的分类标签
        res = max(k_labels, key=k_labels.count)
        print('该目标点为：第 %d 类' % (res))
        # 展示结果
        # 标出距离最近的 k 个样本点
        plt.scatter([data[index][0] for index in k_index], [data[index][1] for index in k_index], color='', marker='o',
                    edgecolors='green', s=200)
        # 标出目标点
        plt.scatter(target[0], target[1], color='green')
        plt.show()

测试

from algorithm import knn
if __name__ == '__main__':
    # 设定 k 值为 4，预测点坐标为（10，10）
    knn.KNN(4).classify([10, 10])

预测结果

上图中标出了预测点（绿色）并圈出了与预测点距离最近的四个点，其中属于第 3 类的样本点个数最多，故预测该点属于第 3 类

但是由于 k 值对预测结果影响较大，可能对预测结果产生误判。如以下情况，四个点中属于第 1 类和第 3 类的样本点个数一样多，这时就无法准确判断出该点的类别

作者：一路是夜幕沉沙

分类算法算法 Python 分类 knn

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

Python3 迭代器与生成器

Serafina 2021-03-06

813

html5借用repeating-linear-gradient实现一把刻度尺（ruler）

Isadora 2020-05-22

735

Go 中 slice 的 In 功能实现探索

Netany 2020-02-06

958

Asp.Net使用服务器控件Image/ImageButton显示本地图片的方法

Mathilda 2020-07-07

845

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座