机器学习之逻辑回归代码解读

Clementine ·

更新时间:2024-09-21

· 752 次阅读


-0.017612	14.053064	0
-1.395634	4.662541	1
-0.752157	6.538620	0
-1.322371	7.152853	0
0.423363	11.054677	0
0.406704	7.067335	1
0.667394	12.741452	0
首先把需要处理的数据集的格式张贴一下。
我们先来看第一个函数：导入数据集

from numpy import *
def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat
在每一行中我们按照 line.strip() 默认分割方式（空格，tab等）进行分割，然后把数据的加上1.0作为开头，这是为了方便计算的，待会会进行说明；然后把列表加载到矩阵里。并把标签存在另一个矩阵里。
一般在二维平面分类的时候，我们的直线是 ,但是放到矩阵里进行计算的话，就比较麻烦。我们把b移位到左边，生成新的表示方式： ，注意这里的X0永远是1，这样右边就是0了，在矩阵计算就只需要用到左边就行了。
然后是第二个函数：sigmoid以及梯度上升函数。

def sigmoid(inX):
    return 1.0/(1+exp(-inX))
def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))
    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
    return weights
标签进行一下转置，学习率设为0.001，然后一共学习500轮。注意这里的n打印出来以后是3，代表前面每个样本的三个数值。
weights的初始值设为了(1,1,1)，然后乘出来的结果进入sigmoid函数，sigmoid函数接受一个矩阵，输出也是一个矩阵（而不仅是一个数值），我们把标签与sigmoid生成的结果相减，得到偏差error，然后通过梯度上升算法来修改weight。
简单说明一下：


对任意Xi进行求偏导，然后就可以得到后面的表达式。注意一个样本的三个数据（X0,X1,X2）在经过了上面的sigmoid函数后，值会在1——0之间。误差的意义就是判断这个值与样本的标签（二分类的时候要么是0，要么是1）的差距是多少，然后通过梯度上升进行计算。为什么是梯度上升以及为什么这么求，大家可以看别人的博客，李航的统计学习书也比较详细，李宏毅的视频里也介绍了。这里我就懒得再写了。
然后再看第三个函数：关于随机梯度上升法。

def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)
    alpha = 0.01
    weights = ones(n)
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]
    return weights
因为不再是一堆样本的矩阵相乘，这里只是数组，所以需要用到sum(dataMatrix[i]*weights)，将数值乘权重然后加起来。
然后上升的梯度也是加一个数值。
随意梯度上升可能会震荡很大，因为存在很多分类不好的数据。改进方式见第四个函数。
第四个函数：改进的随机梯度上升。

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)
    for j in range(numIter): dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.01
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights
这个代码改进了两个地方：
一是 alpha = 4/(1.0+j+i)+0.01 ，在迭代时随时调整学习率。
二是通过生成随机数来随机选择第几个样本，这里通过dataIndex = range(m)先来生成一个数组，数据变化从0到m-1，然后选中一个值后，用完将其剔除。


作者：Dezeming
                    
 
                

                            逻辑回归
                            学习
                            回归
                            机器学习


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            Kotlin Android 环境搭建
        
        
            Quirita
            2021-04-07
        
    
    
        999
    


    
        
    
    
        
            CSS未知高度垂直居中的实现
        
        
            Karima
            2020-11-22
        
    
    
        556
    


    
        
            Shell中去除字符串前后空格的方法
        
        
            Iris
            2021-08-03
        
    
    
        567
    


    
        
            CSS选择器学习攻略
        
        
            Serena
            2021-07-10
        
    
    
        661
    


    
        
            SQL注入之sqlmap入门学习
        
        
            Ula
            2023-05-13
        
    
    
        1477
    


    
        
            Docker AIGC等大模型深度学习环境搭建步骤最新详细版
        
        
            Jacinda
            2023-05-13
        
    
    
        1807
    


    
        
            一文带你学习一下C++中的构造函数
        
        
            Winona
            2023-05-13
        
    
    
        520
    


    
        
            C++中set的用法学习
        
        
            Fawn
            2023-05-13
        
    
    
        226
    


    
        
            Three.js概述和基础知识学习
        
        
            Echo
            2023-05-13
        
    
    
        1103
    


    
        
            Vue自定义指令学习及应用详解
        
        
            Maha
            2023-05-13
        
    
    
        1234
    


    
        
            写给小白学习的地理信息的表示法GeoJSON
        
        
            Kande
            2023-05-15
        
    
    
        702
    


    
        
            从错误中学习改正Go语言五个坏习惯提高编程技巧
        
        
            Viridis
            2023-05-17
        
    
    
        1281
    


    
        
    
    
        
            Java NIO下ByteBuffer的常用方法学习
        
        
            Maleah
            2023-05-17
        
    
    
        473
    


    
        
    
    
        
            MySQL基础学习之字符集的应用
        
        
            Nafisa
            2023-05-17
        
    
    
        1150
    


    
        
            C++函数模板学习示例教程指南
        
        
            Pandora
            2023-07-07
        
    
    
        25
    


    
        
            go语言定义零值可用的类型学习教程
        
        
            Tallulah
            2023-07-17
        
    
    
        216
    


    
        
            Redis数据结构之intset整数集合使用学习
        
        
            Janna
            2023-07-20
        
    
    
        1721
    


    
        
            Redis数据结构之跳跃表使用学习
        
        
            Ophelia
            2023-07-20
        
    
    
        644
    


    
        
            Redis数据结构之listpack和quicklist使用学习
        
        
            Natalia
            2023-07-20
        
    
    
        1968
    


    
        
            大语言模型的开发利器langchainan安装使用快速入门学习
        
        
            Irma
            2023-07-20
        
    
    
        829


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座

机器学习 之 逻辑回归代码解读

致谢

机器学习之逻辑回归代码解读