【Python算法】分类与预测——logistic回归分析

Fronde ·

更新时间:2024-11-10

· 994 次阅读

1.logistic回归定义

logistic回归是一种广义线性回归（generalized linear model），因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y =w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归。

Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。Python已经成为最受欢迎的程序设计语言之一。自从2004年以后，python的使用率呈线性增长。2011年1月，它被TIOBE编程语言排行榜评为2010年度语言。

由于Python语言的简洁性、易读性以及可扩展性，在国外用Python做科学计算的研究机构日益增多，一些知名大学已经采用Python来教授程序设计课程。例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用Python语言讲授。

众多开源的科学计算软件包都提供了Python的调用接口，例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。而Python专用的科学计算扩展库就更多了，例如如下3个十分经典的科学计算扩展库：NumPy、SciPy和matplotlib，它们分别为Python提供了快速数组处理、数值运算以及绘图功能。因此Python语言及其众多的扩展库所构成的开发环境十分适合工程技术、科研人员处理实验数据、制作图表，甚至开发科学计算应用程序。

4.Numpy

NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵（matrix））。

NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用，以及核心的科学计算组织如：Lawrence Livermore，NASA用其处理一些本来使用C++，Fortran或Matlab等所做的任务。

5.scikit-learn

scikit-learn，Python 中的机器学习，简单高效的数据挖掘和数据分析工具，可供大家使用，可在各种环境中重复使用，建立在 NumPy，SciPy 和 matplotlib 上开放源码，可商业使用 - BSD license。

6.Matplotlib

Matplotlib 是一个 Python 的 2D绘**，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等。

7.pandas

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

8.导入所需要的库:numpy,matplotlib.pyplot,pandas

代码如下:


# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
9.加载数据集
代码如下：

# Importing the dataset
dataset = pd.read_csv('/mnt/dataset_29/Social_Network_Ads_82e4aa0627105a2d22b70d7ad0bfeda0.csv')   注意：数据集以实际位置为准
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values
注意：实验中以数据集的具体为准。

如下给出数据，可将数据创建响相应的数据集用于字日常训练，也可在实验平台中数据集模块下的的“社交网络数据集”中进行查看。

数据集如下：（见附件）
10.将数据集分割为训练集和测试集
代码如下：

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
11.特征缩放
代码如下：

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

12.使用逻辑回归对数据进行处理
代码如下：

from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

13.对测试集进行分类
代码如下：

# Predicting the Test set results
y_pred = classifier.predict(X_test)
14.制造混淆矩阵评估分类器性能
代码如下：

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
15.绘制训练集和测试集
绘制训练集数据结果：

from matplotlib.colors import ListedColormap
X_set,y_set=X_train,y_train
X1,X2=np. meshgrid(np. arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01),
                   np. arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())
for i,j in enumerate(np. unique(y_set)):
    plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],
                c = ListedColormap(('red', 'green'))(i), label=j)
plt. title(' LOGISTIC(Training set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()

给测试集数据分类：

X_set,y_set=X_test,y_test
X1,X2=np. meshgrid(np. arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01),
                   np. arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())
for i,j in enumerate(np. unique(y_set)):
    plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],
                c = ListedColormap(('red', 'green'))(i), label=j)
plt. title(' LOGISTIC(Test set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()

社交网络测试数据集.csv.zip
作者：Micker


作者：华为云
                    
 
                

                            分类
                            python算法
                            Python


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
            HTTP 方法：GET 对比 POST
        
        
            Malina
            2020-12-16
        
    
    
        584
    


    
        
    
    
        
            Asp.Net使用服务器控件Image/ImageButton显示本地图片的方法
        
        
            Mathilda
            2020-07-07
        
    
    
        845
    


    
        
            Docker部署Python应用的方法实现
        
        
            Madge
            2023-07-22
        
    
    
        687
    


    
        
            一文详解Python中多进程和进程池的使用方法
        
        
            Serafina
            2023-07-24
        
    
    
        338
    


    
        
            Python中常用功能的实现代码分享
        
        
            Kathy
            2023-07-24
        
    
    
        934
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592
    


    
        
    
    
        
            python中os模块和sys模块的使用详解
        
        
            Pandora
            2023-08-28
        
    
    
        600
    


    
        
            Python中的QPixmap用法详解
        
        
            Tani
            2023-08-28
        
    
    
        951


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座