Python sklearn库三种常用编码格式实例

Peren ·

更新时间:2024-11-10

· 1214 次阅读

OneHotEncoder独热编码实例

LabelEncoder标签编码实例

OrdinalEncoder特征编码实例

OneHotEncoder独热编码实例

class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')

目的：将分类要素编码为one-hot数字数组

输入：为整数或字符串之类的数组，表示分类（离散）特征所采用的值。

这将为每个类别创建一个二进制列，并返回一个稀疏矩阵或密集数组（取决于稀疏参数）默认情况下，编码器会根据每个功能中的唯一值得出类别（可改为手动）

适用于GBDT、XGBoost、Lgb模型中效果都不错注意：在最新版本的sklearn中，所有的数据都应该是二维矩阵，所以当它只是单独一行或一列需要进行reshape(1, -1)数据转换，否则会报错ValueError: Expected 2D array, got 1D array instead

以下面数据为例（数据源）：

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
train = pd.read_csv('./train.csv')
enc = OneHotEncoder(handle_unknown='ignore')
numerical_feature = ['policy_annual_premium','insured_education_level','capital-gains','incident_type','incident_severity',\
                   'property_damage','bodily_injuries','police_report_available','total_claim_amount','injury_claim','property_claim','vehicle_claim']
data = train[numerical_feature]
c = enc.fit_transform(data.values.reshape(1,-1))
c.toarray()#查看转化后的数据

输入数据由处理后的这种格式：

经过编码后得出编码后的数据（数据量过大用元组的形式展现），全部由二进制数0、1表示：

注意：在一对多的情况下y标签需要使用 sklearn.preprocessing.LabelBinarizer() 函数将多类标签转换为二进制标签

LabelEncoder标签编码实例

目的：对目标标签进行编码，其值介于0和n_classes-1之间

输入可以是数字标签，也可以是非数字标签，这里需要注意的是返回的类型是NumPy的array形式，上述OneHotEncoder ()返回的是系数矩阵形式。

from sklearn.preprocessing import LabelEncoder
Enc=LabelEncoder()
def yuchuli(data):
    numerical_feature = ['policy_annual_premium','insured_education_level','capital-gains','incident_type','incident_severity',\
                       'property_damage','bodily_injuries','police_report_available','total_claim_amount','injury_claim','property_claim','vehicle_claim','auto_year']
data=pd.DataFrame()
for fea in numerical_feature:
    data.insert(len(data.columns),fea,Enc.fit_transform(train[fea].values))
    return data
train_data = yuchuli(train)

经过编码后得出编码后的数据：

其中最清晰的就是标黑的property_damage一列，使用One-hot编码转换后变成？属于0，Yes属于2，No属于1。

LabelEncoder()只有一个class_属性，是查看每个类别的标签，在上述基础上尝试即最后一个特征所对应的属性标签，通俗来讲就是这里面需要被编码的个数就是这些数：

果然不出所料，因为这是循环，所以对应的最后一个是auto_year,原数据如下图：

注意：开头提到的编码值介于 0 和 n_classes-1 之间于下图可以清晰理解，里面有n种不同的值，就分成 n-1 类，因为还包括 0

不过 LabelEncoder 标签编码我想对用的比较少，一般我都是使用 One-hot 独热编码去处理离散特征。

OrdinalEncoder特征编码实例

目的：将分类特征编码为整数数组。

输入：是一个类似数组的整数或字符串，表示分类（离散）特征所采用的值，特征会被转换为序数整数

from sklearn.preprocessing import OrdinalEncoder
import pandas as pd
import numpy as np
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')
train.drop_duplicates()
Enc=LabelEncoder()
Enc=OneHotEncoder()
def yuchuli(data_train):
    numerical_feature = ['incident_severity', 'insured_hobbies', 'vehicle_claim', 'auto_model', 'insured_education_level', 'insured_zip', 'insured_relationship', 'incident_date','auto_year']
    data = pd.DataFrame()
    for fea in numerical_feature:
        data.insert(len(data.columns), fea, (Enc.fit_transform(train[fea].values.reshape(-1, 1))).tolist())
#     return data
train_data = yuchuli(train)

但是我通过输出每一个特征结果的时候发现他和LabelEncoder()编码出的数据大差不离，特征编码则通过categories_查看编码特征

总而言之就是结果数据是一样的，但是类型上是不同的，我通过本文了解到它们本质的区别：

OrdinalEncoder 用于形状为 2D 的数据 (n_samples, n_features)

LabelEncoder用于形状为 1D 的数据(n_samples,)

至于为什么，我们从上面两者的代码中就可以发现，OrdinalEncoder 编码出的数据要想fit_transform拟合，就得使用.reshape(-1, 1)转换成二维数据，这一块和OneHotEncoder编码相同，而LabelEncoder则直接放入即可拟合出数据来，这里也是使用过程中最容易出现的问题。

OrdinalEncoder编码还是有两点需要注意的，第一点，他可以接受np.nan缺失值，可根据需求选择是否处理缺失值；第二点，他有这么一个参数->handle_unknown=error(默认) ,通过判断是否存在未知的特征来选择是否继续进行程序，当我们们选择handle_unknown=use_encoded_value时会将存在的未知特征打上unknown_value标签

#将缺失值全部处理为-1
Enc.set_params(encoded_missing_value=-1,handle_unknown=use_encoded_value).fit_transform()

以上就是Python sklearn库三种常用编码格式实例的详细内容，更多关于Python sklearn库编码格式的资料请关注软件开发网其它相关文章！

编码 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

Docker如何使用link建立容器之间的连接

Ailis 2021-06-18

684

Docker部署Python应用的方法实现

Madge 2023-07-22

687

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

python人工智能算法之线性回归实例

Diane 2023-08-28

527

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座