数据预处理
树图思维导图提供 数据预处理 在线思维导图免费制作,点击“编辑”按钮,可对 数据预处理 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:b366d12afd373ae15ea62515471057a3
数据预处理思维导图模板大纲
数据不一致
噪声数据
缺失值
准确性
完整性
一致性
时效性
可信性
可解释性
利用isnull()函数检测缺失值
利用isnull().sum()方法统计缺失值
利用info()方法查看DataFrame的缺失值
通过dropna()函数可以删除具有缺失值的行
how=“all”丢弃全为NA的行
axis=1,how=“all”丢弃全为NA的列
thresh=N 一行至少具有N个非NaN才能保留
通过fillna()函数可以实现对不同列填充不同的值
inplace=True 就地修改
通过replace()方法替换数据值
散点图方法
箱线图方法
使用merge()函数进行数据合并
how=“inner”合并不同列名
left,right,outer
DataFrame中没有连接键,使用concat()函数进行数据连接
scikit—learn实现鸢尾花数据进行降维,将原来的四维的数据降为二维
用代替的、较小的数据表示形式换原始数据
类别型数据的哑变量处理
使用pandas库中的get_dummies()函数对类别型数据进行哑变量处理
连续型变量的离散化
使用pandas库中的cut()函数进行连续型数据的等宽离散化
数据标准化、均值和方差缩放
scale()函数
MinMaxScale、MaxAbsScaler进行特征值缩放
QuantileTransformer()方法和quantile_transform提供非参数转换
使用Box—Cox转换将对数正态分布绘制的样本映射到正态分布
OneHotEncoder进行分类特征编码
树图思维导图提供 深入浅出MySQL数据库 在线思维导图免费制作,点击“编辑”按钮,可对 深入浅出MySQL数据库 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4973c1019c6e392a02790e406f45b609
树图思维导图提供 物理层思维脑图 在线思维导图免费制作,点击“编辑”按钮,可对 物理层思维脑图 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:a065ab531b9a883de1735f955a7d614d