数据挖掘线性回归分析模型详解
树图思维导图提供 逻辑回归分析模型脑图 在线思维导图免费制作,点击“编辑”按钮,可对 逻辑回归分析模型脑图 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:085a3b31a3ff4d2166f9fefe968f3e2a
逻辑回归-08思维导图模板大纲
1. 使用场景:
1. 处理二分分类问题.
2. 原理:
1. 逻辑回归的输入是什么: 线性回归的输出
2. 逻辑回归的使用的是什么激活函数, 它的作用是什么?
1. 激活函数: sigmoid激活函数
2. 作用: 把线程回归的输出映射为(0, 1) 范围, 表示一个概率值, 阈值默认是0.5 ; 大于等于阈值为正例(1), 小于阈值为反例(0) .
3. 注意: 阈值不一定是0.5; 也可能是0.6, 0.4,... 需要具体情况具体分析.
3. 损失函数:
1. 怎么才能得到一个更好的预测效果:
- 提高真实类别为1(正例)概率值, 降低真实类别为0(反例)概率值.
2. 损失(代价)函数: 对数似然损失
- 特点: 当真实类别为1, 概率越大损失越小, 当真实类别为0, 概率越小损失越小.
- 逻辑回归损失函数: 对数似然损失
- 如何对模型进行优化: 使用梯度下降法, 求解损失函数的最小值.
3. 优化:
提高真实类别为1(正例)概率值, 降低真实类别为0(反例)概率值.
梯度下降法
sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)
- solver可选参数: 'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'
- 默认: 'liblinear';内部使用了坐标轴下降法迭代优化损失, 用于优化问题的算法。只能用于二分类
- 对于小数据集来说,“liblinear”是个不错的选择,而“sag”和'saga'对于大型数据集会更快。
- 对于多类问题,只有'newton-cg', 'sag', 'saga'和'lbfgs'可以处理多项损失;
- penalty:正则化的种类
- C:正则化力度
- saga:快速梯度下降算法
- liblinear: 使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
- newton-cg: 也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- lbfgs: 拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数
步骤
1. 加载数据集
2. 数据基本处理
1. 处理缺失值: '?'
2. 选择特征值和目标值
3. 分割数据集
3. 特征工程(标准化)
4. 机器学习(模型训练) : 逻辑回归
5. 模型评估
注意
在很多分类场景当中我们不一定只关注预测的准确率
混淆矩阵
1. 准确率: 所有样本中预测正确的比例
2. 精确率: 预测为正例的的样本中真实为正例比例; 用于衡量查准不准
3. 召回率: 真实为正例的样本中, 预测为正例的比例, 用于衡量查全不全.
4. F1-Score: 用于衡量模型的稳健性
API
sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
y_true: 真实目标值
y_pred: 预测目标值
labels: 数字的类别
target_names: 文本类别
返回值: 各个类别的精确率, 召回率, F1-Score.
- ROC曲线和AUC指标:
- 作用: 用于样本不均衡下模型评估
- ROC曲线:
- 纵坐标: TPR: 真实类别为正例的样本中预测为正例的比例
- 横坐标: FPR, 真实类别为反例的样本中预测为正例的比例
- AUC指标: 几何意义: ROC曲线下面面积(积分)
- AUC指标: 在[0.5, 1]之间, 越接近于1模型越接近与最佳模型, 越接近与0.5, 越是乱猜
API
sklearn.metrics.roc_auc_score(y_true, y_score)
- y_true: 真实的目标值, 要求0为反例, 1为正例
- y_score:预测结果
1. ROC绘制过程:(理解)
1. 训练一个分类器模型
2. 使用分类器模型算出测试样本的概率值
3. 对概率值要从大到小排序; 从第一个点开始, 计算TPR和FPR, 描点
4. 使用线把所有点连接起来.
2. AUC指标: 几何意义ROC曲线下面的面积
1. 当AUC指标为1的时候, 存在一个点, 可以完美的把数据分割开来
2. AUC越接近与1分类的效果越好, 越接近0.5越是乱猜, 小于0.5乱猜都不如.
树图思维导图提供 一、研究内容 在线思维导图免费制作,点击“编辑”按钮,可对 一、研究内容 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4f21797dd3e8b08f1951dfc24e7be94f
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc