统计学习方法
树图思维导图提供 统计学习方法(二) 在线思维导图免费制作,点击“编辑”按钮,可对 统计学习方法(二) 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:c85871ca1357ba3fcc87a7bc9b477558
统计学习方法(二)思维导图模板大纲
泛化能力
学习方法对于未知数据的预测能力
过拟合(over-fitting)
如果一味地追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象叫过拟合。对已知数据预测得很好,对未知数据预测得很差
正则化——(防止过拟合)
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项(regularizer)或罚项
一般形式
正则化项取 范数
奥卡姆剃刀原理
如无必要,勿增实体
基本思想
重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择
S折交叉验证
首先随机地将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型
详解
验证集和测试集有什么区别
import numpy as np from sklearn.model_selection import KFold Y = np.array([[1, 2], [3, 4], [5, 6], [7, 8],[9,10],[11,12]]) i=0 kf = KFold(n_splits=3) #3折交叉验证,将数据分为三份,每次取一份作为test集 for train_index, test_index in kf.split(Y):
i=i+1 print(i) print('train_index', train_index, 'test_index', test_index) #train_index与test_index为下标 train_Y = Y[train_index] test_Y= Y[test_index]
| D1 | D2 | D3 |
运行结果
第一次D2、D3作为训练集,D1作为测试集 train_index [2 3 4 5] test_index [0 1] train_Y [[ 5 6] [ 7 8] [ 9 10] [11 12]] test_Y [[1 2] [3 4]]
#第二次D1、D3作为训练集,D2作为测试集 train_index [0 1 4 5] test_index [2 3] train_Y [[ 1 2] [ 3 4] [ 9 10] [11 12]] test_Y [[5 6] [7 8]]
学习到的模型叫生成模型
特点
可以还原出联合概率
收敛速度快, 当样本容量增加时, 学到的模型可以更快收敛到真实模型
当存在隐变量时仍可以用
判别方法
学习到的模型叫判别模型,形式为条件概率分布
特点
直接学习
直接面对预测, 往往学习准确率更高
可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc
树图思维导图提供 二手书销售平台新航标 在线思维导图免费制作,点击“编辑”按钮,可对 二手书销售平台新航标 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:a92403b70afada50cf4fa4f56e0981c9