数据库教程,数据预处理,软件应用等内容讲解
树图思维导图提供 所有人都能学的数据分析课 在线思维导图免费制作,点击“编辑”按钮,可对 所有人都能学的数据分析课 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1bff7a907c1f085d34a526cfe4be5858
所有人都能学的数据分析课思维导图模板大纲
数据分析师的“钱”景如何
什么专业的人适合学/转行数据分析
数据分析需具备的临界知识
数据分析师的工作职责
数据分析与数据挖掘简介
数据分析和数据挖掘的定义和概念
相同点:投入数据、产出信息
不同点
理论基础
数据分析:基于统计推断的知识
数据挖掘:需要更多的计算机工程能力
数据量级
数据分析:基于抽样或相对较小的数据量
数据挖掘:大数据
业务理解
数据分析:较强
数据挖掘:较弱
工具
数据分析:关注应用
数据挖掘:更关注算力、存储、算法
数据分析及数据挖掘的层次
报表与分析
多维分析与警报
统计分析
预测与建模
优化
数据分析及数据挖掘的三要素
工具
对工具有要求
思维方式
树
通过树状结构或金字塔法则去分析数据
田
通过多维分析寻找问题原因
理论框架-总、分、总
探索数据
分类与预测
分群与降维
探索性数据分析
描述性统计分析
集中趋势
均值
利用的信息最多
容易受到极端值的影响
众数
不会受到极端值的影响
利用的信息较少
中位数
不会受到极端值的影响
没有办法体现极端值的变化对系统的影响
离中趋势
极差
标准差
反应数据的波动程度以及风险
每一个样本点到均值的平均距离
方差
变异系数
相关性分析
2种相关系数
皮尔森相关系数
斯皮尔曼等级相关系数
误区:相关不等于因果
可视化展示原则
用恰当的图表展示不同的数据
预测和分类
线性回归
利用最小化乘法回归出自变量和因变量的关系
逻辑回归
通过逻辑变化把S形曲线的概率分布转化为线性回归分布进行求解
通过调节决策边界对样本进行分类
分类模型的评价体系
混淆矩阵
可以得到分类模型的准确率、召回率和F值
ROC曲线
得到AUC
ROC曲线覆盖的面积
AUC越大,模型效果越好
决策树
解释性强
通过熵值和纯净性判断树往更好的方向分裂
朴素贝叶斯
通过先验概率和后验概率对样本类别进行判断
SVM
通过超平面解决非线性的问题
分群和降维
聚类
层次聚类
K-means聚类
降维
经典算法
在信息量较小的情况下降低数据的维度提升模型的计算速度和降低成本的消耗
描述性统计学分析
统计分析的目的
统计分析的关键概念
四种测量尺度
集中趋势-均值
集中趋势-中位数和众数
离散趋势-极差和标准差
案例实践练习
假设检验/统计判断
统计学本质
统计学两大定理
统计推断-抽样误差与标准误
统计推断-t分布
统计推断-参数估计
统计推断-假设检验
抽样方法
统计过程
抽样的概念
抽样方法与非抽样方法
抽样调查与普查的特点
非抽样误差
抽样过程
抽样单元与抽样框
抽样形式
概率抽样
简单随机抽样
系统抽样
PPS抽样
分层抽样
非概率抽样
区域抽样
时间抽样
电话抽样
一般线性模型
t检验
单样本t检验
独立样本t检验
配对样本t检验
F检验
单因素常量分析
多维分析与警报
统计分析
预测与建模
优化
相关分析
线性回归
数据分析前的准备工作
统计工作流程
统计准备工作
数据检查要点
开放题的准备
数据清洗
数据清洗的概念和流程
字段选择与数据质量报告
数据清洗主要工作
错误值和异常值处理方法
缺失值处理方法
异常值和缺失值的处理操作
数据规范化
数据转化
数据离散化与数据扩充
数据合并与拆分
SQL简介
sql是什么
创建数据库
create database
创建表
create table
如何了解一张表
sql约束
插入和更改
简单查询语句
select
想要查找的字段有哪些
需要用逗号(半角符号)分隔开多个字段
from
想从哪个表中进行查询
where
想要查询满足条件的内容
limit
限制查多少行
聚合查询和子查询
group by
聚合函数
sum
count
avg
子查询
in
not in
简单匹配
like
%(百分号):匹配任意数量的任意字符
_(下划线):匹配一个任意字符
not like
连表查询
内连接
From A表 inner join B表 on A.关联字段=B.关联字段
左连接
From A表 right join B表 on A.关联字段=B.关联字段
右连接
From A表 left join B表 on A.关联字段=B.关联字段
相关函数
控制流函数
IF
Case when
时间函数
Date format
Timestampdiff
文本函数
Left ( )
Right ( )
concate ( )
Substr ( )
Length ( )
Excel简介
Excel函数技巧
函数简介及使用帮助技巧
1.F键盘查阅帮助文档
2.上网查询寻求帮助
查找函数
Vlookup
Hlookup
Index
Match
绝对位置、相对位置&拖拽填充
统计函数
集中趋势
AVERAGE
MEDIAN
MODE
离中趋势
VAR.P
VAR.S
STDEV.S
STDEV.T
相关系数
CORREL
subtotal
逻辑函数
if及if的嵌套、and、or
countif、sumif、averageif
countif、sumif、averageif
日期函数
NOW( )
TODAY( )
MONTH( )、YEAR()、DAY()
WEEKDAY()
时间差
文本函数
left
right
mid
find
len
合并文本
Excel快速处理技巧
宏
录制宏
停止录制宏
相对引用
数据透视表
分组
值汇总方式
值显示方式
选择性粘贴
转置
运算
格式调整技巧
自定义格式的调整
数字相关
颜色
日期相关
查找和定位
把多列合成为一列
查找填充
数据有效性
数值有效性
序列有效性
下拉框与联动下拉框的制作
快捷键
效率工具快捷键
排版与版式快捷键
Excel可视化技巧
如何制作图表
一个图表应该具有的要素
组合图
双轴柱线图
复合饼图
条形图的变体
瀑布图的做法
漏斗图的做法
信息图的做法
数据气泡地图的做法
多变量分析方法选择思路
多变量分析方法的选择
无监督分析和有监督分析
无监督分析的原则
主成分分析-因子分析
因子分析使用场景
因子的概念和分析过程
因子数的推定
因子轴的旋转
因子解释及因子得分计算
如何用因子分析做评价
聚类分析
聚类分析使用场景
聚类分析算法
非层次法聚类K-means
二阶聚类
对应分析
对应分析使用目的及结果解读
对应分析的实践练习
多维度尺度分析
概念和使用场景
多维尺度分析举例
案例1:根据学生评分进行分座位
案例2:根据学生考试成绩进行分座位
案例3:根据手机的相似度判断竞争力
多维尺度的不足及替代方法
时间序列分析
时间序列的使用场景
两种类型的时间序列
时间序列模型ARIMA
时间序列中的处理方法
案例实践练习
Logistic
Logistic使用场景和理论背景
Logistic案例-用户流失的影响因素及新用户预测
数据挖掘基础及数据分层抽样
生活中熟悉的数据挖掘案例
数据准备及数据分割形式
数据分析及数据挖掘的联系与区别
Modeler软件介绍
如何在Modeler实现数据分层抽样
朴素贝叶斯
朴素贝叶斯原理
朴素贝叶斯算法过程
朴素贝叶斯算法举例
朴素贝叶斯算法优点及不足
案例操作-使用贝叶斯网络建模
决策树
决策树应用场景
决策树算法(1)—ID3
决策树算法(2)—C4.5
决策树算法(3)—回归树CART
决策树算法(4)—CHAID
如何防止过度拟合
如何使用Modeler做决策树
神经网络
神经网络的组成
计算误差函数,修正初始权重
神经网络与其他分析的关系
实践练习
支持向量机
支持向量机原理
线性可分与线性不可分
实践练习
集成算法和模型评估
集成算法的目的与方式
Bagging与Boosting的计算原理
根据混淆矩阵进行模型评估
在Modeler中画出GAIN曲线图和Lift曲线图
学习资料拓展
R语言基本操作
初识R语言
R语言的基本操作
R语言的数据结构介绍
向量和矩阵的基本操作
数据框的操作
循环控制流—for&whlie
条件选择控制流—if
自定义函数
R语言关于概率分布的函数及应用介绍
离散随机变量分布和连续随机变量分布
R语言描述性数据分析
探索性数据分析—集中趋势和离中趋势
探索性数据分析—相关系数及函数介绍
探索性数据分析—假设检验
R语言回归算法
逻辑回归
决策树算法
决策树的剪枝
随机森林
R语言聚类和降维
使用R如何实现层次聚类
使用R如何实现Kmeans聚类
如何判定聚类的好坏
使用R如何实现PCA降维算法
八、数据挖掘经典算法(Modeler软件)
数据挖掘基础及数据分层抽样
生活中熟悉的数据挖掘案例
数据准备及数据分割形式
数据分析及数据挖掘的联系与区别
Modeler软件介绍
如何在Modeler实现数据分层抽样
朴素贝叶斯
朴素贝叶斯原理
朴素贝叶斯算法过程
朴素贝叶斯算法举例
朴素贝叶斯算法优点及不足
案例操作-使用贝叶斯网络建模
决策树
决策树应用场景
决策树算法(1)—ID3
决策树算法(2)—C4.5
决策树算法(3)—回归树CART
决策树算法(4)—CHAID
如何防止过度拟合
如何使用Modeler做决策树
神经网络
神经网络的组成
计算误差函数,修正初始权重
神经网络与其他分析的关系
实践练习
支持向量机
支持向量机原理
线性可分与线性不可分
实践练习
集成算法和模型评估
集成算法的目的与方式
Bagging与Boosting的计算原理
根据混淆矩阵进行模型评估
在Modeler中画出GAIN曲线图和Lift曲线图
学习资料拓展
概述和基本操作
课程与开发环境简介
帮助文档的获取&基础操作
基础操作:整数、小数、复数&列表、字符串、字典
控制流函数
自定义函数
Jupyter常用快捷键以及自动补全功能的实现
Numpy
从头创建一个数组
实践练习-如何实现99乘法表和老虎机
数组的操作
数组的计算
数组的广播
比较、掩码和布尔逻辑
Pandas
序列和数据框
索引和切片
通过索引运算和生成新的列
文件的读取和写入
缺失值处理
数据连接
分组和聚合
数据透视表
字符串的处理
Matplotlib与python作图
基本作图—折线图和散点图
基本作图—直方图和饼图
图表设置—子图和图例
图表设置—标签、表格样式和cmap
高级作图方案
Sklearn与机器学习基础
线性回归
逻辑回归的原理、模型实现与正则化
逻辑回归的模型的评估以及最优迭代次数
贝叶斯分类器的实现过程
朴素贝叶斯算法案例-手写数字识别
数据预处理
决策树和随机森林—熵和决策树
决策树和随机森林算法对比
随机森林的调参
支持向量机—核函数
支持向量机是如何防止过拟合的
如何使用Python实现PCA降维算法
如何使用Python实现Kmeans聚类
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc
树图思维导图提供 1113爆卡会总结会会议纪要 在线思维导图免费制作,点击“编辑”按钮,可对 1113爆卡会总结会会议纪要 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:aaf6c152a765d5821e8e1787f2b3226e