TreeMind树图在线AI思维导图
当前位置:树图思维导图模板IT互联网产品结构所有人都能学的数据分析课思维导图

所有人都能学的数据分析课思维导图

  收藏
  分享
免费下载
免费使用文件
U768868580 浏览量:822024-08-18 00:57:01
已被使用8次
查看详情所有人都能学的数据分析课思维导图

数据库教程,数据预处理,软件应用等内容讲解

树图思维导图提供 所有人都能学的数据分析课 在线思维导图免费制作,点击“编辑”按钮,可对 所有人都能学的数据分析课  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1bff7a907c1f085d34a526cfe4be5858

思维导图大纲

所有人都能学的数据分析课思维导图模板大纲

一、数据分析师的职业概览

数据分析师的“钱”景如何

什么专业的人适合学/转行数据分析

数据分析需具备的临界知识

数据分析师的工作职责

二、数据分析和数据挖掘的概念和基础

数据分析与数据挖掘简介

数据分析和数据挖掘的定义和概念

相同点:投入数据、产出信息

不同点

理论基础

数据分析:基于统计推断的知识

数据挖掘:需要更多的计算机工程能力

数据量级

数据分析:基于抽样或相对较小的数据量

数据挖掘:大数据

业务理解

数据分析:较强

数据挖掘:较弱

工具

数据分析:关注应用

数据挖掘:更关注算力、存储、算法

数据分析及数据挖掘的层次

报表与分析

多维分析与警报

统计分析

预测与建模

优化

数据分析及数据挖掘的三要素

工具

对工具有要求

思维方式

通过树状结构或金字塔法则去分析数据

通过多维分析寻找问题原因

理论框架-总、分、总

探索数据

分类与预测

分群与降维

探索性数据分析

描述性统计分析

集中趋势

均值

利用的信息最多

容易受到极端值的影响

众数

不会受到极端值的影响

利用的信息较少

中位数

不会受到极端值的影响

没有办法体现极端值的变化对系统的影响

离中趋势

极差

标准差

反应数据的波动程度以及风险

每一个样本点到均值的平均距离

方差

变异系数

相关性分析

2种相关系数

皮尔森相关系数

斯皮尔曼等级相关系数

误区:相关不等于因果

可视化展示原则

用恰当的图表展示不同的数据

预测和分类

线性回归

利用最小化乘法回归出自变量和因变量的关系

逻辑回归

通过逻辑变化把S形曲线的概率分布转化为线性回归分布进行求解

通过调节决策边界对样本进行分类

分类模型的评价体系

混淆矩阵

可以得到分类模型的准确率、召回率和F值

ROC曲线

得到AUC

ROC曲线覆盖的面积

AUC越大,模型效果越好

决策树

解释性强

通过熵值和纯净性判断树往更好的方向分裂

朴素贝叶斯

通过先验概率和后验概率对样本类别进行判断

SVM

通过超平面解决非线性的问题

分群和降维

聚类

层次聚类

K-means聚类

降维

经典算法

在信息量较小的情况下降低数据的维度提升模型的计算速度和降低成本的消耗

三、统计学基础和spss软件应用

描述性统计学分析

统计分析的目的

统计分析的关键概念

四种测量尺度

集中趋势-均值

集中趋势-中位数和众数

离散趋势-极差和标准差

案例实践练习

假设检验/统计判断

统计学本质

统计学两大定理

统计推断-抽样误差与标准误

统计推断-t分布

统计推断-参数估计

统计推断-假设检验

抽样方法

统计过程

抽样的概念

抽样方法与非抽样方法

抽样调查与普查的特点

非抽样误差

抽样过程

抽样单元与抽样框

抽样形式

概率抽样

简单随机抽样

系统抽样

PPS抽样

分层抽样

非概率抽样

区域抽样

时间抽样

电话抽样

一般线性模型

t检验

单样本t检验

独立样本t检验

配对样本t检验

F检验

单因素常量分析

多维分析与警报

统计分析

预测与建模

优化

相关分析

线性回归

四、数据预处理基础

数据分析前的准备工作

统计工作流程

统计准备工作

数据检查要点

开放题的准备

数据清洗

数据清洗的概念和流程

字段选择与数据质量报告

数据清洗主要工作

错误值和异常值处理方法

缺失值处理方法

异常值和缺失值的处理操作

数据规范化

数据转化

数据离散化与数据扩充

数据合并与拆分

五、Mysql教程

SQL简介

sql是什么

创建数据库

create database

创建表

create table

如何了解一张表

sql约束

插入和更改

简单查询语句

select

想要查找的字段有哪些

需要用逗号(半角符号)分隔开多个字段

from

想从哪个表中进行查询

where

想要查询满足条件的内容

limit

限制查多少行

聚合查询和子查询

group by

聚合函数

sum

count

avg

子查询

in

not in

简单匹配

like

%(百分号):匹配任意数量的任意字符

_(下划线):匹配一个任意字符

not like

连表查询

内连接

From A表 inner join B表 on A.关联字段=B.关联字段

左连接

From A表 right join B表 on A.关联字段=B.关联字段

右连接

From A表 left join B表 on A.关联字段=B.关联字段

相关函数

控制流函数

IF

Case when

时间函数

Date format

Timestampdiff

文本函数

Left ( )

Right ( )

concate ( )

Substr ( )

Length ( )

六、Excel分析及可视化

Excel简介

Excel函数技巧

函数简介及使用帮助技巧

1.F键盘查阅帮助文档

2.上网查询寻求帮助

查找函数

Vlookup

Hlookup

Index

Match

绝对位置、相对位置&拖拽填充

统计函数

集中趋势

AVERAGE

MEDIAN

MODE

离中趋势

VAR.P

VAR.S

STDEV.S

STDEV.T

相关系数

CORREL

subtotal

逻辑函数

if及if的嵌套、and、or

countif、sumif、averageif

countif、sumif、averageif

日期函数

NOW( )

TODAY( )

MONTH( )、YEAR()、DAY()

WEEKDAY()

时间差

文本函数

left

right

mid

find

len

合并文本

Excel快速处理技巧

录制宏

停止录制宏

相对引用

数据透视表

分组

值汇总方式

值显示方式

选择性粘贴

转置

运算

格式调整技巧

自定义格式的调整

数字相关

颜色

日期相关

查找和定位

把多列合成为一列

查找填充

数据有效性

数值有效性

序列有效性

下拉框与联动下拉框的制作

快捷键

效率工具快捷键

排版与版式快捷键

Excel可视化技巧

如何制作图表

一个图表应该具有的要素

组合图

双轴柱线图

复合饼图

条形图的变体

瀑布图的做法

漏斗图的做法

信息图的做法

数据气泡地图的做法

七、进阶统计学

多变量分析方法选择思路

多变量分析方法的选择

无监督分析和有监督分析

无监督分析的原则

主成分分析-因子分析

因子分析使用场景

因子的概念和分析过程

因子数的推定

因子轴的旋转

因子解释及因子得分计算

如何用因子分析做评价

聚类分析

聚类分析使用场景

聚类分析算法

非层次法聚类K-means

二阶聚类

对应分析

对应分析使用目的及结果解读

对应分析的实践练习

多维度尺度分析

概念和使用场景

多维尺度分析举例

案例1:根据学生评分进行分座位

案例2:根据学生考试成绩进行分座位

案例3:根据手机的相似度判断竞争力

多维尺度的不足及替代方法

时间序列分析

时间序列的使用场景

两种类型的时间序列

时间序列模型ARIMA

时间序列中的处理方法

案例实践练习

Logistic

Logistic使用场景和理论背景

Logistic案例-用户流失的影响因素及新用户预测

八、数据挖掘经典算法(Modeler软件)

数据挖掘基础及数据分层抽样

生活中熟悉的数据挖掘案例

数据准备及数据分割形式

数据分析及数据挖掘的联系与区别

Modeler软件介绍

如何在Modeler实现数据分层抽样

朴素贝叶斯

朴素贝叶斯原理

朴素贝叶斯算法过程

朴素贝叶斯算法举例

朴素贝叶斯算法优点及不足

案例操作-使用贝叶斯网络建模

决策树

决策树应用场景

决策树算法(1)—ID3

决策树算法(2)—C4.5

决策树算法(3)—回归树CART

决策树算法(4)—CHAID

如何防止过度拟合

如何使用Modeler做决策树

神经网络

神经网络的组成

计算误差函数,修正初始权重

神经网络与其他分析的关系

实践练习

支持向量机

支持向量机原理

线性可分与线性不可分

实践练习

集成算法和模型评估

集成算法的目的与方式

Bagging与Boosting的计算原理

根据混淆矩阵进行模型评估

在Modeler中画出GAIN曲线图和Lift曲线图

学习资料拓展

九、R语言入门及基础分析

R语言基本操作

初识R语言

R语言的基本操作

R语言的数据结构介绍

向量和矩阵的基本操作

数据框的操作

循环控制流—for&whlie

条件选择控制流—if

自定义函数

R语言关于概率分布的函数及应用介绍

离散随机变量分布和连续随机变量分布

R语言描述性数据分析

探索性数据分析—集中趋势和离中趋势

探索性数据分析—相关系数及函数介绍

探索性数据分析—假设检验

R语言回归算法

逻辑回归

决策树算法

决策树的剪枝

随机森林

R语言聚类和降维

使用R如何实现层次聚类

使用R如何实现Kmeans聚类

如何判定聚类的好坏

使用R如何实现PCA降维算法

八、数据挖掘经典算法(Modeler软件)

数据挖掘基础及数据分层抽样

生活中熟悉的数据挖掘案例

数据准备及数据分割形式

数据分析及数据挖掘的联系与区别

Modeler软件介绍

如何在Modeler实现数据分层抽样

朴素贝叶斯

朴素贝叶斯原理

朴素贝叶斯算法过程

朴素贝叶斯算法举例

朴素贝叶斯算法优点及不足

案例操作-使用贝叶斯网络建模

决策树

决策树应用场景

决策树算法(1)—ID3

决策树算法(2)—C4.5

决策树算法(3)—回归树CART

决策树算法(4)—CHAID

如何防止过度拟合

如何使用Modeler做决策树

神经网络

神经网络的组成

计算误差函数,修正初始权重

神经网络与其他分析的关系

实践练习

支持向量机

支持向量机原理

线性可分与线性不可分

实践练习

集成算法和模型评估

集成算法的目的与方式

Bagging与Boosting的计算原理

根据混淆矩阵进行模型评估

在Modeler中画出GAIN曲线图和Lift曲线图

学习资料拓展

十、Python入门及基础分析

概述和基本操作

课程与开发环境简介

帮助文档的获取&基础操作

基础操作:整数、小数、复数&列表、字符串、字典

控制流函数

自定义函数

Jupyter常用快捷键以及自动补全功能的实现

Numpy

从头创建一个数组

实践练习-如何实现99乘法表和老虎机

数组的操作

数组的计算

数组的广播

比较、掩码和布尔逻辑

Pandas

序列和数据框

索引和切片

通过索引运算和生成新的列

文件的读取和写入

缺失值处理

数据连接

分组和聚合

数据透视表

字符串的处理

Matplotlib与python作图

基本作图—折线图和散点图

基本作图—直方图和饼图

图表设置—子图和图例

图表设置—标签、表格样式和cmap

高级作图方案

Sklearn与机器学习基础

线性回归

逻辑回归的原理、模型实现与正则化

逻辑回归的模型的评估以及最优迭代次数

贝叶斯分类器的实现过程

朴素贝叶斯算法案例-手写数字识别

数据预处理

决策树和随机森林—熵和决策树

决策树和随机森林算法对比

随机森林的调参

支持向量机—核函数

支持向量机是如何防止过拟合的

如何使用Python实现PCA降维算法

如何使用Python实现Kmeans聚类

相关思维导图模板

房地产的系统性危机(宏观形势分析)思维导图

树图思维导图提供 房地产的系统性危机(宏观形势分析) 在线思维导图免费制作,点击“编辑”按钮,可对 房地产的系统性危机(宏观形势分析)  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:f257d6d63b9fa1940654eca021e5f2b7

课中课程导入思维导图

树图思维导图提供 课中课程导入 在线思维导图免费制作,点击“编辑”按钮,可对 课中课程导入  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:a3dec4273cd7849b0bac846b97100a13