数据挖掘相关知识
树图思维导图提供 数据挖掘 在线思维导图免费制作,点击“编辑”按钮,可对 数据挖掘 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:ca353969eb4908ad75be507d98ef641c
数据挖掘思维导图模板大纲
数据挖掘是在计算机数据库技术蓬勃发展、人工智能技术应用领域不断拓展、统计分析方法不断丰富发展的进程中,有效迎合数据分析的实际需求而逐步形成和发展起来的具有鲜明跨学科色彩的应用研究领域。
数据挖掘是一个利用各种方法,从海量的有噪声的凌乱数据中,提取隐含和潜在的对决策有用的信息和模式的过程。
分类是对数据进行预测和概率分析,根据离散型和连续型数据学习数据集,建立模型预测新数据
决策树
可较好地解释数据
朴素贝叶斯
用于高维稀疏数据
逻辑回归
分类概率较小的数据
子主题 1
支持向量机
用于线性和非线性数据
:聚类是对数据进行无监督学习,发现数据间的内在规律,并将相似的数据放在一起
K-Means
K-Means较快,适用于大规模数据集
K-Medoids
K-Medoids能够处理噪声和离群值,层次聚类可形成聚类树
Hierarchical Clustering
层次聚类可形成聚类树
DBSCAN
DBSCAN可发现簇的大小和形状
关联规则挖掘可发现数据集中的关联关系,如商品的穿戴搭配等
Apriori
Apriori采用逐层搜索的方法,耗费时间,但结果较为准确
FP-growth
FP-growth采用基于树的方法,提高了算法效率
特征选择是对数据的特征进行优化,以提高算法性能
Relief
Relief算法关注相邻样本的类别差异
信息增益
信息增益通过比较不同的特征选择方式,获得最优特征
Chi-Square
Chi-Square通过统计方法比较原特征和新特征的相关性
可视化是将数据进行可视化展示,方便人们直观的感受到数据的特征
PCA
PCA、t-SNE都是降维算法,用于高维数据降低到二维或三维数据展示
t-SNE
PCA、t-SNE都是降维算法,用于高维数据降低到二维或三维数据展示
LLE
LLE是非线性降维
MDS
MDS是另一种多维降低到低维的算法
数据清洗
缺失值处理
异常值处理
数据集成
实体识别
冗余属性识别
数据变换
简单函数变换
规范化
连续属性离散化
属性构造
数据规约
属性规约
数值规约
Python主要数据预处理函数
关系数据库,实时数据库,高级数据库
数据仓库OLAP
多维数据库模型
星型,雪花型,事实星座型
维表(从哪个角度看)事实表(产生的数据)
不耦合
松散耦合
半紧密
紧密
树图思维导图提供 1113爆卡会总结会会议纪要 在线思维导图免费制作,点击“编辑”按钮,可对 1113爆卡会总结会会议纪要 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:aaf6c152a765d5821e8e1787f2b3226e
树图思维导图提供 埃隆·马斯克的商业版图 在线思维导图免费制作,点击“编辑”按钮,可对 埃隆·马斯克的商业版图 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:7464362ac911e8a334867bb3fc7a2346