数据挖掘课堂重点总结
树图思维导图提供 课堂重点总结 在线思维导图免费制作,点击“编辑”按钮,可对 课堂重点总结 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1e67418931d0f2452d44b7115efd2e91
课堂重点总结思维导图模板大纲
数据挖掘:绪论 数据挖掘重要性 什么是数据挖掘 数据挖掘的起源 数据挖掘任务 数据挖掘要解决的问题
1
大数据无处不在! 随着数据生成和采集技术的发展,商业和科学数据库中的数据量出现了爆炸式增长。这催生了一种新的数据科学箴言。
箴言 无论何时何地,尽可能广泛地收集所有数据
期望 所收集的数据即使不是针对特定目的,也可能在未来发现意想不到的价值
Computational Simulations Social Networking: Twitter Sensor Networks Traffic Patterns Cyber Security 2 E-Commerce
数据挖掘为何重要? 大量数据正在被收集并存储 网络数据 Google拥有海量网络数据 Facebook拥有数十亿活跃用户 消费数据:百货商店、杂货店和电商平台每天处理数亿次访问 亚马逊每月的访问量超过55亿次 金融数据:银行和信用卡交易数据不断积累
计算机变得更便宜、更强大
竞争压力激烈 提供更好、更定制的服务以获得竞争优势(例如,客户关系管理) 3
数据挖掘为何重要? 数据以极快的速度被收集和存储 卫星遥感数据 NASA EOSDIS每年存档超过PB 级别的地球科学数据 天文观测数据 天文望远镜扫描天空,产生大量数据 高通量生物数据 科学模拟数据 几小时内就能生成TB级数据
数据挖掘帮助科学家 自动分析海量数据集 提出假设
4 fMRI Data from Brain Sky Survey Data Gene Expression Data Surface Temperature of Earth
数据挖掘的巨大机遇:提高各行各业的生产力和解决社会重大问题 5
数据挖掘的巨大机遇:提高各行各业的生产力和解决社会重大问题 Improving health care and reducing costs Finding alternative/ green energy sources Predicting the impact of climate change Reducing hunger and poverty by increasing agriculture production 6
数据挖掘是什么? 数据挖掘的定义 在大型数据库中自动地发现有用信息的过程; 是数据库中知识发现(Knowledge Discovery in Database,KDD)不可缺少的一部分 7 表1.1 数据库中知识发现(KDD)过程
数据挖掘从机器学习/人工智能、模式识别、统计学和数据库系统等领域汲取思想
传统技术可能不适合处理以下类型的数据 大规模数据 高维度数据 异构数据 复杂数据 分布式数据
数据挖掘是新兴的数据科学,是数据驱动发现领域的一个关键组成部分 数据挖掘起源 8
数据挖掘任务 预测任务 使用一些变量来预测其他变量的未知或未来值 因变量、自变量 分类、回归
描述方法 找到人类可解释的模式来描述数据 相关、趋势、聚类、轨迹、异常 9
Predictive Modeling Clustering Association Rules Anomaly Detection Milk
Data
数据挖掘任务(本课程涉及的四种任务) 10
找到一个模型,用来预测离散的目标变量
预测信用度的模型 类别 预测建模: 分类 11
分类示例 分类变量 分类变量 数值变量 类别
Training Set
Learn Classifier
12
将信用卡交易分类为合法或欺诈
使用卫星数据对土地覆盖(水体、城市地区、森林等)进行分类
将新闻故事分类为财经、天气、娱乐、体育等
识别网络空间中的入侵者
将肿瘤细胞预测为良性或恶性
将蛋白质的二级结构分类为α螺旋、β折叠或无规卷曲 分类任务例子 13
分类: 应用 1 欺诈检测 目标:预测信用卡交易中的欺诈案例 方法: 使用信用卡交易及其持卡人信息作为属性 客户何时购买、购买什么、按时付款频率等 将过去的交易标记为欺诈或公平交易。这构成了类别属性 学习交易类别的模型 通过观察账户上的信用卡交易来使用此模型检测欺诈 14
分类: 应用 2 客户流失预测 目标:预测客户是否会流失到竞争对手那里 方法: 使用与过去和现在每个客户的交易明细记录,找到属性 客户多久打电话一次,他打电话到哪里,他最常打电话的时间,他的财务状况,婚姻状况等. 将客户标记为忠诚或不忠诚. 找到忠诚度的模型 From [Berry & Linoff] Data Mining Techniques, 1997 15
分类: 应用 3 天空调查编目 目标:基于望远镜巡天图像(来自帕洛马天文台),预测天体(恒星或星系)的类别(尤其是视觉上微弱的天体) 3000幅图像,每幅图像23,040 x 23,040像素 方法: 对图像进行分割 测量图像属性(特征) - 每件物体有40个属性 基于这些特征对类别进行建模 成功案例:发现了16个新的高红移类星体,这些都是一些难以发现的最遥远的天体! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 16
星系分类 Early Intermediate Late 数据大小: 7200 万颗恒星,2000 万个星系 对象目录:9 GB 图像数据库:150 GB 分类: 形成阶段 属性: 图像特征, 接收到的光波特性等 17
回归 假设依赖关系是线性和非线性模型,基于其他变量(自变量)的值,预测给定连续值变量(因变量)的值。
在统计学、神经网络领域得到广泛研究
例子: 根据广告支出预测新产品的销售额 根据温度、湿度、气压等预测风速 股市指数的时间序列预测 18
聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。 聚类 19
Understanding 针对性营销:创建客户画像(根据他们的购买历史、浏览习惯分成不同的群组,比如“科幻爱好者”、“历史书迷”) 用于浏览的组相关文档(将相关主题的书籍和文档分到一起,比如所有关于“机器学习”的资料放在一起) 数据摘要:简化复杂度 减少大型数据集的大小(数据点归纳为几个代表性的群组)
聚类分析应用 利用 K-means 聚类算法将海面温度 (SST) 和净初级生产力 (NPP) 划分为反映南北半球的集群 Courtesy: Michael Eisen 09/09/2020 20
聚类: 应用 1 市场细分:
目标:将市场细分为不同的客户子集,任何子集都可以被选择为目标市场,并用不同的营销组合来接触 方法: 基于客户的地理和生活方式相关信息收集客户的不同属性 找到相似客户的群集 通过观察同一集群中客户的购买模式与不同集群中客户的购买模式来衡量聚类的质量 21
聚类: 应用 2 文档聚类:
目标:发现基于关键术语出现的相似文档组
方法: 识别每个文档中经常出现的术语 根据术语出现频率建立文档之间的相似度 应用聚类算法(如IRM和K-means)进行文档分组 22 Enron email dataset: 利用K-means算法对Enron电子邮件数据集中的文本进行无监督聚类。
与加利福尼亚州能源危机相关的邮件聚类,其中包含了“California”、“trade”等关键词。
关联规则学习 发现描述数据中强关联特征的模式 所发现的模式通常用蕴含规则或特征子集的形式表示; 搜索空间是指数规模的,关联分析的目标是用有效的方式提取有趣的模式。 Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer} 23
关联分析: 应用 市场篮分析 通过分析顾客的购物篮,我们可以发现哪些商品经常一起被购买。这些信息可以指导商店的促销策略,比如将经常一起购买的商品放在一起,或者在销售某个商品时推荐另一个商品,从而优化货架布局和库存管理; 电信故障诊断 分析电信网络中的故障和警报数据,我们可以识别出经常同时发生的警报组合;
医学信息学 用来发现特定疾病与患者表现出的症状和检测结果之间的关联 24
异常检测 检测异常行为 应用: 信用卡欺诈检测 网络入侵检测 识别用于监控和监视的传感器网络中的异常行为 检测全球森林覆盖率的变化 25
挑战 可伸缩 处理海量数据集,算法必须是可伸缩的; 高维性 数据集常常包含成千上万的特征,挑战在于如何在高维空间中有效地发现模式; 异构数据和复杂数据 数据来自不同来源,格式多样,包括结构化数据、文本、图像等,需要算法能够处理这些复杂性; 数据所有权和分布 数据可能分布在不同的位置,涉及隐私和所有权问题; 非传统分析 传统统计方法基于假设检验方法,当前数据分析需要产生和评估数千种假设,需要自动的产生和评估假设。 26
讨论下面哪些是数据挖掘任务 根据性别划分公司顾客 根据可盈利性划分公司顾客 计算公司的总销售额 按学生的标识号对学生数据库排序 预测掷一对色子的结果 根据历史记录预测公司股票未来价格 监测病人心率的异常变化 监视地震活动的地震波 提取声波的频率 27
树图思维导图提供 1113爆卡会总结会会议纪要 在线思维导图免费制作,点击“编辑”按钮,可对 1113爆卡会总结会会议纪要 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:aaf6c152a765d5821e8e1787f2b3226e
树图思维导图提供 抓住重点 在线思维导图免费制作,点击“编辑”按钮,可对 抓住重点 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4c49e4799ddf94a339c56e46eb96a826