数据分析理论概述
树图思维导图提供 概述 在线思维导图免费制作,点击“编辑”按钮,可对 概述 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:6c89256f8cd3d70ee7ef58ba5afffa91
概述思维导图模板大纲
用户基本属性标签(性别、年龄、是否会员、是否授信等)
用户行为属性标签(登录、购买等)
通过标签学习python代码
数据生命周期
元数据的获取与管理
如何做?(已落地的部分)
解析帆软中report的cpt文件及bi的json文件(得到sql及数据源),解析sql(得到sql中用到的表)
解析etl中的sql文件(获取每个etl sql中使用到的表)
业务系统供数(手工整理)
意义
血缘分析
当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度
影响分析
常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析
冷热度分析
其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。
关联度分析
是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。本功能可以用来支撑需求变更的影响评估。
数据资产地图
通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。
ETL 自动化管理
数据安全管理
一切数据接口指标,都会从数据仓库中出口。因此理论上,我们只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据安全管理。
数据安全与隐私
数据质量管理
整理业务系统的数据问题,将问题数据定时发送给业务方
数据指标的统一定义
离线数仓
数仓落地--》etl
数据采集
离线
云产品-》datework+maxcomputer
mongodb采集
日表
每日一个分区
月表
每月一个分区
截取昨日变更数据按日采集
全量大表
截取昨日变更数据按日采集
mysql采集
数据新增+变更
单表
按照ods+snap正常采集即可
每日按照创建时间采集到一个分区
业务定期迁移历史数据至历史表
正常采集最新表和历史表 按照业务主键做merge业务合并
分库分表
针对分表采集到同一日期分区并加_* 然后按照正常ods+snap合并采集
流水表
按照创建时间每日一个分区 注意初始化需要写到一个固定分区
数据延迟表
相对较少 和业务确定跑批结束时间 等结束后一段时间写入:相对被动
增量采集时向前推迟一天 每次采集前2天数据 预防数据采集遗漏:可能不能得到昨天最新数据
特殊采集
业务物理删除
沟通修改为逻辑标记删除 定期可以清理删除数据至历史表
物理删除不能修改 只能全量采集 比较重要的表可以做成拉链表或者保留一定周期的快照
业务修复数据新增+变更
必须更新数据变更时间为最新当前时间
业务修复数据删除
发现类似问题的表后做数据质量校验 规范业务行为 并进行评估重新初始化数据
自建平台(主要提供风险部门使用)-》dolph+datax(采集工具+自动采集脚本)+etl自动依赖脚本+自带监控
数据处理/dim/dwd/dws/ads
广告主题
广告位资源基本属性维表
用户主题
用户基本属性维表
用户额外属性的基本信息维表
用于用户标签的行为属性信息
用户最近一次行为信息事件表
用户最早一次行为信息事件表
优惠券主题
优惠券基本属性信息维表
店铺主题
店铺基本属性维表
商品主题
商品sku维表
商品spu维表
催收主题
催收人员基本属性维表
授信主题
用户授信通过卡信息事件拉链表
用户授信申请过程事件表
订单主题
用户下单订单维度事件表
用户下单订单项(商品)维度事件表
用户退货退款订单维度事件表
用户退货退款订单项(商品)维度事件表
用户下单订单项(商品)维度参加的活动事件表
用户下单订单维度优惠明细事件表
借据主题
借据信息属性事件表
用户应还账单事件表
不同观察时间回溯借据的贷款的还款以及逾期信息
借据分期实还明细数据表
借据分期应还明细数据表
用户曝光/浏览/点击/搜索等埋点主题
app启动等埋点数据解析易用的数据明细表
数据导出
mysql
全量更新
每次更新前清空数据即可
日/月/周/季/年更新
相应的周期删除-》注意对应字段加索引
周期控制 :删除很久以前的数据时须考虑数据删除性能
数据量太大时 做生命周期控制严重影响性能时 可以考虑写入es
es
按照时间维度upsert对应数据 注意es须建立联合索引字段
报表展示
FineBi
FineReport
数据仓库理论
数仓分层
源数据层--》ods/snap
直接沿用外围系统数据结构和数据(需要处理具有换行符的脏数据),是接口数据的临时存储区域,为后一步的数据处理做准备
数据仓库层--》dwd/dws
dwd:数据明细层--->>存储明细数据,此数据是最细粒度的事实数据。该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证(数据兼容)同时该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联, 提高数据易用性
dws:数据聚合层--》此层数据是针对某个业务领域的聚合数据,应用层分析具体主题可以直接使用此层
数据应用层--》ads/rpt
依托于上游的数据分层计算出业务实际分析所用指标导出到数据源,用于报表/bi展示的源数据
维表层--》dim
业务分析的主要维度 维度层的建设是指标分析深入程度的重要保障
数仓分层的优点
层次分明 结构清晰 使数据更有条理化
复杂问题简单化 将一个复杂问题分层次解决
提高复用率
由于上游造成的数据修改 可以快速迭代 提高开发效率
数据建模方式
维度建模
事实表(主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。)
事务事实表
周期快照事实表
累计快照事实表
维度表(维度表包含帮助汇总数据的特性的层次结构)
数据量分类
高基数维度数据》》数据量较大的维度表:用户表/商品表
低基数维度数据
数据更新方式分类
缓慢渐变维1(SCD1)
通过更新维度记录直接覆盖已存在的值。不维护记录的历史。一般用于修改错误的数据,即历史数据就是错误数据,除此没有他用
缓慢渐变维2(SCD2)》》拉链表
在源数据发生变化时,给维度记录建立一个新的“版本”记录,从而维护维度历史。SCD2不删除、不修改已存在的数据
缓慢渐变维3(SCD3)
维护的历史字段新增一列,然后每次只更新 Current Column 和 Previous Column只保存最近两次的历史记录,历史数据都在同一行数据中
三范式建模
常用于业务关系型数据库建模
数据建模方法
雪花模型
多个维度表没有直接连接到事实表 通过连接到维度表进而连接到事实表
星型模型
一个事实表为中心,多个维度表环绕周围
星座模型
多个事实表共享一套维度表
数仓分层设计工具:PDM
数仓优化
参数设置/存储格式/压缩格式
开启map/reduce端压缩
经过对比采用snappy压缩格式
采用orc或者parquet的压缩格式
配置fetch抓取模式 简单查询* 部分列 limit 查询均不走mr过程
开启一些并行执行
开启严格模式
开启动态分区:这里根据实际情况考虑不开启避免一次性写入大量分区造成大量小文件
开启JVM重用
数仓etl代码的逻辑优化
计算广告用户从注册以来每周的启动app情况(作为例子详细说明)
数据倾斜
开启Map端的Combiner/hive.map.aggr=true
开启两个mr;一个随机分区/一个再次聚合hive.groupby.skewindata=true
尽量使用map端join避免数据倾斜/尽量减少不必要的数据参与运算
可以把数据导入两张桶表,再进行join
无效key的过滤或者取随机数
适当调整map与reduce数量
https://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html
数仓与数据集市的区别
来源:数据仓库的数据来源为一流系统、OLTP系统、外部数据等;数据集市的数据来源为数据仓库
范围:数据仓库为企业级;数据集市为部门级或工作组级
粒度:数据仓库为最细的粒度;数据集市为较粗的粒度
历史数据:数据仓库里保留大量的历史数据;数据集市保留适度的历史数据
优化:数据仓库处理海量数据(数据探索);数据集市便于访问和分析(快速查询)
OLAP与OLTP的区别
OLTP主要是对数据库中的数据进行增删改查;OLAP通过分析数据库中的数据来得出一些结论性的东西
原理/api
kafka
原理
kafka的基本认知
生产消费模式
点对点
发布订阅模式
生产者
幂等性以及事务
生产者写入数据过程
生产者写入策略
1.轮询分区策略 2.按key分区分配策略 3.自定义分区策略
副本机制acks
消费者
消费者消费数据过程
rebalance原则
消费者消费策略
保证处理数据的安全性
生产
消费
存储
kafka事务了解
消费者数据挤压
kafka数据清理
api
kafka事务编程
常用的一些测试命令了解
hadoop
hdfs
hdfs分布式主从架构
hdfs高可用/联盟架构
hdfs读写过程
了解文件的put/get操作:代码
yarn
yarn分布式架构
任务提交资源分配过程
资源分配以后调度机制
mr
熟悉mr的五大过程-->重点理解shuffle过程
了解mr的api基础编程
hbase
了解hbase常用api以及应用场景
熟悉hbase数据模型以及里面不同组件的作用
rowkey设计/避免数据热点问题
写入时预分区的实现方式
hbase的读写流程/批量装载/
es
了解应用场景
了解es重要概念-》索引/映射/分片/副本等
了解es架构
了解操作es常用api
mongodb
了解使用场景/api
逻辑/业务含义
底层基础表
完全掌握回溯表的逻辑计算
风险加工需要的经过详细计算的底层数据
数据总量
报错/未执行完
时间点资源使用情况
执行比较慢的
预警规定时间可能执行不完的
拉链表
留存类指标
不可累加指标
回溯类指标
树图思维导图提供 Coresight功能概述 在线思维导图免费制作,点击“编辑”按钮,可对 Coresight功能概述 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:ebec87c729f18ad8d2c14f2f9af2790b
树图思维导图提供 现代教育技术概述 在线思维导图免费制作,点击“编辑”按钮,可对 现代教育技术概述 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:7206c54fea8092844bd6b268cbfb5f63