TreeMind树图在线AI思维导图

概述思维导图

  收藏
  分享
免费下载
免费使用文件
U434457920 浏览量:512023-05-15 10:27:22
已被使用4次
查看详情概述思维导图

数据分析理论概述

树图思维导图提供 概述 在线思维导图免费制作,点击“编辑”按钮,可对 概述  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:6c89256f8cd3d70ee7ef58ba5afffa91

思维导图大纲

概述思维导图模板大纲

用户标签

用户基本属性标签(性别、年龄、是否会员、是否授信等)

用户行为属性标签(登录、购买等)

通过标签学习python代码

数据治理

数据生命周期

元数据的获取与管理

如何做?(已落地的部分)

解析帆软中report的cpt文件及bi的json文件(得到sql及数据源),解析sql(得到sql中用到的表)

解析etl中的sql文件(获取每个etl sql中使用到的表)

业务系统供数(手工整理)

意义

血缘分析

当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度

影响分析

常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析

冷热度分析

其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。

关联度分析

是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。本功能可以用来支撑需求变更的影响评估。

数据资产地图

通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。

ETL 自动化管理

数据安全管理

一切数据接口指标,都会从数据仓库中出口。因此理论上,我们只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据安全管理。

数据安全与隐私

数据质量管理

整理业务系统的数据问题,将问题数据定时发送给业务方

数据指标的统一定义

数据仓库

离线数仓

数仓落地--》etl

数据采集

离线

云产品-》datework+maxcomputer

mongodb采集

日表

每日一个分区

月表

每月一个分区

截取昨日变更数据按日采集

全量大表

截取昨日变更数据按日采集

mysql采集

数据新增+变更

单表

按照ods+snap正常采集即可

每日按照创建时间采集到一个分区

业务定期迁移历史数据至历史表

正常采集最新表和历史表 按照业务主键做merge业务合并

分库分表

针对分表采集到同一日期分区并加_* 然后按照正常ods+snap合并采集

流水表

按照创建时间每日一个分区 注意初始化需要写到一个固定分区

数据延迟表

相对较少 和业务确定跑批结束时间 等结束后一段时间写入:相对被动

增量采集时向前推迟一天 每次采集前2天数据 预防数据采集遗漏:可能不能得到昨天最新数据

特殊采集

业务物理删除

沟通修改为逻辑标记删除 定期可以清理删除数据至历史表

物理删除不能修改 只能全量采集 比较重要的表可以做成拉链表或者保留一定周期的快照

业务修复数据新增+变更

必须更新数据变更时间为最新当前时间

业务修复数据删除

发现类似问题的表后做数据质量校验 规范业务行为 并进行评估重新初始化数据

自建平台(主要提供风险部门使用)-》dolph+datax(采集工具+自动采集脚本)+etl自动依赖脚本+自带监控

数据处理/dim/dwd/dws/ads

广告主题

广告位资源基本属性维表

用户主题

用户基本属性维表

用户额外属性的基本信息维表

用于用户标签的行为属性信息

用户最近一次行为信息事件表

用户最早一次行为信息事件表

优惠券主题

优惠券基本属性信息维表

店铺主题

店铺基本属性维表

商品主题

商品sku维表

商品spu维表

催收主题

催收人员基本属性维表

授信主题

用户授信通过卡信息事件拉链表

用户授信申请过程事件表

订单主题

用户下单订单维度事件表

用户下单订单项(商品)维度事件表

用户退货退款订单维度事件表

用户退货退款订单项(商品)维度事件表

用户下单订单项(商品)维度参加的活动事件表

用户下单订单维度优惠明细事件表

借据主题

借据信息属性事件表

用户应还账单事件表

不同观察时间回溯借据的贷款的还款以及逾期信息

借据分期实还明细数据表

借据分期应还明细数据表

用户曝光/浏览/点击/搜索等埋点主题

app启动等埋点数据解析易用的数据明细表

数据导出

mysql

全量更新

每次更新前清空数据即可

日/月/周/季/年更新

相应的周期删除-》注意对应字段加索引

周期控制 :删除很久以前的数据时须考虑数据删除性能

数据量太大时 做生命周期控制严重影响性能时 可以考虑写入es

es

按照时间维度upsert对应数据 注意es须建立联合索引字段

报表展示

FineBi

FineReport

数据仓库理论

数仓分层

源数据层--》ods/snap

直接沿用外围系统数据结构和数据(需要处理具有换行符的脏数据),是接口数据的临时存储区域,为后一步的数据处理做准备

数据仓库层--》dwd/dws

dwd:数据明细层--->>存储明细数据,此数据是最细粒度的事实数据。该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证(数据兼容)同时该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联, 提高数据易用性

dws:数据聚合层--》此层数据是针对某个业务领域的聚合数据,应用层分析具体主题可以直接使用此层

数据应用层--》ads/rpt

依托于上游的数据分层计算出业务实际分析所用指标导出到数据源,用于报表/bi展示的源数据

维表层--》dim

业务分析的主要维度 维度层的建设是指标分析深入程度的重要保障

数仓分层的优点

层次分明 结构清晰 使数据更有条理化

复杂问题简单化 将一个复杂问题分层次解决

提高复用率

由于上游造成的数据修改 可以快速迭代 提高开发效率

数据建模方式

维度建模

事实表(主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。)

事务事实表

周期快照事实表

累计快照事实表

维度表(维度表包含帮助汇总数据的特性的层次结构)

数据量分类

高基数维度数据》》数据量较大的维度表:用户表/商品表

低基数维度数据

数据更新方式分类

缓慢渐变维1(SCD1)

通过更新维度记录直接覆盖已存在的值。不维护记录的历史。一般用于修改错误的数据,即历史数据就是错误数据,除此没有他用

缓慢渐变维2(SCD2)》》拉链表

在源数据发生变化时,给维度记录建立一个新的“版本”记录,从而维护维度历史。SCD2不删除、不修改已存在的数据

缓慢渐变维3(SCD3)

维护的历史字段新增一列,然后每次只更新 Current Column 和 Previous Column只保存最近两次的历史记录,历史数据都在同一行数据中

三范式建模

常用于业务关系型数据库建模

数据建模方法

雪花模型

多个维度表没有直接连接到事实表 通过连接到维度表进而连接到事实表

星型模型

一个事实表为中心,多个维度表环绕周围

星座模型

多个事实表共享一套维度表

数仓分层设计工具:PDM

数仓优化

参数设置/存储格式/压缩格式

开启map/reduce端压缩

经过对比采用snappy压缩格式

采用orc或者parquet的压缩格式

配置fetch抓取模式 简单查询* 部分列 limit 查询均不走mr过程

开启一些并行执行

开启严格模式

开启动态分区:这里根据实际情况考虑不开启避免一次性写入大量分区造成大量小文件

开启JVM重用

数仓etl代码的逻辑优化

计算广告用户从注册以来每周的启动app情况(作为例子详细说明)

数据倾斜

开启Map端的Combiner/hive.map.aggr=true

开启两个mr;一个随机分区/一个再次聚合hive.groupby.skewindata=true

尽量使用map端join避免数据倾斜/尽量减少不必要的数据参与运算

可以把数据导入两张桶表,再进行join

无效key的过滤或者取随机数

适当调整map与reduce数量

https://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html

数仓与数据集市的区别

来源:数据仓库的数据来源为一流系统、OLTP系统、外部数据等;数据集市的数据来源为数据仓库

范围:数据仓库为企业级;数据集市为部门级或工作组级

粒度:数据仓库为最细的粒度;数据集市为较粗的粒度

历史数据:数据仓库里保留大量的历史数据;数据集市保留适度的历史数据

优化:数据仓库处理海量数据(数据探索);数据集市便于访问和分析(快速查询)

OLAP与OLTP的区别

OLTP主要是对数据库中的数据进行增删改查;OLAP通过分析数据库中的数据来得出一些结论性的东西

hadoop生态圈

原理/api

kafka

原理

kafka的基本认知

生产消费模式

点对点

发布订阅模式

生产者

幂等性以及事务

生产者写入数据过程

生产者写入策略

1.轮询分区策略 2.按key分区分配策略 3.自定义分区策略

副本机制acks

消费者

消费者消费数据过程

rebalance原则

消费者消费策略

保证处理数据的安全性

生产

消费

存储

kafka事务了解

消费者数据挤压

kafka数据清理

api

kafka事务编程

常用的一些测试命令了解

hadoop

hdfs

hdfs分布式主从架构

hdfs高可用/联盟架构

hdfs读写过程

了解文件的put/get操作:代码

yarn

yarn分布式架构

任务提交资源分配过程

资源分配以后调度机制

mr

熟悉mr的五大过程-->重点理解shuffle过程

了解mr的api基础编程

hbase

了解hbase常用api以及应用场景

熟悉hbase数据模型以及里面不同组件的作用

rowkey设计/避免数据热点问题

写入时预分区的实现方式

hbase的读写流程/批量装载/

es

了解应用场景

了解es重要概念-》索引/映射/分片/副本等

了解es架构

了解操作es常用api

mongodb

了解使用场景/api

金融指标

逻辑/业务含义

底层基础表

完全掌握回溯表的逻辑计算

风险集市

风险加工需要的经过详细计算的底层数据

大数据运维注意事项

数据总量

报错/未执行完

时间点资源使用情况

执行比较慢的

预警规定时间可能执行不完的

重要指标的计算与优化

拉链表

留存类指标

不可累加指标

回溯类指标

相关思维导图模板

Coresight功能概述思维导图

树图思维导图提供 Coresight功能概述 在线思维导图免费制作,点击“编辑”按钮,可对 Coresight功能概述  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:ebec87c729f18ad8d2c14f2f9af2790b

现代教育技术概述思维导图

树图思维导图提供 现代教育技术概述 在线思维导图免费制作,点击“编辑”按钮,可对 现代教育技术概述  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:7206c54fea8092844bd6b268cbfb5f63