简单介绍数据仓库面试题大全的内容
树图思维导图提供 互联网数据仓库面试题大全思维导图 在线思维导图免费制作,点击“编辑”按钮,可对 互联网数据仓库面试题大全思维导图 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:d705258e1c756fbc2bfc11e9377f33a2
数据仓库面试题大全思维导图模板大纲
定义
数据仓库(Data Warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反应历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。
特点
数据子集
各个部分(业务线)只是部门数据中的数据子集
数据集市
数仓可以划分为多种数据子集
目的
数据库是面向事物处理的,数据是由日常的业务产生的,常更新;数据仓库是面向主题的,数据来源多样,经过一定的规则转换得到,用来分析。
用途
数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的历史数据。
设计
数据库的设计一般是符合三范式的,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库的设计一般不符合三范式,有利于查询
数仓模型的选择是灵活的,不局限于某种模型方法。
数仓数据是灵活的,以实际需求场景为导向。
数仓设计要兼顾灵活性、可扩展性,要考虑技术可靠性和实现成本。
概念
数据模型就是数据组织和存储的方法,通过抽象的实体以及实体间联系的形式来表达现实世界中事务的相互关系的一种映射,他强调从业务、数据存取和使用角度合理的存储数据。
为什么需要数仓建模?
数仓建模需要按照一定的数据模型,对整个企业的数据进行采集,整理,提供跨部门、完全一致的报表数据。
合适的数据模型,对于大数据处理来讲,可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据,减少不必要的数据冗余,提高用户的使用效率。
数据建模进行全方面的业务梳理,改进业务流程,消灭信息孤岛,更好的推进数仓系统的建设。
3范式?
每个属性值唯一,不具有多义性
每个非主属性必须完全依赖于整个主键,而非主键的一部分 每个非主属性不能依赖于其他关系中的属性
建模方法??
维度模型
概念
三种模式
星型
雪花
星座
步骤
DV模型
Anchor模型
ER模型
ER模型用实体关系模型描述企业业务,在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。
概念
1.分层可以清晰数据结构,使用时更好的定位和理解
2.方便追踪数据的血缘关系 3.规范数据分层,可以开发一些通用的中间层数据,能够减少极大的重复计算 把复杂问题简单化 4.屏蔽原始数据的异常。不必改一次业务就重新接入数据
分层思想??
ODS
DW
DWD
DWM
DWS
DM层
ADS
主要工作
ETL:抽取 转换 装载
经典架构
离线数仓
Lambda架构
Kappa架构
存储类型
ROLAP
MOLAP
HOLAP
处理类型
MPP架构
搜索引擎架构
预处理架构
与OLTP的区别??
解决方案
引擎
Druid
用于实时查询和分析的分布式实时处理系统,用于网络监控,广告分析等
Kylin
提供于Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据
Presto
FaceBook开发的分布式大数据SQL查询引擎,专门用于快速数据分析
概述
事务事实表
累积快照事实表
周期快照事实表
非事实型事实表
非事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或说明某些活动的范围。
八大设计原则
五大设计方法
缓慢变化维度
SCD1
不记录历史变化信息
SCD2
拉链表
表述
优点
SCD3
维度和指标
分层与分级
上卷与下钻
元数据??
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台吧数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
与数据仓库、大数据平台的关键区别是什么??
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据质量
数据治理
树图思维导图提供 母婴大健康行业互联网展现推广方案1.0 在线思维导图免费制作,点击“编辑”按钮,可对 母婴大健康行业互联网展现推广方案1.0 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:e848be5cfe3012b9c73b8c363c1cba92
树图思维导图提供 影刀功能大全 在线思维导图免费制作,点击“编辑”按钮,可对 影刀功能大全 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:92db7cc37dd8a1a24fe346e47a0cbe3e