TreeMind树图在线AI思维导图
当前位置:树图思维导图模板读书笔记职场效率《大数据平台》思维导图

《大数据平台》思维导图

  收藏
  分享
免费下载
免费使用文件
FC 浏览量:62022-11-12 19:16:29
已被使用0次
查看详情《大数据平台》思维导图

简要介绍《大数据平台》的有关内容

树图思维导图提供 《大数据平台》思维导图 在线思维导图免费制作,点击“编辑”按钮,可对 《大数据平台》思维导图  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:da79d26bff0923be65782ec2effe77de

思维导图大纲

大数据平台思维导图模板大纲

工作应用

业务相关

用户画像

风险控制

决策相关

数据科学的领域,了解统计学、算法

数据科学家

工程相关

如何实施、实现、解决什么业务

数据工程师

工程核心

数据源

特点决定数据采集和数据存储的技术选型

四种

内外部

内部主动写入

CRM

Hadoop

mongo

Apache Kafka

ORACLE

外部网络拉取

获得外部数据本身提供的api

调用api获取,如微信

写爬虫获取

特点

数据结构不一致,需要转换和清洗加工

ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪

结构化和非结构化数据

结构化偏向文件,NoSQL数据库

不变可添加数据,可修改可删除数据

增量同步策略

数据量大小

高延迟

batch处理方式

实时分析

流式处理

Lambda架构

数据存储

相同数据多种表现形式,存储不同类型数据库中

poly-db数据冗余生态

按数据源分类

三种

数据源的类型和采集方式

采集后数据的格式和规模

分析数据的应用场景

场景

场景一

舆情分析

选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内

场景二:商业智能产品

对数据集进行分析(聚合运算为主)

Parquet列式存储

要求

既要满足大数据量的水平可伸缩

同时满足高性能的聚合运算

场景三:Airbnb大数据平台

数据来源

大量的事件

本身的业务数据

技术处理:

日志数据通过Kafka

线上通过Sqoop

为什么不是flume,这里是指已经得到后的考量?

数据存储选择HDFS

通过Presto对Hive表执行 即席查询

数据处理

业务角度

查询检索

数据挖掘

统计分析

深度分析

机器学习

神经网络

技术角度

Batch SQL

流式处理

machine learning

Deep learning

编程模型

离线编程模型

内存编程模型

实时编程模型

相关思维导图模板

区块链产业行业分类思维导图

树图思维导图提供 区块链产业行业分类 在线思维导图免费制作,点击“编辑”按钮,可对 区块链产业行业分类  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:8ea67cc10eedc931aaf44be68f3378fc

AI+思维导图

树图思维导图提供 AI+ 在线思维导图免费制作,点击“编辑”按钮,可对 AI+  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:14ebc323dfb7d71127c0e376d56b8e45