大数据技术原理与应用介绍
树图思维导图提供 大数据技术原理与应用 在线思维导图免费制作,点击“编辑”按钮,可对 大数据技术原理与应用 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:ee3f6896f12607448cfb245a14f43fa2
大数据技术原理与应用思维导图模板大纲
2.2 Hadoop生态
子主题
2.1 概述
2.1.3 Hadoop的特性
高效性
作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能高效地处理PB级数据
高可扩展性
Hadoop的设计目标是可以高效稳定地运行在廉价地计算机集群上,可以拓展到数以千计的计算机节点上
高容错性
并且能够自动地将失败地任务进行重新分配。
采用冗余数据存储方式,自动保存数据的多个副本,
成本低
Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运行环境
运行在Linux操作系统上
支持多种编程语言
高可靠性
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务
2.1.1 简介
借助Hadoop程序员可以轻松的编写分布式并行程序,并将其运行在计算机集群上,完成海量数据的存储于处理分析。
Hadoop是Apache(阿帕奇)软件基金会旗下的开源分布式计算平台
基于Java语言开发,具有很好的跨平台特性
核心是
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和
MapReduce
MapReduce是针对谷歌MapReduce(论文)的开源实现
允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,保证分析和处理数据的高效性
HDFS是针对谷歌文件系统GFS(论文)的开源实现
支持大规模数据的分布式存储
Hadoop是一个开源的,可运行于大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能。
分支主题
分支主题
1.3大数据对科学研究的影响
1.3.2 大数据对思维方式的影响 
效率而非精确
大数据时代分析数据具有"秒级响应"的特征,要求在几秒内就给出针对海量数据的实时分析结果,否则就会丧失数据的价值。
全样数据分析不存在误差(抽样导致的)被放大的问题,因此算法设计的首要目标已不再是高精确性,
相关而非因果
在大数据时代,更关注事物之间的“相关性”而不去深究“因果性”(黑盒)
过去数据分析的目的有两方面
预测未来可能发生的事件
解释事物背后的发展机理
全样而非抽样
大数据技术的核心就是海量数据的存储和处理,
分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,
分布式并行编程框架MapReduce 提供了强大的海量数据并行处理能力
借助大数据技术可以直接分析全集数据并在短时间内得到分析结果
过去由于数据存储和处理能力的限制,在科学分析中通常采用抽样的方法
1.3.1 科学研究4范式(按时间先后)
2 理论科学
3 计算科学
1946年,人类历史上第一台通用电子计算机ENIAC诞生
借助计算机的高速运算能力解决各种问题
4 数据密集型科学
从数据中可以挖掘未知模式和有价值的信息
与第3种范式(计算科学)的区别
不同点:
在第4种范式中,是先有了大量的已知数据,然后通过计算得出之前未知的理论
在第3种范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证
共同点:两者都利用计算机进行计算
在大数据环境下,一切以数据为中心,从数据中发现问题,解决问题,体现数据的价值。
1 实验科学
1.5 大数据关键技术
大数据技术的不同层面
数据存储与管理
利用分布式文件系统,数据仓库,关系数据库,NoSQL数据库,云数据库等,实现对结构化,半结构化和非结构化海量数据的存储和管理
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析,对分析结果进行可视化呈现
数据安全和隐私保护
数据采集与预处理
大数据技术是许多技术的一个集合体,并非全部都是新生事物
关系数据库,数据仓库,数据采集,ETL,OLAP,数据挖掘,数据隐私和安全
新技术
分布式并行编程,分布式文件系统,分布式数据库,NoSQL数据库,云数据库,流计算,图计算
老技术:
含义:大数据往往指数据和大数据技术这二者的综合
伴随这大数据的\\采集,存储,分析和结果\\(这也是大数据的基本处理流程)呈现的相关技术,
是使用非传统的工具来对大量的结构化,半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术
大数据技术是指
1.6 大数据计算模式
1.6.1 批处理计算
Spark
与MapReduce的区别
数据流从一个稳定的来源进行一系列加工处理后,流出到一个稳定的文件系统(如HDFS)
Spark:
启用内存分布数据集,使用内存代替HDFS或本地磁盘来存储中间结果
因此Spark要比MapReduce的速度快许多
MapReduce:
一个针对 超大数据集合 的 低延迟 集群分布式 计算系统
MapReduce
将复杂的,运行于大规模集群上的并行计算过程高度抽象为两个函数——Map和Reduce,即使不懂分布式并行编程的程序员也可以很容易的将自己的程序运行在分布式系统上,完成海量数据集的计算
可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行计算
1.6.2 流计算
数据的价值随时间的流逝而降低,因此必须采用实时计算给出秒级响应
流计算可以实时处理来自不同数据源的,连续到达的流数据,经过实时分析处理,给出有价值的分析结果
流数据(数据流)是指时间分布和数量上无限的一系列动态数据集合体
1.6.3 图计算
1.6.4 查询分析计算
概览
流计算
代表产品: Flink,Storm,S4
针对流数据的实时计算
图计算
Pregel,GraphX,Giraph
针对大规模图结构数据的处理
查询分析计算
Dremel,Hive,Cassandra
大规模数据的存储管理和查询分析
批处理计算
代表产品: MapReduce,Spark
针对大规模数据的批量处理
1.8 大数据与云计算,物联网
1.8.2 物联网
技术架构上分为四层
网络层
起到信息传输的作用,包含各种类型的网络
处理层
起到存储和处理的作用,包括数据存储,管理和分析平台
应用层
直接面向用户,满足各种应用需求
感知层
采集来自物理世界的各种信息,这个层包含了大量的传感器
关键技术
网络与通信技术
数据挖掘与融合技术
识别和感知技术(二维码/RFID/传感器)
物联网是物物相连的互联网,是互联网的延伸,他利用局部网或互联网等通信技术把传感器,控制器,计算机,人员和物等通过新的方式连在一起。
1.8.1 云计算
云计算的关键技术
分布式存储
分布式计算
多租户
虚拟化
虚拟化的资源可以是硬件(如服务器,硬盘,网络),也可以是软件
是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多台逻辑计算机,每台计算机可以运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响
1.云计算的概念
云计算实现了通过网络提供的可伸缩的,廉价的分布式计算能力,代表了以虚拟化技术为核心,以低成本为目标的动态可扩展的网络应用基础设施 
三种类型
私有云
只为特定用户提供服务(如大型企业处于安全考虑自建的云环境)
混合云
公有云和私有云混合搭配使用
另一方面又希望可以获得公有云的计算资源
一方面出于安全考虑需要把数据放在私有云中
公有云
面向所有用户提供服务
构建
可以使用云计算管理软件来构建云环境(公或私)(如OpenStack)
三种典型的服务模式
平台即服务(Platform as a Service,PaaS)
把平台作为服务出租
软件即服务(Software as a Service,SaaS)
把软件作为服务出租
基础设施即服务(Infrastructure as a Service, Iaas)
将基础设施(计算资源和存储)作为服务出租
1.2大数据概念
大数据的4V特点
variety(数据种类繁多)
velocity(处理速度快)
Value(价值密度低)
volumn(数据量大)
KB/MB/GB/TB/PB(拍字节)/EB(艾字节)/ZB(泽字节)
数据单位由小到大(相邻两个为1024倍)
树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a
树图思维导图提供 第六章 群体传播与组织传播_副本 在线思维导图免费制作,点击“编辑”按钮,可对 第六章 群体传播与组织传播_副本 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1672f555831e7d9a3bb2cf2fb792cb49