统计调查,数据科学,数据来源等内容讲解
树图思维导图提供 第二十三章 统计与数据科学 在线思维导图免费制作,点击“编辑”按钮,可对 第二十三章 统计与数据科学 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:73e671779a3cdf723a33af5ed10f05ca
第二十三章 统计与数据科学思维导图模板大纲
统计学概念
收集
子主题 1
整理
分析数据
得出结论
统计学的分支
描述统计
概念
数据收集
整理
描述
内容
如何取得数据
如何用图标或数学方法整理和展示
如何描述数据的特性
推断统计
概念
如何利用样本数据来推断总体特征
内容
参数估计
利用样本信息推断总体特征
假设检验
利用样本信息判断对总体的假设是否成立
变量概念
研究对象的属性或特征,是相对于常数而言
变量的种类
定量变量或数量变量
取值是数量时
企业销售额
注册员工数量
定性变量
分类变量
取值表现为类别
企业所属行业
性别等
顺序变量
取值表现为类别且有一定顺序
员工受教育水平
概念
数据是对变量进行测量和观测的结果
数据种类
数值型数据
是对定量变量的观测结果,可以进行数学运算
分类数据
对分裂变量的观测结果,表现为类别
可以计算各类别的频数
顺序数据
对顺序变量的观测结果,也表现为类别
按照收集方法区分
观测数据
直接调查或测量而收集到的数据
几乎所有于社会经济现象有关的统计数据都是观测数据
试验数据
在实验中控制实验对象及其所处环境收集的数据
自然科学领域的数据大多是试验数据
新产品的使用寿命
新药疗效
从使用角度看
直接调查和科学试验
直接数据或一手数据
调查或观察
实验
别人的调查或实验数据
间接数据或二手数据
概念
按照预定的目的和任务,运用科学的统计调查方法,有计划有组织的搜集数据信息的过程
调查的特征
有计划、有方法、有程序
调查结果表现为搜集到的数据
按照调查对象分类
全面调查
所有单位逐一、无遗漏的调查
全面统计报表
普查
非全面调查
一部分单位调查
非全面调查
抽样调查
重点调查
典型调查
按照登记时间是否连续
连续调查
在一段时期内连续的进行调查登记
工厂的产品生产
原材料的投入
能源的消耗
人口的出生、死亡等
不连续调查
在一定时点上的状态
生产设备用量
耕地面积等
统计调查的方式
统计报表
概念
自上而下的统一布置,自下而上的主机提供基本统计数据
原始数据为基础,统一的表示,统一的指标,统一的报送时间和报送程序
种类
按照调查对象范围不同
全面统计报表
非全面统计报表
按照报送周期长短不同
日报、月报、季报、年报等
按照报表内容和试试范围不同
国家的、地方的,部门的统计报表
普查
概念
为某一特定目的而专门组织的一次性全面调查,主要了解某一时点状态上的设备经济现象的基本全貌,为国家指定有关政策依据。
特点
一次性或周期性
涉及面广、调查单位多、需要耗费大量人力、物力、财力,通常间隔较长的时间。一般5年或10年
规定统一的标准调查时间
数据一般比较准确,规范化程度较高
使用范围比较窄
抽样调查
概念
抽取一部分单位作为样本调查,根据调查结果推断总体数量特征的一种非全面调查,
应用最广泛的一种调查方法
特征
经济性
最显著有点,抽样调查的工作量小
时效性强
可以迅速、即使的获取需要的信息
适应面广
适用于各个领域,各种问题的调查
产品质量检验
农产品试验
医药的临场试验
准确性高
重点调查
概念
选择部分重点单位进行调查,是一种非全面调查。
所选单位就调查的标志值来说是总体中占绝大比重
特点
重点调查的适用范围很广
能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。
典型调查
概念
有意识的选择若干有典型意义或由代表性的单位进行调查
作用
深入细致的调查,及时发现新情况、新问题
验证全面调查数据的真实性
优点
灵活机动,通过少数典型单位即可获得深入详实的统计资料
局限性
很大程度上受到人们主观认识的影响,必须于其他调查结合起来使用,避免出现片面性
适用
不在于反映现象的总体数量特征,而在于了解于统计数字有关的生动的具体情况,即与现象数量有关的社会条件及相互联系,以便进行深入的统计分析,做到定性分析与定量分析相结合。
统计质量评价标准
真实性
要求统计源头数据必须符合统计调查对象的实际情况,确保统计数据有依据、可溯源。
侧重于对基础数据质量的评价
准确性
要求统计数据的误差必须控制在允许范围内,
侧重于对统计数据生产科学性的评价。
完整性
要求统计数据应当全面完整
侧重于对统计 数据全面系统反映客观实际程度的评价。
及时性
尽可能缩短从调查到公布的时 间间隔
侧重于对统计数据生产效率的评价。
适用性
要求统计数据能够最大限度为用户所用,统计指标紧跟时代发展、切合统计需求
侧重于对统计用户满意度的评价
经济性
要求统计数据生产应当尽可能降低成本,统计调查、行政记录、大数据等数据资源得 到充分利用。
侧重于对统计数据成本效益的评价
可比性
要求统计数据应当连续、可比,不同时间、空间数据生产使用规范统一的统计标准和 统计原则。
侧重于对统计工作标准化、规范化程度的评价
协调性
要求统计数据结构严谨、逻辑合理,各总量数据、结构数据相互之间高度匹配。
侧重于对统计数据间逻辑关系的评价。
可获得性
要求多渠道、多方式公布统计数据,同时公布相应的统计制度方法,加强数据解读, 满足社会需求。
侧重于对统计服务质量的评价。
数据科学
一门通过系统性研究获取与数据相关的知识体系的学科
最早由丹麦的计算机科学领域先驱彼得•诺尔提出
数据科学研究的是从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行 采集、存储、处理、分析、表现等一系列活动
研究对象是数据。
研究目标是获得洞察力和理解力,通过对数据的分析,来解释、预测、洞见和 决策,为现实世界服务。
大数据“4V”特性
数据量大(Volume)
数据多样性(Variety)
结构化数据
非结构化数据
半结构化数据
价值密度低(Value)
大数据价值密度的高低与数据总量的大小成反比。
数据的产生和处理速度快(Velocity)
大数据的处理要符合“1 秒定律”。
数据挖掘的方法
监督学习
根据自变量数据得到因变量预测结果的过程称为监督学习。
分类
通过特征变量确定观测单位所属的类别,因变量是分类变量
逻辑斯特回归
决策树
随机森林
支持向量机等
回归
是通过特征变量确定观测单位因变量的取值,因变量是定量变量
线性回归
非线性回归
分位数回归等
无监督学习
主要任务是探索数据之间的内在联系和结构。
聚类
是指把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽可能 大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。
基于划分的方法(例如k 均值聚类算法
基于分层的方法
基于密度的方 法
基于网格的方法
基于模型的方法
降维
是指在不损失过多信息的前提下将N 个相关的特征降为k 个不相关的特征(其中k <N),使其具有更好的解释性,因此降维也称为特征提取
主成分分析法
因子分析法
半监督学习
半监督学习是监督学习与无监督学习相结合的一种学习方法。
半监督分类
半监督回归
半监督聚类。
调查资料可以说明现象的发展过程思维导图模板大纲
经济普查 逢3、8,每10年两次(第四次是1月1日),农业普查 逢6,10年1次(1月1日),人口普查逢0, 10年1次(前4次是7月1日,5、6、7是11月1日)思维导图模板大纲
通过特征变量确定观测单位所属的类别,因变量是分类变量思维导图模板大纲
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc
树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a