<>统计学与数据挖掘

统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理和分析统计资料认识客观现象数量规律性的方法论科学。由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,并被广泛应用与自然、社会、经济、科技等各个领域的分析中。

当我们使用统计学进行数据挖掘时,统计学的方法可用于汇总或描述数据集,也可用于验证数据挖掘结果。统计学是以某种方式模拟数据,解释数据的随机性和确定性,并用于提取观察到的结论,如果结果不可能随即发生,则说明它具有统计学意义。

<>常用的统计学指标

在进行数据分析时,经常会使用一些分析指标或术语。这些指标或术语可以帮助我们打开思路,通过多个角度对数据进行深度解读。下面是数据统计分析常用的指标或术语。
1.平均数平均数一般指算术平均数。算术平均数是指全部数据累加除以数据个数。它是非常重要的基础性指标。
(1)几何平均数:适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。
(2)加权平均数:普通的算数平均数的权重相等,算数平均数是特殊的加权平均数(权重都是1)。
2.绝对数与相对数

绝对数是反映客观现象总体在一定时间、地点条件下的总规模和总水平的综合性指标,如GDP。此外,绝对数也可以表现在一定条件下数量的增减变化。相对数是指两个有联系的指标对比计算得到的数值,它是用以反映事物性质发展变化趋势的指标。
其中:
相对数=比较数值(比数)/基础数值(基数)
比数:与基数对比的指标数值
基数:对比标准的指标数值
3.百分比与百分点

百分比表示一个数是另一个数的百分之几的数,也叫百分率。百分点是用以表达不同百分数之间的“算数差距"(即查)的单位。用百分数表达其比例关系,用百分点表达其数值差距。1个百分点即1%,表示构成的变动幅度不宜用百分数,而应该用百分点。
4.频数与频率
频数是指一组数据中个别数据重复出现的次数。频数是绝对数,频率是相对数。
5.比例与比率

比例与比率都是相对数。比例是指总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构;而比率是指不同类别数值的对比,它反应的不是部分与整体之间的关系,而是一个整体中部分之间的关系。这一指标经常会用在社会经济领域。

6.倍数与番数

倍数与番数同属于相对数。其中,倍数是一个数除以外一个数所得的商。

* 同比与环比

同比是指与历史同时期进行比较得到的数据,该指标主要反映的是事物发展的相对情况,如2012年12月与2011年12月相比。英文翻译同比为yar-on-year
ratio。环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,如2010年12月与2010年11月相比。环比的英文可翻译为compare
with theperformance/figure/statistics last month。同比是与上年的同期水平对比,环比是同一年连环的两期对比。
8.基线和峰值、极值分析

峰值是指增长曲线的最高点(顶点),如我国总人口在2033
年将达峰值15亿。在数学上,拐点指改变曲线向上或向下方向的点,在统计学中指趋势开始改变的地方,出现拐点后的走势将保持基本稳定。

9.增量与增速

增量是指数值的变化方式和程度。增速是指数值增长程度的相对指标。

技术
下载桌面版
GitHub
百度网盘(提取码:draw)
Gitee
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:766591547
关注微信