大数据背景下统计分析与SPSS应用课程改革的方向
大数据背景下,数据搜集、整理再也不像以往一样困难,数据处理更加简单、快捷,而且计算机可以在较短时间内处理海量数据,从数据中得到有价值的信息成为公司制胜的法宝。统计学作为一门收集、处理、分析、解释数据并从数据中得到结论的科学,是经管类各专业的基础必修课程,必然会引入大数据理念,而大量统计学相关理论和技术将应用于大数据发展的进程中。
一、统计分析与SPSS应用课程概述
统计分析与SPSS应用课程将统计学理论内容和SPSS软件应用相结合,通过本课程的学习,使学生了解和掌握统计设计、统计调查、统计整理和统计分析的基本理论与方法。主要内容包括统计整理、指标描述分析、抽样推断分析、时间序列分析、相关分析、假设检验等。学生在掌握了统计分析的理论知识的基础上,运用SPSS统计软件进行数据的编辑、描述性统计分析、参数检验、非参数检验、相关分析与回归分析等。该课程以实际数据为纽带说明SPSS的操作,以应用案例为背景阐述数据分析的思路。
在大数据时代,统计学课程应将培养学生的统计思维、提升学生的统计知识应用能力作为课程教学改革的重点。经管类专业统计学课程的主要目标是培养学生数据处理、分析能力。具体来讲,通过对本课程的学习,要求学生系统掌握统计学的一般原理和统计方法,为进行经济管理和从事社会经济问题研究提供数量分析方法;其次,能够运用统计方法与统计分析软件进行数据收集、处理、分析,达到能够正确运用统计分析方法解决实际问题的目的。
二、统计分析与大数据的的关系
统计分析与大数据的联系
大数据拓展了统计学的研究领域,利用大数据所带来的思想方式的变革,挖掘大数据资源蕴藏的社会、商业价值,对改进和完善统计工作,对提升统计工作价值具有重大意义。在大数据时代,不仅任何一种以结构数据度量的数量可以作为统计研究对象,而且不能用数量关系衡量的如文本、图片、视频、声音、动画、地理位置等半结构或非结构数据都可以作为统计研究的对象。在大数据时代,统计工作面对的数据对象从样本数据变成了总体数据,统计工作不必采取试验或抽样调查的方法,其运行环节得到了简化。
统计分析与大数据的区别
1.关于调研数据的区别
统计分析中的数据是通过统计调查收集的数据,这个数据包括一手数据也包括二手数据,将数据进行整理以后,可以形成相应的统计表或者统计图。大数据分析背景下,更常见的是半结构化数据、非结构化数据,甚至是异构数据,可以挖掘出比传统统计学更有价值的信息。在原始数据的收集上,应该注意将传统的结构化数据跟大数据相结合。
2.关于数据收集方法的区别
传统的统计分析数据是通过设计调研方案,明确调研的目的、调研对象、调研内容,采用科学的调研方法,比如普查、重点调查、典型调查、抽样调查等调查方式搜集原始数据。将数据搜集完后,进行统计整理。大数据是利用软件先进行数据文件的建立和管理,然后进行数据的预处理,数据的预处理包括定义数据的结构,数据的录入和编辑,数据的保存,数据的排序,筛选重复个案,变量的计算,数据的选取,数据的计数,数据的分类汇总,数据的分组等。
3.关于数据来源的区别
传统统计学中的数据无论是直接调查获取的一手数据还是借用经整理后的二手数据,共同的来源都是实地调查,区别仅仅是调查主体是否为数据需求者。由此很容易对数据进行事前安排、事中控制以及事后核对。如果大部分数据来源于网络,就无法做到事前安排,也很难做到事中控制,且数据很多时候是发散的,更不可能进行事后核对。大数据是数据的“抽取—转换—加载”,这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
4.关于量化方式的区别
传统统计中的数据是结构化的数据,且量化方法日渐成熟。而大数据多为半结构化、非结构化数据,对其进行量化还存在技术瓶颈。目前,将半结构化及非结构化数据进行量化或者转化为结构化数据是一个非常重要的研究领域。
5.关于分析思维的区别
传统统计学中的数据分析思路为定性到定量再到定性,而大数据分析思路是从定量到定性。前者主要运用归纳法,这一方法依然是大数据分析的主要方法,后者仍然要通过个体的特征归纳出总体的特征。但对异常值的分析和研究往往更具深意,运用的是演绎法获取更细小的特征。
三、大数据背景下统计分析与SPSS应用课程改革的方向
统计分析与SPSS应用课程是面向经济管理类专业的本科生开设的一门专业基础课。通过学习该课程,学生可以了解搜集、整理资料的过程及方法,能熟练运用SPSS,提高统计应用技能,形成一定的分析问题解决问题的能力。就目前的教学状况看,针对非统计专业开设统计学及相关课程教学时,应在教学内容、授课方式、教学手段和教材选用等方面进行改革。
(一)关于课程案例的选择
课程案例应紧跟时代步伐,贴近时代热点。采用实时案例分析,更容易增加学生的学习研究兴趣。比如近两年的热点问题:“为什么高考状元,最后都很平庸?”“我读了清北,以后可以进投行吗?”“为什么学区房那么值钱,但学历不值钱?””比如,你说吸烟有害健康,劝身边人戒烟。烟民们常用的借口是这样的:你看隔壁王大爷,都九十岁了,抽烟抽了一辈子,照样健健康康的。张二蛋,烟酒不沾,三十岁就归了西。所以呀,抽烟有害健康,都是骗人的!”“比如,有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论:高考状元最终将走向平庸,高考对筛选人才并没什么用”。以上的例子,统统犯了小样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。统计推断,样本量越大,越可靠。基于小样本的结论,往往都存在问题。样本概念是统计分析与SPSS应用课程中的抽样推断的内容。传统的抽样分析大多是静态分析,大数据背景下的样本概念应多参考静态数据与动态数据结合分析。比如不少反鸡汤人士认为,努力没什么用,家庭出身决定一切,先天条件决定一切,时代大势决定一切,同学们认为呢?名校毕业挣钱不多,名校毕业照样买不起学区房,很多人据此得出结论:名校也没什么卵用,甚至上大学也没什么用,照样买不起房,还不如王小二开个煎饼摊子挣得多。这个案例所犯的错误就是统计里的控制变量的问题。什么是控制变量?控制变量的意思是,控制了这个因素,来看其他因素对事物发生的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的一种控制变量的假设。考察单一变量对结果的影响时,一定要保持控制变量的不变且可比。不然这样比较得出的结论,毫无意义。比如暴饮暴食跟胃痛是什么关系?名校毕业跟赚很多钱是什么关系?两种关系有何不同?事情的发生,往往都是一个复杂系统里,多因素共同作用的结果,凡事都尽量避免用单因素模型去解释。这里涉及的实际就是统计分析课程里的多因素分析模型,即相关分析与回归分析的内容。把统计分析课程中的理论知识点应用到生活实践中,让学生能够运用统计的思维和观点去分析问题理解问题,这应该是该课程的一个实践目标。
(二)教学内容的应用型导向改革
经典统计分析与SPSS应用课程内容涵盖最基本的描述性统计,少量涉及数据分析实践中必需的推断统计。在统计调查方法这一章内容里,应突出强调统计调查方案的设计。由于统计调研的对象是复杂经济体,搜集的数据也涵盖多个方面。要收集到相对完整准确的数据,就必须对统计调查工作设计一个方案。方案的具体内容可以包括调研目的的确定、调研对象的确定、调研内容的确定、调研方法的确定、调研时间及期限的安排、调研人员的安排等等细节问题。在调研数据的方法选择上,也应该提醒学生注意结合多种调研方法,不能只单纯的让学生理解有哪些调研方法就可以了。所以,教学上,应避免纸上谈兵,可以根据实时热点给出一些题目,让学生实践。在统计整理这部分,学生掌握最多的是给定分组标志,从进行统计分组,绘制直方图和折线图、条形图、饼图等。但不以应用为导向的学习必然无法根据项目的研究任务和研究目标自主选取恰当的标志,从而挖掘有价值的信息。应给定学生研究课题,让学生根据课题的主题自行确定具体研究内容,并根据具体内容量化成具体的问题并设计调研问卷搜集数据。在统计分析部分,应重点突出SPSS软件的描述统计分析的使用,假设检验方法的使用,相关分析回归分析的使用,让学生根据软件操作结果进行统计分析。
(三)教学方法的改革
要改变传统的“教师讲、学生听”的授课方式,根据内容设计相应的案例,同时考虑多让学生动手操作SPSS,提高学生的软件操作能力,多采用互动教学。尽可能的采用应用型的教材。
基于此,相关单位可从多种教材中博采众长,汲取精华,适时编写适用于应用型本科非统计专业使用的教材。此外,在提高学生对新知识的求知欲,保证他们学会经典统计方法的同时,要根据大数据发展的最新形势,运用恰当的方法搜集、整理、分析数据。
(四)课程考核方式的改革
统计分析与SPSS应用课程考核方式是卷面闭卷考核,主要考察学生的理论知识的掌握情况。对于应用型高校,应侧重从实践角度出发培养学生的SPSS软件操作能力,同时能够利用软件进行统计分析。期末考核方式可以可由传统的试卷考试变为撰写统计分析报告的方式。撰写统计分析报告,一方面可以考查学生的理论知识的运用情况,尤其是统计指标的计算及分析问题;另一方面,也考查了学生应用SPSS软件进行数据操作的能力问题。