在这种情况下 , 可以构思下自己的选题 , 这一步属于纯理论层面的 , 你需要将自己的思路具体化 , 比如要实现什么目的 , 很自然的需要什么数据分析方法也就能确定了 。当然很多论文会预先设计一系列待验证的假设 , 也是在这一步完成 , 因为你找到的文献中可能会存在矛盾的结论 , 可能会存在一些你认为的研究缺陷(文献看多了 , 自然自己就会有想法出来了) , 提出自己的一系列假设 , 能够很清楚的指导后面的数据收集和分析 。
第四.选题、假设还有研究方法这些经过前面几步都能确定了 , 接下来就是要考虑具体研究和收集数据的环节了 。这个环节最重要的也是首要的是弄清楚你的数据应该是什么类型的 , 通过哪种方法来获取 。
其实也容易了 , 因为前面你已经确定了统计分析方法 , 而每种方法有它特定的数据类型要求 , 比如是分类数据(如性别、民族、年级等)、比如连续性数据(如年龄、身高、体重、温度、长度、距离等) 。分类数据简单通俗点的理解就是这些数字本身是没有意义的 , 是人为赋予它一定的含义 , 这些数据之间不存在连续性 , 且加减乘除没有意义 , 而连续性数据是数据本身有意义 , 且能够进行一些加减乘除运算 。
确定了所需要的数据类型 , 就大致能够知道在数据收集时 , 应该注意的问题 。比如一份问卷调查 , 其中应该如何设计问题也就大致清楚了 , 通常问卷设计时就要考虑两种数据类型的问题 , 因为不同的选项设计会导致不同的数据类型 。
如你设计一个问题的答案选项是“有/没有”、“是/否”这种是属于分类数据 , 如果你的答案选项是李克特量表式“非常满意----非常不满意”这种 , 在处理时可以按照分类数据 , 只能统计出一些百分比 , 也可能将其按照连续数据如12345打分形式 , 这样可以求均值 , 可以做很多其他多元统计分析 。因此这一步确定数据类型很关键 , 如果数据类型弄错的话 , 则收集的数据完全无用 。
第五.具体收集数据过程 , 不细说了 , 收集回来之后就是数据的录入 。记住一定要录入原始的数据 , 而不是经过加减整理汇总后的数据 。
数据录入格式也是有要求的 , 一般大致同样的情况下 , 都是一行代表一个个案或者一份问卷的数据 , 而一列对应表示的是问卷中的一个问题 , 即变量 。因此数据录入完成后 , 应该是有多少样本数据 , 就有多少行 , 数据中包含多少个指标 , 那就有多少列 。
第六.这一步才是你应该开始头疼的数据分析不会了怎么办 。因为到这里才开始是数据的具体 。
文章插图