先解释大数据 。
大数据是指大数据集,以前由于储存介质的限制,无法储存大量数据,每一个数据都是经过尽挑细选的,在保留了重要数据的同时也会丢失一些次要数据 。
【数据分析的作用和意义 大数据的作用和意义】随着网速的增加 , 储存介质的低成本化 , 通过获取、存储,随着数据数量越来越多,我们能分析的数据也就越来越多 。
文章插图
我简单做个模型来解释大数据搜集和应用的过程 。
如我要分析疫情期间世界人民对于韩国疫情的看法和态度,怎么办?
以前的方法就是问卷调查 , 选择几个人发几张问卷 , 然后分析 , 时间慢,样本量不足,都有很强的局限性,那么有了大数据呢?
首先用爬虫技术(搜集阶段)对社交媒体,如今日头条、微博等进行大规模的数据下载,仅仅这一下我就可以搜集到几百万条数据 。
但因为搜集到的数据他没有逻辑性,他不是结构化数据:即有固定格式和有限长度的数据 。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据 。
文章插图
然后进行整理(数据清洗),如对发评论的人的地理位置,性别,年龄以及发的话的关键词进行清洗 。转变为结构化数据
经过上面的步骤,我们就有可用的大规模的数据,然后利用简单的编程,提取出某些关键词 , 比如:“控制”,“口罩”,“完蛋”等 。
就可以做情感分析,根据原本有的语言情感库,就可以知道大家对韩国疫情的看法,持有这些看法的人的年龄,地区和性别等 。在进行更深一步的了解 , 为心理相关部门 , 政府部门提供决策参考 。同时作为今后发生流行病我们应该怎么处理提供可行性方案 。
对个人企业来说 , 你可以通过大数据分析,知道你的产品是否受欢迎,应该怎么改,你的同行是怎么做的,买家对他的评论是什么样子的 。应用方向很多 。大数据就是大量的数据,就是来自互联网的庞大的数据 。
大数据往往与数据挖掘分不开,在庞大的数据寻找里面的规律或挖掘其中有用的数据,为下一步的二次开发做准备,从而实现更进一步的发展 。
- 经典重大刑事案件 最轰动的案件
- 汽车脚垫用全包围还是半包围的好 汽车脚垫有必要全包围吗
- 八仙的原型 历史上的八仙是哪些人
- 嫁给大十岁男人的后患 网友说出了自己的心声
- 老夫少妻男人会长寿 这是有原因的
- 婆婆表面很好内心算计 嘴上说的和做的完全不同
- 不跟婆婆来往谁损失大 女人不要让自己的丈夫太难做
- 跟婆家彻底翻脸的后果 一般人承受不住
- 老爸的心思有多细腻 一封信看哭了网友
- 狼殿下插曲叫什么名字 ost歌单有韩剧的味道