本文目录
大数据的定义首先,还是要重新审视大数据的定义。
行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。
广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
相比较而言,我还是喜欢技术定义,哈哈。
大家注意,关键词我都在上面原句加粗了哈!
要做什么?——获取数据、存储数据、分析数据
获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。
例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。
但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。
我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的关系,大家应该都很熟悉了:
而大数据是什么级别呢?PB/EB级别。
大部分人都没听过。其实也就是继续翻1024倍:
只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。
EB还不是最大的。目前全人类的数据量,是ZB级。
2011年,全球被创建和复制的数据总量是1.8ZB。
而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。
目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。
大数据的级别定位:1 KB= 1024 B(KB- kilobyte)
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的几个重要阶段。
第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。
这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。如果你对大数据开发感兴趣,想系统学习大数据的话,可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具以及入门学习资料
第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。
随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。
第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。
行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。
数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。
数据又分为结构化数据和非结构化数据。
从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。
例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。
在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。
大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。
就在刚刚过去的这一分钟,数据世界里发生了什么?
大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。
随着信息时代的发展,大数据已经成为技术创新的一大趋势。很多人仍然对大数据行业的现状、发展前景和就业方向感到困惑。下面就来说说大数据发展前景和就业方向,千万别错过。
大数据学科是一门跨学科的新兴学科,该学科主体为统计学和计算机科学。
大数据技术可以通过在企业积累数据提供客观的分析结果,为管理者提供决策辅助,或对现有的数据,通过挖掘分析找到数据之间的规律,为公司发现业务问题和战略布局规划起到关键作用。
随着各行各业越来越多的领域开始发挥运营数据的价值,对大数据人才的需求也在不断增加。
主流的大数据技术都是开源的,大数据开发者可以免费获得。免费的技术和活跃的社区使版本迭代更快。例如Hadoop、Spark、Flink、HBase、Kafka大数据核心技术等。
目前,根据人才市场的相关统计,虽然很多大数据岗位的人才需求很大,但大数据行业的从业人数不足5万人。
可以预测未来3-5年,大数据人才缺口将继续扩大至200W以上。因此,大数据就业前景将极为广阔。
大数据的薪酬高于一般的开发工程师。而且,如果学好大数据技术,将有更多的机会进入大厂。例如阿里巴巴、腾讯等一线互联网公司仍然需要大量大数据人才。
大数据的就业范围广,可以选择岗位很多。
如:大数据发展工程师,操作工程师、大数据架构师、工程师、BI工程师、数据挖掘工程师、ETL开发工程师、Spark开发工程师等等。
虽然大数据的就业前景很好,但掌握大数据开发技术也是前提。否则,不管这个行业发展得多好,有多少工作机会,都和你没有关系。
前景很不错。一方面国家大力支持大数据行业的发展,已经上升为国际战略的今天,大数据人才正在拥有更多的发展机会。另一方面许多的领域都是缺乏这方面的人才,腾讯阿里等互联网大厂都是高薪招聘相关人才。
1、大数据开发方向;所涉及的职业岗位为:大数据工程师、大数据维护工程师、大数据研发工程师、大数据架构师等;
2、数据挖掘、数据分析和机器学习方向;所涉及的职业岗位为:大数据分析师、大数据高级工程师、大数据分析师专家、大数据挖掘师、大数据算法师等;
3、大数据运维和云计算方向;对应岗位:大数据运维工程师。
②Hadoop平台核心技术、Hive开发、HBase开发;
③Spark相关技术、Scala基本编程;
④掌握Python基本使用、核心库的使用、Python爬虫、简单数据分析;理解Python机器学习;
⑤大数据项目开发实战,大数据系统管理优化等。
想要系统学习,你可以考察对比一下开设有IT专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能,南京北大青鸟、中博软件学院、南京课工场等都是不错的选择,建议实地考察对比一下。