首页 门户 猜你喜欢 最新知识 查看内容

大数据学习需要哪些知识技能?

2018-3-2 18:32| 发布者: admin| 查看: 296| 评论: 0|来自: 官网

摘要: 很多初学者萌生向大数据方向发展的想法之后,不免产生一些疑问, 学习大学数应该了解哪些技术?
  近几年来,互联网行业发展风起云涌,而这其中大数据更是炙手可热,很有可能成为新一轮的技术革命。大数据给企业带来了前所未有的商业价值与机会,很多初学者萌生向大数据方向发展的想法之后,不免产生一些疑问,学习大学数应该了解哪些技术?

  1.Hadoop

  Hadoop无疑是当前很知名的大数据技术了。

  简单描述Hadoop原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点的运算结果进行合并归一(Reduce),生成结果。

  相对于动辄TB级别的数据,计算程序一般在KB–MB量级,这种移动计算不移动数据的设计节约了大量网络带宽和时间,并使得运算过程可充分并行化。

  在其诞生后的近10年里,Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。


  2.Storm

  Hadoop虽好,却有其“死穴”.其一:它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此,Twitter推出了他们自己的基于流的运算框架——Storm。不同于Hadoop一次性处理所有数据并得出统一结果的作业(job),Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果。

  3.Spark

  2010年开始,UCBerkeleyAMPLab开始研发分布式运算的中间过程全部内存存储的Spark框架,由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。

  4.NoSQL数据库

  NoSQL数据库可以泛指非关系型数据库,不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上,基于key-value对的数据管理系统。

  相对于传统的关系型数据库,NoSQL数据库中存储的数据无需主键和严格定义的schema。于是,大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。

  NoSQL并不是没有SQL,而是不仅仅有(notonly)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑,有很多在NoSQL数据库上运行SQL的工具涌现出来,典型的例如Hive和Pig,它们将用户的SQL语句转化成MapReduce作业,在Hadoop上运行。



  

鲜花

握手

雷人

路过

鸡蛋
| 收藏

最新评论(0)

发表文章
相关资讯
  • 售后服务
  • 关注我们
  • 社区新手

Powered by Discuz! X3.2  © 2001-2013 Comsenz Inc.