北京赛车pk10直播开奖
首頁
登錄 | 注冊

Spark入門基礎教程

背景

  目前按照大數據處理類型來分大致可以分為:批量數據處理、交互式數據查詢、實時數據流處理,這三種數據處理方式對應的業務場景也都不一樣;
  關注大數據處理的應該都知道Hadoop,而Hadoop的核心為HDFSMapReduce,HDFS分布式文件系統在Hadop中是用來存儲數據的;MapReduce為Hadoop處理數據的核心,接觸過函數式編程的都知道函數式語言中也存在著Map、Reduce函數其實這兩者的思想是一致的;也正是因為Hadoop數據處理核心為MapReduce奠定了它注定不是適用場景廣泛的大數據框架;
  可以這么說Hadoop適用于Map、Reduce存在的任何場景,具體場景比如:WordCount、排序、PageRank、用戶行為分析、數據統計等,而這些場景都算是批量數據處理,而Hadoop并不適用于交互式數據查詢、實時數據流處理;
  這時候就出現了各種數據處理模型下的專用框架如:Storm、Impala、GraphLab等;
  1、Storm:針對實時數據流處理的分布式框架;
  2、Impala:適用于交互式大數據查詢的分布式框架;
  3、GraphLab:基于圖模型的機器學習框架;

Spark入門基礎教程

            1、MapReduce簡單模型
  
  這時候如果一個團隊或一個公司中同時都有設計到大數據批量處理、交互式查詢、實時數據流處理這三個場景;這時候就會有一些問題:
  1、學習成本很高,每個框架都是不同的實現語言、不同的團隊開發的;
  2、各個場景組合起來代價必然會很大;
  3、各個框架中共享的中間數據共享與移動成本高;
  

Spark

  就在這時候UC Berkeley AMP推出了全新的大數據處理框架:Spark提供了全面、統一適用與不同場景的大數據處理需求(批量數據處理、交互式數據查詢、實時數據流處理、機器學習);Spark不僅性能遠勝于Hadoop而卻還兼容Hadoop生態系統,Spark可以運行在Hadoop HDFS之上提供爭強 功能,可以說Spark替代了Hadoop MapReduce,但Spark依然兼容Hadoop中的YARN與Apache Mesos組件,現有Hadoop用戶可以很容易就遷移到Spark;
  Spark提出了RDD(Resilient Distributed Datasets)這么一個全新的概念,RDD彈性分布式數據集是并行、容錯的分布式數據結構;RDD可以持久化到硬盤或內存當中,為一個分區的數據集,分區的多少決定了并行計算的粒度;并且提供了一系列的操作RDD中的數據:
  1、創建操作(Creation Operation):RDD由SparkContext通過內存數據或外部文件系統創建;
  2、轉換操作(Transformation Operation):將RDD通過轉換操作變為另一個RDD,Spark提供了map、flatMap、filter等一系列的轉換操作;
  3、控制操作(Control Operation):將RDD持久化到內存或硬盤當中,如cache將filterRDD緩存到內存;
  4、行動操作:(Action Operation):Spark采用了惰性計算,對于任何行動操作都會產生Spark Job運行產生最終結果;提供了join、groupBy、count等操作,Spark中存在兩種操作產生的結果為Scala集合或者標量與RDD保存到文件或數據庫;

Spark入門基礎教程

             1、Spark結構圖

  Spark RDD:Spark RDD提供了一系列的操作接口,為不變的數據存儲結構并存儲與內存中使用DAG進行任務規劃使更好的處理MapReduce類似的批處理;
  Shark/Spark SQL:分布式SQL引擎,兼容Hive性能遠比Hive高很多;
  Spark Streaming:將數據流分解為一系列批處理作業使用Spark調度框架更好的支持數據流操作,支持的數據輸入源有:Kafka、Flume等;
  GraphX:兼容Pregel、GraphLab接口為基于Spark的圖計算框架;
  MLlib:為Spark的機器學習算法庫,支持常用的算法有:分類算法、推薦算法、聚類算法等等;

  性能卓越、支持多種大數據處理模型、支持多種編程語言接口:Java、Scala、Python,許多大公司如IBM等大力支持推廣Spark的發展;

Spark入門基礎教程


2019 monjeep.com webmaster#monjeep.com
12 q. 0.009 s.
京ICP備10005923號
北京赛车pk10直播开奖
杭州麻将骰子怎么看 手机麻将外挂 做妓女又享受赚钱又多 那个软件邀请可以赚钱 腾讯视频点击量如何赚钱吗 男人赚钱的才艺 天赐恩的加盟商赚钱吗 如何靠篮球比赛赚钱 摆地摊卖日用品赚钱吗 现在去卖车能赚钱吗