黄的网站带小说,国产精品麻豆va在线播放,91视频夜色

<ol id="wakue"></ol>

當前位置：首頁 / 技術干貨 / 正文

好程序員大數據培訓分享MapReduce理解

2020-11-26

大數據培訓好程序員

　　好程序員大數據培訓分享MapReduce理解，本篇文章好程序員大數據培訓小編就給大家分享一下大數據MapReduce理解。

　　為什么需要MapReduce?因為MapReduce可以“分而治之”，將計算大數據的復雜任務分解成若干簡單小任務。“簡單”的意思是：計算規模變小、就近節點計算數據、并行任務。

　　一句話版本：

　　輸入文件 ->【map任務】split --> map --> partition --> sort --> combine(寫內存緩沖區) ~~ spill(獨立線程寫磁盤) --> merge --> map輸出結果 ~~~ 【reduce任務】copy --> merge -->reduce --> 輸出文件

　　M個map任務開始并處理分配到的多個split數據。

　　Partition：

　　作用：將map階段的輸出分配給相應的reducer，partition數 == reducer數

　　默認是HashPartitioner。之后將輸出數據寫入內存緩沖區memory buff。

　　spill:

　　當memory buff的數據到達一定閾值時，默認80%，將出發溢寫spill，先鎖住這80%的內存，將這部分數據寫進本地磁盤，保存為一個臨時文件。此階段由單獨線程控制，與寫memory buff線程同步進行。

　　sort & combine：

　　在spill寫文件之前，要對80%的數據(格式)進行排序，先partition后key，保證每個分區內key有序，如果job設置了combine，則再進行combine操作，將這樣的數據合并成，最終輸出一個spill文件。

　　多個spill文件通過多路歸并排序，再合并成一個文件，這是map階段的最終輸出。同時還有一個索引文件(file.out.index)，記錄每個partition的起始位置、長度。

　　reduce階段：

　　copy：多線程并發從各個mapper上拉屬于本reducer的數據塊(根據partition)，獲取后存入內存緩沖區，使用率達到閾值時寫入磁盤。

　　merge：一直啟動，由于不同map的輸出文件是沒有sort的，因此在寫入磁盤前需要merge，知道沒有新的map端數據寫入。最后啟動merge對所有磁盤中的數據歸并排序，形成一個最終文件作為reducer輸入文件，至此shuffle階段結束。

　　reduce：和combine類似，都是將相同的key合并計算，最終結果寫到HDFS上。

　　好了，對于大數據MapReduce的理解就先簡單說這些，學習大數據不是一朝一夕的事情，對大數據分析感興趣的小伙伴小編建議你選擇專業的大數據培訓機構學習，只有跟著專業的老師學才能保證你學到專業實用的技能。

分享：更多

上一篇：好程序員Python培訓分享Python異常處理

下一篇：好程序員Python培訓分享Python配置gRPC環境

好程序員公眾號

· 剖析行業發展趨勢
· 匯聚企業項目源碼

掃碼開啟架構師蛻變之旅 >>

好程序員開班動態

More+

HTML5大前端 <高端班>

開班時間：2021-04-12（深圳）
開班盛況

開班時間：2021-05-17（北京）
開班盛況
大數據+人工智能 <高端班>

開班時間：2021-03-22（杭州）
開班盛況

開班時間：2021-04-26（北京）
開班盛況
JavaEE分布式開發 <高端班>

開班時間：2021-05-10（北京）
開班盛況

開班時間：2021-02-22（北京）
開班盛況
Python人工智能+數據分析 <高端班>

開班時間：2021-07-12（北京）
預約報名

開班時間：2020-09-21（上海）
開班盛況
云計算開發 <高端班>

開班時間：2021-07-12（北京）
預約報名

開班時間：2019-07-22（北京）
開班盛況

隔着超薄肉丝进入小说_男女刺激性视频大片_女教师的诱波多野结衣_一级欧美过瘾大片

好程序員公眾號

好程序員開班動態

HTML5大前端 <高端班>

大數據+人工智能 <高端班>

JavaEE分布式開發 <高端班>

Python人工智能+數據分析 <高端班>

云計算開發 <高端班>

推薦文章

有情懷、有良心的好口碑職教實力品牌