九九99热久久精品在线6手机,青青青在线观看视频,美国三级黄色片

當前位置：首頁 / 技術干貨 / 正文

好程序員大數據培訓分享Hadoop的shuffle過程

2020-11-05

Hadoop 大數據培訓

　　好程序員大數據培訓分享Hadoop的shuffle過程，對大數據感興趣想要學習或者是想要加入到大數據行業的小伙伴們就隨小編一起來看一下吧。

　　Hadoop的shuffle過程就是從map端輸出到reduce端輸入之間的過程，這一段應該是Hadoop中最核心的部分，因為涉及到Hadoop中最珍貴的網絡資源，所以shuffle過程中會有很多可以調節的參數，也有很多策略可以研究。這里沒有對shuffle做深入的分析，也沒有讀源代碼，只是根據資料和使用的一些理解。

　　map端：

　　map過程的輸出是寫入本地磁盤而不是HDFS，但是一開始數據并不是直接寫入磁盤而是緩沖在內存中，緩存的好處就是減少磁盤I/O的開銷，提高合并和排序的速度。默認的內存緩沖大小是100M(可以配置)，所以在書寫map函數的時候要盡量減少內存的使用，為shuffle過程預留更多的內存，因為該過程是最耗時的過程。

　　當緩沖的內存大小使用超過一定的閾值(默認80%)，一個后臺的線程就會啟動把緩沖區中的數據寫入(spill)到磁盤中，往內存中寫入的線程繼續寫入知道緩沖區滿，緩沖區滿后線程阻塞直至緩沖區被清空。

　　在數據spill到磁盤的過程中會有一些額外的處理，調用partition函數、combine函數(如果設置)、對數據進行排序(按key排序)。如果發生多次磁盤的溢出寫，會在磁盤上形成幾個溢出寫文件，在map過程結束時，要將這些文件進行合并生成一個大的分區的排序的文件(比較繞)。

　　另外在寫磁盤的時候才用壓縮的方式將map的輸出結果進行壓縮是減少網絡開銷很有效的方法。

　　reduce端：

　　reduce端可能從n多map的結果中獲取數據，而這些map的執行速度不盡相同，當其中一個map運行結束時，reduce就會從jobtractor中獲取該信息。map運行結束后tasktractor會得到消息，進而將消息匯報給jobtractor，reduce定時從jobtractor獲取該信息，reduce端默認有5個線程從map端拖拉數據。