Hadoop as a Service(1)雲端時代的 Hadoop Cluster 環境建置
圖片來源:http://henry416.wordpress.com/bigdatanote/ HDInsight 是 Microsoft 在 Azure 上頭提供的 Hadoop 服務,讓以往繁瑣的 Hadoop Cluster 設定,變成只是幾個簡單的精靈頁面操作。Hadoop 的 HDFS 分散式檔案系統,跟 Azure 的 Storage (儲存體) 整合在一起,MapReduce 應用程式則是直接丟到 Cluster 內的各個 Windows Server 虛擬機器上面執行。所以 Hadoop as a Service (HaaS) 的第一課,就是帶領大家在 Microsoft Azure 上頭從無到有,建置自己的 Hadoop Cluster。 Preparation想要使用 Microsoft Azure 平台,必須:
Microsoft 為了鼓勵大家學習,提供了每個 Microsoft 帳號一個月內 200 美金的額度,讓大家可以放心試用所有 Azure 上提供的各種雲端服務。如果還沒開通 Microsoft 帳號、加入 Azure 的 Free Trial 訂閱的話,可以參考 建立 Azure 帳號 網頁的說明。 Azure StorageHadoop 與 Azure 的整合,在 HDFS 這個部份,主要是透過 Azure 的 Blob Storage (儲存體)。 Microsoft Azure 的 Blob Storage,是一個適合存放非結構化資料的 Storage,特色是 High Availability、High Scalability、與 High Capacity,剛好跟 HDFS 的要求不謀而合。所以 HDInsight 移植 HDFS 的時候,其實就是把 HDFS 架在 Blob Storage 上頭。也因為如此,我們必須先建立 Blob Storage,待會在建置 HDInsight Cluster 的時候,才能選取使用。 首先登入 Windows Azure Management Portal,點選左邊的儲存體,然後按下建立儲存體帳戶連結: 接下來這個畫面是儲存體帳戶 (Storage Account) 的重點:
按下右下角的建立儲存體帳戶連結,就會開始建構儲存體帳戶,畫面如下: 建構完成之後,狀態會顯示線上: 這時候,請按下正下方的管理存取金鑰圖示,畫面會顯示存取 如果按下儲存體帳戶的名稱 按下最右邊的容器,會列出目前所有的容器清單: 目前沒有任何容器,所以請按下建立容器連結,輸入以下資料:
三種不同存取方式的權限差別是:
完成之後畫面如下: HDInsight Cluster有了儲存體 (Blob Storage),也就是準備好了 HDFS 之後,接下來就是開始建立 HDInsight Cluster。 首先登入 Windows Azure Management Portal,點選左邊的 HDINSIGHT,然後按下建立 HDInsight 叢集連結: HDInsight Cluster 建立方式有兩種,快速建立畫面設定比較簡單:
自訂建立畫面可以做到比較細微的控制:
HDInsight 的版本與 Hortonworks Data Platform (HDP) 以及 Hadoop 的關係如下:
詳細內容請參閱 What’s new in the cluster versions provided by HDInsight?。 按下往右的箭頭圖示之後,繼續設定第二個畫面:
按下往右的箭頭圖示之後,繼續設定第三個畫面:
因為過程中必須經過正在提交、已接受、Windows Azure VM 組態、HDInsight 組態等階段,所以需要 5-10 分鐘才能完成: 建構完成之後,狀態會顯示正在執行: 到這個階段,HDInsight Cluster 就建置完成,設定成 Hadoop 所謂的 Fully-Distributed Mode 模式。 因為 HDInsight 服務目前是不能關機暫停運行的,所以如果執行完 Hadoop 相關應用之後,請記得按下畫面最底下中央的刪除圖示,把建構好的 HDInsight Cluster 刪除,不然這時候開了一堆 Multi-Core VM,不停掉是會一直燒錢的喔! 後續 >> Hadoop as a Service(2)在 HDInsight Cluster 執行 MapReduce 程式 |