Data format transform for local cluster to AWS S3 and EMR

講者: 柯志翰 @ 趨勢科技
時段:14:00~14:40
地點:1003 會議廳 (10F)
講題:Data format transform for local cluster to AWS S3 and EMR

摘要:

現在大多的服務都轉往 AWS,因為在資料的分享和運算的配置可以有更大的靈活性。一個全新的服務和資料來源轉換所需付出的轉換成本不高,或是可以說完全不用『轉換』成本,但是在任何一個實際的商業運作環境下很難有全新的例子,常見的是如何將舊有的服務及資料轉換。以我們的情況來舉例,我們擁有自己的主機(data center),隨著使用者增加,需要存放的資料和運算能力也增加,因此必須想辦法將其轉移至AWS以解決容量及運算問題,如果直接把服務轉移過去雖然能獲得轉移的好處,例如容量和運算能力的擴張便利性,但是並不是個好方法。為了顧及舊使用者的使用方式同時為了未來使用的spark我們將過去的檔案格式由 protobuf 轉為 parquet。此舉可以減少儲存的容量大小,而使用 Partial load 可以減少 IO 的資料量進一步節省運算能力;此次轉換最大的問題在於 pig 的 parquet loader,因為 pig schema 和一般的 parquet schema 有許多地方不同,無法直接的使用 parquet-mr 提供的 loader 因此造成了不小的問題,此次更新我們先在 SJC1 先執行試驗,再進一步推廣至 AWS。以轉換的結果而言,我們藉由轉換格式所降低的空間和讀取時節省的時間,後者間接讓相同的運算有更快的速度,同時在消費金額上因為 IO 及容量降低,也直接的減少成本。

講者簡介:

經歷:DLNIK, ETU, 現任職於趨勢科技

Tagged on: