大數據DataX(一):DataX的框架設計和插件體系 每日熱訊
2023-02-27 17:18:50 來源:騰訊云
【資料圖】
?DataX的框架設計和插件體系
一、DataX是什么
DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。
DataX在阿里巴巴集團內被廣泛使用,承擔了所有大數據的離線同步業務,并已持續穩定運行了6年之久。目前每天完成同步8w多道作業,每日傳輸數據量超過300TB。
DataX目前沒有單獨的官網,DataX的GitHub地址:
https://github.com/alibaba/DataX
二、???????DataX框架設計
DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中。
Reader:Reader為數據采集模塊,負責采集數據源的數據,將數據發送給Framework。Writer: Writer為數據寫入模塊,負責不斷向Framework取數據,并將數據寫入到目的端。Framework:Framework用于連接reader和writer,作為兩者的數據傳輸通道,并處理緩沖,流控,并發,數據轉換等核心技術問題。三、??????????????DataX插件體系
經過幾年積累,DataX目前已經有了比較全面的插件體系,主流的RDBMS數據庫、NOSQL、大數據計算系統都已經接入。DataX Framework提供了簡單的接口與插件交互,提供簡單的插件接入機制,只需要任意加上一種插件,就能無縫對接其他數據源。
DataX目前支持數據如下:
以上插件參照地址:
https://github.com/alibaba/DataX/blob/master/introduction.md