文章詳情頁

python ETL工具 pyetl

瀏覽：72日期：2022-07-22 13:44:28

pyetl是一個純python開發的ETL框架，相比sqoop, datax 之類的ETL工具，pyetl可以對每個字段添加udf函數，使得數據轉換過程更加靈活，相比專業ETL工具pyetl更輕量，純python代碼操作，更加符合開發人員習慣

安裝

pip3 install pyetl

使用示例

數據庫表之間數據同步

from pyetl import Task, DatabaseReader, DatabaseWriterreader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = DatabaseWriter('sqlite:///db2.sqlite3', table_name='target')Task(reader, writer).start()

數據庫表到hive表同步

from pyetl import Task, DatabaseReader, HiveWriter2reader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = HiveWriter2('hive://localhost:10000/default', table_name='target')Task(reader, writer).start()

數據庫表同步es

from pyetl import Task, DatabaseReader, ElasticSearchWriterreader = DatabaseReader('sqlite:///db1.sqlite3', table_name='source')writer = ElasticSearchWriter(hosts=['localhost'], index_name='tartget')Task(reader, writer).start()

原始表目標表字段名稱不同，需要添加字段映射

添加

# 原始表source包含uuid，full_name字段reader = DatabaseReader('sqlite:///db.sqlite3', table_name='source')# 目標表target包含id，name字段writer = DatabaseWriter('sqlite:///db.sqlite3', table_name='target')# columns配置目標表和原始表的字段映射關系columns = {'id': 'uuid', 'name': 'full_name'}Task(reader, writer, columns=columns).start()

字段的udf映射，對字段進行規則校驗、數據標準化、數據清洗等

# functions配置字段的udf映射，如下id轉字符串，name去除前后空格functions={'id': str, 'name': lambda x: x.strip()}Task(reader, writer, columns=columns, functions=functions).start()

繼承Task類靈活擴展ETL任務

import jsonfrom pyetl import Task, DatabaseReader, DatabaseWriterclass NewTask(Task): reader = DatabaseReader('sqlite:///db.sqlite3', table_name='source') writer = DatabaseWriter('sqlite:///db.sqlite3', table_name='target') def get_columns(self): '''通過函數的方式生成字段映射配置，使用更靈活''' # 以下示例將數據庫中的字段映射配置取出后轉字典類型返回 sql = 'select columns from task where name=’new_task’' columns = self.writer.db.read_one(sql)['columns'] return json.loads(columns) def get_functions(self): '''通過函數的方式生成字段的udf映射''' # 以下示例將每個字段類型都轉換為字符串 return {col: str for col in self.columns} def apply_function(self, record): '''數據流中對一整條數據的udf''' record['flag'] = int(record['id']) % 2 return record def before(self): '''任務開始前要執行的操作, 如初始化任務表，創建目標表等''' sql = 'create table destination_table(id int, name varchar(100))' self.writer.db.execute(sql) def after(self): '''任務完成后要執行的操作，如更新任務狀態等''' sql = 'update task set status=’done’ where name=’new_task’' self.writer.db.execute(sql)NewTask().start()

目前已實現Reader和Writer列表

Reader 介紹 DatabaseReader 支持所有關系型數據庫的讀取 FileReader 結構化文本數據讀取，如csv文件 ExcelReader Excel表文件讀取

Writer 介紹 DatabaseWriter 支持所有關系型數據庫的寫入 ElasticSearchWriter 批量寫入數據到es索引 HiveWriter 批量插入hive表 HiveWriter2 Load data方式導入hive表（推薦) FileWriter 寫入數據到文本文件

項目地址pyetl

總結

到此這篇關于python ETL工具 pyetl的文章就介紹到這了,更多相關python ETL工具 pyetl內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：詳解python如何引用包package下一條：python框架flask入門之路由及簡單實現方法

相關文章：

1. 在idea中為注釋標記作者日期操作2. python中scrapy處理項目數據的實例分析3. 使用AJAX（包含正則表達式）驗證用戶登錄的步驟4. 通過Ajax方式綁定select選項數據的實例5. ASP.Net Core對USB攝像頭進行截圖6. ASP.NET MVC使用Boostrap實現產品展示、查詢、排序、分頁7. .net如何優雅的使用EFCore實例詳解8. 通過CSS數學函數實現動畫特效9. ASP.Net Core(C#)創建Web站點的實現10. JSP頁面的靜態包含和動態包含使用方法

排行榜

					
					python中scrapy處理項目數據的實例分析
在idea中為注釋標記作者日期操作
PHP安全-數據的暴露
Python趣味挑戰之用pygame實現簡單的金幣旋轉效果
PHP實現基本留言板功能原理與步驟詳解
如何在JavaScript中等分數組的實現
Sun 公司完整發布Java API文檔中文版
python實現與redis交互操作詳解
ASP.Net Core對USB攝像頭進行截圖
Vue3使用mitt進行組件通信的步驟
springboot全局字符編碼設置解決亂碼問題
				

熱門標簽

国产综合久久一区二区三区