文章詳情頁

python UDF 實現對csv批量md5加密操作

瀏覽：30日期：2022-06-30 16:22:57

工作上遇到需求，一批手機號要md5加密導出。為了保證數據安全，所以沒有采用網上工具來加密。

md5的加密算法是開源的且成熟的，很多語言都有對應包可以直接用，我寫了一個簡單的python來實現，另一位同事做了一個hiveUDF來實現，這里都給大家分享一下。

目標：

讀取csv文件，并且對其中的內容進行md5加密，32位加密，將加密后的密文存入另一個csv文件。

python實現：

（1）準備好要讀取的csv文件。單列，一行存一個手機號碼。

python UDF 實現對csv批量md5加密操作

（2）python代碼：

#encoding=utf8import hashlib #加密模塊import os#定義一個加密函數，32位md5加密def md5_encryption(str): m=hashlib.md5() m.update(str) return m.hexdigest()#準備要讀取的csv和要被寫入的csv，兩個文件要和此python放在同一個文件夾里readfilename=os.path.join(os.path.dirname(__file__),'testcsv.csv')writefilename=os.path.join(os.path.dirname(__file__),'writecsv.csv')print(’read:’,readfilename)print(’write:’,writefilename)with open(readfilename,’r’) as rf: #逐行寫入加密后的密文，strip函數用于剔除換行符n，不然是對“13000000n”加密而不是對“13000000”加密 with open(writefilename,’w’) as wf: for row in rf.readlines(): wf.write(md5_encryption(row.strip())) wf.write(’n’) #計算一下寫入的行數 with open(writefilename,’r’) as rwf: count=0 while 1: buffer=rwf.read(1024*8192) if not buffer: break count+=buffer.count(’n’) print(’line writed number:’,count)

（3）結果

python UDF 實現對csv批量md5加密操作

python UDF 實現對csv批量md5加密操作

hive UDF 實現：

（1）用java寫一個類用來實現加密，用maven打成jar包

import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.commons.lang.StringUtils;import java.security.MessageDigest;public class MD5 extends UDF { public String evaluate (final String str) { if (StringUtils.isBlank(str)){ return ''; } String digest = null; StringBuffer buffer = new StringBuffer(); try { MessageDigest digester = MessageDigest.getInstance('md5'); byte[] digestArray = digester.digest(str.getBytes('UTF-8')); for (int i = 0; i < digestArray.length; i++) { buffer.append(String.format('%02x', digestArray[i])); } digest = buffer.toString(); } catch (Exception e) { e.printStackTrace(); } return digest; } public static void main (String[] args ) { MD5 md5 = new MD5(); System.out.println(md5.evaluate(' ')); }}

（2）配置一下pom.xml

<?xml version='1.0' encoding='UTF-8'?><project xmlns='http://maven.apache.org/POM/4.0.0' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd'> <modelVersion>4.0.0</modelVersion> <groupId>HiveUdf</groupId> <artifactId>HiveUdf</artifactId> <version>1.0-SNAPSHOT</version> <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>0.14.0</version> </dependency> <dependency> <groupId>org.apache.calcite</groupId> <artifactId>calcite-core</artifactId> <version>0.9.2-incubating</version> </dependency> <dependency> <groupId>org.apache.calcite</groupId> <artifactId>calcite-avatica</artifactId> <version>0.9.2-incubating</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0</version> </dependency> </dependencies></project>

(3)hive中配置udf

導入jar包：

hive> add jar hdfs:/user/udf/HiveUdf-1.0-SNAPSHOT.jar;

新建一個函數：

hive> create temporary function MD5 as ’MD5’;

使用:

hive> select MD5(’12345’);OK827ccb0eea8a706c4c34a16891f84e7bTime taken: 0.139 seconds, Fetched: 1 row(s)hive> hive> select phone,MD5(phone) from mid_latong_20200414 limit 5;OK1300****436 856299f44928e90****181b0cc1758c41300****436 856299f44928e90****181b0cc1758c41300****689 771dfa9ef00f43c****4901a3f1d1fa01300****689 771dfa9ef00f43c****4901a3f1d1fa01300****689 771dfa9ef00f43c****4901a3f1d1fa0Time taken: 0.099 seconds, Fetched: 5 row(s)

以上就是python和hiveUDF兩種實現md5加密的方法啦！

補充：python的MD5加密的一點坑

曾經在做某ctf題目時，被這點坑，坑了好久。

廢話不多說，進入正題。

python MD5加密方法

import hashlib //導入hash庫函數text = 'bolg.csdn.net' //要加密的文本md5_object = hashlib.md5() //創建一個MD5對象md5_object.update(text) //添加去要加密的文本print md5_object.hexdigest() //輸出加密后的MD5值坑在哪？

當你在進行第一次加密時，程序正常輸出MD5值，但是在同一程序中進行第二次明文加密時，如果你的代碼是這樣寫，就不會得到正確的MD5值。

python UDF 實現對csv批量md5加密操作

python UDF 實現對csv批量md5加密操作

通過對第一張圖片和第二張圖片的比較，發現如果按照第一張圖片的代碼進行連續加密時，它實質上是在加密每次明文的疊加。

即第一次加密：csdn

第二次加密:csdnblog

正確做法應該是：

python UDF 實現對csv批量md5加密操作

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持好吧啦網。如有錯誤或未考慮完全的地方，望不吝賜教。

Python 編程

上一條：python安裝mysql的依賴包mysql-python操作下一條：安裝python依賴包psycopg2來調用postgresql的操作

相關文章：

1. 在idea中為注釋標記作者日期操作2. python中scrapy處理項目數據的實例分析3. Hybris在idea中debug配置方法詳解4. ajax動態加載json數據并詳細解析5. XPath入門 - XSL教程 - 36. ASP.NET MVC實現橫向展示購物車7. 解決ajax請求后臺,有時收不到返回值的問題8. .net如何優雅的使用EFCore實例詳解9. ASP.Net Core對USB攝像頭進行截圖10. ASP.NET MVC使用Boostrap實現產品展示、查詢、排序、分頁

排行榜

					
					python中scrapy處理項目數據的實例分析
Hybris在idea中debug配置方法詳解
在idea中為注釋標記作者日期操作
PHP安全-數據的暴露
Python趣味挑戰之用pygame實現簡單的金幣旋轉效果
PHP實現基本留言板功能原理與步驟詳解
如何在JavaScript中等分數組的實現
Sun 公司完整發布Java API文檔中文版
python實現與redis交互操作詳解
JAVA 內存溢出案例匯總
Vue3使用mitt進行組件通信的步驟
				

熱門標簽

国产综合久久一区二区三区