文章詳情頁

Python 數據分析之逐塊讀取文本的實現

瀏覽：4日期：2022-07-02 11:00:12

背景

《利用Python進行數據分析》，第 6 章的數據加載操作 read_xxx，有 chunksize 參數可以進行逐塊加載。

經測試，它的本質就是將文本分成若干塊，每次處理 chunksize 行的數據，最終返回一個TextParser 對象，對該對象進行迭代遍歷，可以完成逐塊統計的合并處理。

示例代碼

文中的示例代碼分析如下：

from pandas import DataFrame,Seriesimport pandas as pd path=’D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv’# chunksize return TextParserchunker=pd.read_csv(path,chunksize=1000) # an array of Seriestot=Series([])chunkercount=0for piece in chunker:print ’------------piece[key] value_counts start-----------’#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key columnprint piece[’key’].value_counts()print ’------------piece[key] value_counts end-------------’#piece[key] value_counts is a Series ,key is the key column, and value is the key counttot=tot.add(piece[’key’].value_counts(),fill_value=0)chunkercount+=1 #last order the seriestot=tot.order(ascending=False)print chunkercountprint ’--------------’流程分析

首先，例子數據 ex6.csv 文件總共有 10000 行數據，使用 chunksize=1000 后，read_csv操作返回一個 TextParser 對象，該對象總共有10個元素，遍歷過程中打印 chunkercount驗證得到。

其次，每個 piece 對象是一個 DataFrame 對象，piece[’key’] 得到的是一個 Series 對象，默認是數值索引，值為 csv 文件中的 key 列的值，即各個字符串。

將每個 Series 的 value_counts 作為一個Series，與上一次統計的 tot 結果進行 add 操作，最終得到所有塊數據中各個 key 的累加值。

最后，對 tot 進行 order 排序，按降序得到各個 key 的值在 csv 文件中出現的總次數。

這里很巧妙了使用 Series 對象的 add 操作，對兩個 Series 執行 add 操作，即合并相同key：key相同的記錄的值累加，key不存在的記錄設置填充值為0。

輸出結果為：

Python 數據分析之逐塊讀取文本的實現

到此這篇關于Python 數據分析之逐塊讀取文本的實現的文章就介紹到這了,更多相關Python 逐塊讀取文本內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python 利用百度API識別圖片文字（多線程版）下一條：Python 2.6.6升級到Python2.7.15的詳細步驟

相關文章：

1. Python如何批量生成和調用變量2. 基于 Python 實踐感知器分類算法3. Python 中如何使用 virtualenv 管理虛擬環境4. ASP.Net Core對USB攝像頭進行截圖5. python利用opencv實現顏色檢測6. ASP.Net Core(C#)創建Web站點的實現7. 通過CSS數學函數實現動畫特效8. windows服務器使用IIS時thinkphp搜索中文無效問題9. ajax動態加載json數據并詳細解析10. ASP.NET MVC實現橫向展示購物車

排行榜

					
					Python如何批量生成和調用變量
基于 Python 實踐感知器分類算法
PHP安全-數據的暴露
PHP實現基本留言板功能原理與步驟詳解
Python sorted排序方法如何實現
python利用opencv實現顏色檢測
ASP.Net Core對USB攝像頭進行截圖
IDEA巧用Postfix Completion讓碼速起飛(小技巧)
每日六道java新手入門面試題,通往自由的道路第二天
JSR-220：EJB 3.0 最終草案出臺
Python基于requests實現模擬上傳文件
				

熱門標簽

国产综合久久一区二区三区