文章詳情頁

Python機器學習之PCA降維算法詳解

瀏覽：5日期：2022-06-19 10:24:37

目錄一、算法概述二、算法步驟三、相關概念四、算法優缺點五、算法實現六、算法優化一、算法概述主成分分析（Principal ComponentAnalysis，PCA）是一種掌握事物主要矛盾的統計分析方法，它可以從多元事物中解析出主要影響因素，揭示事物的本質，簡化復雜的問題。 PCA 是最常用的一種降維方法，它的目標是通過某種線性投影，將高維的數據映射到低維的空間中，并期望在所投影的維度上數據的方差最大，以此使用較少的維度，同時保留較多原數據的維度。 PCA 算法目標是求出樣本數據協方差矩陣的特征值和特征向量，而協方差矩陣的特征向量的方向就是PCA需要投影的方向。使樣本數據向低維投影后，能盡可能表征原始的數據。 PCA 可以把具有相關性的高維變量合成為線性無關的低維變量，稱為主成分。主成分能夠盡可能的保留原始數據的信息。 PCA 通常用于高維數據集的探索與可視化，還可以用作數據壓縮和預處理等。二、算法步驟

Python機器學習之PCA降維算法詳解

1.將原始數據按行組成m行n列的矩陣X

2.將X的每一列（代表一個屬性字段）進行零均值化，即減去這一列的均值

3.求出協方差矩陣

4.求出協方差矩陣的特征值及對應的特征向量r

5.將特征向量按對應特征值大小從左到右按列排列成矩陣，取前k列組成矩陣P

6.計算降維到k維的數據

三、相關概念方差：描述一個數據的離散程度

Python機器學習之PCA降維算法詳解

協方差：描述兩個數據的相關性，接近1就是正相關，接近-1就是負相關，接近0就是不相關

Python機器學習之PCA降維算法詳解

協方差矩陣：協方差矩陣是一個對稱的矩陣，而且對角線是各個維度的方差

Python機器學習之PCA降維算法詳解

特征值：用于選取降維的K個特征值特征向量：用于選取降維的K個特征向量四、算法優缺點

優點

僅僅需要以方差衡量信息量，不受數據集以外的因素影響。各主成分之間正交，可消除原始數據成分間的相互影響的因素。計算方法簡單，主要運算是特征值分解，易于實現。

缺點

主成分各個特征維度的含義具有一定的模糊性，不如原始樣本特征的解釋性強。方差小的非主成分也可能含有對樣本差異的重要信息，降維丟棄的數據可能對后續數據處理有影響。五、算法實現

自定義實現

import numpy as np# 對初始數據進行零均值化處理def zeroMean(dataMat): # 求列均值 meanVal = np.mean(dataMat, axis=0) # 求列差值 newData = dataMat - meanVal return newData, meanVal# 對初始數據進行降維處理def pca(dataMat, percent=0.19): newData, meanVal = zeroMean(dataMat) # 求協方差矩陣 covMat = np.cov(newData, rowvar=0) # 求特征值和特征向量 eigVals, eigVects = np.linalg.eig(np.mat(covMat)) # 抽取前n個特征向量 n = percentage2n(eigVals, percent) print('數據降低到：' + str(n) + ’維’) # 將特征值按從小到大排序 eigValIndice = np.argsort(eigVals) # 取最大的n個特征值的下標 n_eigValIndice = eigValIndice[-1:-(n + 1):-1] # 取最大的n個特征值的特征向量 n_eigVect = eigVects[:, n_eigValIndice] # 取得降低到n維的數據 lowDataMat = newData * n_eigVect reconMat = (lowDataMat * n_eigVect.T) + meanVal return reconMat, lowDataMat, n# 通過方差百分比確定抽取的特征向量的個數def percentage2n(eigVals, percentage): # 按降序排序 sortArray = np.sort(eigVals)[-1::-1] # 求和 arraySum = sum(sortArray) tempSum = 0 num = 0 for i in sortArray:tempSum += inum += 1if tempSum >= arraySum * percentage: return numif __name__ == ’__main__’: # 初始化原始數據(行代表樣本,列代表維度) data = np.random.randint(1, 20, size=(6, 8)) print(data) # 對數據降維處理 fin = pca(data, 0.9) mat = fin[1] print(mat)

利用Sklearn庫實現

import matplotlib.pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.datasets import load_iris# 加載數據data = load_iris()x = data.datay = data.target# 設置數據集要降低的維度pca = PCA(n_components=2)# 進行數據降維reduced_x = pca.fit_transform(x)red_x, red_y = [], []green_x, green_y = [], []blue_x, blue_y = [], []# 對數據集進行分類for i in range(len(reduced_x)): if y[i] == 0:red_x.append(reduced_x[i][0])red_y.append(reduced_x[i][1]) elif y[i] == 1:green_x.append(reduced_x[i][0])green_y.append(reduced_x[i][1]) else:blue_x.append(reduced_x[i][0])blue_y.append(reduced_x[i][1])plt.scatter(red_x, red_y, c=’r’, marker=’x’)plt.scatter(green_x, green_y, c=’g’, marker=’D’)plt.scatter(blue_x, blue_y, c=’b’, marker=’.’)plt.show()六、算法優化

PCA是一種線性特征提取算法，通過計算將一組特征按重要性從小到大重新排列得到一組互不相關的新特征，但該算法在構造子集的過程中采用等權重的方式，忽略了不同屬性對分類的貢獻是不同的。

KPCA算法

KPCA是一種改進的PCA非線性降維算法，它利用核函數的思想，把樣本數據進行非線性變換，然后在變換空間進行PCA，這樣就實現了非線性PCA。

局部PCA算法

局部PCA是一種改進的PCA局部降維算法，它在尋找主成分時加入一項具有局部光滑性的正則項，從而使主成分保留更多的局部性信息。

到此這篇關于Python機器學習之PCA降維算法詳解的文章就介紹到這了,更多相關Python PCA降維算法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：淺談Python 中的復數問題下一條：Python 批量下載陰陽師網站壁紙

相關文章：

1. XML入門精解之結構與語法2. 秒殺場景的緩存、隊列、鎖使用Redis優化設計方案3. React優雅的封裝SvgIcon組件示例4. CSS Hack大全-教你如何區分出IE6-IE10、FireFox、Chrome、Opera5. ASP中格式化時間短日期補0變兩位長日期的方法6. jsp文件下載功能實現代碼7. ASP基礎知識Command對象講解8. ASP腳本組件實現服務器重啟9. jsp+mysql實現網頁的分頁查詢10. jsp+servlet實現猜數字游戲

排行榜

					
					JavaScript與JQuery框架基礎入門教程
VMware如何進入BIOS方法
Ajax引擎 ajax請求步驟詳細代碼
idea導入maven項目的方法
IntelliJ IDEA創建web項目的方法
PHP開發者必不可少的五個發展要素
Java如何在臨界區中避免競態條件
使用UML編寫Java應用程序 (1)
基于javaweb+jsp實現企業財務記賬管理系統
Docker自動化構建Automated Build實現過程圖解
jsp文件下載功能實現代碼
				

熱門標簽

国产综合久久一区二区三区