文章詳情頁

在python下實現word2vec詞向量訓練與加載實例

瀏覽：14日期：2022-07-22 08:14:49

項目中要對短文本進行相似度估計，word2vec是一個很火的工具。本文就word2vec的訓練以及加載進行了總結。

word2vec的原理就不描述了，word2vec詞向量工具是由google開發的，輸入為文本文檔，輸出為基于這個文本文檔的語料庫訓練得到的詞向量模型。

通過該模型可以對單詞的相似度進行量化分析。

word2vec的訓練方法有2種，一種是通過word2vec的官方手段，在linux環境下編譯并執行。

在github上下載word2vec的安裝包，然后make編譯。查看demo-word.sh腳本，得到word2vec的執行命令：

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

參數解釋：

1）-train：需要訓練的語料庫，text8為語料庫文件名

2）-output：輸出的詞向量文件，vectors.bin為輸出詞向量文件名，.bin后綴為二進制文件。若要以文檔的形式查看詞向量文件，需要將-binary參數的值由1改為0

3）-cbow：是否使用cbow模型進行訓練。參數為1表示使用cbow，為0表示不使用cbow

4）-size：詞向量的維數，默認為200維。

5）-window：訓練過程中截取上下文的窗口大小，默認為8，即考慮一個詞前8個和后8個詞

6）-negative：若參數非0，表明采樣隨機負采樣的方法，負樣本子集的規模默認為25。若參數值為0,表示不使用隨機負采樣模型。使用隨機負采樣比Hierarchical Softmax模型效率更高。

7）-hs：是否采用基于Hierarchical Softmax的模型。參數為1表示使用，0表示不使用

8）-sample：語料庫中的詞頻閾值參數，詞頻大于該閾值的詞，越容易被采樣。默認為e^-4.

9）-threads：開啟的線程數目，默認為20.

10）-binary：詞向量文件的輸出形式。1表示輸出二進制文件，0表示輸出文本文件

11）-iter：訓練的迭代次數。一定范圍內，次數越高，訓練得到的參數會更準確。默認值為15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例為訓練一個名mytext.txt的文檔。設置輸出詞向量的格式為.txt文本文檔，所以還需要將-binary參數設置為0.

訓練模型采用基于隨機負采樣的cbow模型。由于短文本字數極為有限，所以-window參數設置為5，設置詞向量的維數

為200，為了使得到的參數更準確，將迭代次數增加至30.其他參數使用默認值。

訓練以后得到一個txt文本，該文本的內容為：每行一個單詞，單詞后面是對應的詞向量。

gensim加載詞向量：

保存詞向量模型到pkl中（注意：這里是對詞向量模型進行構建）

from gensim.models import KeyedVectorsif not os.path.exists(pkl_path): # 如果pickle模型不存在，則構建一個 print ’詞向量模型不存在，開始構建詞向量模型...’ Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加載詞向量模型 f = file(pkl_path, ’wb’) pickle.dump(Word2Vec, f, True) f.close() print ’詞向量模型構建完畢...’f= file(pkl_path, ’rb’)# 打開pkl文件word2vec=pickle.load(f)# 載入pkl

第二種方法是使用gensim模塊訓練詞向量：

from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetry: import cPickle as pickleexcept ImportError: import picklesentences = LineSentence(path)# path為要訓練的txt的路徑# 對sentences表示的語料庫進行訓練，訓練200維的詞向量，窗口大小設置為5，最小詞頻設置為5model = Word2Vec(sentences, size=200, window=5, min_count=5)model.save(model_path)#model_path為模型路徑。保存模型，通常采用pkl形式保存，以便下次直接加載即可# 加載模型model = Word2Vec.load(model_path)

完整的訓練，加載通常采用如下方式：

if not os.path.exists(model_path): sentences = LineSentence(path) model = Word2Vec(sentences, size=200, window=5, min_count=5) model.save(model_path)model = Word2Vec.load(model_path)

這樣一來，就可以通過pkl化的詞向量模型進行讀取了。pkl的目的是為了保存程序中變量的狀態，以便下次直接訪問，

不必重新訓練模型。

詳細內容間gensim官方庫

https://radimrehurek.com/gensim/models/word2vec.html

以上這篇在python下實現word2vec詞向量訓練與加載實例就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

python

上一條：Python生成隨機驗證碼代碼實例解析下一條：Python實現尋找回文數字過程解析

相關文章：

1. ajax請求添加自定義header參數代碼2. ASP基礎知識VBScript基本元素講解3. Python requests庫參數提交的注意事項總結4. Kotlin + Flow 實現Android 應用初始化任務啟動庫5. Gitlab CI-CD自動化部署SpringBoot項目的方法步驟6. 詳談ajax返回數據成功卻進入error的方法7. 利用CSS3新特性創建透明邊框三角8. ASP中解決“對象關閉時,不允許操作?！钡脑幃悊栴}……9. asp知識整理筆記4（問答模式）10. 淺談SpringMVC jsp前臺獲取參數的方式 EL表達式

排行榜

					
					ASP基礎知識VBScript基本元素講解
ajax請求添加自定義header參數代碼
Gitlab CI-CD自動化部署SpringBoot項目的方法步驟
Kotlin + Flow 實現Android 應用初始化任務啟動庫
Python requests庫參數提交的注意事項總結
基于javascript處理二進制圖片流過程詳解
SpringBoot參數校驗與國際化使用教程
利用CSS3新特性創建透明邊框三角
idea開啟代碼提示功能的方法步驟
python pymysql鏈接數據庫查詢結果轉為Dataframe實例
詳談ajax返回數據成功 卻進入error的方法
				

熱門標簽

国产综合久久一区二区三区