Python中如何統(tǒng)計文本詞匯出現(xiàn)的次數(shù)?
問題描述:
有時在遇到一個文本需要統(tǒng)計文本內(nèi)詞匯的次數(shù)的時候,可以用一個簡單的python程序來實現(xiàn)。
解決方案:
首先需要的是一個文本文件(.txt)格式(文本內(nèi)詞匯以空格分隔),因為需要的是一個程序,所以要考慮如何將文件打開而不是采用復制粘貼的方式。這時就要用到open()的方式來打開文檔,然后通過read()讀取其中內(nèi)容,再將詞匯作為key,出現(xiàn)次數(shù)作為values存入字典。

圖 1 txt文件內(nèi)容
再通過open和read函數(shù)來讀取文件:
open_file=open("text.txt")
file_txt=open_file.read()
然后再創(chuàng)建一個空字典,將所有出現(xiàn)的每個詞匯作為key保存到字典中,對文本從開始到結(jié)束,循環(huán)處理每個詞匯,并將詞匯設置為一個字典的key,將其value設置為1,如果已經(jīng)存在該詞匯的key,說明該詞匯已經(jīng)使用過,就將value累積加1。
代碼示例:
def wordcount(readtxt):
readlist = readtxt.split()
dict1={}
for every_world in readlist:
if every_world in dict1:
dict1[every_world] += 1
else:
dict1[every_world] = 1
return dict1
print(wordcount(file_txt))
這里加了def函數(shù)把該程序封裝成一個函數(shù)。
最后輸出得到詞匯出現(xiàn)的字典:

圖 2 形成字典
版權(quán)聲明:轉(zhuǎn)載文章來自公開網(wǎng)絡,版權(quán)歸作者本人所有,推送文章除非無法確認,我們都會注明作者和來源。如果出處有誤或侵犯到原作者權(quán)益,請與我們聯(lián)系刪除或授權(quán)事宜。