python求詞頻的函數(shù) python如何做詞頻統(tǒng)計

如何用python統(tǒng)計一個txt文件中各個單詞出現(xiàn)的次數(shù)

1、首先，定義一個變量，保存要統(tǒng)計的英文文章。

站在用戶的角度思考問題，與客戶深入溝通，找到鄉(xiāng)寧網(wǎng)站設(shè)計與鄉(xiāng)寧網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗，讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個性化、用戶體驗好的作品，建站類型包括：成都網(wǎng)站建設(shè)、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋鄉(xiāng)寧地區(qū)。

2、接著，定義兩個數(shù)組，保存文章中的單詞，以及各單詞的詞頻。

3、從文章中分割出所有的單詞，保存在數(shù)組中。

4、然后，計算文章中單詞的總數(shù)，保存在變量中。

5、用for循環(huán)，統(tǒng)計文章中各單詞的詞頻。

6、最后，輸出文章中各單詞的詞頻。

7、運(yùn)行程序，電腦會自動統(tǒng)計輸入文章中各單詞的詞頻。

如何用python對文章中文分詞并統(tǒng)計詞頻

1、全局變量在函數(shù)中使用時需要加入global聲明

2、獲取網(wǎng)頁內(nèi)容存入文件時的編碼為ascii進(jìn)行正則匹配時需要decode為GB2312，當(dāng)匹配到的中文寫入文件時需要encode成GB2312寫入文件。

3、中文字符匹配過濾正則表達(dá)式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組

4、KEY，Value值可以使用dict存儲，排序后可以使用list存儲

5、字符串處理使用split分割，然后使用index截取字符串，判斷哪些是名詞和動詞

6、命令行使用需要導(dǎo)入os,os.system(cmd)

如何用python和jieba分詞，統(tǒng)計詞頻？

#!?python3

#?-*-?coding:?utf-8?-*-

import?os,?codecs

import?jieba

from?collections?import?Counter

def?get_words(txt):

seg_list?=?jieba.cut(txt)

c?=?Counter()

for?x?in?seg_list:

if?len(x)1?and?x?!=?'\r\n':

c[x]?+=?1

print('常用詞頻度統(tǒng)計結(jié)果')

for?(k,v)?in?c.most_common(100):

print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))

if?__name__?==?'__main__':

with?codecs.open('19d.txt',?'r',?'utf8')?as?f:

txt?=?f.read()

get_words(txt)

分享名稱：python求詞頻的函數(shù) python如何做詞頻統(tǒng)計
網(wǎng)頁鏈接：http://www.jiaotiyi.com/article/dogojeh.html

網(wǎng)站建設(shè)知識

python求詞頻的函數(shù) python如何做詞頻統(tǒng)計

如何用python統(tǒng)計一個txt文件中各個單詞出現(xiàn)的次數(shù)

如何用python對文章中文分詞并統(tǒng)計詞頻

如何用python和jieba分詞，統(tǒng)計詞頻？

其他資訊

網(wǎng)站建設(shè)知識

python求詞頻的函數(shù) python如何做詞頻統(tǒng)計

如何用python統(tǒng)計一個txt文件中各個單詞出現(xiàn)的次數(shù)

如何用python對文章中文分詞并統(tǒng)計詞頻

如何用python和jieba分詞，統(tǒng)計詞頻？

其他資訊

如何用python和jieba分詞，統(tǒng)計詞頻？