十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
1、首先,定義一個變量,保存要統(tǒng)計的英文文章。
站在用戶的角度思考問題,與客戶深入溝通,找到鄉(xiāng)寧網(wǎng)站設(shè)計與鄉(xiāng)寧網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網(wǎng)站建設(shè)、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋鄉(xiāng)寧地區(qū)。
2、接著,定義兩個數(shù)組,保存文章中的單詞,以及各單詞的詞頻。
3、從文章中分割出所有的單詞,保存在數(shù)組中。
4、然后,計算文章中單詞的總數(shù),保存在變量中。
5、用for循環(huán),統(tǒng)計文章中各單詞的詞頻。
6、最后,輸出文章中各單詞的詞頻。
7、運(yùn)行程序,電腦會自動統(tǒng)計輸入文章中各單詞的詞頻。
1、全局變量在函數(shù)中使用時需要加入global聲明
2、獲取網(wǎng)頁內(nèi)容存入文件時的編碼為ascii進(jìn)行正則匹配時需要decode為GB2312,當(dāng)匹配到的中文寫入文件時需要encode成GB2312寫入文件。
3、中文字符匹配過濾正則表達(dá)式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組
4、KEY,Value值可以使用dict存儲,排序后可以使用list存儲
5、字符串處理使用split分割,然后使用index截取字符串,判斷哪些是名詞和動詞
6、命令行使用需要導(dǎo)入os,os.system(cmd)
#!?python3
#?-*-?coding:?utf-8?-*-
import?os,?codecs
import?jieba
from?collections?import?Counter
def?get_words(txt):
seg_list?=?jieba.cut(txt)
c?=?Counter()
for?x?in?seg_list:
if?len(x)1?and?x?!=?'\r\n':
c[x]?+=?1
print('常用詞頻度統(tǒng)計結(jié)果')
for?(k,v)?in?c.most_common(100):
print('%s%s?%s??%d'?%?('??'*(5-len(k)),?k,?'*'*int(v/3),?v))
if?__name__?==?'__main__':
with?codecs.open('19d.txt',?'r',?'utf8')?as?f:
txt?=?f.read()
get_words(txt)