一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非

常感谢

推荐答案推荐于2017-12-16

#!/usr/bin/env python3
#-*- coding:utf-8 -*-

import os,random

#假设要读取文件名为aa，位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20
'''
test=''
for i in range(20):
    for j in range(random.randint(1,20)):
        test+=str(random.randint(1,20))+' '
    test+='\n'
with open(f_n,'w') as wf:
    wf.write(test)
'''
with open(f_n) as f:
    s=f.readlines()

#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表
words=[]
for line in s:
    words.extend(line.strip().split(' '))

#格式化要输出的每行数据，首尾各占8位，中间占18位
def geshi(a,b,c):
    return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'
#中英文混合对齐，参考http://bbs.fishc.com/thread-67465-1-1.html ，二楼
#汉字与字母格式化占位 format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
def alignment(str1, space=8, align = 'left'):
    length = len(str1.encode('gb2312'))
    space = space - length if space >=length else 0
    if align in ['left','l','L','Left','LEFT']:
        str1 = str1 + ' ' * space
    elif align in ['right','r','R','Right','RIGHT']:
        str1 = ' '* space +str1
    elif align in ['center','c','C','Center','CENTER','centre']:
        str1 = ' ' * (space //2) +str1 + ' '* (space - space // 2)
    return str1

w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表，先按频率降序排序，再按词升序排序，多级排序，一组升，一组降，高级sorted
wordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0]))
#要输出的数据，每一行由：序号(占8位)词(占20位)频率(占8位)+'\n'构成，序号=List.index(element)+1
for (w,c) in wordcount:
    w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
with open(w_n,'w') as wf:
    wf.write(w_s)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://55.wendadaohang.com/zd/IILRcIeLQecQeRFceeG.html

相似回答

如何用python对文章中文分词并统计词频答：1、全局变量在函数中使用时需要加入global声明 2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组 4、KEY，Value值可以使用dict...

Python 结巴分词(jieba)源码分析答：首先，分词算法涉及的核心技术包括基于Trie树结构的高效词图扫描、动态规划查找最大概率路径和基于HMM模型的未登录词处理。Trie树用于生成句子中所有可能成词情况的有向无环图（DAG），动态规划则帮助在词频基础上寻找到最优切分组合，而HMM模型则通过Viterbi算法处理未在词库中出现的词语，确保分词的准确性...

如何用 Python 中的 NLTK 对中文进行分析和处理答：中文分词之后，文本就是一个由每个词组成的长数组：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。再...

python怎样对tfidf计算出来的权值进行排序'答：1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息；2.使用jieba结巴分词对文本进行中文分词，同时插入字典关于关键词；3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词)；4.再使用K-means进行文本聚类(省略特征词过来降维过程);5.最后对聚类的结果进行简单的文本...

在python 环境下,使用结巴分词,自动导入文本,分词,提取关键词.脚本...答：import jieba.analyse jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库，但可以根据自己需要加入自己的词条 str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"str2 = "可以尝试修改网络架构来准确的复制全连接模型"str3 = "模型的目标函数是求交叉熵损失和所有...