笔记大全

Python怎么统计西游记用字的数量

更新时间：2024-01-11

问题背景

这个问题要求我们统计《西游记》这本文学作品中所使用的字的数量。这需要我们从文本中提取信息，进行分析和计算，并最终输出结果。

解决方案

要解决这个问题，我们可以按以下步骤进行：

步骤一：读取《西游记》文本文件

with open('xijv.txt', 'r', encoding='utf-8') as f:
    text = f.read()

步骤二：对文本进行预处理，去除标点符号、空格等非字母数字字符

import re
text = re.sub(r'[^\w\s]','',text)

步骤三：将文本转换为小写字母，方便后续统计

text = text.lower()

步骤四：统计每个字出现的次数，得到字频率表

from collections import Counter
c = Counter(text)

步骤五：输出字频率表，并按字频率从高到低排序

for letter, count in sorted(c.items(), key=lambda x: x[1], reverse=True):
    print(f"{letter} : {count}")

代码解释

第一步，我们使用Python内置的open函数读取《西游记》文本文件，使用with语句可以确保文件关闭。

第二步，我们使用Python的re模块对文本进行正则表达式的处理，从而去除标点符号、空格等非字母数字字符。这里使用Python的re.sub函数替换非字母数字字符为空格。

第三步，我们将文本中的所有字母转换为小写字母。这样做可以避免大小写的区分，同时也方便后续统计。

第四步，我们使用Python的collections模块中的Counter函数统计每个字在文本中出现的次数，得到字频率表。

第五步，我们使用Python的sorted函数按字频率从高到低排序，并输出结果。

总结

在本文中，我们介绍了如何使用Python统计《西游记》中使用字的数量。我们使用Python的文件读取、正则表达式、计数器、排序等功能实现了这个任务。

完整代码：

import re
from collections import Counter

with open('xijv.txt', 'r', encoding='utf-8') as f:
    text = f.read()

text = re.sub(r'[^\w\s]','',text)
text = text.lower()

c = Counter(text)

for letter, count in sorted(c.items(), key=lambda x: x[1], reverse=True):
    print(f"{letter} : {count}")

c语言编程笔录