笔记大全

Python3中默认编码怎么使用

更新时间：2023-09-10

Python3中默认编码的介绍

Python3的默认编码是UTF-8。当Python3编译时，它会将所有字符串和文本类型的字面量采用UTF-8编码表示，这就是为什么在Python3中不需要特别声明编码格式。相比Python2，Python3默认使用的是Unicode字符串而不是字节字符串。这意味着Python3在处理字符串时可以跨多种语言环境和字符集使用，包括亚洲语言和阿拉伯语，这是Python2无法做到的。

print("中文") # 输出中文

如上所示，Python3使用的字符串就可以简单的包含中文，这得益于Python3的默认编码UTF-8。

如何在Python3中使用默认编码

如果你想在Python3中使用默认编码，需要注意一些细节。

首先在Python3中，当你去读取一个文件时，你需要明确的告诉Python文件的编码是什么，在不指定编码的情况下，Python解释器会使用默认编码UTF-8去读取文件。可以使用以下代码来读取文件：

with open('file.txt', 'rt', encoding='utf8') as f:
    data = f.read()

在使用BeautifulSoup进行html解析时，默认情况下，我们对html的编码格式不做设置。当我们要把解析后的内容存储为文本文件时，需要设置文本文件的编码格式为utf8。这是因为在抓取到的html内容中，往往含有各种字符和emoji，如果不进行编码转化就可能报错。

with open("result.txt", "w", encoding="utf8") as f:
    f.write(output)

如何修改Python3的默认编码

修改Python3的默认编码需要重建Python，因为Python在编译时已经决定了默认编码。如果你必须修改Python3的默认编码，你需要在从源代码构建Python的过程中指定一种不同的默认编码，以覆盖默认的UTF-8。

在Unix系统上，需要使用configure脚本来重新构建Python。在这个脚本的最后一个参数中，你可以通过设置--enable-unicode=ucs2选项来指定宽字符类型为UCS2。对于Windows操作系统，Python默认使用UCS2的宽字符类型。

在重新配置和编译完成后，你可以使用Python默认编码的新设置。但是，请注意，对Python默认编码的更改会对其他使用默认编码的库产生影响。

使用Python3中的编码模块

在Python3中，内置了 coding 模块，可以帮助开发者处理编码的问题。coding 模块不仅可以用于转码，还可以用于获取有关编码的有用信息。这些包括 MIME 类型字符串、Python编码名称以及一些其他编码细节。

下面是一个使用 coding 模块的示例代码：

import codecs

filename = 'file.txt'
with codecs.open(filename, 'r', encoding='utf-8') as f:
    for line in f:
        # do something with line

在上图中，使用 codecs 的 open() 方法来打开文件，可以使用 UTF-8 编码读取它的内容。

c语言编程笔录