有时候遇到一个文件,而我们并不知道它是什么编码方式编码的,本文给出了一些判断未知文件编码方式的方法
使用chardet包
在程序中判断
安装Chardet包
1
pip install chardet
使用Chardet包做判断
1
2
3
4
5
6import urllib
rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
import chardet
print chardet.detect(rawdata)
# Output:
{'confidence': 0.99, 'language': '', 'encoding': 'utf-8'}
更多高级使用方法可参考chardet文档
直接使用命令判断
安装chardetect工具
1
pip install chardet
使用chardetect命令
1
2
3
4# 检测test.txt文件的编码方式
chardetect test.txt
# Output:
test-chardetect.txt: ascii with confidence 1.0