Python——判断未知源的编码类型

有时候遇到一个文件,而我们并不知道它是什么编码方式编码的,本文给出了一些判断未知文件编码方式的方法


使用chardet包


在程序中判断

  • 安装Chardet包

    1
    pip install chardet
  • 使用Chardet包做判断

    1
    2
    3
    4
    5
    6
    import urllib
    rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
    import chardet
    print chardet.detect(rawdata)
    # Output:
    {'confidence': 0.99, 'language': '', 'encoding': 'utf-8'}

更多高级使用方法可参考chardet文档


直接使用命令判断

  • 安装chardetect工具

    1
    pip install chardet
  • 使用chardetect命令

    1
    2
    3
    4
    # 检测test.txt文件的编码方式
    chardetect test.txt
    # Output:
    test-chardetect.txt: ascii with confidence 1.0