NLP——关于英文单词的处理总结


保留词根

  • 安装相关库:

    1
    pip install pattern
  • 导入和使用

    1
    2
    3
    4
    5
    from pattern.text.en import lemma
    lemma("describing")

    # output:
    # describe
    • 需要nltk中的几个语料库包, 如果没有以下包,导入时会报出zip文件相关的错,按装这几个语料库包直接使用nltk.download(“wordent”)等语句就行
      1
      "wordnet", "wordnet_ic", "sentiwordnet"

保留词干

  • 安装相关库:

    • 安装nltk即可
  • 导入和使用:

    1
    2
    3
    4
    5
    6
    7
    from nltk.stem.porter import PorterStemmer

    stemmer = PorterStemmer()
    stemmer.stem("describing")

    # output:
    # describ