NLP

在Mac OS中安装和使用HanLP

简介:HanLP 在Mac OS 的 Python 环境中安装、介绍及使用

HanLP 在Mac OS 的 Python 环境中安装、介绍及使用

demo链接

HanLP 介绍

hanlp简称汉语言处理包,它是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
- 中文分词
- 词性标注
- 命名实体识别
- 关键词提取
- 自动摘要
- 短语提取
- 拼音转换
- 简繁转换
- 文本推荐
- 依存句法分析
- 文本分类
- 文本聚类
- word2vec
- 语料库工具

可参考的官网链接

https://github.com/hankcs/HanLP
http://hanlp.com

hanlp环境安装

hanlp是java写的开源库,在python环境中调用hanlp需要java环境的支持和python调用java的工具

  • 安装java
  • 安装Jpype

    JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。

pip install jpype1
  • 测试环境
    #coding=utf=8
    
    import jpype
    
    if __name__=='__main__':
        # 获取系统的jvm路径
        jvm_path = jpype.getDefaultJVMPath()
        # 设置jvm路径,以启动java虚拟机
        jpype.startJVM(jvm=jvm_path)
        # 执行java代码
        jpype.java.lang.System.out.println('hello world')
        # 关闭jvm虚拟机,当使用完 JVM 后,可以通过 jpype.shutdownJVM() 来关闭 JVM,该函数没有输入参数。当 python 程序退出时,JVM 会自动关闭。
        jpype.shutdownJVM()
    

打印结果:

hello world
JVM has been shutdown

至此环境配置完成

hanlp 安装

  • 下载hanlp.jar包
  • 下载data.zip
    下载完成后,将data.zip和hanlp-1.7.3-release.zip解压,并将解压后hanlp-1.7.3-release目录下的所有文件和的data放在同一个目录下,这里我新建一个hanlp_source的目录用于存放这些文件的
  • 配置文件
    hanlp的配置文件是hanlp.properties,配置文件的作用是告诉HanLP数据包的位置,只需修改第一行: root=hanlp_source/,hanlp_source必须为hanlp_source所在的路径哦。

以上两个文件下载会比较慢,也可通过我的网盘下载

demo 和 hanlp_source 的目录结构
屏幕快照 2019-05-16 上午1.06.53.png

错误

  • 错误1,JClass加载HanLP时报错:jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class com.hankcs.hanlp.HanLP not found
  • 错误2,执行HanLP.segment()时,报错:jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError
    堆栈
    Traceback (most recent call last):
      File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 1596, in <module>
        globals = debugger.run(setup['file'], None, None, is_module)
      File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 974, in run
        pydev_imports.execfile(file, globals, locals)  # execute the script
      File "/Applications/PyCharm.app/Contents/helpers/pydev/_pydev_imps/_pydev_execfile.py", line 18, in execfile
        exec(compile(contents+"\n", file, 'exec'), glob, loc)
      File "/Users/swae/Documents/Github/learningNLP/02/05_hanlp/test_hanlp.py", line 27, in <module>
        print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
    jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError
    

错误1和错误2的解决方法:
这两个问题都是因为在启动jvm时,参数-Djava.class.path设置错误导致,注意路径的正确性,下面为windows和linux的正常启动方法

    # windows下启动jvm
    # startJVM(getDefaultJVMPath(),
    #          "-Djava.class.path=D:\change\parsenoun\hanlp\hanlp-1.5.0.jar;D:\change\parsenoun\hanlp",
    #          "-Xms1g",
    #          "-Xmx1g")  # 启动JVMLinux需替换分号;为冒号:

    # mac  linux 下启动jvm
    jarpath = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source/hanlp-1.7.3.jar')
    dependency = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source')
    # 注意 -Djava.class.path= 在Linux和mac下 jarpath和dependency需替换分号;为冒号:
    startJVM(getDefaultJVMPath(),
             "-Djava.class.path="+jarpath+":"+dependency,
             "-Xms1g",
             "-Xmx1g")

推荐阅读

目录