Spark上可用的自然语言处理框架JSL NLP

本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

转载自夜明的孤行灯

本文链接地址: https://www.huangyunkun.com/2017/11/19/spark-with-jsl-nlp/

Spark ML Pipeline是一个非常方便的结构,只需要提供其中相应的部件就可以做出很多可以重用的Pipeline。官方自带的ML包中包含了很多常用部件,但是唯独缺少对于自然语言处理的支持。今天群友介绍了一款专门处理自然语言的Spark支持库John Snow Labs NLP。

John Snow Labs NLP和Spark一样,遵循Apache协议。而且一开始定位就是基于Spark的,没有其他第三方依赖。所有组件都是基于Spark ML Pipeline API的,使用上也没有问题。

主要的内容包括:

  1. Tokenizer
  2. Normalizer
  3. Stemmer
  4. Lemmatizer
  5. Entity Extractor
  6. Date Extractor
  7. Part of Speech Tagger
  8. Named Entity Recognition
  9. Sentence boundary detection
  10. Sentiment analysis
  11. Spell checker

这些组件有部分功能和Spark自带的有重复,比如Stop Word Remover,但是多一份选择不是坏处。

 

地址:http://nlp.johnsnowlabs.com/

本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

转载自夜明的孤行灯

本文链接地址: https://www.huangyunkun.com/2017/11/19/spark-with-jsl-nlp/

发表评论