Spark上可用的自然语言处理框架JSL NLP

19 11月

Spark ML Pipeline是一个非常方便的结构,只需要提供其中相应的部件就可以做出很多可以重用的Pipeline。官方自带的ML包中包含了很多常用部件,但是唯独缺少对于自然语言处理的支持。今天群友介绍了一款专门处理自然语言的Spark支持库John Snow Labs NLP。

John Snow Labs NLP和Spark一样,遵循Apache协议。而且一开始定位就是基于Spark的,没有其他第三方依赖。所有组件都是基于Spark ML Pipeline API的,使用上也没有问题。

主要的内容包括:

  1. Tokenizer
  2. Normalizer
  3. Stemmer
  4. Lemmatizer
  5. Entity Extractor
  6. Date Extractor
  7. Part of Speech Tagger
  8. Named Entity Recognition
  9. Sentence boundary detection
  10. Sentiment analysis
  11. Spell checker

这些组件有部分功能和Spark自带的有重复,比如Stop Word Remover,但是多一份选择不是坏处。

 

地址:http://nlp.johnsnowlabs.com/

发表评论

电子邮件地址不会被公开。