本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
转载自夜明的孤行灯
本文链接地址: https://www.huangyunkun.com/2017/11/19/spark-with-jsl-nlp/
Spark ML Pipeline是一个非常方便的结构,只需要提供其中相应的部件就可以做出很多可以重用的Pipeline。官方自带的ML包中包含了很多常用部件,但是唯独缺少对于自然语言处理的支持。今天群友介绍了一款专门处理自然语言的Spark支持库John Snow Labs NLP。
John Snow Labs NLP和Spark一样,遵循Apache协议。而且一开始定位就是基于Spark的,没有其他第三方依赖。所有组件都是基于Spark ML Pipeline API的,使用上也没有问题。
主要的内容包括:
- Tokenizer
- Normalizer
- Stemmer
- Lemmatizer
- Entity Extractor
- Date Extractor
- Part of Speech Tagger
- Named Entity Recognition
- Sentence boundary detection
- Sentiment analysis
- Spell checker
这些组件有部分功能和Spark自带的有重复,比如Stop Word Remover,但是多一份选择不是坏处。
地址:http://nlp.johnsnowlabs.com/
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
转载自夜明的孤行灯
本文链接地址: https://www.huangyunkun.com/2017/11/19/spark-with-jsl-nlp/