本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
转载自夜明的孤行灯
本文链接地址: https://www.huangyunkun.com/2016/11/26/stop-word-and-stopwordsremover/
停止词简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方,我们对这些停止词做出一些特殊处理,以方便我们更关注在更重要的一些词上。
对于不同类型的需求而言,对停止词的处理是不同的。
- 有监督的机器学习 – 将停止词从特征空间剔除
- 聚类– 降低停止词的权重
- 信息检索– 不对停止词做索引
- 自动摘要- 计分时不处理停止词
对于不同语言,停止词的类型都可能有出入,但是一般而言有这简单的三类
- 限定词
- 并列连词
- 介词
停止词的词表一般不需要自己制作,有很多可选项可以自己下载选用。
Spark中提供了StopWordsRemover类处理停止词,它可以用作Machine learning Pipeline的一部分。
StopWordsRemover的功能是直接移除,所有从inputCol输入的量都会被它检查,然后再outputCol中,这些停止词都会去掉了。
默认的话会加载/org/apache/spark/ml/feature/stopwords/english.txt
这是一个简单的停止词表,包含153个词。
默认还提供了其他几种语言的停止词,遗憾的是没有中文默认停止词表,所以对于中文停止词需要自己提供。
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
转载自夜明的孤行灯
本文链接地址: https://www.huangyunkun.com/2016/11/26/stop-word-and-stopwordsremover/
请问添加中文停用词典有什么方法吗?
方法是指代码吗?代码的话直接调用setStopWords(java.lang.String[])