NodeJieba "结巴"分词的Node.js版本
介绍
NodeJieba
是由 CppJieba 包装而成的 node
扩展,用来支持 Node.js 的中文分词功能。
特点
require("nodejieba")
时自动载入词典,即插即用。- 底层算法实现是C++,性能高效。
- 支持多种分词算法,各种分词算法见CppJieba的README.md介绍。
- 支持动态补充词库。
对实现细节感兴趣的请看如下博文:
下载
npm install nodejieba
因为npm
速度很慢而且经常因为墙的原因出现莫名其妙的问题,可以试试使用cnpm,命令如下:
npm --registry=http://r.cnpmjs.org install nodejieba
用法
var nodejieba = require("nodejieba");
var result = nodejieba.cut("南京市长江大桥");
console.log(result);
更详细的其他用法请看 test/demo.js
词性标注
具体用法参考 test/demo.js
关键词抽取
具体用法参考 test/demo.js
测试
以下版本中测试通过:
node v0.10.2
node v0.11.13
node v0.12.1
iojs v1.3.0
iojs v2.2.1
性能评测
Jieba中文分词系列性能评测
在线演示
http://cppjieba-webdemo.herokuapp.com/
(chrome is suggested)
许可证
MIT http://yanyiwu.mit-license.org
鸣谢
Jieba中文分词
作者