博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
结巴分词安装
阅读量:6684 次
发布时间:2019-06-25

本文共 1230 字,大约阅读时间需要 4 分钟。

hot3.png

结巴分词是语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。

官网地址:

 

1、安装。

按照官网上的说法,有三种安装方式,

  • 第一种是全自动安装:easy_install jieba 或者 pip install jieba,推荐用第一种。
  • 第二种方法是半自动安装:先下载 ,解压后在cmd命令行中运行 python setup.py install。
  • 第三种方法是手动安装:将jieba目录放置于当前目录或者site-packages目录。把下载到的jieba-0.30.zip解压后,里面有个jibba的文件夹,把它复制到与你的Python程序相同的位置,这样在程序中就可以执行“import jieba”了。

2、关于分词的实现

官网提供了分词的基本用法示例 :

  1. #encoding=utf-8  
  2. import jieba  
  3.   
  4. seg_list = jieba.cut("我来到北京清华大学", cut_all=True)  
  5. print "Full Mode:", "/ ".join(seg_list)  # 全模式  
  6.   
  7. seg_list = jieba.cut("我来到北京清华大学", cut_all=False)  
  8. print "Default Mode:", "/ ".join(seg_list)  # 精确模式  
  9.   
  10. seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式  
  11. print ", ".join(seg_list)  
  12.   
  13. seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式  
  14. print ", ".join(seg_list)  

程序可以执行,但是在MyEclipse中显示中文为Unicode编码,这不科学。

但是继续执行另一个词性标注的示例却非常正常:

  1. import jieba.posseg as pseg  
  2. words = pseg.cut("我爱北京天安门")  
  3. for w in words:  
  4.       print w.word, w.flag  

所以我就想去分析一下它的源代码,结果发现在jiba/_init_.py文件(这是实现分词的文件)的第209行(cut函数)中有关于检查编码的语句块:

  1. if not isinstance(sentence, unicode):  
  2.         try:  
  3.             sentence = sentence.decode('utf-8')  
  4.         except UnicodeDecodeError:  
  5.             sentence = sentence.decode('gbk','ignore')  

而在jieba/posseg/_init_.py文件(这是实现词性标注的文件)第158行的cut函数中却没有发现此类代码。

转载于:https://my.oschina.net/u/2245485/blog/793905

你可能感兴趣的文章
与Netflix合作 美电视运营商推出4K频道
查看>>
Struts2中的Action
查看>>
Balluff推出刀具识别系统
查看>>
美国支付巨头Verifone遭遇网络攻击
查看>>
开平推进智慧城市等领域信息化建设及公共数据资源共享
查看>>
宜兴电信成功跨界合作开拓农村物联网市场
查看>>
Oracle业务适合用PostgreSQL去O的一些评判标准
查看>>
多个常见代码设计缺陷
查看>>
今年光伏市场规模可达30GW 分布式有望占据三分江山
查看>>
因新漏洞问题 Firefox 49发布时间将延期一周
查看>>
WLAN产品形态之分层架构
查看>>
Chrome 隐藏 SSL 证书信息 禁止禁用 DRM
查看>>
AngularJS 的自定义指令
查看>>
《CCNA ICND2(200-101)认证考试指南(第4版)》——第1章定义生成树协议
查看>>
什么样的 RPC 才是好用的 RPC
查看>>
《Adobe Premiere Pro CC经典教程》——14.6 特殊颜色效果
查看>>
Debian 项目不再提供 CD 格式的 ISO 镜像
查看>>
《设计团队协作权威指南》—第1章1.3节甘为螺丝钉
查看>>
android 屏幕保持唤醒 不锁屏 android.permission.WAKE_LOCK
查看>>
《Unity 3D 游戏开发技术详解与典型案例》——1.3节第一个Unity 3D程序
查看>>