结巴分词安装-白红宇

结巴分词安装

阅读量：6684 次

发布时间：2019-06-25

本文共 1230 字，大约阅读时间需要 4 分钟。

结巴分词是语言中效果最好的分词工具，其功能包括：分词、词性标注、关键词抽取、支持用户词表等。

官网地址：

1、安装。

按照官网上的说法，有三种安装方式，

第一种是全自动安装：easy_install jieba 或者 pip install jieba，推荐用第一种。

第二种方法是半自动安装：先下载，解压后在cmd命令行中运行 python setup.py install。

第三种方法是手动安装：将jieba目录放置于当前目录或者site-packages目录。把下载到的jieba-0.30.zip解压后，里面有个jibba的文件夹，把它复制到与你的Python程序相同的位置，这样在程序中就可以执行“import jieba”了。

2、关于分词的实现

官网提供了分词的基本用法示例：

#encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print "Full Mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print "Default Mode:", "/ ".join(seg_list) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式

print ", ".join(seg_list)

程序可以执行，但是在MyEclipse中显示中文为Unicode编码，这不科学。

但是继续执行另一个词性标注的示例却非常正常：

import jieba.posseg as pseg

words = pseg.cut("我爱北京天安门")

for w in words:

print w.word, w.flag

所以我就想去分析一下它的源代码，结果发现在jiba/_init_.py文件（这是实现分词的文件）的第209行（cut函数）中有关于检查编码的语句块：

if not isinstance(sentence, unicode):

try:

sentence = sentence.decode('utf-8')

except UnicodeDecodeError:

sentence = sentence.decode('gbk','ignore')

而在jieba/posseg/_init_.py文件（这是实现词性标注的文件）第158行的cut函数中却没有发现此类代码。

转载于:https://my.oschina.net/u/2245485/blog/793905

你可能感兴趣的文章

与Netflix合作美电视运营商推出4K频道

开平推进智慧城市等领域信息化建设及公共数据资源共享

查看>>

宜兴电信成功跨界合作开拓农村物联网市场

查看>>

Oracle业务适合用PostgreSQL去O的一些评判标准

查看>>

多个常见代码设计缺陷

查看>>

今年光伏市场规模可达30GW 分布式有望占据三分江山

查看>>

因新漏洞问题 Firefox 49发布时间将延期一周

查看>>

WLAN产品形态之分层架构

查看>>

Chrome 隐藏 SSL 证书信息禁止禁用 DRM

查看>>

AngularJS 的自定义指令

查看>>

《CCNA ICND2(200-101)认证考试指南(第4版)》——第1章定义生成树协议

查看>>

什么样的 RPC 才是好用的 RPC

查看>>

《Adobe Premiere Pro CC经典教程》——14.6　特殊颜色效果

查看>>

Debian 项目不再提供 CD 格式的 ISO 镜像

查看>>

《设计团队协作权威指南》—第1章1.3节甘为螺丝钉

查看>>

android 屏幕保持唤醒不锁屏 android.permission.WAKE_LOCK

查看>>

《Unity 3D 游戏开发技术详解与典型案例》——1.3节第一个Unity 3D程序

查看>>