这篇文章主要介绍“jieba怎么对文本进行分词”,在日常操作中,相信很多人在jieba怎么对文本进行分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”jieba怎么对文本进行分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
公司主营业务:做网站、成都做网站、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出善左免费做网站回馈大家。
jieba库是一个强大的中文分词库,对中文进行分词。(pip install jieba)
jieba有三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点:
1、精确模式:把句子最精确地分开,适合做文本分析。
2、全模式:把句子中所有的可以成词的词语都切开, 速度快,但有歧义。
3、搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,
适合用于搜索引擎的分词
代码如下:
import jieba
words = '数据科学公众号团队致力于分享关于数据科学的编程语言以及算法等知识'
# 精确模式
print("/".join(jieba.lcut(words)))
# 全模式
print("/".join(jieba.lcut(words,cut_all=True)))
# 搜索引擎模式
print("/".join(jieba.lcut_for_search(words, )))
结果如下:
# 精确模式 语文阅读的文本分词
数据/科学/公众/号/团队/致力于/分享/关于/数据/科学/的/编程语言/以及/算法/等/知识
# 全模式 列出所有可以成词的文本
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/编程语言/语言/以及/算法/等/知识
# 搜索引擎模式 加强对长词的切分,提高搜索的召回率
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/语言/编程语言/以及/算法/等/知识
到此,关于“jieba怎么对文本进行分词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!
售后响应及时
7×24小时客服热线数据备份
更安全、更高效、更稳定价格公道精准
项目经理精准报价不弄虚作假合作无风险
重合同讲信誉,无效全额退款