点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 闪豚AI训练★批量生成原创好文章 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 高质量SEO原创文章生成☆过AI检测 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 NLP原创SEO文章AI自动生成教学 本广告位待租本广告位待租待租

温馨提示:需广告位请联系广告商务经理

百度分词工具,干货|史上最全中文分词工具整理

一.中文分词分词服务接口列表二.准确率评测:THULAC:与代表性分词软件的性能对比我们选择LTP-3.2.0、ICTCLAS(2015版)、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(TheSecondInternationalChineseWordSegmentationBakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。在第二届国际汉语分词测评中,共有四家单位提供的测试语料(AcademiaSinica、CityUniversity、PekingUniversity、MicrosoftResearch),在评测

一.中文分词

分词服务接口列表

二.准确率评测:

THULAC:与代表性分词软件的性能对比

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、微博怎么改名字测试集(testing), 以及根据各自分词标准大众点评而提供的相应测试集的标准答案(i微博热搜榜cwb2-data/scripts/gold).在icwb2-data/scripts目录下含有大众点评网美食对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。TH比赛ULAC使用的是随软件提供的简单模型Model_1百度网盘。评测环境为 Intel Core i5汽车之家官网首页 2.4 GHz 评测结果如下:

评测结果1

除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,百度翻译结果汽车之家2021款报价及图片如下:

CNKI_journal.txt(5汽车之家2021年汽车报价1 MB)

评测结果2

分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)

分词的客观量化测试离不开标注数据,即微博热搜人工所准备的分词“标准答比赛的英文案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博汽车之家2020最新报价数据:200篇,共12962词语; 3.汽车论坛数据(汽车之百度一下官方网)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。

准确度计算规则:

将所有标点符号去除,不做比较

参与测试的部分系统进行了实体识别,可能造成词语认定的不汽车之家统一。我们将对应位置替换成了人工微博怎么改名字标注的结果,得到准确率估算的上界。

经过以上处理阿里云盘,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体比赛直播app数据下载地址请百度文库参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

不同分词系统的分词准确度对比

微博搜索.付费价格:

阿里云

阿里云付费价格

腾讯云:

腾讯云付费价格

玻森中文

免费额度:

玻森中文免费ipo是什么意思呢额度

付费价intellectual翻译格:

玻森中文付费阿里云盘公测时间价格

四.官网

开源工具

HanLP:

https:/iphonese3/gi百度知道thub.com/hankcs/HanLP

结巴分词:

https://github.com/fxsjy/jieba

盘古分词:

http://pangusegment.c阿里云邮箱odeplex.com/

庖丁解牛:

https://code.google.com/p/paoding/

SCWS中文分词:

http://www.xunsearc比赛直播h.com/scws/docs.php

高校工具

FudanNLP:

https://github.comipad怎么截图/FudanNLP/fnlp

LTP:

http://www.ltp-cloud.com/document

THULAC:

http://thulac.thunlp.org/

NLPIR:比赛的英文单词怎么写

http://ic汽车之家2021款报价及图片tclas.nlpir.org/docs

商业服务

BosonNLP:

http://bosonnl微博热搜p.com/dev/center

百度NLP:

https://cloud.baidu.com/doc/NLP/NLP-API.html

搜狗分词:

http://www.sogou.com/labs/webservice/

腾讯文智:

https://cloud.tencent.com/do阿里云盘 资源搜索cument/product/阿里云邮箱个人版271/2071

腾讯价格单:

https://cloud.tencent.com/document/product/271/1140

阿里云NLP大众点评100字点评复制

https://data.aliyun.com/微博怎么改名字product/nlp

ip地址浪云:

http://www.sinaclIPoud.com/do比赛还没有结束作文c/sae/python/segment.html

测试数据集

1、SIGHANBakeoff 2005 MSR, 560KB

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHANBakeintelligent翻译off 2005 PKU, 510KB

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人intel处理器民日报 2014,65MB

https://pan.baidu.com/s/1hq3KKXe

前两个数据集是SIGHAN于2005年组织的中文分词比赛的拼音所用的数据集,也是学术界测试分词工具的微博登录标准数据集,本文用于测试各大汽车之家分词工具的准确性,而最后一个数据集规模intelligent翻译较大,用于测试分词速度。

免责说明

本站资源大多来自网络,如有侵犯你的权益请提交工单反馈(点击进入提交工单) 或给邮箱发送邮件laakan@126.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!

给TA打赏
共{{data.count}}人
人已打赏
!
也想出现在这里? 联系我们
广告信息
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索