中文分词词典机制_次字拼音首字母哈希机制.pdf 立即下载
2024-08-28
约9.5千字
约4页
0
123KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

中文分词词典机制_次字拼音首字母哈希机制.pdf

中文分词词典机制_次字拼音首字母哈希机制.pdf

预览

在线预览结束,喜欢就下载吧,查找使用更方便

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

杨毅,王禹桥:中文分词词典计机算制:机次工字程拼与音设首字计母C哈om希pu机te制rEngineeringandDesign2010,31(6)1369

开发与应用
中文分词词典机制:次字拼音首字母哈希机制

杨毅1,王禹桥2
(1.西华大学数学与计算机学院,四川成都610039;2.中国矿业大学机电工程学院,江苏徐州221116)

摘要:为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机
制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到
26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词
典机制。在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程。实验测试表明,该机制在增加少量的存储空间
情况下,时间效率提升了15%。
关键词:中文信息处理;中文分词;次字;哈希;分词词典
中图法分类号:TP391.1文献标识码:A文章编号:1000-7024(2010)06-1369-03

DictionarymechanismforChinesewordsegmentation:InitialBopomofoof
second-characterHashmechanism

YANGYi1,WANGYu-qiao2
(1.SchoolofMathematicsandComputerScience,XihuaUniversity,Chengdu610039,China;
2.CollegeofMechatronicEngineering,ChinaUniversityofMiningandTechnology,Xuzhou221116,China)

Abstract:Toimprovethesecond-characterinquiryefficiencyoftheexistingwordsegmentationmechanismbasedondictionary,anew
dictionarywordsegmentationmechanismisproposedforChinesewordsegmentation—theinitialBopomofoofthesecond-characterHash
mechanism.Thefirst-characterinquirystilladoptsthepresentmaturemechanismbasedonliteratimbinary.Inthismechanism,itadds
theinitialBopomofoofeachcharacterinthefirst-characterHashtable,andthesecondcharacterhashesintothe26sub-tablesaccording
toitsinitialBopomofo.ThismechanismrecordsthenumberofphraseswithastartoftheinitialBopomofointhesub-tables,andsets
thepointerofsecond-characterindexingtable.Thematchforthethirdcharacteranditsfollowingstringsstilladoptsthepresentmature
dictionarymechanism.Second-characterinquirycangreatlyreducetherangeoftheinquiryandacceleratetheprocessofsecond-character
inquiry.Throughthetest,thismechanismonlyincreasesasmallamountofstoragespace,butpromotesthetimeefficiencyby15%.
Keywords:Chineseinformationprocessing;Chinesesegmentation;secondcharacter;Hash;dictionarymechanism


词词典未跳出三大分词机制,即基于整词二分的分词词典机
0引言
制、基于TRIE索引树的分词词典机制和基于逐字二分的分词
由于中文自身的复杂性,目前仍然没有一种绝对完美的词典机制。
分词办法。在中文分词遇到巨大困难时,有人曾提出改变国目前已经公开的词典机制虽然众多,各有所长,但它们都
人的汉语书写习惯,即在书写文字的同时,人为地加上词语分是在以上三大机制的基础上的衍生和改进。汉语自动分词瓶
隔符
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

中文分词词典机制_次字拼音首字母哈希机制

文档大小:123KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用