分类更多

GB/T 13715-1992《信息处理用现代汉语分词规范》

GB/T 13715-1992更新时间: 2025-04-14
标准详情

GB/T 13715-1992《信息处理用现代汉语分词规范》基本信息

标准号:GB/T 13715-1992

中文名称:《信息处理用现代汉语分词规范》

发布日期:1992-10-04

实施日期:1993-06-01

发布部门:国家标准化管理委员会

归口单位:全国信息技术标准化技术委员会

起草单位:北京航空航天大学

中国标准分类号:L70信息处理技术综合

国际标准分类号:35.020信息技术(IT)综合

GB/T 13715-1992《信息处理用现代汉语分词规范》介绍

国家标准化管理委员会于1992年发布了《信息处理用现代汉语分词规范》(GB/T 13715-1992)。该标准于1992年10月4日发布,并于1993年6月1日正式实施。

一、标准的主要内容

1、术语和定义:对分词、词、词语等关键术语进行了明确的定义,为分词操作提供了标准化的语言基础。

2、分词原则:规定了分词应遵循的原则,如最小词长原则、歧义排除原则等,以确保分词结果的准确性和一致性。

3、分词方法:介绍了基于统计、规则和机器学习等多种分词方法,为不同应用场景提供了灵活的选择。

4、分词流程:详细描述了分词的整个流程,包括文本预处理、词识别、词性标注等关键步骤。

5、性能评估:提出了分词效果的评估标准,包括召回率、准确率等指标,为分词技术的研究和应用提供了量化的参考。

二、分词原则

1、最小词长原则:优先识别最短的词,以减少分词错误。

2、歧义排除原则:在遇到可能产生歧义的文本时,应根据上下文选择最合适的分词方案。

3、词频优先原则:在多个分词方案中,优先选择词频较高的词作为分词结果。

三、分词方法

1、基于统计的分词方法:通过统计语言材料中的词频,构建词表,实现自动分词。

2、基于规则的分词方法:利用语言学规则,如词性、构词法等,进行分词。

3、基于机器学习的分词方法:通过训练机器学习模型,如隐马尔可夫模型、条件随机场等,实现自动分词。

四、分词流程

1、文本预处理:包括文本清洗、分句等操作,为分词提供干净的输入。

2、词识别:根据分词原则和方法,识别文本中的词。

3、词性标注:对识别出的词进行词性标注,如名词、动词等。

4、结果输出:将分词结果以一定的格式输出,供后续处理使用。

五、性能评估

1、召回率:衡量分词结果中正确识别的词的比例。

2、准确率:衡量分词结果中所有词的正确性。

3、F1值:结合召回率和准确率,综合评估分词效果。

展开全文
推荐标准 更多
LY/T 2376-2014《户外景观用木材与木质材料一般要求》HG/T 4593-2014《氯酸盐金属阳极电解槽》JG/T 20-1999《空气分布器性能试验方法》SB/T 10858-2012《餐饮企业信用等级评价规范》DL/T 1406-2015《配电自动化技术导则》NY/T 286-1995《绿色食品大豆油》JB/T 3048-2008《组合机床自动线 精度检验》T/NDAS 23-2020《企业品牌信用评价指标体系》DB37/T 2600.10-2015《蔬菜病虫害综合防治技术规程 第10部分:辣椒疮痂病》GB/T 26544-2011《水产品航空运输包装通用要求》
最新文章 更多
魔芋检测项目有哪些(项目一览)

魔芋检测项目有哪些(项目一览)

热度:1525
鞍山不锈钢检测机构有哪些

鞍山不锈钢检测机构有哪些

热度:843
茂名白酒检测机构有哪些

茂名白酒检测机构有哪些

热度:882
宜春厂房钢结构检测机构有哪些

宜春厂房钢结构检测机构有哪些

热度:834
淮南石材幕墙检测机构有哪些

淮南石材幕墙检测机构有哪些

热度:568
pvc质检报告要检测哪些项目

pvc质检报告要检测哪些项目

热度:1559
桥梁无损检测方法有哪些

桥梁无损检测方法有哪些

热度:576
圆环链检测是什么

圆环链检测是什么

热度:243
迷宫检测是什么

迷宫检测是什么

热度:1021
最新标准 更多
《车用压缩煤层气》执行标准号是什么GB/T 12554-2006《塑料注射模技术条件》GB/T 33416-2016《针灸技术操作规范 编写通则》DB15/T 618-2013《蒙餐 汆羊肉》GB/T 39957-2021《压铸单元 技术条件》
项目标准项目服务检测报告机构名单城市分站城市机构专题列表检测项目

有检研究院旗下第三方检测报告办理服务

版权所有©2022-2025 企来检 皖ICP备2022017136号-1