Skip to content

Commit 8cbe01e

Browse files
webSuehankcs
authored andcommitted
fix: docs of MSR Tokenization Guidelines of Chinese Text (V5.0)
1 parent 6bbf1ff commit 8cbe01e

File tree

1 file changed

+5
-5
lines changed

1 file changed

+5
-5
lines changed

docs/annotations/tok/msr.md

Lines changed: 5 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -627,7 +627,7 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时
627627

628628
## 第四章 地名
629629

630-
地名包括洲、海洋、国家、省、市、县、地区、街道、乡、镇、村、机场、军事基地、军区、铁路、公路、桥梁、海峡、海湾、港湾、河流、湖、公园、草原、煤矿、牧场、养殖场、音乐厅、剧院、教堂、寺庙、图书馆、博物馆、美术馆、展览中心、公园、动物园、植物园、火车站、广场、大厦、大楼、体育场(馆)、|游泳馆(池)、赛车场、商城、超市、书店(城)等城市公共设施,还包括某些特定的城市建筑和虚构的处所。详见下表。
630+
地名包括洲、海洋、国家、省、市、县、地区、街道、乡、镇、村、机场、军事基地、军区、铁路、公路、桥梁、海峡、海湾、港湾、河流、湖、公园、草原、煤矿、牧场、养殖场、音乐厅、剧院、教堂、寺庙、图书馆、博物馆、美术馆、展览中心、公园、动物园、植物园、火车站、广场、大厦、大楼、体育场(馆)、游泳馆(池)、赛车场、商城、超市、书店(城)等城市公共设施,还包括某些特定的城市建筑和虚构的处所。详见下表。
631631

632632
### 4.1地名标注规则
633633

@@ -1374,7 +1374,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此*
13741374

13751375
### 6.1时间表达式
13761376

1377-
时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时*。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。
1377+
时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时*。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。
13781378

13791379
将日期、时间同时段区分开来有时是困难的,下面分别给出它们的定义。
13801380

@@ -2594,9 +2594,9 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。
25942594

25952595
## 第九章 分词歧义消解细则
25962596

2597-
本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和
2597+
本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和
25982598

2599-
20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。
2599+
20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。
26002600

26012601
### 9.1交集型歧义字段(OAS)
26022602

@@ -2758,7 +2758,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。
27582758

27592759
下面对一些常见的组合型歧义字段加以解释。
27602760

2761-
##### 9.2.1.1数词一和量词组成的CAS
2761+
##### 9.2.1.1数词一和量词组成的CAS
27622762

27632763
词表词一个、一种、一类、一批、一次、一套、一阵等作为数量短语不予切分,也不标注int。其中有些量词重迭形式也是词表词,如一个个、一天天,应保持其整词形式,而其它非词表词的数量短语和量词重迭形式都是要切开的。(详见8.9)
27642764

0 commit comments

Comments
 (0)