Skip to content

Commit

Permalink
unmarked subtype
Browse files Browse the repository at this point in the history
  * Replaces nmod/obl:npmod/tmod
  * Used TemporalNPAdjunct=Yes in misc to preserve tmod info
  * See UniversalDependencies/docs#1028
  • Loading branch information
amir-zeldes committed Jul 26, 2024
1 parent cea9499 commit aaa9768
Show file tree
Hide file tree
Showing 4 changed files with 150 additions and 136 deletions.
28 changes: 21 additions & 7 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -29,6 +29,8 @@ This version of the HTB data follows the following principles:
* Rework auxiliaries, reanalyzing impersonal modals as predicates with clausal subjects
* Introduce previously unused labels with their usual functions (e.g. `expl`)
* Introduce commons subtypes for passive subjects (`nsubj:pass`, `csubj:pass`)
* Unification of FEATs with IAHLT UD treebanks (Wiki, Knesset)
* Changed :tmod and :npmod subtypes to :unmarked with TemporalNPAdjunct=Yes in misc to preserve tmod info, following a UD Core Group decision in July 2024
* More generally, producing valid (non-legacy) UD data in line with the current Universal Dependencies validator tool (available [here](https://github.com/UniversalDependencies/tools))

## History
Expand All @@ -41,10 +43,8 @@ This version is currently refered to as IAHLT-HTB.

# Structure

**TODO**: update token numbers once stabilized

This directory contains a corpus of sentences annotated using Universal Dependencies annotation.
The corpus comprises 115,535 tokens (158,855 words) and 6,216 sentences, taken from the `Ha'aretz` newspaper.
The corpus comprises 115K tokens (158K words) and 6,216 sentences, taken from the `Ha'aretz` newspaper.
The trees were manually annotated into phrase-structure trees, and then semi-automatically converted
into Universal Dependencies.

Expand All @@ -58,7 +58,7 @@ The dependency taxonomy can be found on the Universal Dependencies web site:
http://universaldependencies.github.io/docs/#language-he

The Train/Dev/Test split follows previous splits of the underlying Treebank, namely:
sentences 1-484 dev (10,534 tokens), 485-5725 train (127,363 tokens), 5726-6216 test (11,386 tokens).
sentences 1-484 dev (~10K tokens), 485-5725 train (~127K tokens), 5726-6216 test (~11K tokens).

Some parts of the structure are more reliable than others. In particular, words with a "morphological feature"
entry of HebSource=ConvUncertainHead or HebSource=ConvUncertainLabel indicate that the head (label) information
Expand Down Expand Up @@ -98,8 +98,9 @@ Hebrew Constituency Treebank (v2) developed by MILA, The Knowledge Center for Pr

## References

You are encouraged to cite these papers if you use the Hebrew Universal Dependencies Treebank:
You are encouraged to cite these papers reflecting the original source treebank if you use the Hebrew Universal Dependencies Treebank:

```bibtex
@inproceedings{tsarfaty2013unified,
title={A Unified Morpho-Syntactic Scheme of Stanford Dependencies},
author={Tsarfaty, Reut},
Expand All @@ -113,7 +114,20 @@ You are encouraged to cite these papers if you use the Hebrew Universal Dependen
booktitle={Proc. of ACL},
year={2013}
}
```

Note that these papers do not accurately reflect the current annotation in the Treebank. A more up-to-date publication discussing the IAHLT scheme and tokenization is:

```bibtex
@InProceedings{ZeldesHowellOrdanBenMoshe2022,
author = {Amir Zeldes and Nick Howell and Noam Ordan and Yifat Ben Moshe},
booktitle = {Proceedings of {EMNLP} 2022},
title = {A Second Wave of {UD} {H}ebrew Treebanking and Cross-Domain Parsing},
year = {2022},
pages = {4331--4344},
address = {Abu Dhabi, UAE},
url = {https://aclanthology.org/2022.emnlp-main.292/},
}
```

Note that these papers do not accurately reflect the current annotation in the Treebank. A more up-to-date publication
is forthcoming.

20 changes: 10 additions & 10 deletions he_htb-ud-dev.conllu
Original file line number Diff line number Diff line change
Expand Up @@ -3161,7 +3161,7 @@

# sent_id = 88
# text = יום אחד בשבוע שעבר מרח העיתון המקומי "דה מוין רגיסטר" כותרת ענקית לרוחב מלוא העמוד הראשון של מוספו היומי.
1 יום יום NOUN NOUN Gender=Masc|Number=Sing 7 obl:tmod _ _
1 יום יום NOUN NOUN Gender=Masc|Number=Sing 7 obl:unmarked _ TemporalNPAdjunct=Yes
2 אחד אחת NUM NUM Gender=Masc|Number=Sing 1 nummod _ _
3-4 בשבוע _ _ _ _ _ _ _ _
3 ב ב ADP ADP Definite=Def|PronType=Art 4 case _ _
Expand Down Expand Up @@ -5635,7 +5635,7 @@
11 אמריקאיות אמריקני ADJ ADJ Gender=Fem|Number=Plur 10 amod _ _
12 מחלקות חילק VERB VERB Gender=Fem|HebBinyan=PIEL|Number=Plur|Person=1,2,3|Tense=Pres|VerbForm=Part|Voice=Act 8 acl:relcl _ _
13 מדי מדי DET DET _ 14 det _ _
14 שנה שנה NOUN NOUN Gender=Fem|Number=Sing 12 obl:tmod _ _
14 שנה שנה NOUN NOUN Gender=Fem|Number=Sing 12 obl:unmarked _ TemporalNPAdjunct=Yes
15 אינו אינו AUX AUX Gender=Masc|Number=Sing|Person=3|Polarity=Neg|VerbForm=Part 16 aux _ _
16 מיועד יועד VERB VERB Gender=Masc|HebBinyan=PUAL|Number=Sing|Person=1,2,3|Tense=Pres|VerbForm=Part|Voice=Pass 0 root _ _
17-18 ליחידים _ _ _ _ _ _ _ SpaceAfter=No
Expand Down Expand Up @@ -7201,7 +7201,7 @@
2-3 כ20 _ _ _ _ _ _ _ _
2 כ כ ADV ADV _ 4 advmod _ _
3 20 20 NUM NUM _ 4 nummod _ _
4 שנה שנה NOUN NOUN Gender=Fem|Number=Sing 5 obl:tmod _ _
4 שנה שנה NOUN NOUN Gender=Fem|Number=Sing 5 obl:unmarked _ TemporalNPAdjunct=Yes
5 מתאמצת התאמץ VERB VERB Gender=Fem|HebBinyan=HITPAEL|Number=Sing|Person=1,2,3|Tense=Pres|VerbForm=Part 0 root _ _
6 חבורת חבורה NOUN NOUN Definite=Cons|Gender=Fem|Number=Sing 5 nsubj _ _
7 שמרנים שמרן NOUN NOUN Gender=Masc|Number=Plur 6 compound _ SpaceAfter=No
Expand Down Expand Up @@ -8774,7 +8774,7 @@
21 ה ה SCONJ SCONJ _ 22 mark _ _
22 טוענים טען VERB VERB Gender=Masc|HebBinyan=PAAL|Number=Plur|Person=1,2,3|Tense=Pres|VerbForm=Part|Voice=Act 11 acl:relcl _ _
23 זה זה PRON PRON Gender=Masc|Number=Sing|Person=3|PronType=Dem 24 det _ _
24 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 22 obl:tmod _ _
24 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 22 obl:unmarked _ TemporalNPAdjunct=Yes
25-26 שיש _ _ _ _ _ _ _ _
25 ש ש SCONJ SCONJ _ 27 mark _ _
26 יש יש AUX AUX VerbType=Mod 27 aux _ _
Expand Down Expand Up @@ -10810,7 +10810,7 @@
3 לא לא ADV ADV Polarity=Neg 4 advmod _ _
4 הועמדו הועמד VERB VERB Gender=Fem,Masc|HebBinyan=HUFAL|Number=Plur|Person=3|Tense=Past|Voice=Pass 0 root _ _
5 אף אף DET DET Definite=Cons|PronType=Neg 6 det _ _
6 דקה דקה NOUN NOUN Gender=Fem|Number=Sing 4 obl:tmod _ _
6 דקה דקה NOUN NOUN Gender=Fem|Number=Sing 4 obl:unmarked _ TemporalNPAdjunct=Yes
7 אחת אחת NUM NUM Gender=Fem 6 nummod _ _
8-9 בספק _ _ _ _ _ _ _ _
8 ב ב ADP ADP _ 9 case _ _
Expand Down Expand Up @@ -13051,7 +13051,7 @@
23-24 ביולי _ _ _ _ _ _ _ _
23 ב ב ADP ADP _ 24 case _ _
24 יולי יולי PROPN PROPN _ 15 obl _ _
25 1942 1942 NUM NUM _ 24 nmod:tmod _ SpaceAfter=No
25 1942 1942 NUM NUM _ 24 nmod:unmarked _ SpaceAfter=No|TemporalNPAdjunct=Yes
26 . . PUNCT PUNCT _ 15 punct _ _

# sent_id = 403
Expand Down Expand Up @@ -13317,7 +13317,7 @@
7 ש ש SCONJ SCONJ _ 11 mark _ _
8 ב ב ADP ADP _ 9 case _ _
9 נובמבר נובמבר PROPN PROPN _ 11 obl _ _
10 1971 1971 NUM NUM _ 9 nmod:tmod _ _
10 1971 1971 NUM NUM _ 9 nmod:unmarked _ TemporalNPAdjunct=Yes
11 העניק העניק VERB VERB Gender=Masc|HebBinyan=HIFIL|Number=Sing|Person=3|Tense=Past|Voice=Act 4 ccomp _ _
12-13 לו _ _ _ _ _ _ _ _
12 ל ל ADP ADP _ 13 case _ _
Expand Down Expand Up @@ -13384,7 +13384,7 @@
1-2 בספטמבר _ _ _ _ _ _ _ _
1 ב ב ADP ADP _ 2 case _ _
2 ספטמבר ספטמבר PROPN PROPN _ 4 obl _ _
3 1984 1984 NUM NUM _ 2 nmod:tmod _ _
3 1984 1984 NUM NUM _ 2 nmod:unmarked _ TemporalNPAdjunct=Yes
4 פורסמה פורסם VERB VERB Gender=Fem|HebBinyan=PUAL|Number=Sing|Person=3|Tense=Past|Voice=Pass 0 root _ _
5-6 בעיתון _ _ _ _ _ _ _ _
5 ב ב ADP ADP _ 6 case _ _
Expand Down Expand Up @@ -13726,7 +13726,7 @@
22-23 החבויים _ _ _ _ _ _ _ _
22 ה ה SCONJ SCONJ _ 23 mark _ _
23 חבויים חבוי ADJ ADJ Gender=Masc|Number=Plur 21 acl:relcl _ _
24 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 23 obl:tmod _ _
24 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 23 obl:unmarked _ TemporalNPAdjunct=Yes
25 כה כה ADV ADV _ 26 advmod _ _
26 רבות רב ADJ ADJ Gender=Fem|Number=Plur 24 amod _ _
27-28 בארונות _ _ _ _ _ _ _ _
Expand All @@ -13741,7 +13741,7 @@
2-3 וחצי _ _ _ _ _ _ _ _
2 ו ו CCONJ CCONJ _ 3 cc _ _
3 חצי חצי NUM NUM Definite=Cons|Gender=Masc|Number=Sing 1 conj _ _
4 שעות שעה NOUN NOUN Gender=Fem|Number=Plur 5 obl:tmod _ _
4 שעות שעה NOUN NOUN Gender=Fem|Number=Plur 5 obl:unmarked _ TemporalNPAdjunct=Yes
5 צעדו צעד VERB VERB Gender=Fem,Masc|HebBinyan=PAAL|Number=Plur|Person=3|Tense=Past|Voice=Act 0 root _ _
6 אתמול אתמול ADV ADV _ 5 advmod _ _
7-8 בירושלים _ _ _ _ _ _ _ _
Expand Down
20 changes: 10 additions & 10 deletions he_htb-ud-test.conllu
Original file line number Diff line number Diff line change
Expand Up @@ -744,7 +744,7 @@
5 שיחק שיחק VERB VERB Gender=Masc|HebBinyan=PIEL|Number=Sing|Person=3|Tense=Past|Voice=Act 2 acl:relcl _ _
6 רק רק ADV ADV _ 8 advmod _ _
7 שתי שתי NUM NUM Definite=Cons|Gender=Fem 8 nummod _ _
8 דקות דקה NOUN NOUN Gender=Fem|Number=Plur 5 obl:tmod _ _
8 דקות דקה NOUN NOUN Gender=Fem|Number=Plur 5 obl:unmarked _ TemporalNPAdjunct=Yes
9 זה זה PRON PRON Gender=Masc|Number=Sing|Person=3|PronType=Dem 11 nsubj _ _
10 כנראה כנראה ADV ADV _ 11 advmod _ _
11 מישחק משחק NOUN NOUN Definite=Cons|Gender=Masc|Number=Sing 0 root _ _
Expand Down Expand Up @@ -946,7 +946,7 @@
5 מנוחה מנוחה NOUN NOUN Gender=Fem|Number=Sing 0 root _ _
6 מוחלטת מוחלט ADJ ADJ Gender=Fem|Number=Sing 5 amod _ _
7 שלושה שלוש NUM NUM Gender=Masc 8 nummod _ _
8 שבועות שבוע NOUN NOUN Gender=Masc|Number=Plur 5 obl:tmod _ _
8 שבועות שבוע NOUN NOUN Gender=Masc|Number=Plur 5 obl:unmarked _ TemporalNPAdjunct=Yes
9-10 ויחזור _ _ _ _ _ _ _ _
9 ו ו CCONJ CCONJ _ 10 cc _ _
10 יחזור חזר VERB VERB Gender=Masc|HebBinyan=PAAL|Number=Sing|Person=3|Tense=Fut|Voice=Act 5 conj _ _
Expand Down Expand Up @@ -2087,7 +2087,7 @@
27 ב ב ADP ADP Definite=Def|PronType=Art 28 case _ _
28 עמק עמק NOUN NOUN Gender=Masc|Number=Sing 26 obl _ _
29 זה זה PRON PRON Gender=Masc|Number=Sing|Person=3|PronType=Dem 30 det _ _
30 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 26 obl:tmod _ SpaceAfter=No
30 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 26 obl:unmarked _ SpaceAfter=No|TemporalNPAdjunct=Yes
31 , , PUNCT PUNCT _ 35 punct _ _
32-33 מאז _ _ _ _ _ _ _ _
32 מ מ ADP ADP _ 35 case _ _
Expand Down Expand Up @@ -2711,7 +2711,7 @@
# sent_id = 5831
# text = שתי דקות מהסיום (דקה 48) עלה מכבי ליתרון 3 נקודות מסל של גמצי מחוץ לקשת (107 104).
1 שתי שתי NUM NUM Definite=Cons|Gender=Fem 2 nummod _ _
2 דקות דקה NOUN NOUN Gender=Fem|Number=Plur 10 obl:tmod _ _
2 דקות דקה NOUN NOUN Gender=Fem|Number=Plur 10 obl:unmarked _ TemporalNPAdjunct=Yes
3-5 מהסיום _ _ _ _ _ _ _ _
3 מ מ ADP ADP _ 5 case _ _
4 ה ה DET DET Definite=Def|PronType=Art 5 det _ _
Expand Down Expand Up @@ -3667,7 +3667,7 @@
14 74 74 NUM NUM _ 12 nmod _ HebSource=ConvUncertainLabel
15 63 63 NUM NUM _ 14 nummod _ _
16 ( ( PUNCT PUNCT _ 17 punct _ SpaceAfter=No
17 דקה דקה NOUN NOUN Gender=Fem|Number=Sing 11 obl:tmod _ _
17 דקה דקה NOUN NOUN Gender=Fem|Number=Sing 11 obl:unmarked _ TemporalNPAdjunct=Yes
18 36 36 NUM NUM _ 17 nummod _ SpaceAfter=No
19 ) ) PUNCT PUNCT _ 17 punct _ SpaceAfter=No
20 . . PUNCT PUNCT _ 5 punct _ _
Expand Down Expand Up @@ -4048,7 +4048,7 @@
8 נקבע נקבע VERB VERB Gender=Masc|HebBinyan=NIFAL|Number=Sing|Person=3|Tense=Past|Voice=Mid 6 acl:relcl _ _
9 , , PUNCT PUNCT _ 10 punct _ _
10 ספטמבר ספטמבר PROPN PROPN _ 6 appos _ _
11 84 84 NUM NUM _ 10 nmod:tmod _ SpaceAfter=No
11 84 84 NUM NUM _ 10 nmod:unmarked _ SpaceAfter=No|TemporalNPAdjunct=Yes
12 . . PUNCT PUNCT _ 4 punct _ _

# sent_id = 5878
Expand Down Expand Up @@ -6282,7 +6282,7 @@
11-12 שנמשכה _ _ _ _ _ _ _ _
11 ש ש SCONJ SCONJ _ 12 mark _ _
12 נמשכה נמשך VERB VERB Gender=Fem|HebBinyan=NIFAL|Number=Sing|Person=3|Tense=Past|Voice=Mid 8 acl:relcl _ _
13 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 12 obl:tmod _ SpaceAfter=No
13 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 12 obl:unmarked _ SpaceAfter=No|TemporalNPAdjunct=Yes
14 . . PUNCT PUNCT _ 6 punct _ _

# sent_id = 5937
Expand Down Expand Up @@ -6937,7 +6937,7 @@
# sent_id = 5956
# text = כמה שבועות לאחר מכן הודיעה מוסקווה על תוכניות למשוך גרמנים מרפובליקות סובייטיות שונות להתיישב בקלינינגרד אובלסט, והציעה לשנות את שם הבירה לקאנטגרד, על-שם עמנואל קאנט.
1 כמה כמה DET DET Definite=Cons 2 det _ _
2 שבועות שבוע NOUN NOUN Gender=Masc|Number=Plur 6 obl:tmod _ _
2 שבועות שבוע NOUN NOUN Gender=Masc|Number=Plur 6 obl:unmarked _ TemporalNPAdjunct=Yes
3 לאחר לאחר ADP ADP _ 5 case _ _
4-5 מכן _ _ _ _ _ _ _ _
4 מ מן ADP ADP _ 5 case _ _
Expand Down Expand Up @@ -9251,7 +9251,7 @@

# sent_id = 6013
# text = ימים אלה מתקיימת במילאנו תערוכה יוצאת דופן של ביצים מחרסינה, שיוצרו בחצר הצאר מהמאה ה17 ועד תחילת המאה ה20.
1 ימים יום NOUN NOUN Gender=Masc|Number=Plur 3 obl:tmod _ _
1 ימים יום NOUN NOUN Gender=Masc|Number=Plur 3 obl:unmarked _ TemporalNPAdjunct=Yes
2 אלה זה PRON PRON Gender=Masc|Number=Plur|Person=3|PronType=Dem 1 det _ _
3 מתקיימת התקיים VERB VERB Gender=Fem|HebBinyan=HITPAEL|Number=Sing|Person=1,2,3|Tense=Pres|VerbForm=Part 0 root _ _
4-5 במילאנו _ _ _ _ _ _ _ _
Expand Down Expand Up @@ -12826,7 +12826,7 @@
# text = היא נפתחה שנים אחדות לפני המסעדות האיטלקיות מן הגל החדש, ומגישים בה אוכל פשוט וחסר יומרות, נאמן במידה רבה לזה שאפשר למצוא בהרבה אוסטריות צנועות בכל רחבי איטליה.
1 היא הוא PRON PRON Gender=Fem|Number=Sing|Person=3|PronType=Prs 2 nsubj _ _
2 נפתחה נפתח VERB VERB Gender=Fem|HebBinyan=NIFAL|Number=Sing|Person=3|Tense=Past|Voice=Mid 0 root _ _
3 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 2 obl:tmod _ _
3 שנים שנה NOUN NOUN Gender=Fem|Number=Plur 2 obl:unmarked _ TemporalNPAdjunct=Yes
4 אחדות אחדים ADJ ADJ Gender=Fem|Number=Plur 3 amod _ _
5 לפני לפני ADP ADP _ 7 case _ _
6-7 המסעדות _ _ _ _ _ _ _ _
Expand Down
Loading

0 comments on commit aaa9768

Please sign in to comment.