Skip to content

Structural problems with the data file #3

@makigumo

Description

@makigumo

Hello!

After a cursory glance the following problems came up. Would be nice if they could be addressed with time.

Entry without an ID

$ awk -F'\t' '{if($1=="")print $0}' WaDokuDa.tab 
	ファスティアン	ふぁすてぃあん	(<POS: N.>) <MGr: <TrE: <HW m: Barchent>>; <TrE: <HW m: Fustian>> (<Def.: dicker Stoff z. B. für Reithosen>;<Etym.: von engl. <For.: fustian>>;<Ref.: ➡ <Transcr.: fasuchan> <Jap.: ファスチャン><DaID: 5096448>>)>.	名	HE	ふぁす[Dev]てぃあん

Wrong values in Wortart

They are easy to spot, e.g.

$ awk -F'\t' '{if($5!="")print $5}' WaDokuDa.tab | sort | uniq
[..]
行き [b] (往き [b])
[..]
がいがい (皚々; 皚皚)
[..]
いがぐり; イガグリ (毬栗; いが栗; 梂栗)
[..]

Unknown/invalid subentry types

$ awk -F'\t' '{if($7!="")print $7}' WaDokuDa.tab | sort | uniq
[..]
Abl. mit <Umschr.: yō>
[..]
ZIdiom
[..]
n

Wrong midashigo

$ awk -F'\t' '{if($8!="")print $8}' WaDokuDa.tab | sort | uniq | head -n1
[..]

$ grep -e '\x0b\x0b\x0b' WaDokuDa.tab
3181344 営業外収入 (<LongKanji: 營業外收入>)    えいぎょうがいしゅうにゅう      <MGr: <TrE: nicht operatives <HW n: Einkommen>>>.       名      営業 (<LongKanji: 營業>)        Komp. Anf.      ^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K^K      <営業>外収入    <えい'ぎょう>[WaSep]がいしゅうにゅう                            

Submidashigo with leading space

$ awk -F'\t' '{if($9!="")print $9}' WaDokuDa.tab | sort | uniq | head -n6
 /<怒り>やすい
 /<来合せた>人
 /<うらやまし>がる
 乾し<無花果>
 ドライブイン<映画館>
(<南京>玉簾)

Romajireading with leading space, leading apostrophe

$ awk -F'\t' '{if($10!="")print $10}' WaDokuDa.tab | sort | uniq | head -n5
 <おりじなる> だ
 こと[WaSep]ば を /<ひがんで> とる
 こと[WaSep]ば に /<あらわせない>
'<りゅう'つう>[DinSP]じょうほう[DinSP]き'かく
*Lesung

invalid accent field content

$ awk -F'\t' '{if($11!="")print $11}' WaDokuDa.tab | sort | uniq
^K
-
[..]
o
うpする; うぷする
習慣 ist falsche Lesung
深見草
何某となく; 何某と無く sind wohl falsch

invalid altaccent field content

$ awk -F'\t' '{if($12!="")print $12}' WaDokuDa.tab | sort | uniq 
[..]
o

Selfreferencing entries (138)

DaID == ID

$ awk -F'\t' '{DAID="DaID: " $1}; $4 ~ DAID {print $0}' WaDokuDa.tab
[..]

References pointing nowhere (5)

e.g. no DaID

$ awk -F'\t' '$4 ~ "DaID:>" {print $0}' WaDokuDa.tab
[..]

Thx.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions