Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

noun "média" incorrectly lemmatized as "médio" #409

Open
leoalenc opened this issue Aug 19, 2022 · 1 comment
Open

noun "média" incorrectly lemmatized as "médio" #409

leoalenc opened this issue Aug 19, 2022 · 1 comment
Assignees
Labels
manual correção manual necessária review aguardando revisão de sugestão

Comments

@leoalenc
Copy link

leoalenc commented Aug 19, 2022

@arademaker, naquela comparação entre MorphoBr e Bosque, surgiu uma discrepância em relação ao lema do substantivo média:

awk '$2 ~ /^média$/ && $3 ~ /médio/ && $4 ~ /NOUN/' *.conllu
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	14	nsubj	_	_
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	10	nsubj	_	_
3	média	médio	NOUN	_	Gender=Fem|Number=Sing	10	nsubj	_	_

Vejamos um caso:

grep -PhC 10 "média\tmédio\tNOUN" *.conllu
47-48	da	_	_	_	_	_	_	_	_
47	de	de	ADP	_	_	49	case	_	_
48	a	o	DET	_	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	49	det	_	_
49	entidade	entidade	NOUN	_	Gender=Fem|Number=Sing	46	nmod	_	SpaceAfter=No
50	.	.	PUNCT	_	_	15	punct	_	_

# text = A média diária de negócios com o metal em maio foi de 2,43 toneladas.
# sent_id = CF518-3
# source = CETENFolha n=518 cad=Dinheiro sec=eco sem=94b
1	A	o	DET	_	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	2	det	_	_
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	14	nsubj	_	_

O lema deveria ser média, certo?

@leoalenc leoalenc added manual correção manual necessária review aguardando revisão de sugestão labels Aug 19, 2022
@leoalenc leoalenc self-assigned this Aug 19, 2022
arademaker added a commit that referenced this issue Aug 25, 2022
alguns casos mais delicados ainda pendentes
@arademaker
Copy link
Collaborator

assim como fiz em #410, generalizando a busca com a regex .+a\t.+o\tNOUN, encontrei vários outros casos. A maioria fácil de resolver, mas alguns mais delicados pendentes abaixo, muitos onde a palavra é parte de uma expressão e/ou nome.

documents/CP0954.conllu:10	séria	sério	NOUN	<np-idf>|N|F|S|@<ACC	Gender=Fem|Number=Sing	8	obj	_	_
documents/CF0161.conllu:8	Bonequinha	bonequinho	NOUN	<first-cjt>|PROP|M|S|@S<	ExtPos=PROPN|Gender=Fem|Number=Sing	4	appos	_	_
documents/CP0323.conllu:8	próxima	próximo	NOUN	<n>|<np-def>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	5	nmod	_	SpaceAfter=No
documents/CF0051.conllu:36	antepassada	antepassado	NOUN	<n>|<np-def>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	33	nmod	_	_
documents/CP0443.conllu:7	baixa	baixo	NOUN	<np-idf>|N|F|S|@N<	Gender=Fem|Number=Sing	3	obl	_	_
documents/CP0170.conllu:22	crítica	crítico	NOUN	<first-cjt>|<n>|<np-def>|ADJ|F|S|@<ACC	Gender=Fem|Number=Sing	20	obj	_	_
documents/CP0573.conllu:2	relativa	relativo	NOUN	<n>|<np-def>|ADJ|F|S|@NPHR	Gender=Fem|Number=Sing	0	root	_	_
documents/CF0298.conllu:8	enferma	enfermo	NOUN	<np-idf>|N|F|S|@P<	Gender=Fem|Number=Sing	6	nmod	_	SpaceAfter=No
documents/CP0369.conllu:58	lombarda	lombardo	NOUN	<cjt>|<n>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	56	conj	_	_
documents/CP0691.conllu:31	positiva	positivo	NOUN	<n>|<np-def>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	21	conj	_	SpaceAfter=No
documents/CP0142.conllu:14	velha	velho	NOUN	<n>|<np-idf>|ADJ|F|S|@<SUBJ	Gender=Fem|Number=Sing	12	nsubj	_	SpaceAfter=No
documents/CP0894.conllu:8	náufraga	náufrago	NOUN	<n>|<np-idf>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	1	obl	_	SpaceAfter=No
documents/CP0068.conllu:40	próxima	próximo	NOUN	<n>|<Eg>|<np-def>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	37	nmod	_	SpaceAfter=No
documents/CP0131.conllu:10	classificada	classificado	NOUN	<mv>|<first-cjt>|V|PCP|F|S|@ICL-N<PRED	Gender=Fem|Number=Sing	6	appos	_	_
documents/CP0083.conllu:12	antepassada	antepassado	NOUN	<first-cjt>|<np-def>|N|F|S|@KOMP<	Gender=Fem|Number=Sing	6	obl	_	SpaceAfter=No
documents/CF0942.conllu:28	loira	loiro	NOUN	<cjt>|<n>|<np-idf>|ADJ|F|S|@N<PRED	Gender=Fem|Number=Sing	25	conj	_	SpaceAfter=No
documents/CF0942.conllu:22	loira	loiro	NOUN	<n>|<np-def>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	18	obj	_	_
documents/CP0682.conllu:51	nova	novo	NOUN	<n>|<COMP>|ADJ|F|S|@APP	Gender=Fem|Number=Sing	45	appos	_	_
documents/CP0503.conllu:76	burlesca	burlesco	NOUN	<n>|<np-idf>|ADJ|F|S|@P<	Gender=Fem|Number=Sing	72	nmod	_	_

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
manual correção manual necessária review aguardando revisão de sugestão
Projects
None yet
Development

No branches or pull requests

2 participants