Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

inconsistent analysis of etc #386

Open
wellington36 opened this issue Nov 8, 2021 · 20 comments
Open

inconsistent analysis of etc #386

wellington36 opened this issue Nov 8, 2021 · 20 comments
Milestone

Comments

@wellington36
Copy link

wellington36 commented Nov 8, 2021

Na sentença CF324-8, etc foi quebrado em et e cetera, o que não ocorre nos outros casos http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014. (encontrado analisando o issue #365)

Os contribuintes que pagarem seus tributos (IPTU, ISS etc.) hoje sairão ganhando, pois o cálculo será feito pela UFM de R$ 26,54.

7	(	(	PUNCT	PU|@PU	_	8	punct	_	SpaceAfter=No
8	IPTU	IPTU	PROPN	<first-cjt>|PROP|M|S|@N<PRED	Gender=Masc|Number=Sing	6	nmod	_	SpaceAfter=No
9	,	,	PUNCT	PU|@PU	_	10	punct	_	_
10	ISS	iss	NOUN	<np-idf>|N|M|S|@N<PRED	Gender=Masc|Number=Sing	8	conj	_	_
11-12	etc.	_	_	_	_	_	_	_	SpaceAfter=No
11	et	et	CCONJ	_	_	12	cc	_	_
12	cetera	cetera	PRON	_	Gender=Masc|Number=Plur	8	conj	_	_
13	)	)	PUNCT	PU|@PU	_	8	punct	_	_
@wellington36 wellington36 added this to the release 2.10 milestone Nov 8, 2021
@wellington36
Copy link
Author

Vou deixar o comentario do PR #388:

Correção de caso mencionado no issue seguindo outros casos do corpus e verificando na documentação, sugiro aplicar esse padrão para outros casos de etc no corpus (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6189c9fd85132&clustering=e.label), como marcados com upos X e com lemma etc..

@arademaker
Copy link
Collaborator

qual seria o issue aqui? o problema mais grave é o tratamento inconsistente mas de fato, etc é et cetera vide https://pt.wikipedia.org/wiki/Et_cetera.

@wellington36
Copy link
Author

Entendi, então o problema muda para os casos que não são quebrados em et cetera: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014

@arademaker
Copy link
Collaborator

no English-EWT, eles não separam, mas tratam como pos X tendo a relação deprel conj ou list.. eu até gosto da idéia de separar mas teríamos que ver alguns casos para verificar se teríamos uma analise sintática coerente.

@arademaker
Copy link
Collaborator

se separarmos, o cetera não seria PRON, mas NOUN me parece.

@wellington36
Copy link
Author

wellington36 commented Nov 9, 2021

no English-EWT, eles não separam, mas tratam como pos X tendo a relação deprel conj ou list.. eu até gosto da idéia de separar mas teríamos que ver alguns casos para verificar se teríamos uma analise sintática coerente.

Dado que em outros corpus o etc não é quebra casos do English-GUM, Spanish-AnCora, French-GSD e Italian-VIT (também vale para outros corpus do mesmo idioma), podemos seguir a decisão deles ou discutir (talvez eles não tenham discutido sobre). Curioso que em cada um destes corpora que mencionei etc tem uma upos diferente (ADV, NOUN, PUNCT, ...), vale notar que nos corpus do German eles quebram o etc, o que gostaria de saber o que levou o German a separar e os demais que mencionei não.

@wellington36 wellington36 changed the title token etc with mwt inconsistent analysis of etc Nov 9, 2021
@wellington36
Copy link
Author

Seguindo comentário de @leoalenc #388 (comment) e a discussão em UniversalDependencies/docs#820 o caminho viavel seria não separar o etc. mas sim o . seguindo comentario de @leoalenc e seguindo UniversalDependencies/docs#820 (comment) teria upos CCONJ.

@arademaker
Copy link
Collaborator

Oi @leoalenc vamos discutir aqui? Melhor do que discutir no PR …

@leoalenc
Copy link

leoalenc commented Nov 15, 2021

Oi @leoalenc vamos discutir aqui? Melhor do que discutir no PR …

@arademaker e @wellington36 , pelo critério distribucional, etc. é uma espécie de pronome, uma vez que constitui pro-forma de um um nome ou sintagma nominal (NP), ou seja, é usado em substituição a um constituinte desse tipo, conforme a definição em UD.

Ele comprou canetas, lápis e borrachas.
Ele comprou canetas, lápis, borrachas e cadernos.
Ele comprou canetas, lápis, borrachas, cadernos etc.

Na língua padrão, etc. é usado numa estrutura de coordenação assindética, ou seja, sem a conjunção aditiva e. Tipicamente, indica que uma determinada série de dois ou mais Ns ou NPs inclui mais elementos do mesmo tipo (no exemplo acima, materiais de escrita).
Neste treebank, a UPOS é X, pois se trata de expressão em língua estrangeira. No entanto, há uma margem em UD para que se atribua uma etiqueta de classe de palavra a estrangeirismos:

A special usage of X is for cases of code-switching where it is not possible (or meaningful) to analyze the intervening language grammatically (and where the dependency relation flat:foreign is typically used in the syntactic analysis). This usage does not extend to ordinary loan words which should be assigned a normal part-of-speech. For example, in he put on a large sombrero, sombrero is an ordinary NOUN.

https://universaldependencies.org/u/pos/X.html

Tenho a forte convição de que etc. se aproxima mais do caso de sombrero, pois não se tem code-switching, uma vez que é um termo plenamente incorporado ao idioma.

code-switching. Oxford Reference. Retrieved 15 Nov. 2021, from https://www.oxfordreference.com/view/10.1093/oi/authority.20110803095621438.

@arademaker
Copy link
Collaborator

se tratarmos como X, ainda temos o problema de decidir pela relação de dependência. @leoalenc vc chegou a olhar a discussão que está sendo feita no UniversalDependencies/docs#820?

@wellington36
Copy link
Author

@leoalenc, dado que o senhor mencionou "é uma espécie de pronome" o coméntario em UniversalDependencies/docs#820 (comment) e o seguinte falam de um possivel tratamento como PRON.

@arademaker
Copy link
Collaborator

Melhor não tentarmos aqui ficar apontando para comentários isolados de lá. Já apareceram argumentos para não tratar como PRON e já existem argumentos para NOUN e também já foi dito que no latin o cetera era adjectivo e não pronome...

@leoalenc
Copy link

Melhor não tentarmos aqui ficar apontando para comentários isolados de lá. Já apareceram argumentos para não tratar como PRON e já existem argumentos para NOUN e também já foi dito que no latin o cetera era adjectivo e não pronome...

@arademaker , como não se trata de code-switching, mas de uma expressão aportuguesada, considero irrelevante a classe de palavra em latim. Por outro lado, é preciso levar em conta o que alguém tem em mente quando classifica algo como adjetivo ou pronome, pois se trata de termos cuja conceituação varia bastante de um quadro teórico a outro. No quadro de UD, não me parece cabível a classificação como adjetivo:

https://universaldependencies.org/u/pos/ADJ.html

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

@leoalenc
Copy link

leoalenc commented Nov 16, 2021

se tratarmos como X, ainda temos o problema de decidir pela relação de dependência. @leoalenc vc chegou a olhar a discussão que está sendo feita no UniversalDependencies/docs#820?

@arademaker , dei uma olhada por cima agora, vejo que alguns pessoas concordam comigo em alguns pontos. Na verdade, como são muitas pessoas opinando e não sabemos seus backgrounds nem os quadros teóricos que pressupõem, prefiro aplicar eu mesmo os critérios da análise linguística estrutural (matemática) aos dados, levando em conta o quadro de UD e o sistema gramatical do português.
Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto:

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

@wellington36
Copy link
Author

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

No caso seria:

A, B, C e D.

Correto? O etc faz o papel do e e do D, não sei se faz significativa diferença pensar assim.

@leoalenc
Copy link

leoalenc commented Nov 17, 2021

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

No caso seria:

A, B, C e D.

Correto? O etc faz o papel do e e do D, não sei se faz significativa diferença pensar assim.

@wellington36 , não analiso assim o exemplo. Existe o fenômeno da coordenação assindética, ou seja, sem o e. Portanto, não se deve inserir um e na análise do meu exemplo:

A, B, C, D.

@wellington36
Copy link
Author

Entendo desconsidere o comentário.

@wellington36
Copy link
Author

@leoalenc, mudo meu ponto, depois de analisar o Bosque, noto que, a estrutura A, B, C, D. é muito mais rara do que A, B, C e D. (talvez nem hava essa estrutura no Bosque).

@wellington36
Copy link
Author

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto:

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

@arademaker, seguindo comentários de @leoalenc, acredito que já podemos decidir qual analise fazer e eu aplico as mudanças.

@leoalenc
Copy link

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto:
A,B,C etc.
A,B,C,D.
Você trata etc. como trataria D.

@arademaker, seguindo comentários de @leoalenc, acredito que já podemos decidir qual analise fazer e eu aplico as mudanças.

@wellington36 , etc. é o D do meu exemplo:

A,B,C,D.

Portanto, deve analisar-se como C.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants