-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
inconsistent analysis of etc #386
Comments
Vou deixar o comentario do PR #388: Correção de caso mencionado no issue seguindo outros casos do corpus e verificando na documentação, sugiro aplicar esse padrão para outros casos de etc no corpus (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6189c9fd85132&clustering=e.label), como marcados com upos |
qual seria o issue aqui? o problema mais grave é o tratamento inconsistente mas de fato, etc é et cetera vide https://pt.wikipedia.org/wiki/Et_cetera. |
Entendi, então o problema muda para os casos que não são quebrados em et cetera: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014 |
no English-EWT, eles não separam, mas tratam como pos |
se separarmos, o cetera não seria PRON, mas NOUN me parece. |
Dado que em outros corpus o etc não é quebra casos do English-GUM, Spanish-AnCora, French-GSD e Italian-VIT (também vale para outros corpus do mesmo idioma), podemos seguir a decisão deles ou discutir (talvez eles não tenham discutido sobre). Curioso que em cada um destes corpora que mencionei etc tem uma upos diferente (ADV, NOUN, PUNCT, ...), vale notar que nos corpus do German eles quebram o etc, o que gostaria de saber o que levou o German a separar e os demais que mencionei não. |
Seguindo comentário de @leoalenc #388 (comment) e a discussão em UniversalDependencies/docs#820 o caminho viavel seria não separar o |
Oi @leoalenc vamos discutir aqui? Melhor do que discutir no PR … |
@arademaker e @wellington36 , pelo critério distribucional, etc. é uma espécie de pronome, uma vez que constitui pro-forma de um um nome ou sintagma nominal (NP), ou seja, é usado em substituição a um constituinte desse tipo, conforme a definição em UD.
Na língua padrão, etc. é usado numa estrutura de coordenação assindética, ou seja, sem a conjunção aditiva e. Tipicamente, indica que uma determinada série de dois ou mais Ns ou NPs inclui mais elementos do mesmo tipo (no exemplo acima, materiais de escrita).
https://universaldependencies.org/u/pos/X.html Tenho a forte convição de que etc. se aproxima mais do caso de sombrero, pois não se tem code-switching, uma vez que é um termo plenamente incorporado ao idioma. code-switching. Oxford Reference. Retrieved 15 Nov. 2021, from https://www.oxfordreference.com/view/10.1093/oi/authority.20110803095621438. |
se tratarmos como X, ainda temos o problema de decidir pela relação de dependência. @leoalenc vc chegou a olhar a discussão que está sendo feita no UniversalDependencies/docs#820? |
@leoalenc, dado que o senhor mencionou "é uma espécie de pronome" o coméntario em UniversalDependencies/docs#820 (comment) e o seguinte falam de um possivel tratamento como PRON. |
Melhor não tentarmos aqui ficar apontando para comentários isolados de lá. Já apareceram argumentos para não tratar como PRON e já existem argumentos para NOUN e também já foi dito que no latin o |
@arademaker , como não se trata de code-switching, mas de uma expressão aportuguesada, considero irrelevante a classe de palavra em latim. Por outro lado, é preciso levar em conta o que alguém tem em mente quando classifica algo como adjetivo ou pronome, pois se trata de termos cuja conceituação varia bastante de um quadro teórico a outro. No quadro de UD, não me parece cabível a classificação como adjetivo: https://universaldependencies.org/u/pos/ADJ.html De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido. |
@arademaker , dei uma olhada por cima agora, vejo que alguns pessoas concordam comigo em alguns pontos. Na verdade, como são muitas pessoas opinando e não sabemos seus backgrounds nem os quadros teóricos que pressupõem, prefiro aplicar eu mesmo os critérios da análise linguística estrutural (matemática) aos dados, levando em conta o quadro de UD e o sistema gramatical do português.
Você trata etc. como trataria D. |
No caso seria:
Correto? O etc faz o papel do |
@wellington36 , não analiso assim o exemplo. Existe o fenômeno da coordenação assindética, ou seja, sem o e. Portanto, não se deve inserir um e na análise do meu exemplo:
|
Entendo desconsidere o comentário. |
@leoalenc, mudo meu ponto, depois de analisar o Bosque, noto que, a estrutura |
@arademaker, seguindo comentários de @leoalenc, acredito que já podemos decidir qual analise fazer e eu aplico as mudanças. |
@wellington36 , etc. é o D do meu exemplo:
Portanto, deve analisar-se como C. |
Na sentença CF324-8,
etc
foi quebrado emet
ecetera
, o que não ocorre nos outros casos http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014. (encontrado analisando o issue #365)The text was updated successfully, but these errors were encountered: