Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

múltiplos complementadores ligados a xcomp #383

Open
leoalenc opened this issue Oct 26, 2021 · 2 comments
Open

múltiplos complementadores ligados a xcomp #383

leoalenc opened this issue Oct 26, 2021 · 2 comments
Milestone

Comments

@leoalenc
Copy link

leoalenc commented Oct 26, 2021

@arademaker , usando a biblioteca em Python para extração de molduras valenciais, obtive os seguintes resultados:

for k in counter.keys():
	print(k,counter[k])

	
('a',) 20
('que',) 10
('por',) 6
('a', 'que') 4
('de',) 15
('a', 'de', 'que') 1
('sem',) 3
('de', 'porque') 1
('a', 'de') 3
('de', 'pois', 'que') 1
('de', 'se') 2
('de', 'que') 7
('para',) 5
('que', 'é') 1
('a', 'para') 1
('a', 'caso') 2
('como',) 4
('para', 'que') 1
('já',) 1
('ver',) 1
('se',) 2
('em',) 4
('embora',) 2
('porque',) 3
('de', 'de', 'que') 1
('de', 'de') 1
('de', 'para') 2
('de', 'em') 1
('a', 'se') 1
('a', 'porque') 1
('em', 'que') 1
('a', 'por') 1
('por', 'que') 1
('por', 'porque') 1
('a', 'como') 1
('a', 'foi', 'que') 2
('com', 'que') 1
('a', 'quando') 1
('a', 'para', 'que') 1
('para', 'para') 1
('a', 'a', 'em') 1
('se', 'sobre') 2

O dicionário counter é uma distribuição de frequência dos complementadores (i.e., SCONJs ligadas ao xcomp via mark) de todos os casos de xcomp de mais de 2 componentes de todas as molduras extraídas do Bosque. Por componente entendo o resultado de parts=re.split(r"[+:]",rel), onde rel é o xcomp com suas anotações. Excluo da contagem casos como 'xcomp:como'.
Podemos ver que a lista tem tanto coisas esperadas quanto coisas estranhas. Casos esperados, por exemplo, são:

('a',) 20
('que',) 10
('por',) 6
('a', 'que') 4
('de',) 15

E assim os casos de n=1, com n=len(tupla).
Suspeitos são todos os casos de n>2. E também casos como

('já',) 1
('ver',) 1
('se',) 2
('embora',) 2

Suspeito que os casos estranhos envolvam dezenas, talvez centenas de sentenças do corpus, que podem ser extraídas do dicionário.

@arademaker
Copy link
Collaborator

E também relacionado a isso temos os casos de verbos xcomp que tem sujeito, o que seria estranho correto?

http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6183d96ba7b20

@arademaker arademaker added this to the release 2.10 milestone Nov 4, 2021
@leoalenc
Copy link
Author

leoalenc commented Nov 4, 2021

E também relacionado a isso temos os casos de verbos xcomp que tem sujeito, o que seria estranho correto?

http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6183d96ba7b20

@arademaker , concordo, xcomp, por definição, não pode governar um sujeito. Examinei os três primeiros exemplos dos resultados dessa query e vi que o se, que podemos analisar, pelo menos num primeiro momento, como índice de indeterminação do sujeito da gramática tradicional, foi anexado como dependente do verbo encaixado e não do verbo principal que governa o xcomp.

O mesmo não se pode dizer da pintura de Cy Twombly.
http://match.grew.fr/data/61840a7a26ff1/177.svg

O mesmo alguém não pode dizer da pintura de Cy Twombly.
Alguém não pode dizer o mesmo da pintura de Cy Twombly.

Esse tipo de erro, porém, ao que parece, não seria detectado facilmente pela biblioteca do Lucas (algo a perguntar para ele). Seria talvez uma feature importante incluir essa informação em algum lugar.
Uma outra alternativa de análise talvez seja considerar o se como partícula apassivadora:

O mesmo não se pode dizer da pintura de Cy Twombly.
http://match.grew.fr/data/61840a7a26ff1/177.svg

O mesmo não pode ser dito da pintura de Cy Twombly.

Deve-se abrir issue aqui para tratar dessas construções, que estão definitivamente anotadas de forma errada, seja qual for a análise do se.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants