Acesso a corpos de português: Exemplos

Projecto AC/DC, Linguateca


Esta página pretende auxiliar a utilização do serviço de acesso aos corpos de português codificados com o IMS Open CWB. Pressupõe que o leitor tenha uma ideia da estrutura dos corpos existentes (ver a informação pormenorizada sobre cada em corpos), e sobre a anotação morfossintáctica que lhes foi atribuída (descrita sistematicamente na página sobre a anotação).

Pretendemos, pois, apresentar aqui um conjunto de exemplos significativo das potencialidades e do modo de prosseguir quando se fazem procuras não triviais em corpos. Além disso, fazemos daqui mais um ponto de entrada para mais informação sobre o sistema de processamento de corpos que se lhes encontra subjacente, o IMS Open CWB.


Dois tipos de consulta

O IMS-CWB, como qualquer sistema de corpos que se preze, permite dois tipos de consulta: A expressão de procura é, pois, essencialmente a mesma. Ressalvamos apenas as indicações de

Por isso, entremearemos os exemplos de procuras com a presente interface pedindo distribuição e concordância.

Exemplos simples e diversificados: uma primeira visão

Exemplos de consultas por atributos morfológicos

Quer só tempos simples do passado?

Procura: [temcagr="(PS|IMPF).*"]
Resultado: Distribuição do tempo verbal

Note-se que, se pedir a concordância, esta não lhe é apresentada por uma tal procura dar, em geral, um número excessivo de ocorrências. Experimente, por exemplo, restringi-la à terceira conjugação:

[lema=".*ir" & temcagr="(PS|IMPF).*"]
Resultado: Concordância

Quer só o pretérito perfeito?

[temcagr="PS.*"];
Resultado: Distribuição dos lemas

Idem sobre número excessivo... Se quiser ver apenas as primeiras 100 ocorrências, peça:

[temcagr="PS.*"] cut 100;
Resultado: Concordância

Quer só o imperfeito do indicativo?

Aqui o utilizador tem de garantir que o modo é indicativo (se não quiser tb o conjuntivo, claro...). Procurando por exemplo todos os verbos começados pela letra A:

[lema="a.*" & temcagr="IMPF.*IND.*"];
Resultado: Distribuição das formas

Quer saber qual a distribuição do verbo gostar em termos de uso no perfeito ou no imperfeito do indicativo?

[lema="gostar" & temcagr="(PS|IMPF).*IND.*"]
Resultado: Distribuição da informação de tempo (verbos) ou de caso (pronomes)

Quer saber que pessoas do verbo são mais empregues no imperfeito do indicativo (do indicativo ou do conjuntivo)?

[temcagr="IMPF.*"]
Resultado: Distribuição da informação de pessoa ou de número

Procuras envolvendo verbos com ou sem clíticos

Como indicado na página sobre a Anotação, os verbos com enclíticos ou meso-clíticos são considerados uma única unidade, e as anotações dos seus constituintes são codificadas separadamente e ligadas através do sinal "+". Isso faz com que algumas precauções ou cuidados especiais tenham de ser tomados na interrogação precisamente deste tipo de fenómenos.

Por exemplo, se não quiser os verbos com clíticos, o utilizador terá de especificar, em todas as suas procuras, que não haja um "+" no atributo morfológico (ou no lema)... Por exemplo, procuraria assim verbos iniciados por "des" no pretérito perfeito sem clíticos:

[lema="des[^+]+" & temcagr="PS_IND.*"]

Se, por outro lado, quiser saber qual a distribuição destes últimos (verbos no pretérito perfeito com enclíticos), terá de recorrer a

[temcagr="PS_.*\+.*"]
Resultado: Distribuição dos lemas

Procuras envolvendo função sintáctica

Quais os verbos mais comuns na forma progressiva?

Procura: [lema="estar"] "a" @[func="IMV.*"]
Resultado: Distribuição dos lemas

Qual a distribuição dos sujeitos de parecer?

Procura: [func="SUBJ.*"] []* [lema="parecer"] within s
Resultado: Distribuição da categoria gramatical (POS)

Qual a posição do adjectivo novo num sintagma nominal?

Procura: [lema="novo" & pos="ADJ.*" & func=".*N.*"]
Resultado: Distribuição da função sintáctica

Mais exemplos

Qual a distribuição da categoria gramatical da forma cara?

Procura: "cara"
Resultado: Distribuição da categoria gramatical (POS)

Qual a distribuição da categoria gramatical do lema ser?

Procura: [lema="ser"]
Resultado: Distribuição da categoria gramatical (POS)

Qual a distribuição dos tempos do verbo ser?

Procura: [lema="ser" & pos="V.*"]
Resultado: Distribuição do tempo verbal e/ou do caso pronominal

Quais são os verbos mais frequentes da terceira conjugação no gerúndio?

Procura: [temcagr="GER" & word=".*indo"]
Resultado: Distribuição dos lemas

Qual é a distribuição sintáctica do nome cara?

Procura: [word="cara" & pos="N"]
Resultado: Distribuição da função sintáctica

Quais são os sujeitos mais comuns de matar?

Procura: [func="SUBJ>" & pos="N|PERS"] [func != "FMV"]* [lema="matar"] within s
Resultado: Distribuição dos lemas

Quais os verbos mais comuns com clíticos?

Procura: [pos="V\+PERS.*"]
Resultado: Distribuição dos lemas

Que adjectivos foram determinados heuristicamente, por não se encontrarem no dicionário do analisador?

Procura: [pos="ADJ.*" & deriv="DER.*"]
Resultado: Distribuição dos lemas

Quais os verbos mais frequentes depois de depois de?

Procura: "[Dd]epois" "de" @[pos="V.*"]
Resultado: Distribuição dos lemas

Qual a distribuição da palavra perguntar de acordo com o tipo de texto?

Procura: "pergunt.*"
Resultado: Distribuição por tipo de texto

Qual a distribuição de palavras terminadas em inho de acordo com o autor do texto?

Procura: ".*inho"
Resultado: Distribuição por autor

Qual a distribuição de grupos adjectivo nome adjectivo conforme o tipo de texto?

Procura: [pos="ADJ.*"] [pos="N.*"] [pos="ADJ.*"]
Resultado: Distribuição por tipo de texto

Com que é que a preposição com é usada, a 1 ou 2 palavras do fim da frase?

Procura: "com" []{0,3} </s>;
Resultado: Concordância

Em que casos a preposição em é usada dentro de um título?

Procura: set c 1 titulo; "em" within titulo
Resultado: Concordância

Quais os três últimos elementos de uma enumeração de palavras simples

"," [] "," [] "\.";
Resultado: Concordância

Este exemplo ilustra o uso de pontuação em procuras. O ponto (".") tem de ser precedido do caracter "\" de forma a significar ponto e não apenas um caracter qualquer.

Procurar um número qualquer de elementos delimitados por vírgula acabados por ponto

"," [] ("," [])* "\.";

Procurar uma sequência adjectivo nome adjectivo

[pos="ADJ.*"] [pos="N(_.*)*"] [pos="ADJ.*"];
Resultado: Concordância
ou
Resultado: Distribuição dos lemas

Nesse caso são os lemas do primeiro adjectivo que aparecem. Se quisermos por exemplo os dos nomes, basta anteceder esta unidade do caracter @, ou seja:

[pos="ADJ.*"] @[pos="N(_.*)*"] [pos="ADJ.*"];.

Procura da mesma palavra com anotações diferentes na mesma frase

a:[pos!="P.*"] []* [word=a.word & pos=!a.pos] within s;

Esta potencialidade é já bastante avançada, e permite referenciar unidades por nomes de variáveis (neste caso, a) para referir a propriedades desta no resto da expressão de procura.

Procura de palavras relacionadas com imaginar

imagin.*
Resultado: Concordância

Se se quiser, além disso, ver a anotação, fazer

show +pos; "imagin.*"

Procura de formas do verbo imaginar

Procura: [lema="imaginar"]
Resultado: Concordância

Procura de termos iniciados por relig ou secular

Procura: (relig.*)|(secular.*);
Resultado: Distribuição das formas

Procura de perguntas

Procura: <s> "Onde|Quando|Como|Porque|Quanto" []* "\?" within s
Resultado: Concordância

Procura de objectos do tipo oração infinitiva

Procura: [lema="fazer|mandar|deixar"] [pos!="V.*"]* [temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Concordância Procura: [lema="(fazer|mandar|deixar)\+.*"] [temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Concordância Procura: [lema="deixar"] [pos!="V.*"]* @[temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Distribuição das formas

Para mais exemplos, veja-se o texto Usos de corpos, pensado como uma introdução ao estudos baseados em corpos em português.


Informação sobre o IMS Open CWB e sobretudo o CQP

Para familiarização com o sistema de corpos subjacente, e sobretudo com a forma como o interrogar através do seu Corpus Query Processor (CQP), sugerimos:

Informação para utilizadores experimentados

Algumas informações que podem ser úteis para utilizadores experimentados do CQP:

[ Acesso | Anotação | Atomização | Corpos | Agradecimentos ]


Diana Santos.
Última actualização: 6 de outubro de 2013.
Perguntas, comentários e sugestões