Projecto AC/DC, Linguateca
Esta página pretende auxiliar a utilização do serviço de acesso aos corpos de português codificados com o IMS Open CWB. Pressupõe que o leitor tenha uma ideia da estrutura dos corpos existentes (ver a informação pormenorizada sobre cada em corpos), e sobre a anotação morfossintáctica que lhes foi atribuída (descrita sistematicamente na página sobre a anotação).
Pretendemos, pois, apresentar aqui um conjunto de exemplos significativo das potencialidades e do modo de prosseguir quando se fazem procuras não triviais em corpos.
Além disso, fazemos daqui mais um ponto de entrada para mais informação sobre o sistema de processamento de corpos que se lhes encontra subjacente, o IMS Open CWB.
Dois tipos de consulta
O IMS-CWB, como qualquer sistema de corpos que se preze, permite dois tipos de consulta:
- pedido de concordâncias: ou seja frases reais dos corpos que ilustram o fenómeno pretendido;
- pedido de distribuição: ou seja, as quantidades de um ou vários fenómenos no corpo todo.
A expressão de procura é, pois, essencialmente a mesma. Ressalvamos apenas as indicações de
- como apresentar a concordância (que só fazem sentido se interessados numa concordância), por exemplo definindo o contexto de apresentação set c 30, os atributos visíveis show +lema, ou a parte identificada a carregado expand
- qual a parte da expressão em cuja distribuição estamos interessados, usando a marca @ (mais uma vez só fazendo sentido para pedidos de distribuição)
Por isso, entremearemos os exemplos de procuras com a presente interface pedindo distribuição e concordância.
Exemplos simples e diversificados: uma primeira visão
- a forma casa do verbo CASAR
[word="casa" & pos="V.*"]
- ocorrências do verbo DESEJAR
[lema="desejar"]
- adjectivos seguidos de nomes no masculino plural
[pos="ADJ" & gen="M" & pessnum="P"] [pos="N" & gen="M" & pessnum="P"]
- os objectos do verbo MATAR no máximo quatro palavras distantes
[lema="matar"] []{0,3} [func="<ACC"]
- palavras identificadas como verbos pelo analisador através de heurísticas morfológicas
[pos="V.*" & deriv="DER.*"]
- particípios passados de género feminino
[temcagr="PCP" & gen="F"]
- formas do imperfeito do conjuntivo
[temcagr="IMPF_SUBJ"]
Exemplos de consultas por atributos morfológicos
Quer só tempos simples do passado?
Procura: [temcagr="(PS|IMPF).*"]
Resultado: Distribuição do tempo verbal
Note-se que, se pedir a concordância, esta não lhe é apresentada por uma tal procura dar, em geral, um número excessivo de ocorrências. Experimente, por exemplo, restringi-la à terceira conjugação:
[lema=".*ir" & temcagr="(PS|IMPF).*"]
Resultado: Concordância
Quer só o pretérito perfeito?
[temcagr="PS.*"];
Resultado: Distribuição dos lemas
Idem sobre número excessivo... Se quiser ver apenas as primeiras 100 ocorrências, peça:
[temcagr="PS.*"] cut 100;
Resultado: Concordância
Quer só o imperfeito do indicativo?
Aqui o utilizador tem de garantir que o modo é indicativo (se não quiser tb o conjuntivo, claro...). Procurando por exemplo todos os verbos começados pela letra A:
[lema="a.*" & temcagr="IMPF.*IND.*"];
Resultado: Distribuição das formas
Quer saber qual a distribuição do verbo gostar em termos de uso no perfeito ou no imperfeito do indicativo?
[lema="gostar" & temcagr="(PS|IMPF).*IND.*"]
Resultado: Distribuição da informação de tempo (verbos) ou de caso (pronomes)
Quer saber que pessoas do verbo são mais empregues no imperfeito do indicativo (do indicativo ou do conjuntivo)?
[temcagr="IMPF.*"]
Resultado: Distribuição da informação de pessoa ou de número
Procuras envolvendo verbos com ou sem clíticos
Como indicado na página sobre a Anotação, os verbos com enclíticos ou meso-clíticos são considerados uma única unidade, e as anotações dos seus constituintes são codificadas separadamente e ligadas através do sinal "+". Isso faz com que algumas precauções ou cuidados especiais tenham de ser tomados na interrogação precisamente deste tipo de fenómenos.
Por exemplo, se não quiser os verbos com clíticos, o utilizador terá de especificar, em todas as suas procuras, que não haja um "+" no atributo morfológico (ou no lema)... Por exemplo, procuraria assim verbos iniciados por "des" no pretérito perfeito sem clíticos:
[lema="des[^+]+" & temcagr="PS_IND.*"]
Se, por outro lado, quiser saber qual a distribuição destes últimos (verbos no pretérito perfeito com enclíticos), terá de recorrer a
[temcagr="PS_.*\+.*"]
Resultado: Distribuição dos lemas
Procuras envolvendo função sintáctica
Quais os verbos mais comuns na forma progressiva?
Procura: [lema="estar"] "a" @[func="IMV.*"]
Resultado: Distribuição dos lemas
Qual a distribuição dos sujeitos de parecer?
Procura: [func="SUBJ.*"] []* [lema="parecer"] within s
Resultado: Distribuição da categoria gramatical (POS)
Qual a posição do adjectivo novo num sintagma nominal?
Procura: [lema="novo" & pos="ADJ.*" & func=".*N.*"]
Resultado: Distribuição da função sintáctica
Mais exemplos
Qual a distribuição da categoria gramatical da forma cara?
Procura: "cara"
Resultado: Distribuição da categoria gramatical (POS)
Qual a distribuição da categoria gramatical do lema ser?
Procura: [lema="ser"]
Resultado: Distribuição da categoria gramatical (POS)
Qual a distribuição dos tempos do verbo ser?
Procura: [lema="ser" & pos="V.*"]
Resultado: Distribuição do tempo verbal e/ou do caso pronominal
Quais são os verbos mais frequentes da terceira conjugação no gerúndio?
Procura: [temcagr="GER" & word=".*indo"]
Resultado: Distribuição dos lemas
Qual é a distribuição sintáctica do nome cara?
Procura: [word="cara" & pos="N"]
Resultado: Distribuição da função sintáctica
Quais são os sujeitos mais comuns de matar?
Procura: [func="SUBJ>" & pos="N|PERS"] [func != "FMV"]* [lema="matar"] within s
Resultado: Distribuição dos lemas
Quais os verbos mais comuns com clíticos?
Procura: [pos="V\+PERS.*"]
Resultado: Distribuição dos lemas
Que adjectivos foram determinados heuristicamente, por não se encontrarem no dicionário do analisador?
Procura: [pos="ADJ.*" & deriv="DER.*"]
Resultado: Distribuição dos lemas
Quais os verbos mais frequentes depois de depois de?
Procura: "[Dd]epois" "de" @[pos="V.*"]
Resultado: Distribuição dos lemas
Qual a distribuição da palavra perguntar de acordo com o tipo de texto?
Procura: "pergunt.*"
Resultado: Distribuição por tipo de texto
Qual a distribuição de palavras terminadas em inho de acordo com o autor do texto?
Procura: ".*inho"
Resultado: Distribuição por autor
Qual a distribuição de grupos adjectivo nome adjectivo conforme o tipo de texto?
Procura: [pos="ADJ.*"] [pos="N.*"] [pos="ADJ.*"]
Resultado: Distribuição por tipo de texto
Com que é que a preposição com é usada, a 1 ou 2 palavras do fim da frase?
Procura: "com" []{0,3} </s>;
Resultado: Concordância
Em que casos a preposição em é usada dentro de um título?
Procura: set c 1 titulo; "em" within titulo
Resultado: Concordância
Quais os três últimos elementos de uma enumeração de palavras simples
"," [] "," [] "\.";
Resultado: Concordância
Este exemplo ilustra o uso de pontuação em procuras. O ponto (".") tem de ser precedido do caracter "\" de forma a significar ponto e não apenas um caracter qualquer.
Procurar um número qualquer de elementos delimitados por vírgula acabados por ponto
"," [] ("," [])* "\.";
Procurar uma sequência adjectivo nome adjectivo
[pos="ADJ.*"] [pos="N(_.*)*"] [pos="ADJ.*"];
Resultado: Concordância
ou
Resultado: Distribuição dos lemas
Nesse caso são os lemas do primeiro adjectivo que aparecem. Se quisermos por exemplo os dos nomes, basta anteceder esta unidade do caracter @, ou seja:
[pos="ADJ.*"] @[pos="N(_.*)*"] [pos="ADJ.*"];.
Procura da mesma palavra com anotações diferentes na mesma frase
a:[pos!="P.*"] []* [word=a.word & pos=!a.pos] within s;
Esta potencialidade é já bastante avançada, e permite referenciar unidades por nomes de variáveis (neste caso, a) para referir a propriedades desta no resto da expressão de procura.
Procura de palavras relacionadas com imaginar
imagin.*
Resultado: Concordância
Se se quiser, além disso, ver a anotação, fazer
show +pos; "imagin.*"
Procura de formas do verbo imaginar
Procura: [lema="imaginar"]
Resultado: Concordância
Procura de termos iniciados por relig ou secular
Procura: (relig.*)|(secular.*);
Resultado: Distribuição das formas
Procura de perguntas
Procura: <s> "Onde|Quando|Como|Porque|Quanto" []* "\?" within s
Resultado: Concordância
Procura de objectos do tipo oração infinitiva
- Todas as ocorrências da construção fazer / mandar / deixar (em todas as formas) + infinitivo
Procura: [lema="fazer|mandar|deixar"] [pos!="V.*"]* [temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Concordância
- Apenas envolvendo enclíticos
Procura: [lema="(fazer|mandar|deixar)\+.*"] [temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Concordância
- Quais os verbos objecto de "deixar"?
Procura: [lema="deixar"] [pos!="V.*"]* @[temcagr="INF" & func=".*#ICL\-<ACC.*"]
Resultado: Distribuição das formas
Para mais exemplos, veja-se o texto Usos de corpos, pensado como uma introdução ao estudos baseados em corpos em português.
Para familiarização com o sistema de corpos subjacente, e sobretudo com a forma como o interrogar através do seu Corpus Query Processor (CQP), sugerimos:
- a leitura dos tutoriais
- a consulta do manual The IMS Corpus Workbench: Corpus Query Processor (CQP): User's manual, Christ, Oliver, Schulze, Bruno M., Hofmann, Anja, & Koenig, Esther, Institute for Natural Language Processing, University of Stuttgart, August 16, 1999 (CQP V2.2)
- a leitura de páginas variadas com exemplos de sintaxe em CQP (Note-se, contudo, que a maior parte dessas páginas descrevem projectos específicos com escolhas particulares que não reflectem necessariamente as escolhas (ou nomes de atributos) usados na presente interface; documentados na página de anotação Anotação do AC/DC).
- a consulta dos artigos relativos ao português mencionados na página de Anotação
- as instruções sobre o uso do AC/DC numa cadeira de português com corpos: pdf
Algumas informações que podem ser úteis para utilizadores experimentados do CQP:
- De momento não é possível guardar resultados parciais, o que significa que é preciso mandar uma sequência de comandos numa única instrução de procura, se se pretender um resultado refinado.
- CQP é invocado com o parâmetro -F, o que quer dizer que não é possível mudar o corpo numa sequência de comandos.
- O tamanho máximo de corpo procurado com []* é de 100 unidades (o chamado limite inalterável, em inglês: "Hard Boundary"); este tamanho está fixo e não se pode alterar.
- Enquanto não for melhorada a interface HTML, é sempre possível ver a anotação dos corpos anotados, fazendo, por exemplo, show +pos.
[
Acesso |
Anotação |
Atomização |
Corpos |
Agradecimentos
]
Diana Santos.
Última actualização: 6 de outubro de 2013.
Perguntas, comentários e sugestões