Corte-e-costura: anotação semântica de corpos
AC/DC : Linguateca
O corte-e-costura é um recurso criado pela Linguateca para fazer anotação semântica dos corpos do AC/DC, os quais se encontram no formato criado pelo PALAVRAS (Bick 2000). Este pacote é constituído por:
- os programas necessários para anotar os corpos do AC/DC;
- dois corpos de teste: manta-de-retalhos_formatoregras, com vários exemplos a que se aplicam regras com diferentes sintaxes, e manta-de-retalhos_fluxoregras, com vários exemplos que permitem ilustrar a utilização do pacote e dos vários tipos de regras;
- listas de exemplos para os campos semânticos da cor e da roupa (ver Arco-íris e Guarda-fatos para uma motivação linguística da escolha dos mesmos), para exemplificação e teste do pacote;
- conjuntos de regras de anotação, incluindo conjuntos de regras de teste para aplicar às mantas de retalhos.
Levantar o corte-e-costura 1.0: zip, ficheiro LEIAME.txt
Instalação
- Extrair o conteúdo do pacote para onde for pretendido;
- Editar os ficheiros acdc_pinta_corpo.sh, acdc_pinta_corpo_teste.sh e acdc_corte-e-costura_teste.sh e modificar a variável DIR_CORTECOSTURA para o caminho completo onde o corte-e-costura foi instalado;
- Fazer a invocação dos programas a partir da directoria que contém o corpo que se pretende anotar.
Manual de utilização
O pacote corte-e-costura, além de conter os recursos necessários (programas e regras) para anotar genericamente qualquer corpo anotado previamente pelo PALAVRAS e que esteja no formato do AC/DC, inclui para testes ilustrativos dois programas e duas mantas de retalhos de textos, bem como as correspondentes regras de teste.
Os programas devem ser corridos da directoria onde se encontra o corpo a anotar, o qual deverá ter o nome corpus. As regras devem ser organizadas por campo semântico, acrescentando ao nome do ficheiro um sufixo que corresponde ao campo semântico que as regras anotam. Por exemplo, todos os ficheiros relativos à anotação do campo semântico da cor devem ter o sufixo _cor.
Em seguida, exemplifica-se cada um dos casos de anotação.
- Teste com a manta-de-retalhos_formatoregras:
- Mudar para a directoria manta-de-retalhos_formatoregras
> cd <DIR_CORTECOSTURA>/corpos/manta-de-retalhos_formatoregras
- Correr o programa acdc_corte-e-costura_teste.sh de acordo com o teste que se pretende:
- Opção 1: Correr o programa de teste sem recursividade
> ./acdc_corte-e-costura_teste.sh
- Opção 2: Correr o programa de teste com recursividade
> ./acdc_corte-e-costura_teste.sh -r
NOTA: Este teste usa as regras de teste regras_corte-e-costura_cor_teste.txt.
- Teste com a manta-de-retalhos_fluxoregras:
- Mudar para a directoria manta-de-retalhos_fluxoregras
> cd <DIR_CORTECOSTURA>/corpos/manta-de-retalhos_fluxoregras
- Correr o programa acdc_pinta_corpo_teste.sh de acordo com o teste que se pretende
- Opção 1: Correr o programa de teste com o intuito de produzir apenas o corpo final anotado
> ./acdc_corte-e-costura_teste.sh "1"
- Opção 2: Correr o programa de teste com o intuito de produzir corpos temporários após a aplicação de cada passo da invocação
> ./acdc_corte-e-costura_teste.sh "1" -p
NOTA: Este teste usa as regras genéricas de teste regras_corr_PALAVRAS_cor_teste.txt, regras_positivas_cor_teste.txt, regras_negativas_cor_teste.txt, regras_especializacao_cor_teste.txt e regras_recursivas_cor_teste.txt, e as regras exclusivas desta manta de retalhos que se encontram na directoria deste corpo.
- Anotar genericamente um corpo que esteja no formato do AC/DC e cujo nome completo é, por exemplo, /home/user/meucorpo.txt
- Criar uma directoria dentro da directoria corpos com o nome do corpo:
> mkdir meucorpo
- Copiar o corpo para essa directoria, mudando-lhe o nome para corpus
> cp /home/user/meucorpo.txt <DIR_CORTECOSTURA>/corpos/meucorpo/corpus
- Mudar para a directoria nova onde está o corpo
> cd <DIR_CORTECOSTURA>/corpos/meucorpo/corpus
- Correr o programa acdc_pinta_corpo.sh indicando a posição do lema no corpo:
> ./acdc_corte-e-costura.sh <posição do lema>
NOTA: Neste caso são usadas as regras genéricas regras_corr_PALAVRAS_{cor|roupa}.txt, regras_positivas_{cor|roupa}.txt, regras_negativas__{cor|roupa}.txt, regras_especializacao_{cor|roupa}.txt e regras_recursivas_{cor|roupa}.txt, e as regras exclusivas que o utilizador possa ter criado na directoria do corpo.
Artigos e relatórios sobre o corte-e-costura
O artigo Mota e Santos (2009) descreve em detalhe o formato das regras e as diversas opções que podem ser usadas quando se corre o programa acdc_corte-e-costura.pl.
Documentação adicional e outros artigos sobre o corte-e-costura podem ser consultados através do nosso catálogo de publicações, com a marca ACDC, que identifica todas as publicações associadas ao projecto AC/DC.
Historial
- 27 de Agosto de 2010
- Lançamento público da primeira versão do corte-e-costura 1.0. Esta versão corresponde à que foi documentada e usada para produzir os resultados no artigo Santos e Mota (2010).
Última actualização: 26 de Agosto de 2010.
Data de criação da presente página: 13 de Maio de 2010.
Perguntas, comentários e sugestões