Acesso a corpos de português: Projecto AC/DC

Linguateca

Information in English


O projecto AC/DC (Acesso a corpos/Disponibilização de corpos), iniciado em 1999, surgiu da necessidade de juntar os poucos recursos disponíveis num único ponto na rede e dessa forma facilitar a comparação e a reutilização do material, permitindo ao mesmo tempo acesso a uma ferramenta poderosa de interrogação de corpos, o sistema CWB (versão nova do IMS corpus workbench), para o qual desenvolvemos esta interface.

Desde 2000, a anotação dos corpos tem sido feita automaticamente pelo PALAVRAS de Eckhard Bick, e convertida para o "formato AC/DC", descrito pormenorizadamente na página de Anotação.

Uma descrição quantitativa inicial dos corpos servidos presentemente pelo AC/DC encontra-se na tabela abaixo. Clique num dos corpos para o interrogar. Para cada corpo, pode pedir concordâncias, distribuição e frequências simples e complexas, veja os exemplos. Se é a primeira vez que visita o AC/DC e quer apenas experimentar, procure no corpo Vercial.

Breve descrição dos corpos

Corpo Tamanho
(unidades)
Tamanho
(palavras)
Tamanho
(frases)
Variante(s) Breve descrição
AmostRA-NILC127.83298.7864.965BRAmostRA-NILC
ANCIB1.690.3761.258.76480.992BRCorreio electrónico correspondente ao tráfego na lista ANCIB
Avante!7.766.4186.501.257204.414PTSemanário político Avante!, 1997-2002
CD HAREM222.407147.0778.185PT BRColecção dourada do HAREM
CETEMPúblico232.543.379189.575.0957.665.410PTJornal PÚBLICO, dividido em extractos, 1991-1998
CETEMPúblico (primeiro milhão)1.202.938912.29438.251PTCETEMPúblico (primeiro milhão)
CHAVE123.868.72599.478.9544.740.448PT BRJornais PÚBLICO e Folha de São Paulo, 1994-1995
Clássicos LP/Porto Editora1.922.6011.304.28274.690PTClássicos da literatura portuguesa, séc. XV e XIX
CONDIVport7.088.7755.577.632328.214PT BRJornais desportivos e revistas de moda e saúde
CoNE925.230685.22531.561PT BRMensagens de correio electrónico não-endereçadas
DiaCLAV7.758.4676.651.549232.152PTDiário de Coimbra, Diário de Leiria, Diário de Aveiro, Viseu Diário
ECI-EBR917.127724.01544.381BRTexto do corpo Borba-Ramsey, compilado pelo ECI
ECI-EE32.03427.140839PTTexto de chamada do programa europeu ESPRIT
ENPCPUB (parte portuguesa)92.69372.3894.371PT BRLiteratura traduzida do inglês proveniente do ENPC
FrasesPB23.31319.162653BRFrases em português do Brasil
FrasesPP20.04916.233594PTFrases em português de Portugal
Museu da Pessoa517.747375.15827.288PT BREntrevistas realizadas pelo Museu da Pessoa
Natura/Minho2.156.1871.749.08368.910PTJornal regional Diário do Minho, antes da revisão
Natura/Público7.369.3496.274.542225.752PTJornal PÚBLICO, dois parágrafos por notícia, 1991-1994
NILC/São Carlos42.608.03832.342.4561.963.795BRTexto do corpo NILC, contendo maioritariamente texto jornalístico, mas também cartas comerciais e textos didácticos
Vercial18.854.27314.315.992596.869PTClássicos da literatura portuguesa, séculos XVI a XX
Total457.707.958368.107.08516.342.734PT BRtodos os corpos

Para uma contabilização detalhada de todos os corpos, veja a página dos Corpos.

Existe também um serviço que permite obter frequências de itens lexicais nos variados corpos, o Ordenador.

Projectos relacionados

Mais informação sobre o projecto AC/DC

Veja os vários artigos associados ao projecto AC/DC, consultando o nosso catálogo de publicações, com a marca acdc.

[ Anotação | Atomização | Corpos | Exemplos | Agradecimentos ]


Última actualização: 05 de Fevereiro de 2010
Perguntas, comentários e sugestões