Acesso a corpos de português: Projecto AC/DC

Linguateca

Information in English


O projecto AC/DC (Acesso a corpos/Disponibilização de corpos), iniciado em 1999, surgiu da necessidade de juntar os poucos recursos disponíveis num único ponto na rede e dessa forma facilitar a comparação e a reutilização do material, permitindo ao mesmo tempo acesso a uma ferramenta poderosa de interrogação de corpos, o sistema CWB (versão nova do IMS corpus workbench), para o qual desenvolvemos esta interface.

Desde 2000, a anotação dos corpos tem sido feita automaticamente pelo PALAVRAS de Eckhard Bick, e convertida para o "formato AC/DC", descrito pormenorizadamente na página de Anotação.

Uma descrição quantitativa inicial dos corpos servidos presentemente pelo AC/DC encontra-se na tabela abaixo. Clique num dos corpos para o interrogar. Para cada corpo, pode pedir concordâncias, distribuição e frequências simples e complexas, veja os exemplos. Se é a primeira vez que visita o AC/DC e quer apenas experimentar, procure no corpo Vercial. Veja também a nossa PJR: lista de perguntas já respondidas.

Breve descrição dos corpos

Corpo Tamanho
(unidades)
Tamanho
(palavras)
Tamanho
(frases)
Variante(s) Breve descrição
AmostRA-NILC127.83298.7864.965BRAmostRA-NILC
ANCIB1.690.3761.258.76480.992BRCorreio electrónico correspondente ao tráfego na lista ANCIB
Avante!7.766.3096.501.146204.414PTSemanário político Avante!, 1997-2002
CD HAREM290.001225.76612.558PT BRColecção dourada do HAREM
CETEMPúblico240.424.488191.277.6788.128.620PTJornal PÚBLICO, dividido em extractos, 1991-1998
CHAVE123.936.52899.355.3214.740.448PT BRJornais PÚBLICO e Folha de São Paulo, 1994-1995
CONDIVport7.089.8725.577.161318.753PT BRJornais desportivos e revistas de moda e saúde
CoNE925.262685.24431.562PT BRMensagens de correio electrónico não-endereçadas
DiaCLAV7.758.4696.651.523232.152PTDiário de Coimbra, Diário de Leiria, Diário de Aveiro, Viseu Diário
ECI-EBR917.124724.00844.381BRTexto do corpo Borba-Ramsey, compilado pelo ECI
ECI-EE32.03427.138839PTTexto de chamada do programa europeu ESPRIT
ENPCPUB (parte em português)92.68872.3754.371PT BRLiteratura traduzida do inglês proveniente do ENPC
Floresta7.252.2525.950.072327.179PT BRFloresta Sintá(c)tica
FrasesPB23.31319.162653BRFrases em português do Brasil
FrasesPP20.04816.232594PTFrases em português de Portugal
Museu da Pessoa517.740375.14927.288PT BREntrevistas realizadas pelo Museu da Pessoa
Natura/Minho2.156.7071.748.69869.100PTJornal regional Diário do Minho, antes da revisão
NILC/São Carlos42.519.79932.303.7611.954.909BRTexto do corpo NILC, contendo maioritariamente texto jornalístico, mas também cartas comerciais e textos didácticos
todos juntos356.872.560281.870.35212.949.733todasTodos os corpos juntos
Vercial20.595.09714.710.560950.980PTClássicos da literatura portuguesa, séculos XVI a XX
Total821.008.499649.448.89630.084.491PT BRtodos os corpos

Para uma contabilização detalhada de todos os corpos, veja a página dos Corpos.

Existe também um serviço que permite obter frequências de itens lexicais nos variados corpos, o Ordenador.

Projectos relacionados

Mais informação sobre o projecto AC/DC

Veja os vários artigos associados ao projecto AC/DC, consultando o nosso catálogo de publicações, com a marca acdc.

[ Anotação | Atomização | Corpos | Exemplos | Agradecimentos ]


Última actualização: 21 de Janeiro de 2012
Perguntas, comentários e sugestões