Acesso a corpos de português: Projeto AC/DC

Linguateca

Information in English


O projeto AC/DC (Acesso a corpos/Disponibilização de corpos), iniciado em 1999, surgiu da necessidade de juntar os poucos recursos disponíveis num único ponto na rede e dessa forma facilitar a comparação e a reutilização do material, permitindo ao mesmo tempo acesso a uma ferramenta poderosa de interrogação de corpos, o Open CWB (versão nova do IMS corpus workbench), para a qual desenvolvemos esta interface.

Desde 2000, a anotação dos corpos tem sido feita automaticamente pelo PALAVRAS de Eckhard Bick, e convertida para o "formato AC/DC", descrito pormenorizadamente na página de Anotação.

Uma descrição quantitativa inicial dos corpos servidos presentemente pelo AC/DC encontra-se na tabela abaixo. Clique num dos corpos para o interrogar. Para cada corpo, pode pedir concordâncias, distribuição e frequências simples e complexas, veja alguns exemplos. (Ao longo do tempo, fomos desenvolvendo uma série de serviços especializados para consultar os corpos de forma mais complexa.) Se é a primeira vez que visita o AC/DC e quer apenas experimentar, procure no corpo Vercial. Veja também a nossa PJR: lista de perguntas já respondidas.

Breve descrição dos corpos

Corpo Tamanho
(unidades)
Tamanho
(palavras)
Tamanho
(frases)
Variante(s) Breve descrição
AmostRA-NILC134.297105.4994.965BRAmostRA-NILC
ANCIB1.672.5051.243.06880.775BRCorreio electrónico correspondente ao tráfego na lista ANCIB
Avante!7.666.3706.506.813193.111PTSemanário político Avante!, 1997-2002
Corpus Brasileiro1.057.661.890893.043.84040.981.957BRCorpus Brasileiro, um bilhão (mil milhões) de palavras de português do Brasil de vários géneros
CD HAREM290.001225.76612.558PT BRColecção dourada do HAREM
CETEMPúblico250.551.822203.640.8017.504.106PTJornal PÚBLICO, dividido em extractos, 1991-1998
CHAVE116.836.44792.387.2664.385.437PT BRJornais PÚBLICO e Folha de São Paulo, 1994-1995
Ciência Viva799.360656.58927.269PTTextos escritos sobre ciência em Portugal
Colonia6.643.8794.977.678283.546PT BRObras dos séculos XVI a XX
CONDIVport7.119.1755.546.787301.000PT BRJornais desportivos e revistas de moda e saúde
CONDIVport2209.289172.4866.533PT BRJornais diários
CoNE911.431671.75631.571PT BRMensagens de correio electrónico não-endereçadas
C-Oral-Brasil435.507263.93730.632BRC-Oral-Brasil, português brasileiro oral informal
CORDIAL-SIN1.487.855850.28198.010PTTextos orais transcritos correspondendo a entrevistas em Portugal
CorTrad, lado português1.739.0291.307.74565.370BRObras traduzidas de ou para o inglês
DHBB15.961.86914.044.456461.806BRTextos escritos sobre políticos brasileiros
DiaCLAV7.709.8286.568.833210.964PTDiário de Coimbra, Diário de Leiria, Diário de Aveiro, Viseu Diário
Diáspora TL-PT27.38921.8771.035TLDiáspora TL-PT, entrevistas a timorenses em Portugal
ECI-EBR920.027724.18944.381BRTexto do corpo Borba-Ramsey, compilado pelo ECI
ECI-EE31.90027.111839PTTexto de chamada do programa europeu ESPRIT
ENPCPUB (parte em português)92.67972.7984.371PT BRLiteratura traduzida do inglês proveniente do ENPC
Floresta5.815.3594.779.248257.017PT BRFloresta Sintá(c)tica
FrasesPB23.24819.161652BRFrases em português do Brasil
FrasesPP19.96816.257594PTFrases em português de Portugal
Mariano Gago696.839571.31823.303PTTextos sobre e de José Mariano Gago
LeMe3.474.8042.557.040178.682PTBulas de medicamentos
Literateca51.013.62836.665.7352.251.535PT BRTextos literários lusófonos
Marielle, presente!502.073405.83920.443BRTextos de e sobre Marielle Franco
Moçambula68.92258.4982.285MOTextos de leitores de jornais moçambicanos
Museu da Pessoa1.838.8341.422.94693.466PT BREntrevistas realizadas pelo Museu da Pessoa
Natura/Minho2.203.5471.747.46170.273PTJornal regional Diário do Minho, antes da revisão
NOBRE12.230.6088.901.675511.303PTObras portuguesas
OBras14.427.65410.235.100630.271BRObras brasileiras
PANTERA, lado português939.091636.18943.240todasObras traduzidas de ou para o norueguês
P'lo Norte52.42540.8982.381PTBlogues escritos por portugueses sobre a Noruega
Português Falado - Documentos Autênticos148.106106.8817.569todasTextos orais transcritos (1995-1997)
ReLi163.747133.2717.349BRReLi, corpo de resenhas de livros
NILC/São Carlos44.673.22033.991.5522.053.985BRTexto do corpo NILC, contendo maioritariamente texto jornalístico, mas também cartas comerciais e textos didácticos
todos juntos1.518.927.9641.261.058.29956.970.430todasTodos os corpos juntos
Tycho Brahe4.204.1423.334.039135.840PT BRTexto do corpo Tycho Brahe
Vercial20.094.04214.288.851939.361PTClássicos da literatura portuguesa, séculos XVI a XX
Total (incluindo repetições)3.160.420.7702.614.029.834118.930.215todastodos os corpos

Para uma contabilização mais detalhada de todos os corpos, veja a página dos Corpos.

Projetos relacionados e mais informação

Finalmente, veja os vários artigos diretamente associados ao projeto AC/DC, consultando o catálogo de publicações, com a marca acdc.

[ Anotação | Atomização | Corpos | Exemplos | Agradecimentos ]


Última actualização: 04 de Setembro de 2023
Perguntas, comentários e sugestões