Projecto AC/DC: corpo NILC/São Carlos

AC/DC : Linguateca
O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

Procurar:     

Resultado:
Concordância
Distribuição das formas
Distribuição dos lemas
Distribuição da categoria gramatical (PoS)
Distribuição do tempo verbal e/ou do caso pronominal
Distribuição de pessoa e/ou número
Distribuição do género morfológico
Distribuição da função sintáctica
Distribuição por género de texto
Distribuição por campo semântico
Distribuição por grupo (de cor, roupa, etc.)
Opções
Resultados por ordem alfabética (só distribuições)

Tipo Jornalístico e outros
Variante(s) BR
Tamanho (unidades) 42.6 milhões
Tamanho (palavras) 32.3 milhões

Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! CD HAREM CETEMPúblico CETEMPúblico (primeiro milhão) CHAVE Clássicos LP/Porto Editora CONDIVport CoNE DiaCLAV ECI-EBR ECI-EE ENPCPUB (parte portuguesa) FrasesPB FrasesPP Museu da Pessoa Natura/Minho Natura/Público NILC/São Carlos Vercial

Estrutura do corpo

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra inteirointeiroconcordância
palavras terminando em ístico ".*ístico" concordância
adjectivos antecedidos por uma preposição [pos="PRP"] [pos="ADJ"] concordância
formas do verbo reunir[lema="reunir"] concordância
substantivos modificados por muito[lema="muito"& pos="DET" & func=">N"] @[pos="N.*"] distribuição de lema

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 26 de Março de 2010
Perguntas, comentários e sugestões