Acesso a corpos de português: Projecto AC/DC: corpo Natura/Minho

Natura/Minho : AC/DC : Linguateca
O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

Estrutura do corpo

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

Versão do corpo

Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, v. 8.5

Excerto do corpo


<art id="fevereiro/1999/02/01">
<titulo> Fevereiro mexe nos telefones </titulo>
<p par=117> <s> A partir de hoje cada impulso do serviço fixo telefónico custará 9,2 escudos , sendo o custo da instalação de 14.400 escudos e 2.100 escudos a assinatura , acrescendo a activação ( 9,2 escudos ) , que no caso das chamadas internacionais é de 18,4 escudos . </s> </p>
<p par=118> <s> Cenário mais penalizador é o dos postos públicos , onde , se a cabine for de moedas , o impulso ficará nos 12,8 escudos , ou seja , por uma chamada o utilizador pagará , à partida , 25,6 escudos . </s> </p>
...

Dados quantitativos

Corpo NATMINHO Número de formasNúmero de tipos
Unidades 220855769000
Total de palavras 174863667453
Palavras em minúscula 128478738992
Palavras com inicial maiúscula25380617610
Palavras todas em maiúsculas 125501328
Números 221841268
Palavras com números2747354
Palavras mistas1436439
Pontuação1196351546

Número de unidades estruturais

Atributo Número
p 57123
s 69036
assinatura 539
legenda 782
t 7661
art 5117
marca 0
mwe 30536

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 104242 220100
Locuções 30536 64151
Palavras gráficas 1748636 1748636
Palavras simples 1464385 1464385
Palavras 1599163 1748636

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 374151 25,55%
Verbos V.* 207519 14,17%
Adjectivos ADJ.* 100303 6,85%
Pronomes pessoais .*PERS.* 19892 1,36%
Preposições PRP.* 313444 21,40%
Conjunções K.* 73461 5,02%
Advérbios ADV.* 72008 4,92%
Determinantes .*DET.* 315085 21,52%
Especificadores .*SPEC.* 22878 1,56%
Numerais NUM.* 42092 2,87%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões