Acesso a corpos de português: Projecto AC/DC: corpo Natura/Minho

Natura/Minho : AC/DC : Linguateca
O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

Estrutura do corpo

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

Versão do corpo

Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 6 de julho de 2024, v. 11.1

Excerto do corpo


<art id="fevereiro/1999/02/01">
<titulo> Fevereiro mexe nos telefones </titulo>
<p par=117> <s> A partir de hoje cada impulso do serviço fixo telefónico custará 9,2 escudos , sendo o custo da instalação de 14.400 escudos e 2.100 escudos a assinatura , acrescendo a activação ( 9,2 escudos ) , que no caso das chamadas internacionais é de 18,4 escudos . </s> </p>
<p par=118> <s> Cenário mais penalizador é o dos postos públicos , onde , se a cabine for de moedas , o impulso ficará nos 12,8 escudos , ou seja , por uma chamada o utilizador pagará , à partida , 25,6 escudos . </s> </p>
...

Dados quantitativos

Corpo NATMINHO Número de formasNúmero de tipos
Unidades 225544269861
Total de palavras 180022368325
Palavras em minúscula 128414539047
Palavras com inicial maiúscula24948917475
Palavras todas em maiúsculas 155962143
Números 224521206
Palavras com números2941415
Palavras mistas970486
Pontuação1194371530

Número de unidades estruturais

Atributo Número
p 56926
s 70246
assinatura 541
legenda 782
t 7666
art 5117
marca 0
mwe 27032

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 103595 218855
Locuções 27032 57530
Palavras gráficas 1800223 1800223
Palavras simples 1523838 1523838
Palavras 1654465 1800223

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 376185 24,69%
Verbos V.* 208282 13,67%
Adjectivos ADJ.* 99438 6,53%
Pronomes pessoais .*PERS.* 19531 1,28%
Preposições PRP.* 323136 21,21%
Conjunções K.* 68920 4,52%
Advérbios ADV.* 63896 4,19%
Determinantes .*DET.* 313292 20,56%
Especificadores .*SPEC.* 28517 1,87%
Numerais NUM.* 42703 2,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões