Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de
provas).
Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.
Estrutura do corpoA partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li. Versão do corpoCorpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 6 de julho de 2024, v. 11.1Excerto do corpo<art id="fevereiro/1999/02/01"> <titulo> Fevereiro mexe nos telefones </titulo> <p par=117> <s> A partir de hoje cada impulso do serviço fixo telefónico custará 9,2 escudos , sendo o custo da instalação de 14.400 escudos e 2.100 escudos a assinatura , acrescendo a activação ( 9,2 escudos ) , que no caso das chamadas internacionais é de 18,4 escudos . </s> </p> <p par=118> <s> Cenário mais penalizador é o dos postos públicos , onde , se a cabine for de moedas , o impulso ficará nos 12,8 escudos , ou seja , por uma chamada o utilizador pagará , à partida , 25,6 escudos . </s> </p> ... Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]