O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).
Estrutura do corpoCada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.Marcadores estruturais: s, p. Versão do corpoCorpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 4 de julho de 2024, v. 9.1Excerto do corpo<p par=31> <s> Eis que, próximo, na cancha, arma-se uma peleia, coisa comum, aliás, em dia de carreira, entrando em cena facões, adagas, cabo de relho, argolas de rabo de tatu e outras armas campeiras . </s> </p> <p par=74> <s> Queria viajar, conhecer outras cidades e as histórias que envolviam golfinhos ou sereias . </s> </p> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]