Acesso a corpos de português: Projecto AC/DC: corpo ENPCPUB (parte em português)

ENPCPUB (parte em português) : AC/DC : Linguateca
O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
CódigoAutorObraEditoraAnoTradutor(a)Título original
JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Estrutura do corpo

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

Versão do corpo

Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado em novembro de 2018, v. 8.3

Excerto do corpo


<texto Ah1tp-4.txt>
<parte 1>
Prólogo : 1985
<p par=1>
<s frase=1>
No 747 , na primeira classe e meia hora depois da partida de Londres, o Dr. Andrew Jordan pegou a mão da mulher.
</s>
</p>
<p par=2>
<s frase=2>
-- Não se preocupe -- recomendeu ele .
</s>

Dados quantitativos

Corpo ENPCPUB Número de formasNúmero de tipos
Unidades 9257812893
Total de palavras 7290112873
Palavras em minúscula 5762710259
Palavras com inicial maiúscula70831675
Palavras todas em maiúsculas 2411
Números 13478
Palavras com números1152
Palavras mistas2418
Pontuação495320

Número de unidades estruturais

Atributo Número
p 1674
s 4354
texto 5
parte 8
capitulo 25
mwe 1287

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2571 2
Locuções 1287 2988
Palavras gráficas 72901 72901
Palavras simples 69911 69911
Palavras 73769 72901

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 13213 18,90%
Verbos V.* 12724 18,20%
Adjectivos ADJ.* 3898 5,58%
Pronomes pessoais .*PERS.* 3098 4,43%
Preposições PRP.* 11038 15,79%
Conjunções K.* 3812 5,45%
Advérbios ADV.* 5172 7,40%
Determinantes .*DET.* 12037 17,22%
Especificadores .*SPEC.* 1847 2,64%
Numerais NUM.* 769 1,10%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 22 de Novembro de 2018
Perguntas, comentários e sugestões