Acesso a corpos de português: Projecto AC/DC: corpo ENPCPUB (parte em português)

ENPCPUB (parte em português) : AC/DC : Linguateca
O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
CódigoAutorObraEditoraAnoTradutor(a)Título original
JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Estrutura do corpo

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

Versão do corpo

Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 30 de julho de 2022, v. 8.9

Excerto do corpo


<texto Ah1tp-4.txt>
<parte 1>
Prólogo : 1985
<p par=1>
<s frase=1>
No 747 , na primeira classe e meia hora depois da partida de Londres, o Dr. Andrew Jordan pegou a mão da mulher.
</s>
</p>
<p par=2>
<s frase=2>
-- Não se preocupe -- recomendeu ele .
</s>

Dados quantitativos

Corpo ENPCPUB Número de formasNúmero de tipos
Unidades 9267712901
Total de palavras 7279812881
Palavras em minúscula 5764010245
Palavras com inicial maiúscula70341669
Palavras todas em maiúsculas 7148
Números 13478
Palavras com números112
Palavras mistas1814
Pontuação495320

Número de unidades estruturais

Atributo Número
p 1682
s 4369
texto 5
parte 8
capitulo 25
mwe 1388

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2540 3206
Locuções 1388 3124
Palavras gráficas 72798 72798
Palavras simples 66468 66468
Palavras 70396 72798

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 13259 19,95%
Verbos V.* 12786 19,24%
Adjectivos ADJ.* 3882 5,84%
Pronomes pessoais .*PERS.* 3086 4,64%
Preposições PRP.* 11103 16,70%
Conjunções K.* 3805 5,72%
Advérbios ADV.* 5147 7,74%
Determinantes .*DET.* 12050 18,13%
Especificadores .*SPEC.* 1872 2,82%
Numerais NUM.* 777 1,17%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 06 de Agosto de 2022
Perguntas, comentários e sugestões