Acesso a corpos de português: Projecto AC/DC: corpo LeMe

LeMe : AC/DC : Linguateca
O LeMe-PT (Leaflets of Medicine) é um corpo constituído por bulas de medicamentos comercializados em Portugal. Para cada substância ativa foi selecionado um medicamento (forma comercial) para o representar. Mais detalhes em: https://github.com/ambs/LeMe/

Estrutura do corpo

Os textos vinham marcados com <item> e <title>, que foram substituídos por - e por <t> na versão do AC/DC.

O corpo está dividido em textos separados, marcados pelo atributo texto, com informação do identificador do mesmo.

Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

Como atributos posicionais adicionais temos o fonte que indica qual o nome do medicamento

Versão do corpo

Corpo LeMe, criado a 6 de julho de 2024, v. 3.1

Excerto do corpo


<texto abiraterona.txt>
<p>
<s> ZYTIGA 500 mg comprimidos revestidos por película acetato de abiraterona </s>
</p>
<p>
<s> Leia atentamente este folheto antes de começar a tomar este medicamento, pois contém informação importante para si . </s>
</p>
<p>
<s> - Conserve este folheto . </s>
</p>
<p>
<s> - Caso ainda tenha dúvidas, fale com o seu médico ou farmacêutico . </s>
</p>
<p> (...)
</texto>

Dados quantitativos

Corpo LEME Número de formasNúmero de tipos
Unidades 349679543122
Total de palavras 258150942086
Palavras em minúscula 189708821894
Palavras com inicial maiúscula2800929454
Palavras todas em maiúsculas 250442171
Números 721461951
Palavras com números6933823
Palavras mistas4186990
Pontuação165901884

Número de unidades estruturais

Atributo Número
p 143620
s 178678
t 13986
texto 1191
mwe 36283

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 105013 184196
Locuções 36283 76195
Palavras gráficas 2581509 2581509
Palavras simples 2321118 2321118
Palavras 2462414 2581509

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 632900 27,27%
Verbos V.* 353450 15,23%
Adjectivos ADJ.* 215660 9,29%
Pronomes pessoais .*PERS.* 32948 1,42%
Preposições PRP.* 376285 16,21%
Conjunções K.* 138448 5,96%
Advérbios ADV.* 101066 4,35%
Determinantes .*DET.* 355472 15,31%
Especificadores .*SPEC.* 20899 0,90%
Numerais NUM.* 80212 3,46%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões