1. Procurámos avaliar a análise de derivação. Nesse sentido nas formas com análises susceptíveis de derivação colocámos a análise com derivação e a análise sem derivação.
Ex:
encantadora÷ADJ÷encantar÷ (...) ÷deriv dor
encantadora ADJ encantador÷ (...) ÷.
Nos casos em que as formas podiam ser geradas com uma sequência de regras de derivação, a informação apresentada correspondeu apenas ao "último" passo da derivação. Por exemplo para a forma "crudelissimamente" apresentámos como lema a palavra "crudelíssimo" e não a palavra "cruel".
Não considerámos as derivações "eiro", "ado/ada", "eta" e "ico" porque nenhum dos sistemas concorrentes as utilizava.
2. Quando as palavras não são padrão:
(a) erros conhecidos
utilizámos o campo OUTROS para indicar a forma correcta:
hades÷X÷?÷.÷.÷.÷.÷.÷.÷alt hás-de
Uma alternativa seria preencher também os outros campos. mas não o fizemos porque isso implica primeiro correcção ortográfica e depois análise morfológica.
(b) palavras inventadas
Marcámos as palavras inventadas com X no POS, ? no lema e 'inventado' no campo 'outros'.
Ex:
grrrrrrr÷X÷?÷.÷.÷.÷.÷.÷.÷inventado
(c) outros casos
Marcámos as palavras desviantes (de forma mais subtil que exactamente erros (alt) ou palavras que mantêm a grafia original estrangeira inalterada (estrang)) com 'desviante' no campo 'outros'.
Ex:
capetalismo÷SUB÷capitalismo÷.÷S÷.÷M÷.÷.÷desviante bras
3. Devido ao facto de alguns sistemas fazerem conversão automática de variante para o lema, nas análises que são especificas de uma variante colocámos lema duplo, primeiro a variante respeitante à forma inicial:
Ex:
econômico÷ADJ÷econômico/económico÷ (...) ÷bras
facto÷SUB÷facto/fato÷ (...) ÷lus
4. Não incluímos na lista dourada PARTES de palavras
Ex: fortiori
5. Nas Siglas não colocámos o seu significado como lema, porque uma sigla pode ter dezenas de significados diferentes. Pela mesma razão não colocámos a informação de género.
6. Nos nomes próprios toponímicos incluímos as classificações de género e número intrínsecos, embora tenhamos chegado à conclusão que nem sempre é fácil determinar estes géneros e números intrínsecos...
Ex: Qual é o género de "Chaves" ou "Colares"?
Nos nomes próprios que reconhecemos apenas como apelidos de pessoas não atribuímos as classificações de género e número. Por exemplo: "Brando", "Gama", Serra.
7. Não colocámos palavras muito raras (que não conheciamos e não se encontravam na Web)
Ex: labrústico, asar
8. Classificámos o PoS das palavras gramaticais (Conjunções, preposições , pronomes, etc) como GRAM. Mesmo nas palavras que podiam ter várias análises GRAM diferentes, nós só colocámos uma.
9. Quando uma palavra podia ser o Particípio Passado de um verbo acrescentámos também uma análise como adjectivo. Isto fez-se por razões técnicas e não linguísticas. Não considerámos Particípio Passado com diminuitivo, Ex: considerámos "aflitinho" apenas como adjectivo.
1. Considerámos a forma "instroem" como um erro embora a conjugação do verbo "construir" seja "constroem" nesse tempo e pessoa. Na web encontrámos 6 páginas com "instroem" contra 2940 com "instruem". Encontrámos na Web 16200 páginas com "constroem" contra 72 páginas com "construem".
2. Considerámos que "marreca" não é como "corcunda" e portanto não pode ser usado no género masculino.
3. Considerámos que "dura" como substantivo não pode ser utilizado no plural. Ex: "sol de pouca dura"
4. Considerámos o lema de "violonista" como "violão" por analogia com "camionista/camião".
5. Não considerámos "servocroata" como substantivo de genéro invariável, porque não existem pessoas com essa denominação "a/o servocroata". Colocámos no entanto como substantivo de género masculino : o idioma servocroata.
6. Colocámos uma análise da forma "mais" com lema "mas" porque "mais" é uma forma desviante de "mas" no Brasil.
7. Não colocámos análises como verbos das formas "loiras", "asas", "demasiado" e "escaninhar", porque os verbos "loirar" e "asar" não estão atestados na Web e os verbos "demasiar" e "escaninhar" são demasiado raros.
8. Não colocámos análises das formas "bastante", "demasiado" e "imenso" como classificações gramaticais.
9. Colocámos a análise da forma "jeans" com genéro invariável, conforme atestado na Web,
10. Não considerámos "poeta" como "adjectivo". "poético" é que é adjectivo.
11. Considerámos "satanás" como o plural de "satanás" (seria satanases?).
12. Colocámos "general" como adjectivo. Ex: "quartel general".
1. Colocámos uma análise para a forma "simples" classificada como plural/masculino referindo os compostos quimicos utilizados em alguns medicamentos e também uma entrada como plural/feminino referindo as plantas das quais são extraídos esses compostos quimicos.
2. Colocámos uma análise para a forma "Augusto" classificada como substantivo masculino referente à designação dada ao palhaço sarapintado, que faz muitas habilidades (do francês auguste, "palhaço pobre, faz tudo").
3. No nosso dicionário não temos as formas "ufólogo", "dissimilaridade" e "descompromissado" mas incluímo-las na lista porque estão atestadas na Web.
4. Incluímos a forma "in" significando "na moda". Como por exemplo em "Aquele bar está muito in".
5. Não incluímos análise de "Brava" nem de "feliz" como substantivos. Mesmo quando aparecem sozinhos, consideramos que funcionam como adjectivo para um substantivo (por exemplo pessoa) mesmo que o substantivo esteja apenas implícito.