Versão para impressão |
 | IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.
|
|
Lista de correcções realizadas às saídas dos participantes
HAREM: Lista de correcções realizadas às saídas dos participantes
Este documento tem como objectivo descrever todos os problemas envolvidos na primeira edição do HAREM, tanto para alertar futuros participantes (ou os mesmos) para estes, como para explicar o atraso com que a organização produziu os resultados.
A maior parte destes problemas poderia ter sido detectado se tivéssemos desenvolvido um programa "porteiro" que apenas deixaria passar as saídas dos sistemas que estavam conforme a sintaxe exigida, o que pensamos que deverá ser feito em próximas edições.
Por uma questão de respeito em relação aos participantes, não mencionamos a que sistema correspondem as descrições, embora saibamos que esse emparelhamento possa ser fácil de fazer, conhecendo os sistemas envolvidos.
Sistema 1
Problemas em relação ao texto
- Nas 3 saídas que submeteu, usou a colecção
HAREM 1.0, e não a 1.1 que corrigiu problemas durante a
avaliação, o que fez com que se esquecesse de 4
documentos. Esses documentos foram recolocados à posteriori,
processados pelo sistema (inalterado), já no ficheiro
.CD.ORDENADO.
Problemas da classificação
- Na classificação semântica, as etiquetas
com categorias não tinham atributo TIPO
- O atributo tipo vinha em minúsculas, bem como o
próprio parâmetro "tipo=".
Sistema 2
Problemas introduzidos no texto
- Introdução de {S} no início de linhas,
que teve de ser removido.
- Introdução de '{' e '}' para delimitar certas
EMs.
- No
documento HAREM-78B-04818, substituiu um ponto (bullet) por um
caracter estranho
Problemas da classificação
- A etiquetagem não tem os espaços correctos, for
vezes a etiqueta fica 'colada' a palavras externas à etiqueta
Outros problemas:
- Etiquetou os metadados <GENERO><LOCAL
TIPO="VIRTUAL">Web</LOCAL></GENERO>.
Teve de ser retirado.
Sistema 3
Problemas da classificação
- Adicionou espaços na colocação das
etiquetas
Outros problemas:
- Partiu o <DOCID>XXX</DOCID>
em
<DOCID>
XXX</DOCID>
- Etiquetou o conteúdo de <GENERO>
e <ORIGEM>
- Colocou </TEXTO> no início das linhas, pois esta
etiqueta não começava uma linha.
- Teve de se apagar duplicados 9450, 9451, 9471, 9477, 9478,
9486, 9488, 9502, 9522, 9527, 9549, 9556, 9564, 9567, 9580, 9592,
9596, 9599, 9608, 9612, 9622, 9629, 9648, 9659, 9666, 9669, 9674,
9676, 9691, 9700, 9706, 9708, 9728, 9733, 9734, 9743, 9756, 9776,
9786, 9803, 9805, 9827, 9828, 9840, 9846, 9852, 9897, 9906, 9914,
9917, 9927, 9930, 9948, 9952, 9954, 9972, 9973, 9975, 9986, 9987,
9992
- Faltava-lhe 1 documento. Foi introduzido em branco, para
efeitos de avaliação.
Sistema 4
Problemas no texto
Problema nos documentos 07068 e no 09292, onde a quebra não
foi feita, e teve de se mudar à mão de
<EM>Altitude</EM> : <EM>240
metros</EM> acima do nível do <EM>mar . &$@#
Leia</EM> com atenção ! ! ! Não ignore
esta mensagem antes de ler e reler , nela contem a senha para abrir a
porta das suas finanças , que realizarão os seus sonhos
.
para:
<EM>Altitude</EM>: <EM>240 metros</EM> acima do nível do mar .
</TEXTO>
</DOC>
<DOC>
<DOCID>HAREM-312-07060</DOCID>
<GENERO>Web</GENERO>
<ORIGEM>BR</ORIGEM>
<TEXTO>
Leia com atenção
! ! ! Não ignore esta mensagem antes de ler e reler , nela
contem a senha para abrir a porta das suas finanças , que
realizarão os seus sonhos .
e de
<EM>A</EM> equipe da <EM>Unidade
Móvel</EM> atenderá os moradores desde um simples
curativo até grandes consultas " , finalizou o
<EM>secretário . &$@# Noticias</EM> -
<EM>29/08/2000 CANA-CLIPPING Exportadores</EM>
brasileiros poderão ter produtos sobretaxados , diz
<EM>técnico Caso</EM> não haja acordo entre
<EM>Brasil</EM> e <EM>Canadá</EM>
sobre a forma de aplicar a compensação de US$ <EM>1
, 3</EM> bilhão decidida pela <EM>Organização
Mundial do Comércio</EM> ( <EM>OMC</EM> ) na
semana passada , quem pode acabar pagando são as empresas
brasileiras que exportam para o <EM>Canadá</EM> .
para
<EM>A</EM>
equipe da <EM>Unidade Móvel</EM> atenderá
os moradores desde um simples curativo até grandes consultas "
, finalizou o secretário .
</TEXTO>
</DOC>
<DOC>
<DOCID>HAREM-312-07060</DOCID>
<GENERO>Web</GENERO>
<ORIGEM>BR</ORIGEM>
<TEXTO>
Noticias -
<EM>29/08/2000 CANA-CLIPPING Exportadores</EM>
brasileiros poderão ter produtos sobretaxados , diz
<EM>técnico Caso</EM> não haja acordo entre
<EM>Brasil</EM> e <EM>Canadá</EM>
sobre a forma de aplicar a compensação de US$ <EM>1
, 3</EM> bilhão decidida pela <EM>Organização
Mundial do Comércio</EM> ( <EM>OMC</EM> ) na
semana passada , quem pode acabar pagando são as empresas
brasileiras que exportam para o <EM>Canadá</EM> .
Sistema 5
Problemas no texto:
- Introdução de (4) palavras espúrias no texto
em:
HAREM-27A-01056: Tinham clientes que punham <EM
MORF="?,?">1.000</EM>, <EM
MORF="?,?">2.000</EM>, <EM
MORF="?,P">3.000</EM><EM MORF="M,P">3.000
cupons</EM> na urna, porque eles compram no atacado, então
dava direito, pelo valor da compra, a muitos cupons.
Obs: '3.000' está a mais
HAREM-594-08181: No segundo dia das apresentações
das coleções de alta-costura primavera-verão
1994, desfilaram também os modelos de <EM
MORF="M,S">Christian Lacroix</EM> <EM
MORF="?,P">1994</EM>, desfilaram também os
modelos de Christian Lacroix, <EM MORF="F,S">Torrente</EM>
e Nina <EM MORF="?,?">Ricci</EM>.
Obs: '1994' está a mais
HAREM-654-09451: Em julho de 1979, quando era presidente do
Sindicato dos Metalúrgicos do ABC paulista e articulava a
criação do PT, <EM MORF="M,S">Lula</EM><EM
MORF="M,S">PT</EM>, <EM MORF="M,S">Lula</EM>
deu uma entrevista à revista <EM MORF="M,S">Playboy</EM>,
na qual citou os dois líderes como duas figuras políticas
pelas quais ele nutria admiração.
Obs: Há um 'PT' e 'Lula' a mais
HAREM-091-04065: Dia <EM MORF="?,P">15</EM>
de <EM MORF="M,S">Maio</EM>, pelas <EM
MORF="?,P">9.30H</EM>, no <EM
MORF="M,S">Cine-Teatro</EM> <EM
MORF="F,S">Caridade</EM>, em <EM
MORF="F,S">Moura</EM><EM MORF="F,S">Moura</EM>
irà realizar-se ...
Obs. Há um 'Moura' a mais
Sistema 6
Problemas no texto:
- Expansão / contracção nas seguintes
situações:
1.
“pelo” >“por o”
2.
“pelos” >“por os”
3.
“pela” >“por a”
4.
“pelas” >“por as”
5.
“em uma” >“numa”
6.
“em um” >“num”
7.
“dela” >“de ela”
8.
“dele” >“de ele”
9.
remoção de “
10.
“ > por « ou »
11.
» ou « >“
12.
“do” > “de o”
13.
“da” > “de a”
14.
“>” > “\>”
15.
“nele” > “em ele”
16.
“conosco” > “com nós”
17.
16 pontos > “13 pontos”
18.
Remoção » e «
19.
“à “ > “a a”
20.
“Da” > “de a”
21.
“lhe o” > “lho”
22.
“lhe a” > “lha”
23.
“de os” > “dos”
24.
“de as” > “das”
25.
“dessas” > “de essas”
26.
fac-similado > facsimilado
27.
“duma” > “de uma”
28.
“dum” > “de um”
29.
“no” > “em o”
30.
“levámo-lo” > “levámolo”
31.
“comigo” > “com mim”
32.
“levantou-nos” > “levantounos**“, mais
três casos parecidos
33.
“consigo” > “com si”
34.
“me a” > “ma”
35.
“co ” > “com o -”
36.
“São Paulo” > “Paulo”
37.
mete “-”
38.
“o” > “õ”
39.
“Mu¤oz” > “Mu
pause oz”
40.
plica ' > dupla plica ''
41.
aos 67' > aos67 second
42.
dentre > de entre
- Na passagem do documento 06470 para o 06480, lê-se:
Você está
recebendo este e-mail gratuito através da conta <LOCAL
TIPO="VIRTUAL"
MORF="M,S">projecto@informatics.sintef.no</LOCAL>.
Para cancelar o recebimento
de mensagens
clique aqui.
</TEXTO>
<DOC
<GENERO>Literário</GENERO>
<ORIGEM>PT</ORIGEM>
<TEXTO>
Coisas Que Só
<PESSOA TIPO="INDIVIDUAL" MORF="?,?">Eu
Seicoisas</PESSOA>
devia ser:
Você está
recebendo este e-mail gratuito através da conta
projecto@informatics.sintef.no.Para cancelar o recebimento de
mensagens clique aqui.
</TEXTO>
</DOC>
<DOC>
<DOCID>HAREM-239-06480</DOCID>
<GENERO>Literário</GENERO>
<ORIGEM>PT</ORIGEM>
<TEXTO>
COISAS QUE SÓ
EU SEICOISAS QUE SÓ EU SEI
Camilo Castelo
Branco
Problemas na classificação:
- Uso de TIPO="COMMON", que não está
suportado
Sistema 7
Problemas na classificação:
- Uso de categorias inválidas. Utilizou-se um tradutor automático para corrigir.
- Uso de <VARIADO TIPO="X">,
onde X continha várias categorias. Converteu-se X para OUTRO.
Outros:
- Foram enviados 1202 ficheiros, um para cada documento, que tiveram que ser concatenados pela organização.
Sistema 8
Problemas na classificação:
- Entidades "escapadas" e espaçadas. Por exemplo: <LOCAL
TIPO="VIRTUAL">http : \/ \/ www\.portugues\.mct\.pt \/
publicacoes\.html</LOCAL>
- Pares categoria/tipo inválidos. Por exemplo: <MISC>,
<EM TIPO="INDEF">
- Uso de categorias inválidas, como <ACONTECIMENTO
TIPO="POLITICO">, <ORGANIZACAO TIPO="ALARGADO">
ou <PESSOA TIPO="SER">, <ACONTECIMENTO
TIPO="POLITICO">, <ORGANIZACAO TIPO="ALARGADO">, que tiveram de ser "traduzidas automaticamente".
Problemas no texto:
- Etiquetas <s frag> espalhadas pelos textos
- Etiqueta SGML <ORIGEM><ORIGEM>
duplicada.
- Etiqueta </TEXTO> não aparece no início
de linha.
- O sistema substituiu o caracter ' (plica) por ? (ponto de
interrogação).
Sistema 9
Problemas na classificação:
- Uso de atributo MORFO em vez de
MORF
- Uso de atributo 'TIPO="?"'
em vez de 'TIPO="OUTRO"'
Problemas no texto:
- Introdução de etiquetas <p> e </p>
para marcar parágrafos
Outros problemas:
- Submissão feita em codificação UTF-8. Teve
de se reconverter com iconv -f utf8 -t
iso8859-1 XXX > XXX2