HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.


Lista de correcções realizadas às saídas dos participantes

HAREM: Lista de correcções realizadas às saídas dos participantes

Este documento tem como objectivo descrever todos os problemas envolvidos na primeira edição do HAREM, tanto para alertar futuros participantes (ou os mesmos) para estes, como para explicar o atraso com que a organização produziu os resultados.

A maior parte destes problemas poderia ter sido detectado se tivéssemos desenvolvido um programa "porteiro" que apenas deixaria passar as saídas dos sistemas que estavam conforme a sintaxe exigida, o que pensamos que deverá ser feito em próximas edições.

Por uma questão de respeito em relação aos participantes, não mencionamos a que sistema correspondem as descrições, embora saibamos que esse emparelhamento possa ser fácil de fazer, conhecendo os sistemas envolvidos.

Sistema 1

Problemas em relação ao texto
  • Nas 3 saídas que submeteu, usou a colecção HAREM 1.0, e não a 1.1 que corrigiu problemas durante a avaliação, o que fez com que se esquecesse de 4 documentos. Esses documentos foram recolocados à posteriori, processados pelo sistema (inalterado), já no ficheiro .CD.ORDENADO.
Problemas da classificação
  • Na classificação semântica, as etiquetas com categorias não tinham atributo TIPO
  • O atributo tipo vinha em minúsculas, bem como o próprio parâmetro "tipo=".

Sistema 2

Problemas introduzidos no texto
  • Introdução de {S} no início de linhas, que teve de ser removido.
  • Introdução de '{' e '}' para delimitar certas EMs.
  • No documento HAREM-78B-04818, substituiu um ponto (bullet) por um caracter estranho
Problemas da classificação
  • A etiquetagem não tem os espaços correctos, for vezes a etiqueta fica 'colada' a palavras externas à etiqueta
Outros problemas:
  • Etiquetou os metadados <GENERO><LOCAL TIPO="VIRTUAL">Web</LOCAL></GENERO>. Teve de ser retirado.

Sistema 3

Problemas da classificação
  • Adicionou espaços na colocação das etiquetas
Outros problemas:
  • Partiu o <DOCID>XXX</DOCID>
    em
    <DOCID>
    XXX</DOCID>
  • Etiquetou o conteúdo de <GENERO> e <ORIGEM>
  • Colocou </TEXTO> no início das linhas, pois esta etiqueta não começava uma linha.
  • Teve de se apagar duplicados 9450, 9451, 9471, 9477, 9478, 9486, 9488, 9502, 9522, 9527, 9549, 9556, 9564, 9567, 9580, 9592, 9596, 9599, 9608, 9612, 9622, 9629, 9648, 9659, 9666, 9669, 9674, 9676, 9691, 9700, 9706, 9708, 9728, 9733, 9734, 9743, 9756, 9776, 9786, 9803, 9805, 9827, 9828, 9840, 9846, 9852, 9897, 9906, 9914, 9917, 9927, 9930, 9948, 9952, 9954, 9972, 9973, 9975, 9986, 9987, 9992
  • Faltava-lhe 1 documento. Foi introduzido em branco, para efeitos de avaliação.

Sistema 4

Problemas no texto
  • Problema nos documentos 07068 e no 09292, onde a quebra não foi feita, e teve de se mudar à mão de

    <EM>Altitude</EM> : <EM>240 metros</EM> acima do nível do <EM>mar . &$@# Leia</EM> com atenção ! ! ! Não ignore esta mensagem antes de ler e reler , nela contem a senha para abrir a porta das suas finanças , que realizarão os seus sonhos .

    para:

    <EM>Altitude</EM>: <EM>240 metros</EM> acima do nível do mar .
    </TEXTO>
    </DOC>
    <DOC>
    <DOCID>HAREM-312-07060</DOCID>
    <GENERO>Web</GENERO>
    <ORIGEM>BR</ORIGEM>
    <TEXTO>
    Leia com atenção ! ! ! Não ignore esta mensagem antes de ler e reler , nela contem a senha para abrir a porta das suas finanças , que realizarão os seus sonhos .
    e de

    <EM>A</EM> equipe da <EM>Unidade Móvel</EM> atenderá os moradores desde um simples curativo até grandes consultas " , finalizou o <EM>secretário . &$@# Noticias</EM> - <EM>29/08/2000 CANA-CLIPPING Exportadores</EM> brasileiros poderão ter produtos sobretaxados , diz <EM>técnico Caso</EM> não haja acordo entre <EM>Brasil</EM> e <EM>Canadá</EM> sobre a forma de aplicar a compensação de US$ <EM>1 , 3</EM> bilhão decidida pela <EM>Organização Mundial do Comércio</EM> ( <EM>OMC</EM> ) na semana passada , quem pode acabar pagando são as empresas brasileiras que exportam para o <EM>Canadá</EM> .

    para

    <EM>A</EM> equipe da <EM>Unidade Móvel</EM> atenderá os moradores desde um simples curativo até grandes consultas " , finalizou o secretário .
    </TEXTO>
    </DOC>
    <DOC>
    <DOCID>HAREM-312-07060</DOCID>
    <GENERO>Web</GENERO>
    <ORIGEM>BR</ORIGEM>
    <TEXTO>
    Noticias - <EM>29/08/2000 CANA-CLIPPING Exportadores</EM> brasileiros poderão ter produtos sobretaxados , diz <EM>técnico Caso</EM> não haja acordo entre <EM>Brasil</EM> e <EM>Canadá</EM> sobre a forma de aplicar a compensação de US$ <EM>1 , 3</EM> bilhão decidida pela <EM>Organização Mundial do Comércio</EM> ( <EM>OMC</EM> ) na semana passada , quem pode acabar pagando são as empresas brasileiras que exportam para o <EM>Canadá</EM> .

Sistema 5

Problemas no texto:
  • Introdução de (4) palavras espúrias no texto em:

    • HAREM-27A-01056: Tinham clientes que punham <EM MORF="?,?">1.000</EM>, <EM MORF="?,?">2.000</EM>, <EM MORF="?,P">3.000</EM><EM MORF="M,P">3.000 cupons</EM> na urna, porque eles compram no atacado, então dava direito, pelo valor da compra, a muitos cupons.

      Obs: '3.000' está a mais

    • HAREM-594-08181: No segundo dia das apresentações das coleções de alta-costura primavera-verão 1994, desfilaram também os modelos de <EM MORF="M,S">Christian Lacroix</EM> <EM MORF="?,P">1994</EM>, desfilaram também os modelos de Christian Lacroix, <EM MORF="F,S">Torrente</EM> e Nina <EM MORF="?,?">Ricci</EM>.

      Obs: '1994' está a mais

    • HAREM-654-09451: Em julho de 1979, quando era presidente do Sindicato dos Metalúrgicos do ABC paulista e articulava a criação do PT, <EM MORF="M,S">Lula</EM><EM MORF="M,S">PT</EM>, <EM MORF="M,S">Lula</EM> deu uma entrevista à revista <EM MORF="M,S">Playboy</EM>, na qual citou os dois líderes como duas figuras políticas pelas quais ele nutria admiração.

      Obs: Há um 'PT' e 'Lula' a mais

    • HAREM-091-04065: Dia <EM MORF="?,P">15</EM> de <EM MORF="M,S">Maio</EM>, pelas <EM MORF="?,P">9.30H</EM>, no <EM MORF="M,S">Cine-Teatro</EM> <EM MORF="F,S">Caridade</EM>, em <EM MORF="F,S">Moura</EM><EM MORF="F,S">Moura</EM> irà realizar-se ...

      Obs. Há um 'Moura' a mais

Sistema 6

Problemas no texto:
  • Expansão / contracção nas seguintes situações:

    1. “pelo” >“por o”

    2. “pelos” >“por os”

    3. “pela” >“por a”

    4. “pelas” >“por as”

    5. “em uma” >“numa”

    6. “em um” >“num”

    7. “dela” >“de ela”

    8. “dele” >“de ele”

    9. remoção de “

    10. “ > por « ou »

    11. » ou « >“

    12. “do” > “de o”

    13. “da” > “de a”

    14. “>” > “\>”

    15. “nele” > “em ele”

    16. “conosco” > “com nós”

    17. 16 pontos > “13 pontos”

    18. Remoção » e «

    19. “à “ > “a a”

    20. “Da” > “de a”

    21. “lhe o” > “lho”

    22. “lhe a” > “lha”

    23. “de os” > “dos”

    24. “de as” > “das”

    25. “dessas” > “de essas”

    26. fac-similado > facsimilado

    27. “duma” > “de uma”

    28. “dum” > “de um”

    29. “no” > “em o”

    30. “levámo-lo” > “levámolo”

    31. “comigo” > “com mim”

    32. “levantou-nos” > “levantounos**“, mais três casos parecidos

    33. “consigo” > “com si”

    34. “me a” > “ma”

    35. “co ” > “com o -”

    36. “São Paulo” > “Paulo”

    37. mete “-”

    38. “o” > “õ”

    39. “Mu¤oz” > “Mu pause oz”

    40. plica ' > dupla plica ''

    41. aos 67' > aos67 second

    42. dentre > de entre


  • Na passagem do documento 06470 para o 06480, lê-se:

    Você está recebendo este e-mail gratuito através da conta <LOCAL TIPO="VIRTUAL" MORF="M,S">projecto@informatics.sintef.no</LOCAL>. Para cancelar o recebimento
    de mensagens clique aqui.
    </TEXTO>
    <DOC
    <GENERO>Literário</GENERO>
    <ORIGEM>PT</ORIGEM>
    <TEXTO>
    Coisas Que Só <PESSOA TIPO="INDIVIDUAL" MORF="?,?">Eu Seicoisas</PESSOA>

    devia ser:

    Você está recebendo este e-mail gratuito através da conta projecto@informatics.sintef.no.Para cancelar o recebimento de mensagens clique aqui.
    </TEXTO>
    </DOC>
    <DOC>
    <DOCID>HAREM-239-06480</DOCID>
    <GENERO>Literário</GENERO>
    <ORIGEM>PT</ORIGEM>
    <TEXTO>
    COISAS QUE SÓ EU SEICOISAS QUE SÓ EU SEI
    Camilo Castelo Branco
Problemas na classificação:
  • Uso de TIPO="COMMON", que não está suportado

Sistema 7

Problemas na classificação:
  • Uso de categorias inválidas. Utilizou-se um tradutor automático para corrigir.
  • Uso de <VARIADO TIPO="X">, onde X continha várias categorias. Converteu-se X para OUTRO.
Outros:
  • Foram enviados 1202 ficheiros, um para cada documento, que tiveram que ser concatenados pela organização.

Sistema 8

Problemas na classificação:
  • Entidades "escapadas" e espaçadas. Por exemplo: <LOCAL TIPO="VIRTUAL">http : \/ \/ www\.portugues\.mct\.pt \/ publicacoes\.html</LOCAL>
  • Pares categoria/tipo inválidos. Por exemplo: <MISC>, <EM TIPO="INDEF">
  • Uso de categorias inválidas, como <ACONTECIMENTO TIPO="POLITICO">, <ORGANIZACAO TIPO="ALARGADO"> ou <PESSOA TIPO="SER">, <ACONTECIMENTO TIPO="POLITICO">, <ORGANIZACAO TIPO="ALARGADO">, que tiveram de ser "traduzidas automaticamente".
Problemas no texto:
  • Etiquetas <s frag> espalhadas pelos textos
  • Etiqueta SGML <ORIGEM><ORIGEM> duplicada.
  • Etiqueta </TEXTO> não aparece no início de linha.
  • O sistema substituiu o caracter ' (plica) por ? (ponto de interrogação).

Sistema 9

Problemas na classificação:
  • Uso de atributo MORFO em vez de MORF
  • Uso de atributo 'TIPO="?"' em vez de 'TIPO="OUTRO"'
Problemas no texto:
  • Introdução de etiquetas <p> e </p> para marcar parágrafos
Outros problemas:
  • Submissão feita em codificação UTF-8. Teve de se reconverter com iconv -f utf8 -t iso8859-1 XXX > XXX2
Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.