Perguntas já respondidas

Linguateca


1. Linguateca
O que é a Linguateca?
Porque é que a Linguateca está distribuída? 
Qual é a missão da Linguateca? 
Porque é importante a Linguateca? 
Como posso colaborar com a Linguateca?
Quem financia a Linguateca?
Qual o estatuto jurídico dos documentos, ferramentas e materiais de trabalho disponibilizados pela Linguateca?
Como citar a Linguateca?
2. Catálogo e Fórum
Não encontrei o meu grupo de investigação no catálogo. O que deverei fazer para que passe a constar?
Tenho um recurso que gostava de ver disponível no sítio da Linguateca. O que devo fazer?
O meu grupo de investigação está a organizar um congresso. O que devo fazer para que seja divulgado no sítio da Linguateca?
Existe um vaga para um colaborador no meu grupo de investigação. É possível fazer a divulgação da oferta de trabalho no sítio da Linguateca?
Encontrei uma ligação incorrecta ou que deixou de existir. O que devo fazer?
3. Recursos
3.0 AC/DC
O que é o AC/DC?
Para que serve este serviço?
Onde posso encontrar informação sobre a anotação dos corpora?
Existe uma codificação específica para busca no AC/DC, ou as fórmulas podem e precisam ser criadas pelo próprio usuário?
Não é possível fazer uma cópia das ocorrências de cada pesquisa?
Como devo citar o projecto AC/DC?
Onde posso obter mais informações sobre o projecto AC/DC?
Quais são os corpora a que posso aceder através do sítio da Linguateca?
Como é que eu posso procurar X nos corpora?
3.1 CETEMPúblico
O que é o CETEMPúblico?
Como devo citar o CETEMPúblico?
Como devo citar extractos do CETEMPúblico?
O que é o CQP Demo? 
O que é o IMS CWB?
Que diferenças há entre o sistema IMS CWB completo e o CQPDemo?
Tenho alguma vantagem em usar o CQPDemo?
3.2 CETENFolha
O que é o CETENFolha?
Como devo citar o CETENFolha?
3.3 CHAVE
O que é a CHAVE?
Como devo citar a colecção CHAVE?
3.4 Floresta Sintá(c)tica
A quem se destina o projecto Floresta Sintá(c)tica?
Onde posso encontrar mais informação sobre o projecto Floresta Sintá(c)tica?
O que é a Floresta Virgem?
O que é o Bosque?
O que é a Selva?
O que é o Milhafre?
O que é o Águia?
Como devo citar a Floresta Sintá(c)tica?
3.5 COMPARA/DISPARA
O que é o COMPARA?
O que é o DISPARA?
Como devo citar o COMPARA?
3.6 Corpógrafo
O que é o Corpógrafo?
Como devo citar o Corpógrafo?
3.7 Esfinge
O que é o Esfinge?
Como devo citar o Esfinge?
3.8 NATools
O que é o NATools?
Como devo citar o NATools?
3.9 SUPeRB
O que é o SUPeRB?
Como devo citar o SUPeRB?
3.10 SIEMÊS
O que é o SIEMÊS?
Como devo citar o SIEMÊS?
3.11 REPENTINO
O que é o REPENTINO?
Como devo citar o REPENTINO?
3.12 WPT03
O que é a WPT03?
Como devo citar a WPT03?
3.13 Geo-Net-PT
O que é a Geo-Net-PT?
Como devo citar a Geo-Net-PT?
4. Avaliação
O que é avaliação conjunta?
O que são as Morfolimpíadas?
O que é o HAREM?
O que é o CLEF?
5. Navegação no sítio da Linguateca
Como posso encontrar informações sobre etiquetadores para a Língua Portuguesa?
Quando selecciono uma opção da barra de navegação, que se encontra do lado esquerdo da vossa página, não acontece nada. O que devo fazer?
Posso fazer pesquisas no site?


1. Linguateca

O que é a Linguateca?
A Linguateca é uma organização virtual (distribuída) de I&D constituída por quatro pólos localizados em centros de investigação de renome e com experiência em processamento do português.

Porque é que a Linguateca está distribuída?
A Linguateca distribui-se por diferentes centros de investigação com o objectivo de integrar e potenciar o espírito e a filosofia do projecto inicial (Projecto do Processamento Computacional do Português) nos centros que acolhem os pólos, através de uma colaboração prática, desenvolvendo serviços e disseminando (ou ajudando a disseminar) os recursos já existentes.

Qual é a missão da Linguateca?
A Linguateca dedica-se a três objectivos fundamentais:
- divulgação e catalogação do processamento computacional do português na rede;
- disponibilização, melhoria e criação de recursos;
- avaliação da área, através da organização de avaliações conjuntas.

Porque é importante a Linguateca?
A Linguateca visa solucionar dois problemas identificados na área do processamento computacional da língua portuguesa: (i) a falta de recursos que possam servir de base ao desenvolvimento de aplicações e ao próprio estudo da língua portuguesa; e (ii) a falta de métodos e de métricas de avaliação para comparar sistemas e para avaliar o progresso na área.

Como posso colaborar com a Linguateca?
A Linguateca tem como uma das finalidades estimular a colaboração entre os vários actores no campo do processamento do português. Por isso, se é responsável por projectos na área, note que, além de informarmos sobre todas as iniciativas de que temos notícia, contemplamos a possibilidade de ajudar na construção de recursos públicos, assim como de participar em projectos de avaliação ou no desenho de projectos de colaboração. Se é um utilizador do nosso portal e/ou dos nossos recursos, pode colaborar activamente ao dar-nos sugestões de os melhorar, e eventualmente fazendo trabalhos sobre os mesmos. Para ambas as actividades, contacte-nos.

Quem financia a Linguateca?
A Linguateca provém do Projecto Processamento Computacional do Português, financiado em 1998-2000 através de um contrato entre a Agência de Inovação e o SINTEF, por iniciativa directa do Ministério da Ciência e Tecnologia de então. Em 2000 evoluiu para o então chamado Centro de Recursos - distribuído - para o processamento computacional da Língua Portuguesa (CRdLP),financiado através do programa POSI, correspondendo administrativamente a três projectos diferentes, como indicado na página principal da Linguateca.

Qual o estatuto jurídico dos documentos, ferramentas e materiais de trabalho disponibilizados pela Linguateca?
Todo o material que disponibilizamos não é restrito a nenhum grupo e foi autorizado (nos termos em que o disponibilizamos) pelos respectivos autores ou detentores de direitos de autor. De recurso para recurso as condições são diferentes, estando especificadas na documentação de cada um deles. Em caso de dúvida deve contactar-nos.As ferramentas criadas pela Linguateca são disponibilizadas nos termos da Licença pública geral GNU. Há que ter, no entanto, em atenção a diferença fundamental entre o que de facto disponibilizamos e o que é apenas por nós catalogado. No primeiro caso na secção "Acesso a Recursos", no segundo caso na secção "Catálogo de Recursos". As condições de utilização destes últimos devem ser confirmadas junto dos respectivos autores.

Como citar a Linguateca?
Apresentamos aqui várias formas, mais ou menos extensas, de se referir à Linguateca:

Também preparámos umas frases relativa à Linguateca em inglês:
 

2. Catálogo e Fórum

Não encontrei o meu grupo de investigação no catálogo. O que deverei fazer para que passe a constar?
Deverá enviar uma mensagem, com o seu pedido e o endereço URL do seu grupo.

Tenho um recurso que gostava de ver disponível no sítio da Linguateca. O que devo fazer?
Se o seu grupo de investigação já tiver um sítio próprio onde publica os seus recursos, bastará enviar uma mensagem mostrando o seu interesse em que a Linguateca aponte para esse recurso e o endereço URL que deverá ser apontado no nosso sítio.
Caso contrário, temos um sistema de repositório (em http://www.linguateca.pt/Repositorio/nome_do_recurso) que poderá albergar esse recurso, sendo necessário enviá-lo juntamente com todas as instruções necessárias para procecer à sua instalação e disponibilização.

O meu grupo de investigação está a organizar um congresso. O que devo fazer para que seja divulgado no sítio da Linguateca?
Se a conferência tiver um sítio próprio deverá enviar uma mensagem manifestando o seu interesse na divulgação da mesma, o nome da conferência e o endereço URL para ser apontado no nosso Fórum.
Caso contrário, poderá enviar-nos, para o mesmo endereço o texto do anúncio, preferencialmente em formato HTML.

Existe um vaga para um colaborador no meu grupo de investigação. É possível fazer a divulgação da oferta de trabalho no sítio da Linguateca?
Sim, enviando uma mensagem com a oferta de trabalho e manifestando o vosso interesse em que ela seja divulgada no nosso Fórum.

Encontrei uma ligação incorrecta ou que deixou de existir. O que devo fazer?
Deverá enviar uma mensagem dizendo: o endereço URL da página que contém a ligação incorrecta, o endereço URL incorrecto e o endereço correcto. 

3. Recursos

3.0 AC/DC  

O que é o AC/DC?
O AC/DC é um projecto/serviço que tem como principal objectivo melhorar significativamente o acesso a corpora em língua portuguesa, tornando todos os corpora já existentes, cujos proprietários autorizaram a sua divulgação, acessíveis na rede através de uma interface simples (http://www.linguateca.pt/ACDC/). Em paralelo com a actividade de disponibilizar os corpora já existentes, o projecto tem criado outros com material de outras fontes e outros géneros, também acessíveis através da mesma interface.

Para que serve este serviço?
Este serviço permite fazer pesquisas nos diferentes corpora (um de cada vez), com base em expressões de procura que podem conter informação linguística. O resultado obtido pode ser uma concordância em contexto dos objectos que satisfazem a expressão ou a distribuição, no corpus seleccionado, desses mesmos objectos.

Onde posso encontrar informação sobre a anotação dos corpora?
A informação morfológica e sintáctica produzida pelo analisador sintáctico PALAVRAS está descrita no seguinte URL: http://visl.sdu.dk/visl/pt/info/symbolset-manual.html

Existe uma codificação específica para busca no AC/DC, ou as fórmulas podem e precisam ser criadas pelo próprio usuário?
Existe uma linguagem específica de procura que é a da ferramenta de corpus subjacente, o IMS CWB, e que é muito flexível (veja-se tutorial do IMS-CWB em http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/), e que terá de ser manipulada com base nos nomes dos atributos e dos seus valores, que nós atribuímos ao codificar os corpora.
Há dois tipos de atributos: estruturais (que identificam conjuntos de átomos, tais como s (frase) ou p (parágrafo)) e posicionais (associados a cada átomo, tal como POS categoria gramatical ou LEMA lema). Os atributos estruturais encontram-se descritos nas páginas de contabilização dos corpora. Os nomes dos atributos posicionais usados, assim como os valores que estes atributos podem ter, encontram-se nas páginas de anotação do AC/DC.

Não é possível fazer uma cópia das ocorrências de cada pesquisa?
É! Dependendo do browser, aqui vai o procedimento a seguir:
Opera: clique no botão esquerdo, escolha: Frame -> Save As ... E escolha o nome em que quer guardar o resultado (em formato HTML)
Netscape: clique no botão esquerdo, seleccione: This Frame -> Save Frame As ... E escolha o nome em que quer guardar o resultado (em formato HTML)
Mozilla: clique no botão esquerdo, seleccione: This Frame -> Save Frame As ... E escolha o nome em que quer guardar o resultado (em formato HTML)
Internet Explorer: clique com o botão direito na frame da direita, escolha View Source e grave o ficheiro resultante com extensão html (ex: meu_ficheiro.html)

Como devo citar o projecto AC/DC?
Se usar os corpora do projecto AC/DC, agradecemos que indique, pelo menos, uma das seguintes referências: Santos & Bick (2000) ou Santos & Sarmento (2003).

Onde posso obter mais informações sobre o projecto AC/DC?

Para mais informações sobre o AC/DC são sugeridos a leitura dos vários artigos (que contêm exemplos) e do manual do CQP citados na página de exemplos do AC/DC.

Quais são os corpora a que posso aceder através do sítio da Linguateca?
Em primeiro lugar, a Linguateca tem o projecto AC/DC (http://www.linguateca.pt/ACDC/) cujo objectivo é dar acesso, através da rede, a TODOS os corpora de português existentes, desde que os seus autores o autorizem. Em paralelo, a Linguateca dá também acesso, na rede e para distribuição (seja por FTP ou CD), a todos os corpora criados no seu âmbito (CETEMPúblico, CETENFolha, Floresta Sintá(c)tica). Apenas no caso do COMPARA, um corpus paralelo português-inglês, se dá acesso apenas através da rede devido a restrições exigidas pelas editoras.

Como é que eu posso procurar X nos corpora?
Cada serviço tem variada documentação e informação de como proceder. Por vezes o mais difícil é encontrá-la...
Muitas vezes, contudo, a informação que quer procurar não se encontra (ou não é passível de procura simples) nos corpora. Apresentamos alguns exemplos aqui deste último problema:
"Quero encontrar verbos intransitivos". O que se pode procurar são contextos em que um dado verbo é usado intransitivamente. Alternativamente, e dado um conjunto de verbos que o utilizador considera como intransitivos, podem-se procurar estes.
"Quero procurar palavras em itálico". Ora nós não marcámos (ou já não recebemos) essa informação nos corpora, por isso não é possível encontrá-la.
Outro exemplo ainda são "Quero ver erros comuns". Embora possamos ter erros nos corpora, não estão marcados como tal, por isso é preciso que o utilizador saiba exactamente o que quer procurar e que analise se o resultado é um erro ou não...
Alguns exemplos de procuras com interesse nos corpora AC/DC são dados no texto Usos de corpora (em desenvolvimento), o qual sugerimos que seja consultado para ter uma ideia das possibilidades. Veja também o material criado por ocasião da Primeira Escola de Verão da Linguateca e para o encontro satélite do TaLC 2008.

3.1 CETEMPúblico

O que é o CETEMPúblico?
O CETEMPúblico é um corpus de linguagem jornalística portuguesa (com material do jornal PÚBLICO) contendo aproximadamente 180 milhões de palavras, criado pela Linguateca. Consulte-se http://www.linguateca.pt/CETEMPublico/ para informação mais detalhada sobre o corpus e sobre a obtenção do CQPdemo.

Como devo citar o CETEMPúblico?
Se usar o CETEMPúblico agradecemos que indique, pelo menos, uma das seguintes referências: Rocha & Santos (2000) ou Santos & Rocha (2001).

Como devo citar extractos do CETEMPúblico?
Se usar extractos do CETEMPúblico basta que cite a primeira vez ou refira o artigo sobre o CETEMPúblico.
Por exemplo, em vez usar algo como:
            (
Santos and Rocha 2001, CETEMPúblico 1.7, ext. 1010 (des, 92b))
pode usar a mnemónica:
      CP1010-3 
Indicando a frase 3 do extracto.
Eventualmente, se for relevante pode ainda incluir a informação do semestre e secção:
      CP1010-3 (des, 92b)

O que é o CQP Demo?
O CQP Demo é o sistema de processamento de corpora IMS Corpus Workbench restrito a um corpus particular, no caso presente o CETEMPúblico (versao 1.4).

O que é o IMS CWB?
O IMS CWB é um sistema de processamento de corpora para sistemas Unix/Linux que permite procuras linguisticamente motivadas. Do ponto de vista informático, tem uma concepção eficiente, permitindo acessos rápidos a corpora até 300 milhões de palavras. Veja-se http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench para mais informação.

Que diferenças há entre o sistema IMS CWB completo e o CQPDemo?
A única diferença entre o sistema completo e a versão demo (que só permite acesso ao CETEMPúblico) é que esta última não necessita de uma licença.

Tenho alguma vantagem em usar o CQPDemo?
Sim, se apenas estiver apenas interessado em usar o sistema IMS CWB para pesquisar o corpus CETEMPúblico. Nesse caso, deverá obtê-lo no formato CQP.
 

3.2 CETENFolha  

O que é o CETENFolha?
O CETENFolha é um corpus jornalístico de textos do jornal Folha de São Paulo de 1994, totalizando cerca de 24 milhões de palavras, construído como o "homólogo brasileiro do CETEMPúblico" de forma a produzir um corpus semelhante em português brasileiro e permitir assim mais facilmente a comparação com português de Portugal. O texto das notícias encontrava-se no corpus NILC, em particular na parte do corpus NILC disponibilizada pelo projecto AC/DC através do nome NILC/São Carlos. O corpus foi em seguida anotado com o PALAVRAS de Eckhard Bick.

Como devo citar o CETENFolha?
O CETENFolha pode ser referido como "um dos corpora acessíveis através do projecto AC/DC", usando as referências ao AC/DC, mas convém também indicar que é uma parte do Corpus NILC.
 

3.3 CHAVE  

O que é a CHAVE?
A colecção CHAVE é uma colecção para avaliação em recolha de informação e resposta automática a perguntas, criada no âmbito da participação da Linguateca na organização do CLEF. Além de conter os textos completos do PÚBLICO e da Folha de São Paulo relativos aos anos de 1994 e 1995, contém ainda um conjunto (150) de tópicos em português de recolha de informação (RI) e recolha de informação geográfica (RIG) assim como os julgamentos dos montes correspondentes, e mil perguntas e sua resposta nas colecções.

Como devo citar a colecção CHAVE?
Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007).

3.4 Floresta Sintá(c)tica

A quem se destina o projecto Floresta Sintá(c)tica?
O projecto Floresta Sintá(c)tica pretende envolver:
1. Investigadores que queiram participar activamente na criação da floresta, quer usando os seus sistemas para produzir outras representações, quer fornecendo anotação manual, quer ajudando a definir e a consolidar critérios, produtos, tarefas.
2. Futuros (e presentes) utilizadores. Pessoas que usariam esse recurso, seja para fazer estudos sintácticos, seja para avaliar os seus sistemas, seja para alcançar outro objectivo qualquer.
3. Observadores. Pessoas que gostariam de estar ao corrente da problemática de criação de um "treebank" para o português, e eventualmente dar a sua opinião sobre os assuntos discutidos.

Onde posso encontrar mais informação sobre o projecto Floresta Sintá(c)tica?
Visitando a página http://www.linguateca.pt/Floresta/ que contém informação detalhada sobre o projecto, e sobre a(s) forma(s) de participar, e que se pretende que seja uma página dinâmica sofrendo melhoramentos frequentes. 

O que é a Floresta Virgem?
A Floresta Virgem deve ser indicada como um recurso criado por uma colaboração entre a Linguateca e o projecto VISL, no âmbito do projecto Floresta Sintá(c)tica, e que é formado pelo primeiro milhão do CETEMPúblico (Rocha & Santos (2000)) e do CETENFolha, anotados automaticamente pelo PALAVRAS (Bick, 2000), sem revisão humana, portanto.

O que é o Bosque? O Bosque é um subconjunto da Floresta Virgem, revisto por linguistas, e cujas opções de anotação estão em Cláudia Freitas & Susana Afonso. Bíblia Florestal: Um manual lingüístico da Floresta Sintá(c)tica.

O que é a Selva?
A Selva é um corpus parcialmente revisto, e contém textos literários, científicos e transcrições de entrevistas e que está descrita em Freitas et al (2008).

O que é o Milhafre?
O Milhafre é uma ferramenta de busca em corpora desenvolvida especialmente para lidar com os corpora do projecto Floresta Sintáctica - Floresta Virgem, Bosque e Selva. Está brevemente descrito em Freitas et al (2008).

O que é o Águia?
O Águia é um sistema de procura em corpora analisados sintacticamente desenvolvido no âmbito do projecto Floresta Sintá(c)tica, e que se encontra descrito em Santos 2003.

Como devo citar a Floresta Sintá(c)tica?
Se fizer referência à Floresta Sintá(c)tica, agradecemos que indique, além do URL http://www.linguateca.pt/Floresta/ e da versão utilizada, pelo menos uma das seguintes referências: em português Afonso et al. (2002a) ou Bick et al. (2007); em inglês, Afonso et al. (2002b) ou Freitas et al. (2008).

3.5 COMPARA/DISPARA  

O que é o COMPARA?
É um corpus paralelo português-inglês resultado de um projecto de colaboração entre a Linguateca e Ana Frankenberg-Garcia. Mais informação sobre o COMPARA encontra-se nas páginas do COMPARA http://www.linguateca.pt/COMPARA/

O que é o DISPARA?
É um sistema de desenvolvimento e disponibilização de corpora paralelos na rede, que foi desenvolvido pela Linguateca para disponibilizar o COMPARA, mas que mais tarde foi aplicado a outros corpora paralelos.

Como devo citar o COMPARA?
Se fizer referência ao COMPARA, agradecemos que indique, pelo menos, uma das seguintes referências: Frankenberg-Garcia & Santos (2002) (em português) ou Frankenberg-Garcia & Santos (2003) (em inglês), além de mencionar o URL e a versão se descrever resultados.

3.6 Corpógrafo  

O que é o Corpógrafo?
É um ambiente de criação e desenvolvimento de corpora especializados, que podem ser pertença exclusiva dos próprios utilizadores, concebido para fins terminológicos e do ensino da tradução especializada. Mais informações sobre o Corpógrafo encontram-se no seu sítio: http://www.linguateca.pt/Corpografo/. Além de constituir um serviço, pode ser ser instalado noutros sítios, visto que o seu código se encontra publicamente disponível.

Como devo citar o Corpógrafo?
Se fizer referência ao Corpógrafo, agradecemos que indique, pelo menos, uma das seguintes referências: (em inglês) Sarmento et al. (2004), Sarmento et al. (2006), ou Maia e Matos (2008) ou (em português) Maia et al. (2005) , além de mencionar o URL.

3.7 Esfinge  

O que é o Esfinge?
O Esfinge é um sistema de resposta a perguntas de domínio geral em português. Mais informações sobre o Esfinge encontram-se na sua página: http://www.linguateca.pt/Esfinge/.

Como devo citar o Esfinge?
Se fizer referência ao Esfinge, agradecemos que indique, pelo menos, uma das seguintes referências: em português, Costa (2005); em inglês, Costa (2005) ou Cabral et al. (2007)

3.8 NATools  

O que é o NATools?
O NATools é um pacote de ferramentas para o alinhamento e extracção de recursos a partir de corpora paralelos. Mais informação na página http://linguateca.di.uminho.pt/natools/.

Como devo citar o NATools?
Se usar o NATools, agradecemos que cite Simões e Almeida (2007) (em inglês) ou Simões (2008) (em português), além do respectivo URL.

3.9 SUPeRB  

O que é o SUPeRB?
O SUPeRB é um sistema para auxiliar na pesquisa e no tratamento de referências bibliográficas na Web, recolhendo informação de páginas e documentos electrónicos de forma semi-automática, construindo um catálogo local de referências bibliográficas da área e que pode ser acedido a partir da internet.
Mais informações em http://www.linguateca.pt/SUPeRB/.

Como devo citar o SUPeRB?
Se fizer referência ao SUPeRB, agradecemos que indique a seguinte referência: Cabral (2007) (em português), ou Cabral et al.(2008) (em inglês), além de mencionar o URL.

3.10 SIEMÊS  

O que é o SIEMÊS?
O SIEMÊS é um sistema de reconhecimento de entidades mencionadas desenvolvido no pólo do Porto da Linguateca para participar no Primeiro HAREM. O SIEMÊS utiliza uma dupla estratégia, apoiada num sistema de regras e num repositório de entidades com nome, o REPENTINO. No âmbito da Linguateca, a última versão disponibilizada foi a versão 1.0 (datada de Fevereiro de 2005).

Como devo citar o SIEMÊS?
Se fizer referência ao SIEMÊS, agradecemos que indique uma das seguintes referências: Sarmento (2007) (em português), ou Sarmento (2006) (em inglês).

3.11 REPENTINO  

O que é o REPENTINO?
O REPENTINO é um repositório público que contém exemplos de entidades com nome, ou seja, de entidades concretas ou abstractas que possuam um nome próprio. Os exemplos armazenados no REPENTINO encontram-se divididos por várias categorias conceptuais, cada uma das quais contendo diversas sub-categorias, numa estrutura em árvore, garantindo assim uma razoável organização destes exemplos. O REPENTINO é também um recurso de construção colectiva e cresce com a ajuda e as sugestões de todos quantos quiserem colaborar.
Mais informações em http://poloclup.linguateca.pt/repentino/.

Como devo citar o REPENTINO?
Se fizer referência ao REPENTINO, agradecemos que indique a seguinte referência: Sarmento et al.(2006), além de mencionar o URL.

3.12 WPT03  

O que é a WPT03?
A WPT 03 (colecção da Web portuguesa de 2003) é a recolha mais completa da Web portuguesa disponível até ao momento, contendo .775.611 documentos, (aproximadamente 12 GB), dos quais 68,6% (2.590.641 documentos) estão escritos em português. A WPT 03 foi recolhida pelos batedores (crawlers) do motor de pesquisa Tumba!, e foi utilizada como repositório web para a indexação e classificação dos resultados das pesquisas realizadas neste motor.
A WPT 03 compreende todos os ficheiros de tipo HTML, PDF, PS e DOC alojados sob um subdomínio que pertence ao domínio .pt, e todos os ficheiros escritos em português e de tipo HTML, PDF, PS e DOC alojados sob um domínio .com, .org, .net ou .tv, desde que tenham sido referenciados por um link de uma página alojada sob o domínio. A WPT 03 inclui também um diário (log) com registos das pesquisas no servidor web do tumba!, com mais de 1.150.000 registos correspondentes a interrogações a esta recolha de documentos ao longo de 6 meses.

Como devo citar a WPT03?
Se fizer referência à WPT 03, agradecemos que cite Cardoso et al. (2007). Se usou a WPT03, deve indicar A WPT 03 é um recurso criado pelo Grupo XLDB (http://xldb.di.fc.ul.pt), e disponibilizado pela Linguateca (http://www.linguateca.pt).

3.13 Geo-Net-PT  

O que é a Geo-Net-PT?
A Geo-Net-PT01 é a primeira ontologia geográfica pública de Portugal. Foi criada pelo pólo XLDB da Linguateca. A Geo-Net-PT01 contém 418.065 dados geográficos administrativos de Portugal, com informação sobre os distritos, concelhos e ruas, entre outros dados. Além da informação geográfica, inclui o âmbito geográfico atribuído a 686 sítios da Internet.
A Geo-Net-PT01 é um recurso para aplicações informáticas que necessitem de informação geográfica de Portugal. Está estruturada de forma inteligível, e respeita os formatos recomendados internacionalmente. A ontologia foi criada a partir de fontes de informação públicas, tais como as bases de dados de códigos postais dos CTT, dados do INE, informações sobre sítios da FCCN ou dados retirados da Wikipédia.

Como devo citar a Geo-Net-PT?
Se fizer referência à GeoNET-PT-01, agradecemos que cite, pelo menos, uma das seguintes publicações: Chaves et al. (2005a) ou Chaves et al. (2005b).
A referência à GeoNET-PT-01 deve ser feita da seguinte forma: A GeoNET-PT-01 é um recurso criado pelo Grupo XLDB (http://xldb.di.fc.ul.pt) e pela Linguateca (http://www.linguateca.pt).

4. Avaliação  

O que é avaliação conjunta?
Avaliação conjunta é um processo de avaliação em que os critérios se estabelecem de comum acordo entre os participantes, que definem, para uma dada área de aplicação, um conjunto de tarefas e os critérios de sucesso para avaliar a execução dessas tarefas. É a tradução do que em inglês se chama "evaluation contests" ou "evaluation campaigns". A Linguateca tem produzido muitas actividades para disseminar e enrzaizar este paradigma de avaliação na comunidade de processamento da língua portuguesa, como se pode ver em avaliação conjunta, e em particular na organização de diversas avaliações conjuntas, como as Mofolimpíadas, o HAREM e o CLEF.

O que são as Morfolimpíadas?
As Morfolimpíadas são uma avaliação conjunta de sistemas de processamento morfológico do português, comparando as saídas dos vários analisadores morfológicos concorrentes e definindo em conjunto uma série de opções e métricas para medir o desempenho. Além disso, através deste exercício obtém-se um muito maior conhecimento dos problemas que se pretendem resolver e do seu peso quantitativo na língua. As Primeiras Morfolimpíadas para o português decorreram em 2002-2003 e juntaram sete sistemas.

O que é o HAREM?
O HAREM - Avaliação (conjunta) de sistemas de Reconhecimento de Entidades Mencionadas é uma avaliação conjunta para medir o desempenho de sistemas de identificação e classificação de entidades mencionadas em textos baseados em colecções de documentos em língua portuguesa de diversas proveniências. Mais informações em http://www.linguateca.pt/HAREM/

O que é o CLEF?
O CLEF é uma avaliação conjunta internacional na qual a Linguateca está envolvida desde 2004. Com tantas pistas e actividades (existem novas versões todos os anos), sugerimos a consulta à página que dedicamos ao CLEF: http://www.linguateca.pt/CLEF/

5. Navegação no sítio da Linguateca

Como posso encontrar informações sobre etiquetadores para a língua portuguesa?
Basta clicar em "Catálogo de ferramentas".

Quando selecciono uma opção da barra de navegação, que se encontra do lado esquerdo da vossa página, não acontece nada. O que devo fazer?
Provavelmente o seu navegador não está configurado para executar scripts de Java. Deverá:
Instruções em IE5:
1. Seleccionar na barra de menus a opção "Tools" e no menu que aparece a opção "Internet Options";
2. Na janela que aparece, seleccionar a barra que diz "Security";
3. Seleccionar a opção "Custom Level"
4. Na nova janela encontra na lista "Settings" a opção "Scripting->Active Scripting"
5. Seleccione "Enable" (para executar os scripts sem perguntar) ou "Prompt" (para lhe pedir autorização sempre que for necessário executar um script)
Instruções em NN4:
1. Seleccionar na barra de menus a opção "Edit" e no menu que aparece a opção "Preferences"
2. Na janela que aparece, seleccionar a opção "Advanced" na lista "Category" que se encontra do lado esquerdo
3. Em seguida, do lado direito activar a opçao "Enable JavaScript"

Posso fazer pesquisas no sítio da Linguateca?
Seleccionando a opção "Sistemas de Procura" na barra de navegação, que se encontra do lado esquerdo, poderá

Poderá igualmente pesquisar as páginas apontadas no nosso catálogo usando a busca por palavras-chave: no entanto, este sistema ainda se encontra em fase experimental.
 

Última actualização: 19 de Maio de 2009.
Perguntas, comentários e sugestões