#!/usr/bin/perl

use POSIX qw(locale_h);
setlocale(LC_CTYPE, "pt_PT");
use locale;

if ($ARGV[0] eq "-h") { print <<FIM;

ACDC_MELHORA_LISTA_FREQ_LEMAS
Programa que melhora uma lista de frequências tratando das
contracções como deve ser

Chamada: $0 

                      DMS, 23 de outubro de 2021

FIM
exit;
}

#Primeiro lê e adiciona a um vector associativo as frequências
$num=0;
while (<>) {
    $num++;
    ($lema,$freq)=($_=~m/(.*)\t([0-9]+)$/);
#    print "Frequência do lema $lema é $freq\n";
# Vale a pena separar nos vários lemas quando é uma contracção...
    if ($lema=~/\+/) {
	$lema=~s/\+.*$//;
    }
    $frequencia{$lema}+=$freq;	
}
print STDERR "Li $num entradas\n";
foreach $pal (sort {$frequencia{$b} <=> $frequencia{$a}} keys %frequencia) {
    print "$pal\t$frequencia{$pal}\n";
}


