#!/usr/bin/perl
use locale;
use XML::DT;

my $fic=shift @ARGV;
open XML, "<$fic" or die "$!";
open DEBUG, ">Arvores_cortadas.debug.txt" || die "$!";

$/='</s>';
$p=<XML>;
print $p;
$stat{certo}++; #primeira está correcta

while (<XML>){
    if (eval {dtstring ($_,'-inputenc'=>'ISO-8859-1')}) {
	print $_;
	$stat{certo}++;
    }else{
	$stat{erros}++;
	$_=~/id\=\"(s\d+)_\d+\"/;
	print STDERR "Erro: $1\n";
	print DEBUG $_;
    }
}
$stat{erros}--;#ignorar ultimo erro
unless ($stat{erros}==0){
    printf STDERR "Aceites: $stat{certo}\nRejeitados: $stat{erros}\nVálido:%2.1f\n\n",100-$stat{erros}*100/$stat{certo};
}

print "\n</body>\n</corpus>\n"; 

close (XML);
close (DEBUG);
