diff --git a/aclass.pl b/aclass.pl
index 377e97e..a0ef71a 100755
--- a/aclass.pl
+++ b/aclass.pl
@@ -1,130 +1,130 @@
-#!/usr/bin/perl
-# Na základě morfologických značek rodiče a dítěte přiřadí syntaktickou značku.
-# (c) 2007 Dan Zeman <zeman@ufal.mff.cuni.cz>
-# Licence: GNU GPL
-
-sub usage
-{
-    print STDERR ("Usage: aclass.pl -m model [-z mdgdz] < input > output\n");
-    print STDERR ("  model:  the output of atrain.pl (trained model)\n");
-    print STDERR ("  mdgdz:  read structure from <MDg src=\"dz\">; default <g>\n");
-    print STDERR ("  input:  CSTS file to add syntactic tags\n");
-    print STDERR ("  output: CSTS file with added syntactic tags\n");
-}
-
-use utf8;
-use open ":utf8";
-binmode(STDIN, ":utf8");
-binmode(STDOUT, ":utf8");
-binmode(STDERR, ":utf8");
-use Getopt::Long;
-use csts;
-use lib '/home/zeman/projekty/parser';
-use strom;
-
-
-
-# Přečíst volby.
-# Zdroj: prázdný nebo "rodic_vzor" znamená <g>, jinak třeba "mdgdz" znamená <MDg src="dz">.
-GetOptions('model=s' => \$model, 'zdroj=s' => \$zdroj);
-if($model eq "")
-{
-    usage();
-    die("Chybí model.\n");
-}
-# Přečíst statistiku.
-open(STAT, $model) or die("Nelze číst $model: $!\n");
-while(<STAT>)
-{
-    # Odstranit znak konce řádku.
-    s/\r?\n$//;
-    # Rozdělit řádek na klíč (dvojice morfologických značek) a hodnotu (syntaktickou značku).
-    my ($klic, $hodnota) = split(/\t/, $_);
-    # Uložit do hashe.
-    $stat{$klic} = $hodnota;
-}
-close(STAT);
-csts::projit_data("-", \%konfig, \&zpracovat_vetu);
-$n_spravne = 0 if($n_spravne eq "");
-$n_spatne = $n_celkem-$n_spravne;
-$uspesnost = $n_celkem ? $n_spravne/$n_celkem : 0;
-print STDERR ("A $n_celkem - G $n_spravne - B $n_spatne - P $uspesnost\n");
-print STDERR ("Neznámá dvojice mznaček, ale známá mznačka dítěte: $n_neznama_dvojice        z toho chyb $n_chyb_neznama_dvojice\n");
-print STDERR ("Není známa ani mznačka dítěte:                     $n_neznama_dvojice_i_dite z toho chyb $n_chyb_neznama_dvojice_i_dite\n");
-
-
-
-#------------------------------------------------------------------------------
-# Zpracuje poslední přečtenou větu.
-#------------------------------------------------------------------------------
-sub zpracovat_vetu
-{
-    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
-    my $anot = shift; # pole hashů o jednotlivých slovech
-    # Postavit si strom podle výstupu parseru.
-    strom::postavit($anot, $zdroj);
-    # Vypsat začátek věty.
-    print("<s>\n");
-    # Projít větu po slovech.
-    foreach my $slovo (@{$anot})
-    {
-        my $klic = "$slovo->{znacka} $slovo->{parent}{znacka}";
-        # Odstranit z klíče případné tabulátory a konce řádků, protože totéž jsme dělali při tréninku.
-        $klic =~ s/[\t\r\n]+/ /sg;
-        my $hodnota = $stat{$klic};
-        my $neznama_dvojice = 0;
-        my $neznama_dvojice_i_dite = 0;
-        # Jestliže jsme nenašli žádnou sznačku pro danou dvojici mznaček, zkusíme najít sznačku pro mznačku dítěte.
-        if($hodnota eq "")
-        {
-            $klic = $slovo->{znacka};
-            $klic =~ s/[\t\r\n]+/ /sg;
-            $hodnota = $stat{$klic};
-            $n_neznama_dvojice++;
-            $neznama_dvojice = 1;
-        }
-        # Jestliže jsme ani teď nenašli žádnou sznačku, zkusíme najít nejčastější sznačku.
-        if($hodnota eq "")
-        {
-            $klic = "";
-            $hodnota = $stat{$klic};
-            $n_neznama_dvojice_i_dite++;
-            $neznama_dvojice_i_dite = 1;
-        }
-        # Zkontrolovat, zda hodnota z naší statistiky odpovídá skutečné syntaktické značce slova.
-        $slovo->{afun} =~ s/[\t\r\n]+/ /sg;
-        if($hodnota eq $slovo->{afun})
-        {
-            $n_spravne++;
-        }
-        else
-        {
-            if($neznama_dvojice)
-            {
-                $n_chyb_neznama_dvojice++;
-            }
-            elsif($neznama_dvojice_i_dite)
-            {
-                $n_chyb_neznama_dvojice_i_dite++;
-            }
-        }
-        $n_celkem++;
-        # Vypsat slovo.
-        if($slovo->{ord})
-        {
-            $slovo->{form} =~ s/&/&amp;/g;
-            $slovo->{form} =~ s/</&lt;/g;
-            $slovo->{form} =~ s/>/&gt;/g;
-            $slovo->{lemma} =~ s/&/&amp;/g;
-            $slovo->{lemma} =~ s/</&lt;/g;
-            $slovo->{lemma} =~ s/>/&gt;/g;
-            $slovo->{znacka} =~ s/&/&amp;/g;
-            $slovo->{znacka} =~ s/</&lt;/g;
-            $slovo->{znacka} =~ s/>/&gt;/g;
-            $hodnota =~ s/&/&amp;/g;
-            $hodnota =~ s/</&lt;/g;
-            $hodnota =~ s/>/&gt;/g;
-            print("<f>$slovo->{form}<l>$slovo->{lemma}<t>$slovo->{znacka}<r>$slovo->{ord}<g>$slovo->{rodic_vzor}<A>$slovo->{afun}<MDg src=\"dz\">$slovo->{mdgdz}<MDA src=\"dz\">$hodnota\n");
-        }
-    }
-}
+#!/usr/bin/perl
+# Na základě morfologických značek rodiče a dítěte přiřadí syntaktickou značku.
+# (c) 2007 Dan Zeman <zeman@ufal.mff.cuni.cz>
+# Licence: GNU GPL
+
+sub usage
+{
+    print STDERR ("Usage: aclass.pl -m model [-z mdgdz] < input > output\n");
+    print STDERR ("  model:  the output of atrain.pl (trained model)\n");
+    print STDERR ("  mdgdz:  read structure from <MDg src=\"dz\">; default <g>\n");
+    print STDERR ("  input:  CSTS file to add syntactic tags\n");
+    print STDERR ("  output: CSTS file with added syntactic tags\n");
+}
+
+use utf8;
+use open ":utf8";
+binmode(STDIN, ":utf8");
+binmode(STDOUT, ":utf8");
+binmode(STDERR, ":utf8");
+use Getopt::Long;
+use csts;
+use lib '/home/zeman/projekty/parser';
+use strom;
+
+
+
+# Přečíst volby.
+# Zdroj: prázdný nebo "rodic_vzor" znamená <g>, jinak třeba "mdgdz" znamená <MDg src="dz">.
+GetOptions('model=s' => \$model, 'zdroj=s' => \$zdroj);
+if($model eq "")
+{
+    usage();
+    die("Chybí model.\n");
+}
+# Přečíst statistiku.
+open(STAT, $model) or die("Nelze číst $model: $!\n");
+while(<STAT>)
+{
+    # Odstranit znak konce řádku.
+    s/\r?\n$//;
+    # Rozdělit řádek na klíč (dvojice morfologických značek) a hodnotu (syntaktickou značku).
+    my ($klic, $hodnota) = split(/\t/, $_);
+    # Uložit do hashe.
+    $stat{$klic} = $hodnota;
+}
+close(STAT);
+csts::projit_data("-", \%konfig, \&zpracovat_vetu);
+$n_spravne = 0 if($n_spravne eq "");
+$n_spatne = $n_celkem-$n_spravne;
+$uspesnost = $n_celkem ? $n_spravne/$n_celkem : 0;
+print STDERR ("A $n_celkem - G $n_spravne - B $n_spatne - P $uspesnost\n");
+print STDERR ("Neznámá dvojice mznaček, ale známá mznačka dítěte: $n_neznama_dvojice        z toho chyb $n_chyb_neznama_dvojice\n");
+print STDERR ("Není známa ani mznačka dítěte:                     $n_neznama_dvojice_i_dite z toho chyb $n_chyb_neznama_dvojice_i_dite\n");
+
+
+
+#------------------------------------------------------------------------------
+# Zpracuje poslední přečtenou větu.
+#------------------------------------------------------------------------------
+sub zpracovat_vetu
+{
+    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
+    my $anot = shift; # pole hashů o jednotlivých slovech
+    # Postavit si strom podle výstupu parseru.
+    strom::postavit($anot, $zdroj);
+    # Vypsat začátek věty.
+    print("<s>\n");
+    # Projít větu po slovech.
+    foreach my $slovo (@{$anot})
+    {
+        my $klic = "$slovo->{znacka} $slovo->{parent}{znacka}";
+        # Odstranit z klíče případné tabulátory a konce řádků, protože totéž jsme dělali při tréninku.
+        $klic =~ s/[\t\r\n]+/ /sg;
+        my $hodnota = $stat{$klic};
+        my $neznama_dvojice = 0;
+        my $neznama_dvojice_i_dite = 0;
+        # Jestliže jsme nenašli žádnou sznačku pro danou dvojici mznaček, zkusíme najít sznačku pro mznačku dítěte.
+        if($hodnota eq "")
+        {
+            $klic = $slovo->{znacka};
+            $klic =~ s/[\t\r\n]+/ /sg;
+            $hodnota = $stat{$klic};
+            $n_neznama_dvojice++;
+            $neznama_dvojice = 1;
+        }
+        # Jestliže jsme ani teď nenašli žádnou sznačku, zkusíme najít nejčastější sznačku.
+        if($hodnota eq "")
+        {
+            $klic = "";
+            $hodnota = $stat{$klic};
+            $n_neznama_dvojice_i_dite++;
+            $neznama_dvojice_i_dite = 1;
+        }
+        # Zkontrolovat, zda hodnota z naší statistiky odpovídá skutečné syntaktické značce slova.
+        $slovo->{afun} =~ s/[\t\r\n]+/ /sg;
+        if($hodnota eq $slovo->{afun})
+        {
+            $n_spravne++;
+        }
+        else
+        {
+            if($neznama_dvojice)
+            {
+                $n_chyb_neznama_dvojice++;
+            }
+            elsif($neznama_dvojice_i_dite)
+            {
+                $n_chyb_neznama_dvojice_i_dite++;
+            }
+        }
+        $n_celkem++;
+        # Vypsat slovo.
+        if($slovo->{ord})
+        {
+            $slovo->{form} =~ s/&/&amp;/g;
+            $slovo->{form} =~ s/</&lt;/g;
+            $slovo->{form} =~ s/>/&gt;/g;
+            $slovo->{lemma} =~ s/&/&amp;/g;
+            $slovo->{lemma} =~ s/</&lt;/g;
+            $slovo->{lemma} =~ s/>/&gt;/g;
+            $slovo->{znacka} =~ s/&/&amp;/g;
+            $slovo->{znacka} =~ s/</&lt;/g;
+            $slovo->{znacka} =~ s/>/&gt;/g;
+            $hodnota =~ s/&/&amp;/g;
+            $hodnota =~ s/</&lt;/g;
+            $hodnota =~ s/>/&gt;/g;
+            print("<f>$slovo->{form}<l>$slovo->{lemma}<t>$slovo->{znacka}<r>$slovo->{ord}<g>$slovo->{rodic_vzor}<A>$slovo->{afun}<MDg src=\"dz\">$slovo->{mdgdz}<MDA src=\"dz\">$hodnota\n");
+        }
+    }
+}
diff --git a/atrain.pl b/atrain.pl
index ba2d15e..27222dc 100755
--- a/atrain.pl
+++ b/atrain.pl
@@ -1,46 +1,46 @@
-#!/usr/bin/perl
-# Čte CSTS a učí se vztah mezi morfologickými značkami rodiče a dítěte a syntaktickou značkou.
-# (c) 2007 Dan Zeman <zeman@ufal.mff.cuni.cz>
-# Licence: GNU GPL
-
-use utf8;
-use open ":utf8";
-binmode(STDIN, ":utf8");
-binmode(STDOUT, ":utf8");
-binmode(STDERR, ":utf8");
-use csts;
-
-csts::projit_data("-", \%konfig, \&zpracovat_vetu);
-# U každé dvojice nahradit pole možností s četnostmi tou nejčetnější možností.
-my @klice = sort(keys(%stat));
-foreach my $klic (@klice)
-{
-    my @klice2 = sort{$stat{$klic}{$b}<=>$stat{$klic}{$a}}(keys(%{$stat{$klic}}));
-    my $odpoved = $klice2[0];
-    # Kvůli uložení nahradit v klíči i v odpovědi všechny tabulátory něčím jiným.
-    $klic =~ s/[\t\r\n]+/ /sg;
-    $odpoved =~ s/[\t\r\n]+/ /sg;
-    # Uložit statistiku.
-    print("$klic\t$odpoved\n");
-}
-
-
-
-#------------------------------------------------------------------------------
-# Zpracuje poslední přečtenou větu.
-#------------------------------------------------------------------------------
-sub zpracovat_vetu
-{
-    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
-    my $anot = shift; # pole hashů o jednotlivých slovech
-    # Projít větu po slovech.
-    foreach my $slovo (@{$anot})
-    {
-        # Zjistit morfologickou značku slova, morfologickou značku jeho rodiče a syntaktickou značku slova.
-        my $klic = "$slovo->{znacka} $anot->[$slovo->{rodic_vzor}]{znacka}";
-        my $klic2 = $slovo->{afun};
-        $stat{$klic}{$klic2}++;
-        $stat{$slovo->{znacka}}{$klic2}++;
-        $stat{""}{$klic2}++;
-    }
-}
+#!/usr/bin/perl
+# Čte CSTS a učí se vztah mezi morfologickými značkami rodiče a dítěte a syntaktickou značkou.
+# (c) 2007 Dan Zeman <zeman@ufal.mff.cuni.cz>
+# Licence: GNU GPL
+
+use utf8;
+use open ":utf8";
+binmode(STDIN, ":utf8");
+binmode(STDOUT, ":utf8");
+binmode(STDERR, ":utf8");
+use csts;
+
+csts::projit_data("-", \%konfig, \&zpracovat_vetu);
+# U každé dvojice nahradit pole možností s četnostmi tou nejčetnější možností.
+my @klice = sort(keys(%stat));
+foreach my $klic (@klice)
+{
+    my @klice2 = sort{$stat{$klic}{$b}<=>$stat{$klic}{$a}}(keys(%{$stat{$klic}}));
+    my $odpoved = $klice2[0];
+    # Kvůli uložení nahradit v klíči i v odpovědi všechny tabulátory něčím jiným.
+    $klic =~ s/[\t\r\n]+/ /sg;
+    $odpoved =~ s/[\t\r\n]+/ /sg;
+    # Uložit statistiku.
+    print("$klic\t$odpoved\n");
+}
+
+
+
+#------------------------------------------------------------------------------
+# Zpracuje poslední přečtenou větu.
+#------------------------------------------------------------------------------
+sub zpracovat_vetu
+{
+    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
+    my $anot = shift; # pole hashů o jednotlivých slovech
+    # Projít větu po slovech.
+    foreach my $slovo (@{$anot})
+    {
+        # Zjistit morfologickou značku slova, morfologickou značku jeho rodiče a syntaktickou značku slova.
+        my $klic = "$slovo->{znacka} $anot->[$slovo->{rodic_vzor}]{znacka}";
+        my $klic2 = $slovo->{afun};
+        $stat{$klic}{$klic2}++;
+        $stat{$slovo->{znacka}}{$klic2}++;
+        $stat{""}{$klic2}++;
+    }
+}
diff --git a/parse.pl b/parse.pl
index 5fd1d27..7fb8eb5 100755
--- a/parse.pl
+++ b/parse.pl
@@ -1,344 +1,344 @@
-#!/usr/bin/perl
-# Načte natrénované statistiky a s jejich pomocí analyzuje věty na vstupu.
-# Analýzy nikam nevypisuje, místo toho je rovnou porovnává se vzorovými
-# a počítá si úspěšnost.
-# (c) 1995-2008 Dan Zeman <zeman@ufal.mff.cuni.cz>
-# Licence: GNU GPL
-
-sub usage
-{
-    print STDERR ("Usage: parse.pl [-i config] [-m model] < input > output\n");
-    print STDERR ("  config: path to configuration file\n");
-    print STDERR ("  model:  path to trained model\n");
-    print STDERR ("  input:  CSTS file to parse\n");
-    print STDERR ("  output: parsed CSTS file\n");
-}
-
-use utf8;
-use Getopt::Long;
-# Zařídit, aby Perl hledal knihovny také ve složce, ve které se nachází tento skript.
-BEGIN {my $path = `dirname $0`; $path =~ s/\r?\n$//; unshift(@INC, $path) unless(grep {$_ eq $path} @INC)}
-use debug;
-use parse;
-use csts;
-use vystupy;
-use rozebrat; # sub rozebrat_vetu
-use model; # kvůli sub zjistit_nezkreslenou_pravdepodobnost()
-use krvety;
-use ntice;
-use subkat;
-use nepreskocv;
-use plodnost;
-use povol;
-use vyhodnoceni;
-
-
-
-$starttime = time();
-my $inisoubor = "parser.ini"; # jméno souboru s konfigurací
-# parse.pl --i parser2.ini
-GetOptions('model=s' => \$model, 'ini=s' => \$inisoubor);
-# Výchozí nastavení parametrů.
-%konfig = parse::vychozi_konfig();
-parse::precist_konfig($inisoubor, \%konfig);
-if($model ne "")
-{
-    $konfig{stat} = $model;
-}
-# Nastavit, který výstup půjde na STDOUT. Ostatní půjdou na STDERR.
-$vystupy::vystupy{csts}{stdout} = 1;
-
-
-
-# Načíst natrénované statistiky.
-# Výchozí: najít v pracovním adresáři soubor s nejvyšším číslem.
-if($konfig{stat} eq "")
-{
-    opendir(DIR, $konfig{prac}) or die("Nelze otevřít pracovní složku $konfig{prac}: $!\n");
-    my $maxstat;
-    while(my $dir = readdir(DIR))
-    {
-        if($dir =~ m/^(\d+)\.stat\r?\n?$/)
-        {
-            if($maxstat eq "" || $1>$maxstat)
-            {
-                $maxstat = $1;
-            }
-        }
-    }
-    closedir(DIR);
-    $konfig{stat} = "$konfig{prac}/$maxstat.stat";
-    vypsat("konfig", "Použita statistika $konfig{stat}.\n");
-    # Pokud najdeme záznam konfigurace, pod kterou statistika vznikla, opsat ji do naší konfigurace.
-    if(-f "$konfig{prac}/$maxstat.konfig")
-    {
-        open(STATKONFIG, "$konfig{prac}/$maxstat.konfig");
-        while(<STATKONFIG>)
-        {
-            vypsat("konfig", "stat.konfig> $_");
-        }
-        close(STATKONFIG);
-    }
-}
-cist_statistiku($konfig{stat}, \%stat, $konfig{kodovani_data}) or die("Chyba: prázdná statistika");
-$ls = $konfig{"ls"};
-$lz = 1-$ls;
-# Je možné načíst i druhou statistiku a porovnávat, jak se mění úspěšnost
-# analýzy při použití jedné či druhé. Volitelná statistika je stat1, základní
-# je stat.
-if($konfig{stat1})
-{
-    cist_statistiku($konfig{prac}."/".$konfig{stat1}, \%stat1, $konfig{kodovani_data});
-}
-
-
-
-# Načíst seznam subkategorizačních rámců sloves.
-if($konfig{valence} || $konfig{valence1})
-{
-    $konfig{nacteny_subkategorizacni_slovnik} = subkat::cist($konfig{subcat}); # vrátí odkaz na hash se subkategorizačním slovníkem
-}
-
-
-
-# Načíst seznam zákazů přeskočení slovesa určitou závislostí.
-if($konfig{nepreskocv})
-{
-    $konfig{nacteny_seznam_zakazu_preskoceni_slovesa} = nepreskocv::cist($konfig{nepreskocv_cesta}); # vrátí odkaz na hash
-}
-
-
-
-# Načíst model plodnosti.
-if($konfig{plodnost})
-{
-    if($konfig{plodnost_model} eq "ffm")
-    {
-        plodnost::pripravit_ffm(\%stat);
-    }
-    else
-    {
-        plodnost::cist($konfig{plodnost_cesta}); # plodnost_cesta se zatím nezohledňuje, čte se natvrdo plodnost.txt
-    }
-}
-
-
-
-# Načíst pomůcky pro model neprojektivit.
-if($konfig{neproj})
-{
-    povol::cist_rematizatory();
-}
-
-
-
-# Načíst vzory n-tic.
-if($konfig{ntice})
-{
-    $ntice = ntice::cist_ze_stat(\%stat);
-}
-
-
-
-# Číst testovací věty a analyzovat je.
-
-vypsat("csts", "<csts lang=cs><h><source>PDT</source></h><doc file=\"dz-parser-output\" id=\"1\"><a><mod>s<txtype>pub<genre>mix<med>nws<temp>1994<authname>y<opus>ln94206<id>3</a><c><p n=\"1\">\n");
-
-$konfig{hook_zacatek_cteni} = sub
-{
-    my $maska = shift;
-    my $soubory = shift;
-    vypsat("prubeh", "Maska pro jména souborů s daty: $maska\n");
-    vypsat("prubeh", "Nalezeno ".($#{$soubory}+1)." souborů.\n");
-};
-csts::projit_data($konfig{test}, \%konfig);
-
-vypsat("csts", "</c></doc></csts>\n");
-
-
-
-if($vystupy::cislo_instance)
-{
-    my $g = $hodnoceni{spravne};
-    my $p = $g/($g+$hodnoceni{spatne});
-    my $predmet = sprintf("Parsing $vystupy::cislo_instance skoncil: %4.1f %% (G $g)", $p*100);
-    vystupy::kopirovat_do_mailu("vysledky", $predmet);
-}
-vyhodnoceni::vypsat(\%hodnoceni);
-$stoptime = time();
-parse::vypsat_delku_trvani_programu($starttime, $stoptime, "konfig");
-parse::vypsat_delku_trvani_programu($starttime, $stoptime, "vysledky");
-
-
-
-###############################################################################
-# PODPROGRAMY
-###############################################################################
-
-
-
-#------------------------------------------------------------------------------
-# Analyzuje větu.
-#------------------------------------------------------------------------------
-sub zpracovat_vetu
-{
-    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
-    my $anot = shift; # pole hashů o jednotlivých slovech
-    # Vynechat prázdné věty a věty splňující zvláštní podmínky.
-    # Za prázdnou se považuje i věta, která obsahuje pouze 1 prvek (kořen).
-    if(scalar(@{$anot})>1 && !$vynechat_vetu)
-    {
-        $veta++;
-        # Ladící výpisy.
-        my ($sek, $min, $hod) = localtime(time());
-        my $jmeno_souboru_do_hlaseni = $stav_cteni->{soubor};
-        $jmeno_souboru_do_hlaseni =~ s-^.*/([^/]*)$-$1-;
-        $jmeno_souboru_do_hlaseni =~ s/\.(?:csts|amm)$//i;
-        my $n_slov = scalar(@{$anot});
-        vypsat("prubeh", parse::cas()." $jmeno_souboru_do_hlaseni Analyzuje se věta $veta (", sprintf("%3d", $n_slov), ") ...");
-        # Povolit ladící výpisy jen u prvních 50 vět.
-        $dbglog = $veta<=50;
-        ###############################################
-        # TADY ZAČÍNÁ VLASTNÍ ANALÝZA.
-        ###############################################
-        my $stav; # výstup parseru: kromě vlastní stromové struktury obsahuje i váhy a jiné doplňkové informace
-        # Ke krátkým větám máme k dispozici celé stromy.
-        if($#{$anot}<=8 && $konfig{krvety})
-        {
-            $stav = krvety::rozebrat($anot, \%vzorstrom);
-        }
-        # Ostatní věty rozebrat klasicky pěkně slovo za slovem.
-        else
-        {
-            # Rozebrat větu pomocí statistického modelu závislostí dvou slov na sobě.
-            $stav = rozebrat::rozebrat_vetu($anot);
-            if($konfig{ntice})
-            {
-                # Na závěr opravit některé chyby pomocí modelu n-tic.
-                # N-tice klidně mohou používat upravené morfologické značky z pole
-                # @anot, protože teď už se do nich nepromítá dědění v rámci koordinace.
-                my $rozbor_ntice = ntice::nasadit($ntice, $anot);
-                my @ana1 = @{$stav->{rodic}};
-                for(my $i = 0; $i<=$#ana1; $i++)
-                {
-                    if($rozbor_ntice->[$i] ne "" && $rozbor_ntice->[$i]!=-1)
-                    {
-                        $ana1[$i] = $rozbor_ntice->[$i];
-                    }
-                }
-                my @vzor = map{$_->{rodic_vzor}}(@{$anot});
-                ntice::zhodnotit(\@vzor, $stav->{rodic}, \@ana1, $rozbor_ntice);
-                # Po zhodnocení vlivu n-tic uložit jimi ovlivněný strom na
-                # výstup, aby se počítala jeho celková úspěšnost.
-                $stav->{rodic} = \@ana1;
-            }
-        }
-        # Spočítat chyby.
-        vyhodnoceni::zkontrolovat_strom($anot, $stav, \%hodnoceni);
-        # Do hlášení na standardní výstup vypsat úspěšnost analýzy této věty.
-        my $celkova_uspesnost = $hodnoceni{spravne}+$hodnoceni{spatne}>0 ? $hodnoceni{spravne}/($hodnoceni{spravne}+$hodnoceni{spatne}) : 0;
-        vypsat("prubeh", sprintf(" %3d %% %3d %% (%2d/%2d) $anot->[1]{slovo} $anot->[2]{slovo} $anot->[3]{slovo}\n", $celkova_uspesnost*100, $hodnoceni{uspesnost_posledni_strom}*100, $hodnoceni{spravne_posledni_strom}, $hodnoceni{celkem_posledni_strom}));
-        # Vypsat výsledný strom.
-        vypsat_strom($anot, $stav_cteni->{vetid}, $stav->{rodic});
-        # Vymazat proměnné, aby bylo možné číst další větu.
-        $spravne_strom = 0;
-        $spatne_strom = 0;
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Načte statistický model závislostí na určitých datech (např. na značkách).
-#------------------------------------------------------------------------------
-sub cist_statistiku
-{
-    my $soubor = shift; # odkud číst
-    my $statref = shift; # kam uložit
-    my $kodovani = shift; # z jakého kódování dekódovat
-    open(STAT, $soubor);
-    if($kodovani)
-    {
-        binmode(STAT, ":encoding($kodovani)");
-    }
-    vypsat("prubeh", "Čte se statistika $soubor [");
-    my $oznameno = 0;
-    my %cuzl;
-    my $celkem = 0;
-    while(<STAT>)
-    {
-        chomp;
-        m/(.*)\t(\d+)/;
-        my $k = $1;
-        my $c = $2;
-        my $udalost = $k;
-        # Pokud původní popis události obsahoval tabulátor, byl tabulátor zakódován a musíme ho teď dekódovat.
-        # Kvůli kódování tabulátorů byly zakódovány i ampersandy.
-        $udalost =~ s/&tab;/\t/g;
-        $udalost =~ s/&amp;/&/g;
-        $statref->{$udalost} = $c;
-        # Přičíst i do celkového počtu všech událostí (jmenovatel).
-        $celkem += $c;
-        # Bohužel se musím alespoň dočasně uchýlit k nečistému programování.
-        # Některé události je vhodné ukládat v jiném tvaru, a vzhledem
-        # k obrovskému celkovému počtu událostí je nejefektivnější provádět
-        # úpravy už tady.
-        if($udalost =~ m/^VET (\S+) (\S+)/)
-        {
-            my $vzor = $1;
-            my $strom = $2;
-            # V evidenci lze ke každé dvojici vzor věty - strom nalézt četnost.
-            # My chceme ke každému vzoru věty znát právě jeden strom, a to ten
-            # s největší četností.
-            if($c>$vzorstrom{$vzor}{cetnost})
-            {
-                $vzorstrom{$vzor}{strom} = $strom;
-                $vzorstrom{$vzor}{cetnost} = $c;
-            }
-            $vzorstrom{$vzor}{celkem} += $c;
-        }
-        # Oznámit pokrok ve čtení.
-        if($celkem>=$oznameno+10000)
-        {
-            vypsat("prubeh", ".");
-            $oznameno = $celkem;
-        }
-    }
-    close(STAT);
-    vypsat("prubeh", "]\n");
-    return $celkem;
-}
-
-
-
-#------------------------------------------------------------------------------
-# Vypíše výsledný strom na standardní výstup.
-#------------------------------------------------------------------------------
-sub vypsat_strom
-{
-    my $anot = shift; # odkaz na pole hashů
-    my $vetid = shift; # identifikátor věty (opsat ze vstupu, nevymýšlet si vlastní)
-    my $strom = shift; # odkaz na pole indexů rodičů uzlů
-    # Zatím globální proměnné.
-    vypsat("csts", "<s id=\"$vetid\" w=\"$pstrom\">\n");
-    for(my $i = 1; $i<=$#{$strom}; $i++)
-    {
-        my %uzel;
-        foreach my $atribut (qw(form lemma znacka afun))
-        {
-            $uzel{$atribut} = $anot->[$i]{$atribut};
-            # Zakódovat znaky, které mají v CSTS zvláštní význam.
-            $uzel{$atribut} =~ s/&/&amp;/g;
-            $uzel{$atribut} =~ s/</&lt;/g;
-            $uzel{$atribut} =~ s/>/&gt;/g;
-        }
-        my $uzel = "<f>$uzel{form}";
-        $uzel .= "<l>$uzel{lemma}";
-        $uzel .= "<t>$uzel{znacka}";
-        $uzel .= "<r>$i";
-        $uzel .= "<g>$anot->[$i]{rodic_vzor}";
-        $uzel .= "<A>$uzel{afun}";
-        $uzel .= "<MDg src=\"dz\">$strom->[$i]";
-        vypsat("csts", "$uzel\n");
-    }
-}
+#!/usr/bin/perl
+# Načte natrénované statistiky a s jejich pomocí analyzuje věty na vstupu.
+# Analýzy nikam nevypisuje, místo toho je rovnou porovnává se vzorovými
+# a počítá si úspěšnost.
+# (c) 1995-2008 Dan Zeman <zeman@ufal.mff.cuni.cz>
+# Licence: GNU GPL
+
+sub usage
+{
+    print STDERR ("Usage: parse.pl [-i config] [-m model] < input > output\n");
+    print STDERR ("  config: path to configuration file\n");
+    print STDERR ("  model:  path to trained model\n");
+    print STDERR ("  input:  CSTS file to parse\n");
+    print STDERR ("  output: parsed CSTS file\n");
+}
+
+use utf8;
+use Getopt::Long;
+# Zařídit, aby Perl hledal knihovny také ve složce, ve které se nachází tento skript.
+BEGIN {my $path = `dirname $0`; $path =~ s/\r?\n$//; unshift(@INC, $path) unless(grep {$_ eq $path} @INC)}
+use debug;
+use parse;
+use csts;
+use vystupy;
+use rozebrat; # sub rozebrat_vetu
+use model; # kvůli sub zjistit_nezkreslenou_pravdepodobnost()
+use krvety;
+use ntice;
+use subkat;
+use nepreskocv;
+use plodnost;
+use povol;
+use vyhodnoceni;
+
+
+
+$starttime = time();
+my $inisoubor = "parser.ini"; # jméno souboru s konfigurací
+# parse.pl --i parser2.ini
+GetOptions('model=s' => \$model, 'ini=s' => \$inisoubor);
+# Výchozí nastavení parametrů.
+%konfig = parse::vychozi_konfig();
+parse::precist_konfig($inisoubor, \%konfig);
+if($model ne "")
+{
+    $konfig{stat} = $model;
+}
+# Nastavit, který výstup půjde na STDOUT. Ostatní půjdou na STDERR.
+$vystupy::vystupy{csts}{stdout} = 1;
+
+
+
+# Načíst natrénované statistiky.
+# Výchozí: najít v pracovním adresáři soubor s nejvyšším číslem.
+if($konfig{stat} eq "")
+{
+    opendir(DIR, $konfig{prac}) or die("Nelze otevřít pracovní složku $konfig{prac}: $!\n");
+    my $maxstat;
+    while(my $dir = readdir(DIR))
+    {
+        if($dir =~ m/^(\d+)\.stat\r?\n?$/)
+        {
+            if($maxstat eq "" || $1>$maxstat)
+            {
+                $maxstat = $1;
+            }
+        }
+    }
+    closedir(DIR);
+    $konfig{stat} = "$konfig{prac}/$maxstat.stat";
+    vypsat("konfig", "Použita statistika $konfig{stat}.\n");
+    # Pokud najdeme záznam konfigurace, pod kterou statistika vznikla, opsat ji do naší konfigurace.
+    if(-f "$konfig{prac}/$maxstat.konfig")
+    {
+        open(STATKONFIG, "$konfig{prac}/$maxstat.konfig");
+        while(<STATKONFIG>)
+        {
+            vypsat("konfig", "stat.konfig> $_");
+        }
+        close(STATKONFIG);
+    }
+}
+cist_statistiku($konfig{stat}, \%stat, $konfig{kodovani_data}) or die("Chyba: prázdná statistika");
+$ls = $konfig{"ls"};
+$lz = 1-$ls;
+# Je možné načíst i druhou statistiku a porovnávat, jak se mění úspěšnost
+# analýzy při použití jedné či druhé. Volitelná statistika je stat1, základní
+# je stat.
+if($konfig{stat1})
+{
+    cist_statistiku($konfig{prac}."/".$konfig{stat1}, \%stat1, $konfig{kodovani_data});
+}
+
+
+
+# Načíst seznam subkategorizačních rámců sloves.
+if($konfig{valence} || $konfig{valence1})
+{
+    $konfig{nacteny_subkategorizacni_slovnik} = subkat::cist($konfig{subcat}); # vrátí odkaz na hash se subkategorizačním slovníkem
+}
+
+
+
+# Načíst seznam zákazů přeskočení slovesa určitou závislostí.
+if($konfig{nepreskocv})
+{
+    $konfig{nacteny_seznam_zakazu_preskoceni_slovesa} = nepreskocv::cist($konfig{nepreskocv_cesta}); # vrátí odkaz na hash
+}
+
+
+
+# Načíst model plodnosti.
+if($konfig{plodnost})
+{
+    if($konfig{plodnost_model} eq "ffm")
+    {
+        plodnost::pripravit_ffm(\%stat);
+    }
+    else
+    {
+        plodnost::cist($konfig{plodnost_cesta}); # plodnost_cesta se zatím nezohledňuje, čte se natvrdo plodnost.txt
+    }
+}
+
+
+
+# Načíst pomůcky pro model neprojektivit.
+if($konfig{neproj})
+{
+    povol::cist_rematizatory();
+}
+
+
+
+# Načíst vzory n-tic.
+if($konfig{ntice})
+{
+    $ntice = ntice::cist_ze_stat(\%stat);
+}
+
+
+
+# Číst testovací věty a analyzovat je.
+
+vypsat("csts", "<csts lang=cs><h><source>PDT</source></h><doc file=\"dz-parser-output\" id=\"1\"><a><mod>s<txtype>pub<genre>mix<med>nws<temp>1994<authname>y<opus>ln94206<id>3</a><c><p n=\"1\">\n");
+
+$konfig{hook_zacatek_cteni} = sub
+{
+    my $maska = shift;
+    my $soubory = shift;
+    vypsat("prubeh", "Maska pro jména souborů s daty: $maska\n");
+    vypsat("prubeh", "Nalezeno ".($#{$soubory}+1)." souborů.\n");
+};
+csts::projit_data($konfig{test}, \%konfig);
+
+vypsat("csts", "</c></doc></csts>\n");
+
+
+
+if($vystupy::cislo_instance)
+{
+    my $g = $hodnoceni{spravne};
+    my $p = $g/($g+$hodnoceni{spatne});
+    my $predmet = sprintf("Parsing $vystupy::cislo_instance skoncil: %4.1f %% (G $g)", $p*100);
+    vystupy::kopirovat_do_mailu("vysledky", $predmet);
+}
+vyhodnoceni::vypsat(\%hodnoceni);
+$stoptime = time();
+parse::vypsat_delku_trvani_programu($starttime, $stoptime, "konfig");
+parse::vypsat_delku_trvani_programu($starttime, $stoptime, "vysledky");
+
+
+
+###############################################################################
+# PODPROGRAMY
+###############################################################################
+
+
+
+#------------------------------------------------------------------------------
+# Analyzuje větu.
+#------------------------------------------------------------------------------
+sub zpracovat_vetu
+{
+    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
+    my $anot = shift; # pole hashů o jednotlivých slovech
+    # Vynechat prázdné věty a věty splňující zvláštní podmínky.
+    # Za prázdnou se považuje i věta, která obsahuje pouze 1 prvek (kořen).
+    if(scalar(@{$anot})>1 && !$vynechat_vetu)
+    {
+        $veta++;
+        # Ladící výpisy.
+        my ($sek, $min, $hod) = localtime(time());
+        my $jmeno_souboru_do_hlaseni = $stav_cteni->{soubor};
+        $jmeno_souboru_do_hlaseni =~ s-^.*/([^/]*)$-$1-;
+        $jmeno_souboru_do_hlaseni =~ s/\.(?:csts|amm)$//i;
+        my $n_slov = scalar(@{$anot});
+        vypsat("prubeh", parse::cas()." $jmeno_souboru_do_hlaseni Analyzuje se věta $veta (", sprintf("%3d", $n_slov), ") ...");
+        # Povolit ladící výpisy jen u prvních 50 vět.
+        $dbglog = $veta<=50;
+        ###############################################
+        # TADY ZAČÍNÁ VLASTNÍ ANALÝZA.
+        ###############################################
+        my $stav; # výstup parseru: kromě vlastní stromové struktury obsahuje i váhy a jiné doplňkové informace
+        # Ke krátkým větám máme k dispozici celé stromy.
+        if($#{$anot}<=8 && $konfig{krvety})
+        {
+            $stav = krvety::rozebrat($anot, \%vzorstrom);
+        }
+        # Ostatní věty rozebrat klasicky pěkně slovo za slovem.
+        else
+        {
+            # Rozebrat větu pomocí statistického modelu závislostí dvou slov na sobě.
+            $stav = rozebrat::rozebrat_vetu($anot);
+            if($konfig{ntice})
+            {
+                # Na závěr opravit některé chyby pomocí modelu n-tic.
+                # N-tice klidně mohou používat upravené morfologické značky z pole
+                # @anot, protože teď už se do nich nepromítá dědění v rámci koordinace.
+                my $rozbor_ntice = ntice::nasadit($ntice, $anot);
+                my @ana1 = @{$stav->{rodic}};
+                for(my $i = 0; $i<=$#ana1; $i++)
+                {
+                    if($rozbor_ntice->[$i] ne "" && $rozbor_ntice->[$i]!=-1)
+                    {
+                        $ana1[$i] = $rozbor_ntice->[$i];
+                    }
+                }
+                my @vzor = map{$_->{rodic_vzor}}(@{$anot});
+                ntice::zhodnotit(\@vzor, $stav->{rodic}, \@ana1, $rozbor_ntice);
+                # Po zhodnocení vlivu n-tic uložit jimi ovlivněný strom na
+                # výstup, aby se počítala jeho celková úspěšnost.
+                $stav->{rodic} = \@ana1;
+            }
+        }
+        # Spočítat chyby.
+        vyhodnoceni::zkontrolovat_strom($anot, $stav, \%hodnoceni);
+        # Do hlášení na standardní výstup vypsat úspěšnost analýzy této věty.
+        my $celkova_uspesnost = $hodnoceni{spravne}+$hodnoceni{spatne}>0 ? $hodnoceni{spravne}/($hodnoceni{spravne}+$hodnoceni{spatne}) : 0;
+        vypsat("prubeh", sprintf(" %3d %% %3d %% (%2d/%2d) $anot->[1]{slovo} $anot->[2]{slovo} $anot->[3]{slovo}\n", $celkova_uspesnost*100, $hodnoceni{uspesnost_posledni_strom}*100, $hodnoceni{spravne_posledni_strom}, $hodnoceni{celkem_posledni_strom}));
+        # Vypsat výsledný strom.
+        vypsat_strom($anot, $stav_cteni->{vetid}, $stav->{rodic});
+        # Vymazat proměnné, aby bylo možné číst další větu.
+        $spravne_strom = 0;
+        $spatne_strom = 0;
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Načte statistický model závislostí na určitých datech (např. na značkách).
+#------------------------------------------------------------------------------
+sub cist_statistiku
+{
+    my $soubor = shift; # odkud číst
+    my $statref = shift; # kam uložit
+    my $kodovani = shift; # z jakého kódování dekódovat
+    open(STAT, $soubor);
+    if($kodovani)
+    {
+        binmode(STAT, ":encoding($kodovani)");
+    }
+    vypsat("prubeh", "Čte se statistika $soubor [");
+    my $oznameno = 0;
+    my %cuzl;
+    my $celkem = 0;
+    while(<STAT>)
+    {
+        chomp;
+        m/(.*)\t(\d+)/;
+        my $k = $1;
+        my $c = $2;
+        my $udalost = $k;
+        # Pokud původní popis události obsahoval tabulátor, byl tabulátor zakódován a musíme ho teď dekódovat.
+        # Kvůli kódování tabulátorů byly zakódovány i ampersandy.
+        $udalost =~ s/&tab;/\t/g;
+        $udalost =~ s/&amp;/&/g;
+        $statref->{$udalost} = $c;
+        # Přičíst i do celkového počtu všech událostí (jmenovatel).
+        $celkem += $c;
+        # Bohužel se musím alespoň dočasně uchýlit k nečistému programování.
+        # Některé události je vhodné ukládat v jiném tvaru, a vzhledem
+        # k obrovskému celkovému počtu událostí je nejefektivnější provádět
+        # úpravy už tady.
+        if($udalost =~ m/^VET (\S+) (\S+)/)
+        {
+            my $vzor = $1;
+            my $strom = $2;
+            # V evidenci lze ke každé dvojici vzor věty - strom nalézt četnost.
+            # My chceme ke každému vzoru věty znát právě jeden strom, a to ten
+            # s největší četností.
+            if($c>$vzorstrom{$vzor}{cetnost})
+            {
+                $vzorstrom{$vzor}{strom} = $strom;
+                $vzorstrom{$vzor}{cetnost} = $c;
+            }
+            $vzorstrom{$vzor}{celkem} += $c;
+        }
+        # Oznámit pokrok ve čtení.
+        if($celkem>=$oznameno+10000)
+        {
+            vypsat("prubeh", ".");
+            $oznameno = $celkem;
+        }
+    }
+    close(STAT);
+    vypsat("prubeh", "]\n");
+    return $celkem;
+}
+
+
+
+#------------------------------------------------------------------------------
+# Vypíše výsledný strom na standardní výstup.
+#------------------------------------------------------------------------------
+sub vypsat_strom
+{
+    my $anot = shift; # odkaz na pole hashů
+    my $vetid = shift; # identifikátor věty (opsat ze vstupu, nevymýšlet si vlastní)
+    my $strom = shift; # odkaz na pole indexů rodičů uzlů
+    # Zatím globální proměnné.
+    vypsat("csts", "<s id=\"$vetid\" w=\"$pstrom\">\n");
+    for(my $i = 1; $i<=$#{$strom}; $i++)
+    {
+        my %uzel;
+        foreach my $atribut (qw(form lemma znacka afun))
+        {
+            $uzel{$atribut} = $anot->[$i]{$atribut};
+            # Zakódovat znaky, které mají v CSTS zvláštní význam.
+            $uzel{$atribut} =~ s/&/&amp;/g;
+            $uzel{$atribut} =~ s/</&lt;/g;
+            $uzel{$atribut} =~ s/>/&gt;/g;
+        }
+        my $uzel = "<f>$uzel{form}";
+        $uzel .= "<l>$uzel{lemma}";
+        $uzel .= "<t>$uzel{znacka}";
+        $uzel .= "<r>$i";
+        $uzel .= "<g>$anot->[$i]{rodic_vzor}";
+        $uzel .= "<A>$uzel{afun}";
+        $uzel .= "<MDg src=\"dz\">$strom->[$i]";
+        vypsat("csts", "$uzel\n");
+    }
+}
diff --git a/parser-padt.ini b/parser-padt.ini
index 9b8516d..82a45e1 100644
--- a/parser-padt.ini
+++ b/parser-padt.ini
@@ -1,231 +1,231 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-#train = /home/zeman/data/padt/trainmm.kruza.csts
-train = /home/zeman/data/padt/trainmm.csts
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-#test = /home/zeman/data/padt/testmm.kruza.bezneznamych.csts
-test = /home/zeman/data/padt/testmm.csts
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-# 045.stat <= padt/trainmm.kruza.csts
-# 033.stat <= pdt/2.0/trainmm.utf.csts
-stat = pracovni/033.stat
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 2
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 = 
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 = 
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 1
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+#train = /home/zeman/data/padt/trainmm.kruza.csts
+train = /home/zeman/data/padt/trainmm.csts
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+#test = /home/zeman/data/padt/testmm.kruza.bezneznamych.csts
+test = /home/zeman/data/padt/testmm.csts
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+# 045.stat <= padt/trainmm.kruza.csts
+# 033.stat <= pdt/2.0/trainmm.utf.csts
+stat = pracovni/033.stat
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 2
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 = 
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 = 
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 1
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/parser-pdt-slovak.ini b/parser-pdt-slovak.ini
index c6d83f2..4c543b8 100644
--- a/parser-pdt-slovak.ini
+++ b/parser-pdt-slovak.ini
@@ -1,234 +1,234 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-#train = /fs/clip-corpora/slovak/data_pdt/cs-train.csts
-#train = /home/zeman/data/pdt-sk/train.cs.utf.csts
-train = /home/zeman/data/pdt-sk/train.sk.utf.csts
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-#test  = /fs/clip-corpora/slovak/data_pdt/test.csts
-#test = /home/zeman/data/pdt-sk/test.cs.utf.csts
-test = /home/zeman/data/pdt-sk/test.sk.utf.csts
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-# 039.stat <= train.cs.utf.csts
-# 041.stat <= train.sk.utf.csts
-#stat = pracovni/039.stat
-stat = pracovni/041.stat
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 2
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 =
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 =
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 1
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+#train = /fs/clip-corpora/slovak/data_pdt/cs-train.csts
+#train = /home/zeman/data/pdt-sk/train.cs.utf.csts
+train = /home/zeman/data/pdt-sk/train.sk.utf.csts
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+#test  = /fs/clip-corpora/slovak/data_pdt/test.csts
+#test = /home/zeman/data/pdt-sk/test.cs.utf.csts
+test = /home/zeman/data/pdt-sk/test.sk.utf.csts
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+# 039.stat <= train.cs.utf.csts
+# 041.stat <= train.sk.utf.csts
+#stat = pracovni/039.stat
+stat = pracovni/041.stat
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 2
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 =
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 =
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 1
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/parser-pdt.ini b/parser-pdt.ini
index 5f0254a..cc1ecd7 100644
--- a/parser-pdt.ini
+++ b/parser-pdt.ini
@@ -1,230 +1,230 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
-train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-#test  = /home/zeman/data/pdt/1.0/testmm.utf.csts
-test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
-#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-stat = 
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 2
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 = MD
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 = a
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 1
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
+train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+#test  = /home/zeman/data/pdt/1.0/testmm.utf.csts
+test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
+#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+stat = 
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 2
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 = MD
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 = a
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 1
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/parser-pedt.ini b/parser-pedt.ini
index 9367bd9..3c39fbb 100644
--- a/parser-pedt.ini
+++ b/parser-pedt.ini
@@ -1,229 +1,229 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-train = /home/zeman/data/pedt/en-train.csts
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-test = /home/zeman/data/pedt/en-dtest.csts
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-# 045.stat <= padt/trainmm.kruza.csts
-# 033.stat <= pdt/2.0/trainmm.utf.csts
-stat = pracovni/052.stat
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 0
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 = 
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 = 
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 1
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+train = /home/zeman/data/pedt/en-train.csts
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+test = /home/zeman/data/pedt/en-dtest.csts
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+# 045.stat <= padt/trainmm.kruza.csts
+# 033.stat <= pdt/2.0/trainmm.utf.csts
+stat = pracovni/052.stat
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 0
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 = 
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 = 
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 1
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/parser-ru.ini b/parser-ru.ini
index 5f0165a..351e9c3 100644
--- a/parser-ru.ini
+++ b/parser-ru.ini
@@ -1,233 +1,233 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-#train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
-#train = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[ABV]*.csts
-#train = /home/zeman/data/russian_dependency_treebank/train-pdt2+rdt-abv.csts
-train = /home/zeman/data/russian_dependency_treebank/train-pdt2+rdt-abv.dz.csts
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-#test  = /fs/clip-corpora/russian/dependency-treebank/data_csts_pdttags/*.csts
-test = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[DG]*.csts
-#test = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[ABV]*.csts
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-#stat = pracovni/033.stat
-stat = pracovni/063.stat
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 2
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 =
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 =
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 1
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+#train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
+#train = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[ABV]*.csts
+#train = /home/zeman/data/russian_dependency_treebank/train-pdt2+rdt-abv.csts
+train = /home/zeman/data/russian_dependency_treebank/train-pdt2+rdt-abv.dz.csts
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+#test  = /fs/clip-corpora/russian/dependency-treebank/data_csts_pdttags/*.csts
+test = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[DG]*.csts
+#test = /home/zeman/data/russian_dependency_treebank/data_csts_pdttags/[ABV]*.csts
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+#stat = pracovni/033.stat
+stat = pracovni/063.stat
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 2
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 =
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 =
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 1
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/parser.ini b/parser.ini
index 91ac4ff..6b2111d 100644
--- a/parser.ini
+++ b/parser.ini
@@ -1,238 +1,238 @@
-# Konfigurace DZ Parseru
-# Configuration of the DZ Parser
-
-# Je-li atribut uveden opakovaně, použije se poslední hodnota!
-# If an attribute appears more than once, the last value will be used!
-
-
-
-###############################################################################
-# Vstup a výstup
-# Input and output
-###############################################################################
-
-# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
-# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
-
-# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
-# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
-# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
-# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
-# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
-# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
-rezim = debug
-
-# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
-# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
-ticho = 0
-
-# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
-# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
-testovat = 1
-
-# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
-# What messages to display (besides the trained model, parsed text and test results)?
-# 0 .... pouze kritické chyby                   | fatal errors only
-# 1 .... 0 + průběh práce                       | 0 + job progress
-# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
-# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
-# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
-ukecanost = -1
-
-# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
-# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
-# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
-# for training and test) but we need to know it in order to display examples in the terminal.
-kodovani_data = utf8
-
-# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
-kodovani_stderr = utf8
-
-# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
-# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
-kodovani_log = utf8
-
-# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
-# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
-
-# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
-# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
-#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
-#train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
-train = -
-
-# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
-# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
-#test  = /home/zeman/data/pdt/1.0/testmm.utf.csts
-#test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
-#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts
-test = -
-
-# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
-# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
-prac = pracovni
-
-# Název souboru se statistikou událostí (v pracovní složce).
-# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
-# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
-# Name of the file with the event statistics (in the working folder).
-# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
-# Affects only the input of parse.pl, not the output of train.pl.
-stat = 
-# Případná druhá statistika pro porovnání změn v úspěšnosti.
-# Possible second statistics to compare accuracies.
-stat1 =
-
-# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
-# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
-subcat = ../valence/seznam_ramcu.txt
-
-
-
-###############################################################################
-# Parametry tréninku i testu (při změně nutno přetrénovat!)
-###############################################################################
-# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
-# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
-# žádná věta, vynech = 0.
-#vynech = ExD|Coord|Apos
-#vynech = ExD
-vynech = 0
-# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
-# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
-pseudoval = 1
-# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
-nevlastni_predlozky = 1
-# Mají se ve statistikách kombinovat alternativní anotace? Např. značka
-# N2|N4|P4 by se považovala za paralelní alternativy N2, N4 a P4. Pro zpracování
-# alternativ jsou významné znaky svislítko a mezera, které se pak nesmí objevit
-# v hodnotách atributů (zatím se týká pouze morfologických značek). Pokud jsou
-# alternativy vypnuté, N2|N4|P4 se považuje za jednu značku. (0 nebo 1)
-alternativy = 0
-# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
-# 0 = žádné změny značek
-# 1 = změny přibližně jako v Baltimoru
-# 2 = změny přibližně jako u Collinse
-upravovat_mzn = 2
-# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
-# Pokud ano, přidá se například do značky pro předložku lemma předložky.
-# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
-selex = 1
-# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
-# k těmto hodnotám už se nepřihlíží.
-# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
-selex_predlozky = 1
-selex_podradici_spojky = 1
-selex_zajmena = 1
-selex_prislovce_100 = 1
-selex_byt = 1
-# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
-# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
-# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
-# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
-# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
-# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
-zarlivost = 0
-# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj0 = 
-# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
-# Poznámka: přetrénování není nezbytné, ale vhodné.
-mzdroj1 = 
-# Odlišovat koordinace od pravých závislostí?
-koordinace = 0
-# Brát v úvahu vzdálenost?
-# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
-# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
-# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
-vzdalenost = 3
-# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
-vzdalenost_delitel = 1
-# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
-# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
-pod_korenem_sloveso_misto_smeru = 1
-# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
-max_trenovacich_vet = 0
-# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
-# níže uvedeném počtu zjištěných událostí.
-#split = 300000
-
-
-
-###############################################################################
-# Parametry testu (při změně není nutno přetrénovat).
-###############################################################################
-# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
-# povolit (1)?
-neproj = 1
-# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
-# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
-#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
-komponentove = 1
-# Způsob výběru závislého uzlu, který má být na řadě.
-vyberzav = relativni-cetnost
-# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
-# k počtu výskytů závislého uzlu (0)?)
-abscetnost = 0
-# Druh pravděpodobnostního modelu.
-model = ls*slova+lz*znacky
-# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
-ls = 0.734375
-#ls = 1
-# Upřednostňovat valenční závislosti?
-valence = 0
-# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
-valence1 = 0
-# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
-valence1_maxnavratu = 100
-# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
-valence1_maxgenstav = 50000
-# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
-vztaz = 1
-# Povolit lokální konflikty (koordinace)?
-lokon = 1
-# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
-# závislostech (syntaktické značky oddělené svislítky).
-testafun = Sb|Obj|AuxT|Pnom|Adv
-# Zakázat přeskakování bezdětných předložek?
-predlozky = 1
-# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
-# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
-# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
-# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
-nekoord = 1
-# Zakázat přeskakování podstatných jmen v genitivu?
-nepreskocg = 0
-# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
-nepreskocv = 1
-nepreskocv_cesta = zakazy_preskoceni.txt
-# Modelovat plodnost?
-# plodnost=1 ... plodnost bude zohledněna
-# plodnost=0 ... plodnost nebude zohledněna
-plodnost = 0
-# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
-# plodnost_model=ffm ... události ZPL z centrální statistiky
-# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
-# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
-plodnost_model = qfm
-# Zpracovat krátké věty zvláštním způsobem?
-# krvety = 1 ... ano
-# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
-krvety = 1
-# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
-# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
-# ntice = 0 ... ne
-ntice = 1
-# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
-# Zavěšovat koncovou interpunkci povinně pod kořen?
-koncint = 1
-# Má být počet dětí kořene omezen na 2?
-koren_2_deti = 1
-# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
-# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
-mezicarkove_useky = 1
-# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
-carka_je_list = 1
-# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
-nekolik_nejlepsich_zavislosti = 0
+# Konfigurace DZ Parseru
+# Configuration of the DZ Parser
+
+# Je-li atribut uveden opakovaně, použije se poslední hodnota!
+# If an attribute appears more than once, the last value will be used!
+
+
+
+###############################################################################
+# Vstup a výstup
+# Input and output
+###############################################################################
+
+# Atributy rezim a ticho určují, kam se bude vypisovat. Atributy ukecanost a testovat určují, co se bude vypisovat.
+# The rezim and ticho attributes specify where the output goes. The ukecanost and testovat attributes specify what gets printed out.
+
+# V režimu normal se čte STDIN, píše se na STDOUT a STDERR a nevznikají soubory na disku.
+# V režimu debug se vytvářejí číslované výstupní soubory v pracovní složce. Některé z nich mohou být kopírovány na STDOUT.
+# Po skončení programu jsou v režimu debug zaslány výsledky testu a doba trvání programu mailem Danovi.
+# If rezim=normal, STDIN is read, STDOUT and STDERR are written and no files are created on the disk.
+# If rezim=debug, numbered output files are created in the working folder. Some of them can be duplicated to STDOUT.
+# After finishing the run in debug mode the test results and the program duration time are mailed to Dan.
+rezim = debug
+
+# V tichém režimu se nic neposílá na standardní výstup, vše jen do souborů. Uplatní se jen v režimu debug.
+# If ticho=1, nothing is sent to the standard output, everything goes to files. Applies to rezim=debug only.
+ticho = 0
+
+# Testovat úspěšnost? (Pouze pro parse.pl. Předpoklad: vstupní data obsahují správné odpovědi.)
+# Test accuracy? (For parse.pl only. Assumption: the input data contains the correct answers.)
+testovat = 1
+
+# Jaká hlášení vypisovat (kromě natrénovaného modelu, analyzovaného textu a výsledků testu)?
+# What messages to display (besides the trained model, parsed text and test results)?
+# 0 .... pouze kritické chyby                   | fatal errors only
+# 1 .... 0 + průběh práce                       | 0 + job progress
+# 2 .... 1 + otisk konfigurace                  | 1 + configuration snapshot
+# -1 ... jako 1 když rezim=normal, jako 2 jinak | as 1 if rezim=normal, as 2 otherwise
+# -2 ... jako 0 když rezim=normal, jako 2 jinak | as 0 if rezim=normal, as 2 otherwise
+ukecanost = -1
+
+# Kódování dat. Parser na znalosti kódování moc nezávisí (pokud použijete stejné kódování při tréninku i při testu),
+# ale potřebujeme ho znát kvůli zobrazování příkladů v terminálu.
+# Encoding of the data. The parser depends little on the knowledge of the encoding (as long as you use the same encoding
+# for training and test) but we need to know it in order to display examples in the terminal.
+kodovani_data = utf8
+
+# Kódování diagnostických hlášení na STDERR. Pro cmd.exe v českých Windows použijte cp852. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages at STDERR. For cmd.exe in Czech Windows use cp852. Default is iso-8859-2.
+kodovani_stderr = utf8
+
+# Kódování diagnostických hlášení zapsaných do souborů. Pro prohlížení v českých Windows použijte cp1250. Výchozí je iso-8859-2.
+# Encoding of the diagnostic messages written to files. For viewing in Czech Windows use cp1250. Default is iso-8859-2.
+kodovani_log = utf8
+
+# Poznámka: Kódování analyzovaného textu nelze ovlivnit. Je stejné jako na vstupu a mělo by být stejné jako u trénovacích dat.
+# Note: The encoding of the parsed text cannot be changed. It is same as encoding of input and should be same as encoding of training data.
+
+# Cesta k trénovacím datům. Pomocí zástupných znaků * a ? lze určit více než jeden soubor. Pomlčka ("-") znamená standardní vstup.
+# Path to the training data. May contain * and ? wildcards to specify more than one file. A dash ("-") means standard input.
+#train = /home/zeman/data/pdt/1.0/trainmm.utf.csts
+#train = /home/zeman/data/pdt/2.0/trainmm.utf.csts
+train = -
+
+# Cesta k datům, která mají být analyzována (testovací data). Lze použít zástupné znaky. Pomlčka znamená standardní vstup.
+# Path to the data to be parsed (test data). Wildcards may be used. A dash means standard input.
+#test  = /home/zeman/data/pdt/1.0/testmm.utf.csts
+#test = /home/zeman/data/pdt/2.0/dtestmm.utf.csts
+#test = /home/zeman/data/pdt/2.0/etestmm.utf.csts
+test = -
+
+# Pracovní složka pro ukládání statistik, částečně zpracovaných dat aj. Pouze pro rezim=debug.
+# Working folder for saving statistics, partially processed data etc. Only for rezim=debug.
+prac = pracovni
+
+# Název souboru se statistikou událostí (v pracovní složce).
+# Pokud je prázdný, parse.pl vybere v pracovní složce soubor s nejvyšším číslem a příponou ".stat".
+# Ovlivňuje vstup parse.pl, ale ne výstup train.pl.
+# Name of the file with the event statistics (in the working folder).
+# If empty, parse.pl selects the file with the highest number and the extension ".stat" in the working folder.
+# Affects only the input of parse.pl, not the output of train.pl.
+stat = 
+# Případná druhá statistika pro porovnání změn v úspěšnosti.
+# Possible second statistics to compare accuracies.
+stat1 =
+
+# Název souboru se seznamem vazeb (rámců) sloves. Musí být uveden pouze když valence nebo valence1 = 1.
+# Name of the file with the list of verb frames. Must only be set if valence or valence1 = 1.
+subcat = ../valence/seznam_ramcu.txt
+
+
+
+###############################################################################
+# Parametry tréninku i testu (při změně nutno přetrénovat!)
+###############################################################################
+# Seznam s-značek, které se nesmí ve větě vyskytnout, jinak bude vynechána.
+# Značky jsou odděleny svislítkem, např. ExD|Coord|Apos. Nemá-li být vynechána
+# žádná věta, vynech = 0.
+#vynech = ExD|Coord|Apos
+#vynech = ExD
+vynech = 0
+# Tzv. pseudovalence ano nebo ne? (0 nebo 1)
+# Jde o to, že slovesům se sčítá jejich čistě značková a heslová prst.
+pseudoval = 1
+# Překroutit složené předložky, aby visely podle mě, ne podle PDT? (0 nebo 1)
+nevlastni_predlozky = 1
+# Mají se ve statistikách kombinovat alternativní anotace? Např. značka
+# N2|N4|P4 by se považovala za paralelní alternativy N2, N4 a P4. Pro zpracování
+# alternativ jsou významné znaky svislítko a mezera, které se pak nesmí objevit
+# v hodnotách atributů (zatím se týká pouze morfologických značek). Pokud jsou
+# alternativy vypnuté, N2|N4|P4 se považuje za jednu značku. (0 nebo 1)
+alternativy = 0
+# Upravovat morfologické značky? (Závislé na konkrétním jazyku a sadě značek.)
+# 0 = žádné změny značek
+# 1 = změny přibližně jako v Baltimoru
+# 2 = změny přibližně jako u Collinse
+upravovat_mzn = 2
+# Provádět tzv. selektivní lexikalizaci m-značek? (0 nebo 1)
+# Pokud ano, přidá se například do značky pro předložku lemma předložky.
+# Pozor, selex=1 nefunguje, jestliže upravovat_mzn!=2.
+selex = 1
+# Selektivní lexikalizace každého slovního druhu zvlášť. Pokud je selex=0,
+# k těmto hodnotám už se nepřihlíží.
+# Svým způsobem by sem patřilo i výše uvedené pseudoval jako selex_slovesa.
+selex_predlozky = 1
+selex_podradici_spojky = 1
+selex_zajmena = 1
+selex_prislovce_100 = 1
+selex_byt = 1
+# Parametrizovat pravděpodobnost závislosti otázkou, zda na navrhovaném rodiči
+# už visí jiný uzel se stejnou značkou jako navrhované dítě? Při trénování se
+# u každého uzlu zjišťuje, zda má alespoň jednoho takového sourozence, a pokud
+# ano, příznak se nastaví u obou. Není to sice pravděpodobnostně korektní, protože
+# při analýze bude odpověď kladná jen u jednoho z obou sourozenců, ale nemá smysl
+# implementovat to pečlivěji, protože výsledný efekt je stejně negativní.
+zarlivost = 0
+# Druh zdroje morfologických značek: MM, MD nebo prázdný řetězec (= ručně).
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj0 = 
+# Zdroj morfologických značek: atribut src (např. <MDt src="a">)
+# Poznámka: přetrénování není nezbytné, ale vhodné.
+mzdroj1 = 
+# Odlišovat koordinace od pravých závislostí?
+koordinace = 0
+# Brát v úvahu vzdálenost?
+# vzdalenost = 0 ... vzdálenost se nezohledňuje v žádné podobě
+# vzdalenost = 2 ... parametrem pro váhu závislosti je soused/nesoused
+# vzdalenost = 3 ... parametrem pro váhu závislosti je soused/nesoused/čárka
+vzdalenost = 3
+# vzdalenost_delitel = 1 ... nezávislé na výše uvedených: váha závislosti se dělí vzdáleností
+vzdalenost_delitel = 1
+# Závislosti na kořeni nerozlišují směr, ale zato kontrolují přítomnost slovesa ve
+# větě. Pozor, při změně tohoto přepínače se musí přetrénovat!
+pod_korenem_sloveso_misto_smeru = 1
+# Omezit velikost trénovacích dat? Pokud tu není nula, trénink se zastaví po N větách a vypíše počet slov.
+max_trenovacich_vet = 0
+# Technický problém s velikostí paměti: rozdělit trénovací data do úseků o
+# níže uvedeném počtu zjištěných událostí.
+#split = 300000
+
+
+
+###############################################################################
+# Parametry testu (při změně není nutno přetrénovat).
+###############################################################################
+# Způsob budování stromu: zakázat (0) neprojektivity, nebo je v omezené míře
+# povolit (1)?
+neproj = 1
+# Způsob budování stromu (komponentově, nebo shora dolů). Shora dolů lze použít
+# pouze při neproj = 0, neprojektivity jsou v něm však povoleny libovolně.
+#!!! Pozor, komponentove=0 momentálně (20.7.2004) způsobí zacyklení výpočtu!
+komponentove = 1
+# Způsob výběru závislého uzlu, který má být na řadě.
+vyberzav = relativni-cetnost
+# Způsob ohodnocení závislosti (absolutní četnost (1), nebo relativní vzhledem
+# k počtu výskytů závislého uzlu (0)?)
+abscetnost = 0
+# Druh pravděpodobnostního modelu.
+model = ls*slova+lz*znacky
+# Váha modelu závislostí slov v kombinovaném modelu slova+značky.
+ls = 0.734375
+#ls = 1
+# Upřednostňovat valenční závislosti?
+valence = 0
+# Kontrolovat po sestavení prvního návrhu stromu, zda jsou naplněné valenční rámce?
+valence1 = 0
+# Omezení počtu návratů při hledání lepšího naplnění valenčních rámců.
+valence1_maxnavratu = 100
+# Omezení počtu generovaných stavů při hledání lepšího naplnění valenčních rámců.
+valence1_maxgenstav = 50000
+# Uplatnit zvláštní zacházení na vztažné vedlejší věty?
+vztaz = 1
+# Povolit lokální konflikty (koordinace)?
+lokon = 1
+# Kromě celkové úspěšnosti sledovat zvlášť úspěšnost na následujících
+# závislostech (syntaktické značky oddělené svislítky).
+testafun = Sb|Obj|AuxT|Pnom|Adv
+# Zakázat přeskakování bezdětných předložek?
+predlozky = 1
+# Násobit pravděpodobnost závislosti pravděpodobností, že řídící uzel není
+# koordinační spojkou? (Stejně, jako se už teď násobí pravděpodobnost
+# koordinace pravděpodobností, že řídící uzel je koordinační spojkou.)
+# (a1 / a0 je zkratka pro tuto volbu v zaznam.txt)
+nekoord = 1
+# Zakázat přeskakování podstatných jmen v genitivu?
+nepreskocg = 0
+# Zakázat přeskakování určitých slovesných tvarů určitými závislostmi?
+nepreskocv = 1
+nepreskocv_cesta = zakazy_preskoceni.txt
+# Modelovat plodnost?
+# plodnost=1 ... plodnost bude zohledněna
+# plodnost=0 ... plodnost nebude zohledněna
+plodnost = 0
+# Jakým způsobem zohlednit plodnost? (Funguje pouze pokud plodnost=1.)
+# plodnost_model=ffm ... události ZPL z centrální statistiky
+# plodnost_model=tfm ... jen výběr v plodnost.txt, 0-0.5-1
+# plodnost_model=qfm ... jen výběr v plodnost.txt, 0-1
+plodnost_model = qfm
+# Zpracovat krátké věty zvláštním způsobem?
+# krvety = 1 ... ano
+# krvety = 0 ... ne, ale při trénování se potřebné statistiky stejně sbírají
+krvety = 1
+# Vyhodnocovat morfologické vzory pro n-tice, které mají v 90% stejnou strukturu?
+# ntice = 1 ... ano, statistiky musejí být k dispozici ve zvláštních souborech
+# ntice = 0 ... ne
+ntice = 1
+# PEVNÁ OMEZENÍ, KTERÁ NEMAJÍ NIC SPOLEČNÉHO SE STATISTIKOU
+# Zavěšovat koncovou interpunkci povinně pod kořen?
+koncint = 1
+# Má být počet dětí kořene omezen na 2?
+koren_2_deti = 1
+# Má se hlídat, aby z úseku mezi dvěma čárkami nevedla žádná závislost ven, dokud
+# nejsou všechny uzly až na jeden zavěšeny v podstromu toho jednoho nezavěšeného?
+mezicarkove_useky = 1
+# Vyžadovat, aby čárky byly listy, tj. aby zůstaly bezdětné?
+carka_je_list = 1
+# Zahrnout do vyhodnocení několik nejlepších závislostí pro každé slovo?
+nekolik_nejlepsich_zavislosti = 0
diff --git a/rematizatory.txt b/rematizatory.txt
index 23a55fb..ce80284 100644
--- a/rematizatory.txt
+++ b/rematizatory.txt
@@ -1,48 +1,48 @@
-0.523659 166 151 ani
-0.548148 148 122 nap��klad
-0.556373 227 181 u�
-0.571429 4 3 zrovna
-0.578947 11 8 jedin�
-0.596154 62 42 hlavn�
-0.600000 3 2 jakoby
-0.600000 6 4 v
-0.600000 6 4 nejenom
-0.600000 12 8 maxim�ln�
-0.600575 209 139 je�t�
-0.601266 95 63 t�eba
-0.604048 1373 900 i
-0.609756 200 128 zejm�na
-0.611111 55 35 teprve
-0.611111 66 42 hned
-0.613260 222 140 p�edev��m
-0.613636 27 17 nejm�n�
-0.614286 43 27 zvl�t�
-0.615385 24 15 p�ibli�n�
-0.620690 252 154 ji�
-0.632000 158 92 pr�v�
-0.644737 49 27 ne
-0.651685 116 62 nejen
-0.657143 23 12 nikoli
-0.666667 2 1 toliko
-0.666667 2 1 na
-0.666667 4 2 tak�ka
-0.666667 46 23 dokonce
-0.680328 83 39 p��mo
-0.684729 278 128 pouze
-0.691223 441 197 jen
-0.692810 106 47 asi
-0.694686 719 316 a�
-0.708333 51 21 alespo�
-0.712121 47 19 zhruba
-0.714286 10 4 aspo�
-0.722222 13 5 p�inejmen��m
-0.736842 42 15 t�m��
-0.740741 20 7 minim�ln�
-0.742857 26 9 nikoliv
-0.750000 3 1 bezm�la
-0.800000 28 7 jenom
-0.900000 9 1 skoro
-1.000000 2 0 do
-1.000000 2 0 m�rn�
-1.000000 3 0 za
-1.000000 52 0 nap�
+0.523659 166 151 ani
+0.548148 148 122 nap��klad
+0.556373 227 181 u�
+0.571429 4 3 zrovna
+0.578947 11 8 jedin�
+0.596154 62 42 hlavn�
+0.600000 3 2 jakoby
+0.600000 6 4 v
+0.600000 6 4 nejenom
+0.600000 12 8 maxim�ln�
+0.600575 209 139 je�t�
+0.601266 95 63 t�eba
+0.604048 1373 900 i
+0.609756 200 128 zejm�na
+0.611111 55 35 teprve
+0.611111 66 42 hned
+0.613260 222 140 p�edev��m
+0.613636 27 17 nejm�n�
+0.614286 43 27 zvl�t�
+0.615385 24 15 p�ibli�n�
+0.620690 252 154 ji�
+0.632000 158 92 pr�v�
+0.644737 49 27 ne
+0.651685 116 62 nejen
+0.657143 23 12 nikoli
+0.666667 2 1 toliko
+0.666667 2 1 na
+0.666667 4 2 tak�ka
+0.666667 46 23 dokonce
+0.680328 83 39 p��mo
+0.684729 278 128 pouze
+0.691223 441 197 jen
+0.692810 106 47 asi
+0.694686 719 316 a�
+0.708333 51 21 alespo�
+0.712121 47 19 zhruba
+0.714286 10 4 aspo�
+0.722222 13 5 p�inejmen��m
+0.736842 42 15 t�m��
+0.740741 20 7 minim�ln�
+0.742857 26 9 nikoliv
+0.750000 3 1 bezm�la
+0.800000 28 7 jenom
+0.900000 9 1 skoro
+1.000000 2 0 do
+1.000000 2 0 m�rn�
+1.000000 3 0 za
+1.000000 52 0 nap�
diff --git a/train.pl b/train.pl
index 1a00ace..2d1283a 100755
--- a/train.pl
+++ b/train.pl
@@ -1,820 +1,820 @@
-#!/usr/bin/perl
-# Natrénuje statistiky z treebanku a uloží je.
-# (c) 1995-2008 Dan Zeman <zeman@ufal.mff.cuni.cz>
-# License: GNU GPL
-
-use utf8;
-use Getopt::Long;
-# Zařídit, aby Perl hledal knihovny také ve složce, ve které se nachází tento skript.
-BEGIN {my $path = `dirname $0`; $path =~ s/\r?\n$//; unshift(@INC, $path) unless(grep {$_ eq $path} @INC)}
-use parse;
-use csts;
-use model; # kvůli zjistit_smer_a_delku()
-use vystupy;
-use ntice;
-use ud;
-
-
-
-$starttime = time();
-my $inisoubor = "parser.ini"; # jméno souboru s konfigurací
-# train.pl --i parser2.ini
-GetOptions('ini=s' => \$inisoubor);
-# Výchozí nastavení parametrů.
-%konfig = parse::vychozi_konfig();
-parse::precist_konfig($inisoubor, \%konfig);
-# Nastavit, který výstup půjde na STDOUT. Ostatní půjdou na STDERR.
-$vystupy::vystupy{stat}{stdout} = 1;
-
-
-
-# Načíst seznam subkategorizačních rámců sloves.
-# Potřebujeme ho, abychom mohli počítat, kolikrát se která m-značka vyskytla
-# jako povinné, a kolikrát jako volné doplnění.
-if($konfig{valence})
-{
-    $konfig{nacteny_subkategorizacni_slovnik} = subkat::cist($konfig{subcat}); # vrátí odkaz na hash se subkategorizačním slovníkem
-}
-
-
-
-# Kvůli snížení paměťových nároků lze statistický model rozdělit do dílů.
-# Díly se číslují od jedničky.
-$i_dil = 1;
-$konfig{hook_zacatek_cteni} = sub
-{
-    my $maska = shift;
-    my $soubory = shift;
-    vypsat("prubeh", "Maska pro jména souborů s daty: $maska\n");
-    vypsat("prubeh", "Nalezeno ".($#{$soubory}+1)." souborů.\n");
-};
-$tmpfile = zkopirovat_vstup_do_tmp($konfig{train});
-csts::projit_data($tmpfile, \%konfig, \&zpracovat_vetu);
-vypsat("prubeh", "Počet vět  = $veta\n");
-vypsat("prubeh", "Počet slov = $slovo\n");
-# Teď ještě natrénovat modely n-tic. Nemohli jsme to dělat všechno při jednom
-# průchodu dat, protože by nám nemusela stačit paměť. N-tic sice přežije jen
-# kolem 7000, ale během trénování jich musíme mít v paměti přes 5000000.
-if($konfig{ntice})
-{
-    %stat = ();
-    $veta = 0;
-    $slovo = 0;
-    $ohlasena_veta = 0;
-    csts::projit_data($tmpfile, \%konfig, \&zpracovat_vetu_ntice);
-    ntice::vypsat_do_stat();
-}
-unlink($tmpfile);
-# Poslat mi mail, že trénink je u konce. Musíme do mailu dát nějaký existující
-# soubor. Stačil by mi sice prázdný mail jen s předmětem zprávy, ale pokud bych
-# k tomu chtěl využít existující mechanismy, vznikl by mi tím na disku prázdný
-# soubor.
-if($vystupy::cislo_instance)
-{
-    vystupy::kopirovat_do_mailu("konfig", "Trenink $vystupy::cislo_instance skoncil");
-}
-
-# Konec.
-$stoptime = time();
-parse::vypsat_delku_trvani_programu($starttime, $stoptime, "konfig");
-parse::vypsat_delku_trvani_programu($starttime, $stoptime, "vysledky") if($konfig{rezim} eq "debug");
-
-
-
-###############################################################################
-# PODPROGRAMY
-###############################################################################
-
-
-
-#------------------------------------------------------------------------------
-# Projde větu a zapamatuje si vztahy v ní.
-#------------------------------------------------------------------------------
-sub zpracovat_vetu
-{
-    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
-    my $anot = shift; # pole hashů o jednotlivých slovech
-    # Před zpracováním první věty souboru ohlásit nový soubor.
-    # (Test, zda jsme na začátku souboru, je uvnitř.)
-    vypsat_jmeno_souboru($stav_cteni);
-    # Vynechat věty se závadným obsahem (proměnná $vynechat_vetu se nastavuje
-    # při načítání slova) a věty nad rámec požadovaného rozsahu.
-    return if($vynechat_vetu || $konfig{max_trenovacich_vet} && $veta>=$konfig{max_trenovacich_vet});
-    # Ohlásit na výstup číslo zpracovávané věty.
-    $veta++ if($#{$anot}>0);
-    $slovo += $#{$anot};
-    $ohlasena_veta = ohlasit_vetu($stav_cteni, $ohlasena_veta, $veta);
-    # Zapamatovat si nejdelší větu.
-    if($#{$anot}>$maxn_slov)
-    {
-        $maxn_slov = $#{$anot};
-    }
-    if($#{$anot}>0) # Pokud nezačínáme číst první větu.
-    {
-        #!!!
-        # Alternující části kódu.
-        my @alt;
-        $alt[0] = 1; # coordmember je (0) dite rodice se spravnym afunem (1) i vzdalenejsi potomek (treba pod predlozkou), ale zato clen (pokud je tedy dite korene koordinace, ale neni jeji clen, neni coordmember)
-        $alt[1] = 0; # ke koordinacim pridat apozice
-        $alt[2] = 1; # v beznych zavislostech zdedene znacky
-        $alt[3] = 0; # zaznamenavat koordinacni udalosti
-        # (jinak se zaznamenavaji pouze zavislosti)
-        #!!!
-        # Dokud existuje možnost, že při procházení koordinací se budou
-        # upravovat $anot->[$i]{znacka} a $anot->[$i]{afun}, musejí se koordinace zpracovávat před
-        # závislostmi, ve kterých se tohle využije. Až se bude spoléhat jen
-        # na zděděné značky, bude možné pořadí otočit.
-        if($konfig{koordinace})
-        {
-            projit_koordinace($anot, \@alt);
-        }
-        # Projít větu a posbírat statistiky.
-        for(my $i = 1; $i<=$#{$anot}; $i++)
-        {
-            zjistit_udalosti_slovo($i, $anot->[$i]{rodic_vzor}, \@alt, $anot);
-        }
-        # Spočítat lokální konflikty.
-        spocitat_lokalni_konflikty($anot);
-        # Zjistit rámce všech řídících uzlů (včetně volitelných doplnění).
-        projit_ramce($anot);
-        # U krátkých vět si zapamatovat celý strom.
-        projit_kratkou_vetu($anot);
-    }
-    # Uložit statistiku, jestliže je tohle poslední věta, popř. poslední, která se vejde do omezení.
-    $i_dil = ulozit_statistiku_pokud_je_to_potreba($stav_cteni, $veta, $i_dil);
-}
-
-
-
-#------------------------------------------------------------------------------
-# Projde větu, najde v ní n-tice a zapamatuje si je.
-#------------------------------------------------------------------------------
-sub zpracovat_vetu_ntice
-{
-    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
-    my $anot = shift; # pole hashů o jednotlivých slovech
-    # Před zpracováním první věty souboru ohlásit nový soubor.
-    # (Test, zda jsme na začátku souboru, je uvnitř.)
-    vypsat_jmeno_souboru($stav_cteni);
-    # Vynechat věty se závadným obsahem (proměnná $vynechat_vetu se nastavuje
-    # při načítání slova) a věty nad rámec požadovaného rozsahu.
-    return if($vynechat_vetu || $konfig{max_trenovacich_vet} && $veta>=$konfig{max_trenovacich_vet});
-    # Ohlásit na výstup číslo zpracovávané věty.
-    $veta++ if($#{$anot}>0);
-    $slovo += $#{$anot};
-    $ohlasena_veta = ohlasit_vetu($stav_cteni, $ohlasena_veta, $veta, "N-tice: ");
-    for(my $n = 2; $n<=10; $n++)
-    {
-        ntice::ucit($n, $anot);
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Vypíše do průběhu jméno souboru, který právě čteme.
-#------------------------------------------------------------------------------
-sub vypsat_jmeno_souboru
-{
-    my $stav_cteni = shift;
-    if($stav_cteni->{novy_soubor})
-    {
-        my ($sek, $min, $hod) = localtime(time());
-        my $jmeno_souboru_do_hlaseni = $stav_cteni->{soubor};
-        $jmeno_souboru_do_hlaseni =~ s-^.*/([^/]*)$-$1-;
-        $jmeno_souboru_do_hlaseni =~ s/\.(?:csts|amm)$//i;
-        vypsat("prubeh", parse::cas()." Otevírá se soubor $jmeno_souboru_do_hlaseni\n");
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Vypíše do průběhu číslo věty, kterou právě zpracováváme. Vrátí číslo věty,
-# pokud ji ohlásil, jinak vrátí číslo naposledy ohlášené věty.
-#------------------------------------------------------------------------------
-sub ohlasit_vetu
-{
-    my $stav_cteni = shift;
-    my $ohlasena_veta = shift;
-    my $veta = shift;
-    my $prubeh = shift;
-    if($veta-$ohlasena_veta==100 ||
-       $stav_cteni->{posledni_veta} ||
-       ($konfig{max_trenovacich_vet} && $veta==$konfig{max_trenovacich_vet}))
-    {
-        vypsat("prubeh", parse::cas()." ${prubeh}Zpracovává se věta $veta.\n");
-        $ohlasena_veta = $veta;
-    }
-    return $ohlasena_veta;
-}
-
-
-
-#------------------------------------------------------------------------------
-# Zjistit, zda je potřeba uložit statistiku, a v případě potřeby to udělá.
-#------------------------------------------------------------------------------
-sub ulozit_statistiku_pokud_je_to_potreba
-{
-    my $stav_cteni = shift;
-    my $veta = shift; # číslo zpracovávané věty
-    my $i_dil = shift;
-    # %stat: globální proměnná
-    my $konfig = \%main::konfig;
-    # Jestliže jsme už přečetli určitý počet událostí, uložit dosud nasbíranou
-    # statistiku, vyprázdnit paměť a od příští věty začít nanovo.
-    my $n_udalosti = int(keys(%stat));
-    if($konfig->{split}>0 && $n_udalosti>=$konfig->{split} ||
-       $konfig->{max_trenovacich_vet} && $veta==$konfig->{max_trenovacich_vet} ||
-       $stav_cteni->{posledni_veta})
-    {
-        # Jméno souboru se statistikou.
-        my $jmeno = $konfig->{prac}."/".$konfig->{stat};
-        if($konfig->{split})
-        {
-            vypsat("prubeh", parse::cas()." Konec $i_dil. dílu.\n");
-            $jmeno .= $i_dil;
-        }
-        # Uložit dosud nasbíranou statistiku.
-        ulozit(\%stat, $jmeno);
-        unless($stav_cteni->{posledni_veta})
-        {
-            # Uvolnit paměť pro nový díl.
-            vypsat("prubeh", parse::cas()." Uvolňuje se paměť.\n");
-            undef(%stat);
-        }
-        $i_dil++;
-    }
-    return $i_dil;
-}
-
-
-
-#------------------------------------------------------------------------------
-# Zjistí trénovací události o jednom slově (to neznamená, že kvůli němu nebude
-# potřebovat projít všechna ostatní slova věty).
-#------------------------------------------------------------------------------
-sub zjistit_udalosti_slovo
-{
-    my $z = shift;
-    my $r = shift;
-    my $alt = shift; # jen odkaz na pole
-    my $anot = shift; # jen odkaz na pole
-    # Vynechat uzly, jejichž rodič řídí koordinaci. Buď jsou členy koordinace a
-    # jejich vztah k rodiči není závislost. Nebo závisejí na koordinaci, ta by
-    # ale místo značky souřadící spojky měla být reprezentována značkou
-    # typického člena, takže závislost na koordinaci vyžaduje zvláštní
-    # zacházení.
-    my $coordmember;
-    if($konfig{koordinace})
-    {
-        if(!$alt->[0])
-        {
-            if(!$alt->[1])
-            {
-                $coordmember = ($anot->[$r]{afun}=~m/Coord/);
-            }
-            else
-            {
-                $coordmember = ($anot->[$r]{afun}=~m/(?:Coord|Apos)/);
-            }
-        }
-        else
-        {
-            $coordmember = $anot->[$z]{coordmember};
-        }
-    }
-    # Odlišit členy koordinací od závislých uzlů.
-    if(!$coordmember)
-    {
-        if($konfig{koordinace})
-        {
-            # Vynechat uzly, které samy řídí koordinaci. I vůči svým nadřízeným
-            # by koordinace měla být reprezentována něčím jiným než značkou
-            # souřadící spojky.
-            my $coordroot;
-            if(!$alt->[1])
-            {
-                $coordroot = $anot->[$z]{afun}=~m/Coord/;
-            }
-            else
-            {
-                $coordroot = $anot->[$z]{afun}=~m/(?:Coord|Apos)/;
-            }
-            if($coordroot)
-            {
-                next;
-            }
-        }
-        # Doplňkové parametry: směr hrany a vzdálenost.
-        my $rs = $anot->[$r]{slovo};
-        my $zs = $anot->[$z]{slovo};
-        my $rz;
-        my $zz;
-        # Použít vlastní, nebo zděděné značky?
-        if(!$alt->[2] || !$konfig{koordinace})
-        {
-            $rz = $anot->[$r]{uznacka};
-            $zz = $anot->[$z]{uznacka};
-        }
-        else
-        {
-            $rz = $anot->[$r]{mznpodstrom};
-            $zz = $anot->[$z]{mznpodstrom};
-        }
-        my ($smer, $delka) = model::zjistit_smer_a_delku($anot, $r, $z);
-        # Pokusné volitelné rozšíření: má uzel sourozence stejného druhu?
-        my $zarlivost = $konfig{zarlivost} ? (ma_sourozence_stejneho_druhu($anot, $r, $z) ? " N" : " Z") : "";
-        ud("OSS $rs $zs $smer $delka");
-        ud("OZZ $rz $zz $smer $delka$zarlivost");
-        ud("OSZ $rs $zz $smer $delka");
-        ud("OZS $rz $zs $smer $delka");
-        ud("ZSS $rs $zs");
-        ud("ZZZ $rz $zz");
-        ud("ZSZ $rs $zz");
-        ud("ZZS $rz $zs");
-        if($konfig{"pseudoval"})
-        {
-            if($rz =~ m/^V/)
-            {
-                my $rrr = $rz.$anot->[$r]{heslo};
-                $rrr =~ s/_.*//;
-                ud("ZPV $rrr $zz $smer $delka");
-            }
-        }
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Projde větu a zaeviduje události související s koordinacemi.
-# Parametry: @anot. Do značek a afunů zapisuje!
-# $alt_coordmember: 1 = člen koordinace se pozná novým způsobem
-# $alt_apos: 1 = ke koordinacím přidat apozice
-# $alt_znvkor: 1 = události KZZ se sestavují podle zděděných značek v kořeni;
-# totéž platí pro morfologickou(é) značku(y), která(é) reprezentuje(í) koordi-
-# naci v jejích závislostních vztazích s okolím.
-#------------------------------------------------------------------------------
-sub projit_koordinace
-{
-    my $anot = shift; # odkaz na pole hashů
-    my $alt = shift; # odkaz na pole
-    my $alt_znvkor = shift;
-    # Projít koordinace a posbírat statistiky o nich.
-    for(my $i = 1; $i<=$#{$anot}; $i++)
-    {
-        # Zapamatovat si výskyty každého slova, aby bylo možné počítat,
-        # v kolika procentech toto slovo řídilo koordinaci.
-        ud("USS $anot->[$i]{slovo}");
-        ud("USZ $anot->[$i]{slovo}/$anot->[$i]{uznacka}");
-        ud("UZZ $anot->[$i]{uznacka}");
-        my $koren;
-        if($alt->[1])
-        {
-            $koren = $anot->[$i]{afun} =~ m/(?:Coord|Apos)/;
-        }
-        else
-        {
-            $koren = $anot->[$i]{afun} =~ m/Coord/;
-        }
-        if($koren)
-        {
-            # Zapamatovat si pro každé slovo, kolikrát řídilo koord.
-            ud("KJJ $anot->[$i]{slovo}");
-            my $n_clenu; # Počet členů koordinace.
-            my @koortypy; # Potřeba jen když !$alt->[3].
-            for(my $j = 1; $j<=$#{$anot}; $j++)
-            {
-                my $clen;
-                if($alt->[0])
-                {
-                    $clen = $anot->[$j]{coordmember};
-                }
-                else
-                {
-                    if($alt->[1])
-                    {
-                        $clen = $anot->[$j]{afun} =~ m/_(?:Co|Ap)$/;
-                    }
-                    else
-                    {
-                        $clen = $anot->[$j]{afun} =~ m/_Co$/;
-                    }
-                }
-                if($anot->[$j]{rodic_vzor}==$i && $clen)
-                {
-                    # Zapamatovat si pro každé heslo, kolikrát řídilo
-                    # vícečetnou koordinaci.
-                    if(++$n_clenu==3)
-                    {
-                        ud("KJ3 $anot->[$i]{slovo}");
-                    }
-                    if($alt->[3])
-                    {
-                        # Značky všech členů koordinace jsou posbírané u
-                        # kořene.
-                        my $mz = $anot->[$j]{mznpodstrom};
-                        my $oz = $anot->[$i]{mznpodstrom};
-                        # Vyhodit z nich první výskyt mojí značky - zastupuje
-                        # mne sama. Nemůžeme to udělat pomocí regulárních
-                        # výrazů, protože bychom museli zneškodnit nejen
-                        # svislítka, ale i závorky a jiné znaky ve značkách.
-                        my @mz = split(/\|/, $mz);
-                        my @oz = split(/\|/, $oz);
-                        for(my $k = 0; $k<=$#mz; $k++)
-                        {
-                            for(my $l = 0; $l<=$#oz; $l++)
-                            {
-                                if($oz[$l] eq $mz[$k])
-                                {
-                                    splice(@oz, $l, 1);
-                                    last;
-                                }
-                            }
-                        }
-                        $oz = join("|", @oz);
-                        # Nyní už lze ohlásit koordinační událost. Roznásobení
-                        # zbývajících značek s těmi mými zajistí přímo
-                        # procedura ud().
-                        ud("KZZ $mz $oz");
-                    }
-                    else
-                    {
-                        # Projít všechny dosud zjištěné členy a spárovat je se
-                        # mnou.
-                        for(my $k = 0; $k<=$#koortypy; $k++)
-                        {
-                            ud("KZZ $anot->[$j]{uznacka} $koortypy[$k]");
-                            ud("KZZ $koortypy[$k] $anot->[$j]{uznacka}");
-                        }
-                        $koortypy[++$#koortypy] = $anot->[$j]{uznacka};
-                    }
-                }
-            }
-            if(!$alt->[2])
-            {
-                # Zrušit koordinaci, aby byl vidět typ členů.
-                $anot->[$i]{afun} = "zpracovana koordinace";
-                $anot->[$i]{uznacka} = $koortypy[0];
-            }
-        }
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Kontextové trénování.
-# Projde větu a pro každé slovo si zapamatuje jeho skutečné zavěšení
-# v konkurenci s každým možným jiným zavěšením v okolí.
-#------------------------------------------------------------------------------
-sub spocitat_lokalni_konflikty
-{
-    my $anot = shift; # odkaz na pole hashů
-    # Bohužel je asi někde v této funkci chyba: asi se přistupuje k prvkům za
-    # současnou hranicí pole @anot. Tímpádem se nemůžeme spolehnout na délku
-    # pole a řídit s její pomocí cykly. Pokud chybu neopravíme, bude bezpečnější
-    # hned na začátku délku věty zafixovat a na konci ji vrátit.
-    my $n = $#{$anot};
-    for(my $i = 1; $i<=$n; $i++)
-    {
-        # Pokud je slovo zavěšeno doleva, zapamatovat si poražené konkurenty napravo.
-        if($anot->[$i]{rodic_vzor}<$i)
-        {
-            # Jde o závislost, nebo koordinaci?
-            my $vazba = ($anot->[$i]{afun}=~m/_Co/ ? "C " : "").$anot->[zjistit_vazbu($anot, $i)]{uznacka};
-            # Projít konkurenty.
-            my $j = $i+1;
-            do {
-                # Zapamatovat si konkurenční závislost.
-                ud("LOK $anot->[$i]{uznacka} L $vazba P $anot->[$j]{uznacka} L");
-                # Pokud $j řídí kooridnaci, zapamatovat si ji také.
-                if($anot->[$j]{afun}=~m/Coord/)
-                {
-                    for(my $k = $j+1; $k<=$n; $k++)
-                    {
-                        if($anot->[$k]{rodic_vzor}==$j && $anot->[$k]{afun}=~m/_Co$/ &&
-                        $anot->[$k]{afun}!~m/Coord/) # Složené koordinace je lepší
-                        # vynechat než správně procházet.
-                        {
-                            ud("LOK $anot->[$i]{uznacka} L $vazba P C $anot->[$k]{uznacka} L");
-                            last;
-                        }
-                    }
-                }
-                # Pokud $j neřídí koordinaci, ale teoreticky by mohlo, protože
-                # už jsme ho dříve viděli v pozici koordinační spojky,
-                # zapamatovat si i všechny potenciální koordinace.
-                my $n_jako_koord = $stat{"KJJ $anot->[$j]{slovo}"};
-                if($n_jako_koord>0)
-                {
-                    my $n_jako_cokoli = $stat{"USS $anot->[$j]{slovo}"};
-                    for(my $k = $j+1; $k>=0 && $k<=$n && $k>$j; $k = $anot->[$k]{rodic_vzor})
-                    {
-                        ud("LOK $anot->[$i]{uznacka} L $vazba P C $anot->[$k]{uznacka} L",
-                        $n_jako_koord/$n_jako_cokoli);
-                    }
-                }
-                # Pokud má $j dítě nalevo ode mě, skončit.
-                for(my $k = $i-1; $k>0; $k--)
-                {
-                    if($anot->[$k]{rodic_vzor}==$j)
-                    {
-                        $j = 0;
-                        last;
-                    }
-                }
-                $j = $anot->[$j]{rodic_vzor};
-            } while($j>$i);
-        }
-        # Pokud je zavěšeno doprava, zapamatovat si poražené konkurenty nalevo.
-        else
-        {
-            # Jde o závislost, nebo koordinaci?
-            my $vazba = ($anot->[$i]{afun}=~m/_Co/ ? "C " : "").$anot->[zjistit_vazbu($anot, $i)]{uznacka};
-            # Projít konkurenty.
-            my $j = $i-1;
-            do {
-                # Zapamatovat si konkurenční závislost.
-                ud("LOK $anot->[$i]{uznacka} L $anot->[$j]{uznacka} P $vazba P");
-                # Pokud $j řídí kooridnaci, zapamatovat si ji také.
-                if($anot->[$j]{afun}=~m/Coord/)
-                {
-                    for(my $k = $j-1; $k>0 && $k<=$n; $k--)
-                    {
-                        if($anot->[$k]{rodic_vzor}==$j && $anot->[$k]{afun}=~m/_Co$/ &&
-                        $anot->[$k]{afun}!~m/Coord/) # Složené koordinace je lepší
-                        # vynechat než správně procházet.
-                        {
-                            ud("LOK $anot->[$i]{uznacka} L C $anot->[$k]{uznacka} P $vazba P");
-                            last;
-                        }
-                    }
-                }
-                # Pokud $j neřídí koordinaci, ale teoreticky by mohlo, protože
-                # už jsme ho dříve viděli v pozici koordinační spojky,
-                # zapamatovat si i všechny potenciální koordinace.
-                my $n_jako_koord = $stat{"KJJ $anot->[$j]{slovo}"};
-                if($n_jako_koord>0)
-                {
-                    my $n_jako_cokoli = $stat{"USS $anot->[$j]{slovo}"};
-                    for(my $k = $j-1; $k>=0 && $k<=$n && $k<$j; $k = $anot->[$k]{rodic_vzor})
-                    {
-                        ud("LOK $anot->[$i]{uznacka} L C $anot->[$k]{uznacka} P $vazba P",
-                        $n_jako_koord/$n_jako_cokoli);
-                    }
-                }
-                # Pokud má $j dítě napravo ode mě, skončit.
-                for(my $k = $i+1; $k<=$n; $k++)
-                {
-                    if($anot->[$k]{rodic_vzor}==$j)
-                    {
-                        $j = 0;
-                        last;
-                    }
-                }
-                $j = $anot->[$j]{rodic_vzor};
-            } while($j<$i && $j>0);
-        }
-    }
-    # Oprava chyby způsobené neopodstatněnými přístupy k prvkům mimo pole.
-    $#{$anot} = $n;
-}
-
-
-
-#------------------------------------------------------------------------------
-# Projde větu a zapamatuje si rámce všech řídících uzlů. Nepokouší se oddělit
-# povinná doplnění od volitelných, to se bude muset dělat až s celou statisti-
-# kou najednou.
-#------------------------------------------------------------------------------
-sub projit_ramce
-{
-    my $anot = shift; # odkaz na pole hashů
-    my @ramce;
-    # Projít závislé uzly a zapsat je do rámců jejich řídících uzlů.
-    for(my $i = 0; $i<=$#{$anot}; $i++)
-    {
-        my $rodic = $anot->[$i]{rodic_vzor};
-        $rodic = "" if($rodic<0); # Pojistka. Dělám to takhle kvůli snaze dosáhnout statistiky identické s 013.
-        push(@{$ramce[$rodic]}, $anot->[$i]{mznpodstrom});
-    }
-    # Projít nasbírané rámce a seřadit jejich členy podle abecedy.
-    # Tím se zajistí nezávislost rámců na slovosledu.
-    for(my $i = 0; $i<=$#ramce; $i++)
-    {
-        @{$ramce[$i]} = sort(@{$ramce[$i]});
-        # Normalizovaný rámec ihned uložit do evidence.
-        my $heslo = $anot->[$i]{heslo};
-        # Oddělit příčestí trpná od ostatních tvarů sloves.
-        $heslo .= "-trp" if($anot->[$i]{mznpodstrom} =~ m/V[S4]/);
-        # Členy rámce spojit vlnovkou, ta se v žádné značce nevyskytuje.
-        my $udalost = "RAM $heslo ".join("~", @{$ramce[$i]});
-        ud($udalost);
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Pokud je věta krátká, uloží celý její strom.
-#------------------------------------------------------------------------------
-sub projit_kratkou_vetu
-{
-    my $anot = shift; #odkaz na pole hashů
-    # Zkontrolovat, že je věta dostatečně krátká.
-    if($#{$anot}>8)
-    {
-        return;
-    }
-    # Vytvořit událost: morfologický vzor a strom.
-    my $vzor;
-    my $strom;
-    my $i;
-    for($i = 1; $i<=$#{$anot}; $i++)
-    {
-        if($i>1)
-        {
-            $vzor .= "~";
-            $strom .= ",";
-        }
-        $vzor .= $anot->[$i]{uznacka};
-        $strom .= $anot->[$i]{rodic_vzor};
-    }
-    # Uložit větu a její strom mezi události.
-    ud("VET $vzor $strom");
-}
-
-
-
-#------------------------------------------------------------------------------
-# Zapamatuje si výskyt něčeho (událost). V případě, že některý prvek události
-# (např. morfologická značka řídícího uzlu) je nejednoznačný (tj. skládá se
-# z více hodnot oddělených svislítkem), nahradí událost několika jednoznačnými
-# událostmi a každé z nich přiřadí poměrnou část výskytu.
-#------------------------------------------------------------------------------
-sub ud
-{
-    my $ud = shift; # událost, jejíž četnost chceme zvýšit
-    my $n = shift; # počet výskytů, o který chceme zvýšit četnost
-    my $statref = shift; # odkaz na hash, do nějž se četnosti ukládají
-    $n = 1 if($n eq "");
-    ###!!! Tohle by ale fakt mělo být jinde!!!
-    # Koordinace započítat třikrát, je to jakési primitivní zvýšení jejich váhy.
-    if($ud =~ m/^KZZ/)
-    {
-        $n *= 3;
-    }
-    ud::ulozit($ud, $n, $statref);
-}
-
-
-
-#------------------------------------------------------------------------------
-# Najde k uzlu jeho řídící uzel a vrátí jeho index. Pokud řídící uzel řídí
-# koordinaci, vrátí místo něj index prvního člena této koordinace ve větě.
-# Je na volajícím, aby vztah interpretoval jako koordinaci (závislý uzel má
-# afun _Co), nebo jako závislost na koordinaci (závislý uzel má jiný afun).
-#------------------------------------------------------------------------------
-sub zjistit_vazbu
-{
-    my $anot = shift;
-    my $z = shift;
-    my $r = $anot->[$z]{rodic_vzor};
-    my $i;
-    if($anot->[$r]{afun}!~m/Coord/)
-    {
-        # Obyčejná závislost.
-        return $r;
-    }
-    else
-    {
-        # Koordinace nebo závislost na koordinaci.
-        for($i = 1; $i<=$#{$anot}; $i++)
-        {
-            if($anot->[$i]{rodic_vzor}==$r && $anot->[$i]{afun}=~m/_Co/ && $i!=$z)
-            {
-                # Ale pozor, mohla by to být další vnořená koordinace!
-                if($anot->[$i]{afun}=~m/Coord/)
-                {
-                    $r = $i;
-                    $i = 0;
-                }
-                else
-                {
-                    return $i;
-                }
-            }
-        }
-        # Pokud z nějakého důvodu nebyl nalezen jiný člen koordinace, vrátit
-        # přece jenom index koordinační spojky.
-        return $r;
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Uloží natrénované statistiky.
-#------------------------------------------------------------------------------
-sub ulozit
-{
-    vypsat("prubeh", parse::cas()." Ukládá se statistika.\n");
-    # Kvůli efektivitě se hašovací tabulka předává odkazem (volání
-    # ulozit(\%stat)). Ve volané funkci se na ni pak dá dostat dvěma způsoby:
-    # na celou tabulku najednou $%statref a na prvek $statref->{"ahoj"}.
-    my $statref = shift;
-    my @stat = keys(%$statref);
-    my $n = $#stat+1;
-    vypsat("prubeh", parse::cas()." Statistika obsahuje $n událostí.\n");
-    $n = 1 if($n==0); # kvůli dělení při hlášení pokroku
-    for(my $i = 0; $i<=$#stat; $i++)
-    {
-        # Popis události nesmí obsahovat tabulátor, jinak by statistika nešla opět načíst.
-        my $ud = $stat[$i];
-        $ud =~ s/&/&amp;/g;
-        $ud =~ s/\t/&tab;/g;
-        vypsat("stat", "$ud\t$statref->{$stat[$i]}\n");
-    }
-}
-
-
-
-#------------------------------------------------------------------------------
-# Pro danou dvojici r-z zjistí, zda na r ještě visí jiný uzel se stejnou
-# značkou jako z.
-#------------------------------------------------------------------------------
-sub ma_sourozence_stejneho_druhu
-{
-    my $anot = shift;
-    my $r = shift;
-    my $z = shift;
-    for(my $i = 0; $i<=$#{$anot}; $i++)
-    {
-        if($i!=$z && $anot->[$i]{rodic_vzor}==$r && $anot->[$i]{uznacka} eq $anot->[$z]{uznacka})
-        {
-            return 1;
-        }
-    }
-    return 0;
-}
-
-
-
-#------------------------------------------------------------------------------
-# Vybere složku pro pomocné soubory (je různá ve Windows a v Linuxu), zkopíruje
-# vstup do pomocného souboru a vrátí cestu k němu. Je to nutné, protože vstup
-# čteme dvakrát za sebou, nejdřív kvůli normálnímu trénování a pak kvůli učení
-# n-tic (obojí současně se nám totiž nevejde do paměti). Pokud bychom četli
-# vstup ze standardního vstupu, podruhé už by tam nic nebylo.
-#------------------------------------------------------------------------------
-sub zkopirovat_vstup_do_tmp
-{
-    my $vstup = shift;
-    # Jestliže existuje proměnná prostředí TEMP (bývá ve Windows), použít její
-    # obsah jako cestu k pomocné složce.
-    my $tmp;
-    if(exists($ENV{TEMP}) && -d $ENV{TEMP})
-    {
-        $tmp = $ENV{TEMP};
-    }
-    # Druhá varianta ve Windows je proměnná TMP.
-    elsif(exists($ENV{TMP}) && -d $ENV{TMP})
-    {
-        $tmp = $ENV{TMP};
-    }
-    # Pokud jsme na Linuxu na ÚFALu, měla by k těmto účelům existovat složka /mnt/h/tmp
-    elsif(-d "/mnt/h/tmp")
-    {
-        $tmp = "/mnt/h/tmp";
-    }
-    # Pokud jsme na Linuxu, měla by k těmto účelům existovat složka /tmp.
-    elsif(-d "/tmp")
-    {
-        $tmp = "/tmp";
-    }
-    # Pokud konfigurace definuje pracovní složku, mohlo by být dost místa a právo zápisu v ní.
-    elsif(exists($konfig{pracovni}) && -d $konfig{pracovni})
-    {
-        $tmp = $konfig{pracovni};
-    }
-    # Jinak nám nezbývá než zkusit aktuální složku.
-    else
-    {
-        $tmp = ".";
-    }
-    # Zkopírovat vstup do pomocné složky. Vstup známe jménem. Jestliže je to "-", jde o STDIN.
-    my $tmpfile = "$tmp/vstup-$$.csts";
-    open(ZDROJ, $vstup) or die("Nelze číst soubor $vstup: $!\n");
-    open(CIL, ">$tmpfile") or die("Nelze psát do souboru $tmpfile: $!\n");
-    binmode(ZDROJ, ":raw");
-    binmode(CIL, ":raw");
-    while(<ZDROJ>)
-    {
-        print CIL;
-    }
-    close(ZDROJ);
-    close(CIL);
-    return $tmpfile;
-}
+#!/usr/bin/perl
+# Natrénuje statistiky z treebanku a uloží je.
+# (c) 1995-2008 Dan Zeman <zeman@ufal.mff.cuni.cz>
+# License: GNU GPL
+
+use utf8;
+use Getopt::Long;
+# Zařídit, aby Perl hledal knihovny také ve složce, ve které se nachází tento skript.
+BEGIN {my $path = `dirname $0`; $path =~ s/\r?\n$//; unshift(@INC, $path) unless(grep {$_ eq $path} @INC)}
+use parse;
+use csts;
+use model; # kvůli zjistit_smer_a_delku()
+use vystupy;
+use ntice;
+use ud;
+
+
+
+$starttime = time();
+my $inisoubor = "parser.ini"; # jméno souboru s konfigurací
+# train.pl --i parser2.ini
+GetOptions('ini=s' => \$inisoubor);
+# Výchozí nastavení parametrů.
+%konfig = parse::vychozi_konfig();
+parse::precist_konfig($inisoubor, \%konfig);
+# Nastavit, který výstup půjde na STDOUT. Ostatní půjdou na STDERR.
+$vystupy::vystupy{stat}{stdout} = 1;
+
+
+
+# Načíst seznam subkategorizačních rámců sloves.
+# Potřebujeme ho, abychom mohli počítat, kolikrát se která m-značka vyskytla
+# jako povinné, a kolikrát jako volné doplnění.
+if($konfig{valence})
+{
+    $konfig{nacteny_subkategorizacni_slovnik} = subkat::cist($konfig{subcat}); # vrátí odkaz na hash se subkategorizačním slovníkem
+}
+
+
+
+# Kvůli snížení paměťových nároků lze statistický model rozdělit do dílů.
+# Díly se číslují od jedničky.
+$i_dil = 1;
+$konfig{hook_zacatek_cteni} = sub
+{
+    my $maska = shift;
+    my $soubory = shift;
+    vypsat("prubeh", "Maska pro jména souborů s daty: $maska\n");
+    vypsat("prubeh", "Nalezeno ".($#{$soubory}+1)." souborů.\n");
+};
+$tmpfile = zkopirovat_vstup_do_tmp($konfig{train});
+csts::projit_data($tmpfile, \%konfig, \&zpracovat_vetu);
+vypsat("prubeh", "Počet vět  = $veta\n");
+vypsat("prubeh", "Počet slov = $slovo\n");
+# Teď ještě natrénovat modely n-tic. Nemohli jsme to dělat všechno při jednom
+# průchodu dat, protože by nám nemusela stačit paměť. N-tic sice přežije jen
+# kolem 7000, ale během trénování jich musíme mít v paměti přes 5000000.
+if($konfig{ntice})
+{
+    %stat = ();
+    $veta = 0;
+    $slovo = 0;
+    $ohlasena_veta = 0;
+    csts::projit_data($tmpfile, \%konfig, \&zpracovat_vetu_ntice);
+    ntice::vypsat_do_stat();
+}
+unlink($tmpfile);
+# Poslat mi mail, že trénink je u konce. Musíme do mailu dát nějaký existující
+# soubor. Stačil by mi sice prázdný mail jen s předmětem zprávy, ale pokud bych
+# k tomu chtěl využít existující mechanismy, vznikl by mi tím na disku prázdný
+# soubor.
+if($vystupy::cislo_instance)
+{
+    vystupy::kopirovat_do_mailu("konfig", "Trenink $vystupy::cislo_instance skoncil");
+}
+
+# Konec.
+$stoptime = time();
+parse::vypsat_delku_trvani_programu($starttime, $stoptime, "konfig");
+parse::vypsat_delku_trvani_programu($starttime, $stoptime, "vysledky") if($konfig{rezim} eq "debug");
+
+
+
+###############################################################################
+# PODPROGRAMY
+###############################################################################
+
+
+
+#------------------------------------------------------------------------------
+# Projde větu a zapamatuje si vztahy v ní.
+#------------------------------------------------------------------------------
+sub zpracovat_vetu
+{
+    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
+    my $anot = shift; # pole hashů o jednotlivých slovech
+    # Před zpracováním první věty souboru ohlásit nový soubor.
+    # (Test, zda jsme na začátku souboru, je uvnitř.)
+    vypsat_jmeno_souboru($stav_cteni);
+    # Vynechat věty se závadným obsahem (proměnná $vynechat_vetu se nastavuje
+    # při načítání slova) a věty nad rámec požadovaného rozsahu.
+    return if($vynechat_vetu || $konfig{max_trenovacich_vet} && $veta>=$konfig{max_trenovacich_vet});
+    # Ohlásit na výstup číslo zpracovávané věty.
+    $veta++ if($#{$anot}>0);
+    $slovo += $#{$anot};
+    $ohlasena_veta = ohlasit_vetu($stav_cteni, $ohlasena_veta, $veta);
+    # Zapamatovat si nejdelší větu.
+    if($#{$anot}>$maxn_slov)
+    {
+        $maxn_slov = $#{$anot};
+    }
+    if($#{$anot}>0) # Pokud nezačínáme číst první větu.
+    {
+        #!!!
+        # Alternující části kódu.
+        my @alt;
+        $alt[0] = 1; # coordmember je (0) dite rodice se spravnym afunem (1) i vzdalenejsi potomek (treba pod predlozkou), ale zato clen (pokud je tedy dite korene koordinace, ale neni jeji clen, neni coordmember)
+        $alt[1] = 0; # ke koordinacim pridat apozice
+        $alt[2] = 1; # v beznych zavislostech zdedene znacky
+        $alt[3] = 0; # zaznamenavat koordinacni udalosti
+        # (jinak se zaznamenavaji pouze zavislosti)
+        #!!!
+        # Dokud existuje možnost, že při procházení koordinací se budou
+        # upravovat $anot->[$i]{znacka} a $anot->[$i]{afun}, musejí se koordinace zpracovávat před
+        # závislostmi, ve kterých se tohle využije. Až se bude spoléhat jen
+        # na zděděné značky, bude možné pořadí otočit.
+        if($konfig{koordinace})
+        {
+            projit_koordinace($anot, \@alt);
+        }
+        # Projít větu a posbírat statistiky.
+        for(my $i = 1; $i<=$#{$anot}; $i++)
+        {
+            zjistit_udalosti_slovo($i, $anot->[$i]{rodic_vzor}, \@alt, $anot);
+        }
+        # Spočítat lokální konflikty.
+        spocitat_lokalni_konflikty($anot);
+        # Zjistit rámce všech řídících uzlů (včetně volitelných doplnění).
+        projit_ramce($anot);
+        # U krátkých vět si zapamatovat celý strom.
+        projit_kratkou_vetu($anot);
+    }
+    # Uložit statistiku, jestliže je tohle poslední věta, popř. poslední, která se vejde do omezení.
+    $i_dil = ulozit_statistiku_pokud_je_to_potreba($stav_cteni, $veta, $i_dil);
+}
+
+
+
+#------------------------------------------------------------------------------
+# Projde větu, najde v ní n-tice a zapamatuje si je.
+#------------------------------------------------------------------------------
+sub zpracovat_vetu_ntice
+{
+    my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
+    my $anot = shift; # pole hashů o jednotlivých slovech
+    # Před zpracováním první věty souboru ohlásit nový soubor.
+    # (Test, zda jsme na začátku souboru, je uvnitř.)
+    vypsat_jmeno_souboru($stav_cteni);
+    # Vynechat věty se závadným obsahem (proměnná $vynechat_vetu se nastavuje
+    # při načítání slova) a věty nad rámec požadovaného rozsahu.
+    return if($vynechat_vetu || $konfig{max_trenovacich_vet} && $veta>=$konfig{max_trenovacich_vet});
+    # Ohlásit na výstup číslo zpracovávané věty.
+    $veta++ if($#{$anot}>0);
+    $slovo += $#{$anot};
+    $ohlasena_veta = ohlasit_vetu($stav_cteni, $ohlasena_veta, $veta, "N-tice: ");
+    for(my $n = 2; $n<=10; $n++)
+    {
+        ntice::ucit($n, $anot);
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Vypíše do průběhu jméno souboru, který právě čteme.
+#------------------------------------------------------------------------------
+sub vypsat_jmeno_souboru
+{
+    my $stav_cteni = shift;
+    if($stav_cteni->{novy_soubor})
+    {
+        my ($sek, $min, $hod) = localtime(time());
+        my $jmeno_souboru_do_hlaseni = $stav_cteni->{soubor};
+        $jmeno_souboru_do_hlaseni =~ s-^.*/([^/]*)$-$1-;
+        $jmeno_souboru_do_hlaseni =~ s/\.(?:csts|amm)$//i;
+        vypsat("prubeh", parse::cas()." Otevírá se soubor $jmeno_souboru_do_hlaseni\n");
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Vypíše do průběhu číslo věty, kterou právě zpracováváme. Vrátí číslo věty,
+# pokud ji ohlásil, jinak vrátí číslo naposledy ohlášené věty.
+#------------------------------------------------------------------------------
+sub ohlasit_vetu
+{
+    my $stav_cteni = shift;
+    my $ohlasena_veta = shift;
+    my $veta = shift;
+    my $prubeh = shift;
+    if($veta-$ohlasena_veta==100 ||
+       $stav_cteni->{posledni_veta} ||
+       ($konfig{max_trenovacich_vet} && $veta==$konfig{max_trenovacich_vet}))
+    {
+        vypsat("prubeh", parse::cas()." ${prubeh}Zpracovává se věta $veta.\n");
+        $ohlasena_veta = $veta;
+    }
+    return $ohlasena_veta;
+}
+
+
+
+#------------------------------------------------------------------------------
+# Zjistit, zda je potřeba uložit statistiku, a v případě potřeby to udělá.
+#------------------------------------------------------------------------------
+sub ulozit_statistiku_pokud_je_to_potreba
+{
+    my $stav_cteni = shift;
+    my $veta = shift; # číslo zpracovávané věty
+    my $i_dil = shift;
+    # %stat: globální proměnná
+    my $konfig = \%main::konfig;
+    # Jestliže jsme už přečetli určitý počet událostí, uložit dosud nasbíranou
+    # statistiku, vyprázdnit paměť a od příští věty začít nanovo.
+    my $n_udalosti = int(keys(%stat));
+    if($konfig->{split}>0 && $n_udalosti>=$konfig->{split} ||
+       $konfig->{max_trenovacich_vet} && $veta==$konfig->{max_trenovacich_vet} ||
+       $stav_cteni->{posledni_veta})
+    {
+        # Jméno souboru se statistikou.
+        my $jmeno = $konfig->{prac}."/".$konfig->{stat};
+        if($konfig->{split})
+        {
+            vypsat("prubeh", parse::cas()." Konec $i_dil. dílu.\n");
+            $jmeno .= $i_dil;
+        }
+        # Uložit dosud nasbíranou statistiku.
+        ulozit(\%stat, $jmeno);
+        unless($stav_cteni->{posledni_veta})
+        {
+            # Uvolnit paměť pro nový díl.
+            vypsat("prubeh", parse::cas()." Uvolňuje se paměť.\n");
+            undef(%stat);
+        }
+        $i_dil++;
+    }
+    return $i_dil;
+}
+
+
+
+#------------------------------------------------------------------------------
+# Zjistí trénovací události o jednom slově (to neznamená, že kvůli němu nebude
+# potřebovat projít všechna ostatní slova věty).
+#------------------------------------------------------------------------------
+sub zjistit_udalosti_slovo
+{
+    my $z = shift;
+    my $r = shift;
+    my $alt = shift; # jen odkaz na pole
+    my $anot = shift; # jen odkaz na pole
+    # Vynechat uzly, jejichž rodič řídí koordinaci. Buď jsou členy koordinace a
+    # jejich vztah k rodiči není závislost. Nebo závisejí na koordinaci, ta by
+    # ale místo značky souřadící spojky měla být reprezentována značkou
+    # typického člena, takže závislost na koordinaci vyžaduje zvláštní
+    # zacházení.
+    my $coordmember;
+    if($konfig{koordinace})
+    {
+        if(!$alt->[0])
+        {
+            if(!$alt->[1])
+            {
+                $coordmember = ($anot->[$r]{afun}=~m/Coord/);
+            }
+            else
+            {
+                $coordmember = ($anot->[$r]{afun}=~m/(?:Coord|Apos)/);
+            }
+        }
+        else
+        {
+            $coordmember = $anot->[$z]{coordmember};
+        }
+    }
+    # Odlišit členy koordinací od závislých uzlů.
+    if(!$coordmember)
+    {
+        if($konfig{koordinace})
+        {
+            # Vynechat uzly, které samy řídí koordinaci. I vůči svým nadřízeným
+            # by koordinace měla být reprezentována něčím jiným než značkou
+            # souřadící spojky.
+            my $coordroot;
+            if(!$alt->[1])
+            {
+                $coordroot = $anot->[$z]{afun}=~m/Coord/;
+            }
+            else
+            {
+                $coordroot = $anot->[$z]{afun}=~m/(?:Coord|Apos)/;
+            }
+            if($coordroot)
+            {
+                next;
+            }
+        }
+        # Doplňkové parametry: směr hrany a vzdálenost.
+        my $rs = $anot->[$r]{slovo};
+        my $zs = $anot->[$z]{slovo};
+        my $rz;
+        my $zz;
+        # Použít vlastní, nebo zděděné značky?
+        if(!$alt->[2] || !$konfig{koordinace})
+        {
+            $rz = $anot->[$r]{uznacka};
+            $zz = $anot->[$z]{uznacka};
+        }
+        else
+        {
+            $rz = $anot->[$r]{mznpodstrom};
+            $zz = $anot->[$z]{mznpodstrom};
+        }
+        my ($smer, $delka) = model::zjistit_smer_a_delku($anot, $r, $z);
+        # Pokusné volitelné rozšíření: má uzel sourozence stejného druhu?
+        my $zarlivost = $konfig{zarlivost} ? (ma_sourozence_stejneho_druhu($anot, $r, $z) ? " N" : " Z") : "";
+        ud("OSS $rs $zs $smer $delka");
+        ud("OZZ $rz $zz $smer $delka$zarlivost");
+        ud("OSZ $rs $zz $smer $delka");
+        ud("OZS $rz $zs $smer $delka");
+        ud("ZSS $rs $zs");
+        ud("ZZZ $rz $zz");
+        ud("ZSZ $rs $zz");
+        ud("ZZS $rz $zs");
+        if($konfig{"pseudoval"})
+        {
+            if($rz =~ m/^V/)
+            {
+                my $rrr = $rz.$anot->[$r]{heslo};
+                $rrr =~ s/_.*//;
+                ud("ZPV $rrr $zz $smer $delka");
+            }
+        }
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Projde větu a zaeviduje události související s koordinacemi.
+# Parametry: @anot. Do značek a afunů zapisuje!
+# $alt_coordmember: 1 = člen koordinace se pozná novým způsobem
+# $alt_apos: 1 = ke koordinacím přidat apozice
+# $alt_znvkor: 1 = události KZZ se sestavují podle zděděných značek v kořeni;
+# totéž platí pro morfologickou(é) značku(y), která(é) reprezentuje(í) koordi-
+# naci v jejích závislostních vztazích s okolím.
+#------------------------------------------------------------------------------
+sub projit_koordinace
+{
+    my $anot = shift; # odkaz na pole hashů
+    my $alt = shift; # odkaz na pole
+    my $alt_znvkor = shift;
+    # Projít koordinace a posbírat statistiky o nich.
+    for(my $i = 1; $i<=$#{$anot}; $i++)
+    {
+        # Zapamatovat si výskyty každého slova, aby bylo možné počítat,
+        # v kolika procentech toto slovo řídilo koordinaci.
+        ud("USS $anot->[$i]{slovo}");
+        ud("USZ $anot->[$i]{slovo}/$anot->[$i]{uznacka}");
+        ud("UZZ $anot->[$i]{uznacka}");
+        my $koren;
+        if($alt->[1])
+        {
+            $koren = $anot->[$i]{afun} =~ m/(?:Coord|Apos)/;
+        }
+        else
+        {
+            $koren = $anot->[$i]{afun} =~ m/Coord/;
+        }
+        if($koren)
+        {
+            # Zapamatovat si pro každé slovo, kolikrát řídilo koord.
+            ud("KJJ $anot->[$i]{slovo}");
+            my $n_clenu; # Počet členů koordinace.
+            my @koortypy; # Potřeba jen když !$alt->[3].
+            for(my $j = 1; $j<=$#{$anot}; $j++)
+            {
+                my $clen;
+                if($alt->[0])
+                {
+                    $clen = $anot->[$j]{coordmember};
+                }
+                else
+                {
+                    if($alt->[1])
+                    {
+                        $clen = $anot->[$j]{afun} =~ m/_(?:Co|Ap)$/;
+                    }
+                    else
+                    {
+                        $clen = $anot->[$j]{afun} =~ m/_Co$/;
+                    }
+                }
+                if($anot->[$j]{rodic_vzor}==$i && $clen)
+                {
+                    # Zapamatovat si pro každé heslo, kolikrát řídilo
+                    # vícečetnou koordinaci.
+                    if(++$n_clenu==3)
+                    {
+                        ud("KJ3 $anot->[$i]{slovo}");
+                    }
+                    if($alt->[3])
+                    {
+                        # Značky všech členů koordinace jsou posbírané u
+                        # kořene.
+                        my $mz = $anot->[$j]{mznpodstrom};
+                        my $oz = $anot->[$i]{mznpodstrom};
+                        # Vyhodit z nich první výskyt mojí značky - zastupuje
+                        # mne sama. Nemůžeme to udělat pomocí regulárních
+                        # výrazů, protože bychom museli zneškodnit nejen
+                        # svislítka, ale i závorky a jiné znaky ve značkách.
+                        my @mz = split(/\|/, $mz);
+                        my @oz = split(/\|/, $oz);
+                        for(my $k = 0; $k<=$#mz; $k++)
+                        {
+                            for(my $l = 0; $l<=$#oz; $l++)
+                            {
+                                if($oz[$l] eq $mz[$k])
+                                {
+                                    splice(@oz, $l, 1);
+                                    last;
+                                }
+                            }
+                        }
+                        $oz = join("|", @oz);
+                        # Nyní už lze ohlásit koordinační událost. Roznásobení
+                        # zbývajících značek s těmi mými zajistí přímo
+                        # procedura ud().
+                        ud("KZZ $mz $oz");
+                    }
+                    else
+                    {
+                        # Projít všechny dosud zjištěné členy a spárovat je se
+                        # mnou.
+                        for(my $k = 0; $k<=$#koortypy; $k++)
+                        {
+                            ud("KZZ $anot->[$j]{uznacka} $koortypy[$k]");
+                            ud("KZZ $koortypy[$k] $anot->[$j]{uznacka}");
+                        }
+                        $koortypy[++$#koortypy] = $anot->[$j]{uznacka};
+                    }
+                }
+            }
+            if(!$alt->[2])
+            {
+                # Zrušit koordinaci, aby byl vidět typ členů.
+                $anot->[$i]{afun} = "zpracovana koordinace";
+                $anot->[$i]{uznacka} = $koortypy[0];
+            }
+        }
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Kontextové trénování.
+# Projde větu a pro každé slovo si zapamatuje jeho skutečné zavěšení
+# v konkurenci s každým možným jiným zavěšením v okolí.
+#------------------------------------------------------------------------------
+sub spocitat_lokalni_konflikty
+{
+    my $anot = shift; # odkaz na pole hashů
+    # Bohužel je asi někde v této funkci chyba: asi se přistupuje k prvkům za
+    # současnou hranicí pole @anot. Tímpádem se nemůžeme spolehnout na délku
+    # pole a řídit s její pomocí cykly. Pokud chybu neopravíme, bude bezpečnější
+    # hned na začátku délku věty zafixovat a na konci ji vrátit.
+    my $n = $#{$anot};
+    for(my $i = 1; $i<=$n; $i++)
+    {
+        # Pokud je slovo zavěšeno doleva, zapamatovat si poražené konkurenty napravo.
+        if($anot->[$i]{rodic_vzor}<$i)
+        {
+            # Jde o závislost, nebo koordinaci?
+            my $vazba = ($anot->[$i]{afun}=~m/_Co/ ? "C " : "").$anot->[zjistit_vazbu($anot, $i)]{uznacka};
+            # Projít konkurenty.
+            my $j = $i+1;
+            do {
+                # Zapamatovat si konkurenční závislost.
+                ud("LOK $anot->[$i]{uznacka} L $vazba P $anot->[$j]{uznacka} L");
+                # Pokud $j řídí kooridnaci, zapamatovat si ji také.
+                if($anot->[$j]{afun}=~m/Coord/)
+                {
+                    for(my $k = $j+1; $k<=$n; $k++)
+                    {
+                        if($anot->[$k]{rodic_vzor}==$j && $anot->[$k]{afun}=~m/_Co$/ &&
+                        $anot->[$k]{afun}!~m/Coord/) # Složené koordinace je lepší
+                        # vynechat než správně procházet.
+                        {
+                            ud("LOK $anot->[$i]{uznacka} L $vazba P C $anot->[$k]{uznacka} L");
+                            last;
+                        }
+                    }
+                }
+                # Pokud $j neřídí koordinaci, ale teoreticky by mohlo, protože
+                # už jsme ho dříve viděli v pozici koordinační spojky,
+                # zapamatovat si i všechny potenciální koordinace.
+                my $n_jako_koord = $stat{"KJJ $anot->[$j]{slovo}"};
+                if($n_jako_koord>0)
+                {
+                    my $n_jako_cokoli = $stat{"USS $anot->[$j]{slovo}"};
+                    for(my $k = $j+1; $k>=0 && $k<=$n && $k>$j; $k = $anot->[$k]{rodic_vzor})
+                    {
+                        ud("LOK $anot->[$i]{uznacka} L $vazba P C $anot->[$k]{uznacka} L",
+                        $n_jako_koord/$n_jako_cokoli);
+                    }
+                }
+                # Pokud má $j dítě nalevo ode mě, skončit.
+                for(my $k = $i-1; $k>0; $k--)
+                {
+                    if($anot->[$k]{rodic_vzor}==$j)
+                    {
+                        $j = 0;
+                        last;
+                    }
+                }
+                $j = $anot->[$j]{rodic_vzor};
+            } while($j>$i);
+        }
+        # Pokud je zavěšeno doprava, zapamatovat si poražené konkurenty nalevo.
+        else
+        {
+            # Jde o závislost, nebo koordinaci?
+            my $vazba = ($anot->[$i]{afun}=~m/_Co/ ? "C " : "").$anot->[zjistit_vazbu($anot, $i)]{uznacka};
+            # Projít konkurenty.
+            my $j = $i-1;
+            do {
+                # Zapamatovat si konkurenční závislost.
+                ud("LOK $anot->[$i]{uznacka} L $anot->[$j]{uznacka} P $vazba P");
+                # Pokud $j řídí kooridnaci, zapamatovat si ji také.
+                if($anot->[$j]{afun}=~m/Coord/)
+                {
+                    for(my $k = $j-1; $k>0 && $k<=$n; $k--)
+                    {
+                        if($anot->[$k]{rodic_vzor}==$j && $anot->[$k]{afun}=~m/_Co$/ &&
+                        $anot->[$k]{afun}!~m/Coord/) # Složené koordinace je lepší
+                        # vynechat než správně procházet.
+                        {
+                            ud("LOK $anot->[$i]{uznacka} L C $anot->[$k]{uznacka} P $vazba P");
+                            last;
+                        }
+                    }
+                }
+                # Pokud $j neřídí koordinaci, ale teoreticky by mohlo, protože
+                # už jsme ho dříve viděli v pozici koordinační spojky,
+                # zapamatovat si i všechny potenciální koordinace.
+                my $n_jako_koord = $stat{"KJJ $anot->[$j]{slovo}"};
+                if($n_jako_koord>0)
+                {
+                    my $n_jako_cokoli = $stat{"USS $anot->[$j]{slovo}"};
+                    for(my $k = $j-1; $k>=0 && $k<=$n && $k<$j; $k = $anot->[$k]{rodic_vzor})
+                    {
+                        ud("LOK $anot->[$i]{uznacka} L C $anot->[$k]{uznacka} P $vazba P",
+                        $n_jako_koord/$n_jako_cokoli);
+                    }
+                }
+                # Pokud má $j dítě napravo ode mě, skončit.
+                for(my $k = $i+1; $k<=$n; $k++)
+                {
+                    if($anot->[$k]{rodic_vzor}==$j)
+                    {
+                        $j = 0;
+                        last;
+                    }
+                }
+                $j = $anot->[$j]{rodic_vzor};
+            } while($j<$i && $j>0);
+        }
+    }
+    # Oprava chyby způsobené neopodstatněnými přístupy k prvkům mimo pole.
+    $#{$anot} = $n;
+}
+
+
+
+#------------------------------------------------------------------------------
+# Projde větu a zapamatuje si rámce všech řídících uzlů. Nepokouší se oddělit
+# povinná doplnění od volitelných, to se bude muset dělat až s celou statisti-
+# kou najednou.
+#------------------------------------------------------------------------------
+sub projit_ramce
+{
+    my $anot = shift; # odkaz na pole hashů
+    my @ramce;
+    # Projít závislé uzly a zapsat je do rámců jejich řídících uzlů.
+    for(my $i = 0; $i<=$#{$anot}; $i++)
+    {
+        my $rodic = $anot->[$i]{rodic_vzor};
+        $rodic = "" if($rodic<0); # Pojistka. Dělám to takhle kvůli snaze dosáhnout statistiky identické s 013.
+        push(@{$ramce[$rodic]}, $anot->[$i]{mznpodstrom});
+    }
+    # Projít nasbírané rámce a seřadit jejich členy podle abecedy.
+    # Tím se zajistí nezávislost rámců na slovosledu.
+    for(my $i = 0; $i<=$#ramce; $i++)
+    {
+        @{$ramce[$i]} = sort(@{$ramce[$i]});
+        # Normalizovaný rámec ihned uložit do evidence.
+        my $heslo = $anot->[$i]{heslo};
+        # Oddělit příčestí trpná od ostatních tvarů sloves.
+        $heslo .= "-trp" if($anot->[$i]{mznpodstrom} =~ m/V[S4]/);
+        # Členy rámce spojit vlnovkou, ta se v žádné značce nevyskytuje.
+        my $udalost = "RAM $heslo ".join("~", @{$ramce[$i]});
+        ud($udalost);
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Pokud je věta krátká, uloží celý její strom.
+#------------------------------------------------------------------------------
+sub projit_kratkou_vetu
+{
+    my $anot = shift; #odkaz na pole hashů
+    # Zkontrolovat, že je věta dostatečně krátká.
+    if($#{$anot}>8)
+    {
+        return;
+    }
+    # Vytvořit událost: morfologický vzor a strom.
+    my $vzor;
+    my $strom;
+    my $i;
+    for($i = 1; $i<=$#{$anot}; $i++)
+    {
+        if($i>1)
+        {
+            $vzor .= "~";
+            $strom .= ",";
+        }
+        $vzor .= $anot->[$i]{uznacka};
+        $strom .= $anot->[$i]{rodic_vzor};
+    }
+    # Uložit větu a její strom mezi události.
+    ud("VET $vzor $strom");
+}
+
+
+
+#------------------------------------------------------------------------------
+# Zapamatuje si výskyt něčeho (událost). V případě, že některý prvek události
+# (např. morfologická značka řídícího uzlu) je nejednoznačný (tj. skládá se
+# z více hodnot oddělených svislítkem), nahradí událost několika jednoznačnými
+# událostmi a každé z nich přiřadí poměrnou část výskytu.
+#------------------------------------------------------------------------------
+sub ud
+{
+    my $ud = shift; # událost, jejíž četnost chceme zvýšit
+    my $n = shift; # počet výskytů, o který chceme zvýšit četnost
+    my $statref = shift; # odkaz na hash, do nějž se četnosti ukládají
+    $n = 1 if($n eq "");
+    ###!!! Tohle by ale fakt mělo být jinde!!!
+    # Koordinace započítat třikrát, je to jakési primitivní zvýšení jejich váhy.
+    if($ud =~ m/^KZZ/)
+    {
+        $n *= 3;
+    }
+    ud::ulozit($ud, $n, $statref);
+}
+
+
+
+#------------------------------------------------------------------------------
+# Najde k uzlu jeho řídící uzel a vrátí jeho index. Pokud řídící uzel řídí
+# koordinaci, vrátí místo něj index prvního člena této koordinace ve větě.
+# Je na volajícím, aby vztah interpretoval jako koordinaci (závislý uzel má
+# afun _Co), nebo jako závislost na koordinaci (závislý uzel má jiný afun).
+#------------------------------------------------------------------------------
+sub zjistit_vazbu
+{
+    my $anot = shift;
+    my $z = shift;
+    my $r = $anot->[$z]{rodic_vzor};
+    my $i;
+    if($anot->[$r]{afun}!~m/Coord/)
+    {
+        # Obyčejná závislost.
+        return $r;
+    }
+    else
+    {
+        # Koordinace nebo závislost na koordinaci.
+        for($i = 1; $i<=$#{$anot}; $i++)
+        {
+            if($anot->[$i]{rodic_vzor}==$r && $anot->[$i]{afun}=~m/_Co/ && $i!=$z)
+            {
+                # Ale pozor, mohla by to být další vnořená koordinace!
+                if($anot->[$i]{afun}=~m/Coord/)
+                {
+                    $r = $i;
+                    $i = 0;
+                }
+                else
+                {
+                    return $i;
+                }
+            }
+        }
+        # Pokud z nějakého důvodu nebyl nalezen jiný člen koordinace, vrátit
+        # přece jenom index koordinační spojky.
+        return $r;
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Uloží natrénované statistiky.
+#------------------------------------------------------------------------------
+sub ulozit
+{
+    vypsat("prubeh", parse::cas()." Ukládá se statistika.\n");
+    # Kvůli efektivitě se hašovací tabulka předává odkazem (volání
+    # ulozit(\%stat)). Ve volané funkci se na ni pak dá dostat dvěma způsoby:
+    # na celou tabulku najednou $%statref a na prvek $statref->{"ahoj"}.
+    my $statref = shift;
+    my @stat = keys(%$statref);
+    my $n = $#stat+1;
+    vypsat("prubeh", parse::cas()." Statistika obsahuje $n událostí.\n");
+    $n = 1 if($n==0); # kvůli dělení při hlášení pokroku
+    for(my $i = 0; $i<=$#stat; $i++)
+    {
+        # Popis události nesmí obsahovat tabulátor, jinak by statistika nešla opět načíst.
+        my $ud = $stat[$i];
+        $ud =~ s/&/&amp;/g;
+        $ud =~ s/\t/&tab;/g;
+        vypsat("stat", "$ud\t$statref->{$stat[$i]}\n");
+    }
+}
+
+
+
+#------------------------------------------------------------------------------
+# Pro danou dvojici r-z zjistí, zda na r ještě visí jiný uzel se stejnou
+# značkou jako z.
+#------------------------------------------------------------------------------
+sub ma_sourozence_stejneho_druhu
+{
+    my $anot = shift;
+    my $r = shift;
+    my $z = shift;
+    for(my $i = 0; $i<=$#{$anot}; $i++)
+    {
+        if($i!=$z && $anot->[$i]{rodic_vzor}==$r && $anot->[$i]{uznacka} eq $anot->[$z]{uznacka})
+        {
+            return 1;
+        }
+    }
+    return 0;
+}
+
+
+
+#------------------------------------------------------------------------------
+# Vybere složku pro pomocné soubory (je různá ve Windows a v Linuxu), zkopíruje
+# vstup do pomocného souboru a vrátí cestu k němu. Je to nutné, protože vstup
+# čteme dvakrát za sebou, nejdřív kvůli normálnímu trénování a pak kvůli učení
+# n-tic (obojí současně se nám totiž nevejde do paměti). Pokud bychom četli
+# vstup ze standardního vstupu, podruhé už by tam nic nebylo.
+#------------------------------------------------------------------------------
+sub zkopirovat_vstup_do_tmp
+{
+    my $vstup = shift;
+    # Jestliže existuje proměnná prostředí TEMP (bývá ve Windows), použít její
+    # obsah jako cestu k pomocné složce.
+    my $tmp;
+    if(exists($ENV{TEMP}) && -d $ENV{TEMP})
+    {
+        $tmp = $ENV{TEMP};
+    }
+    # Druhá varianta ve Windows je proměnná TMP.
+    elsif(exists($ENV{TMP}) && -d $ENV{TMP})
+    {
+        $tmp = $ENV{TMP};
+    }
+    # Pokud jsme na Linuxu na ÚFALu, měla by k těmto účelům existovat složka /mnt/h/tmp
+    elsif(-d "/mnt/h/tmp")
+    {
+        $tmp = "/mnt/h/tmp";
+    }
+    # Pokud jsme na Linuxu, měla by k těmto účelům existovat složka /tmp.
+    elsif(-d "/tmp")
+    {
+        $tmp = "/tmp";
+    }
+    # Pokud konfigurace definuje pracovní složku, mohlo by být dost místa a právo zápisu v ní.
+    elsif(exists($konfig{pracovni}) && -d $konfig{pracovni})
+    {
+        $tmp = $konfig{pracovni};
+    }
+    # Jinak nám nezbývá než zkusit aktuální složku.
+    else
+    {
+        $tmp = ".";
+    }
+    # Zkopírovat vstup do pomocné složky. Vstup známe jménem. Jestliže je to "-", jde o STDIN.
+    my $tmpfile = "$tmp/vstup-$$.csts";
+    open(ZDROJ, $vstup) or die("Nelze číst soubor $vstup: $!\n");
+    open(CIL, ">$tmpfile") or die("Nelze psát do souboru $tmpfile: $!\n");
+    binmode(ZDROJ, ":raw");
+    binmode(CIL, ":raw");
+    while(<ZDROJ>)
+    {
+        print CIL;
+    }
+    close(ZDROJ);
+    close(CIL);
+    return $tmpfile;
+}
diff --git a/zakazy_preskoceni.txt b/zakazy_preskoceni.txt
index 1057a09..7b34bd8 100644
--- a/zakazy_preskoceni.txt
+++ b/zakazy_preskoceni.txt
@@ -1,199 +1,199 @@
-Vp # Z)kK
-Vb�t VB Rv-1
-VB VB Z-
-VB N1 Vs
-Vf VB NN
-Vp Z.kK Z,
-Vf Vp Rod-1
-VB VB N4
-Vs # N2
-Vs Vje N4
-Vb�t Vp Vp
-VB VB A1
-Vp N1 Vje
-Vje N1 J^
-Vbudou VB Vf
-Vje J�e Vp
-Vjsou # VB
-Vs N1 N1
-Vjsou VB VB
-VB N1 A1
-Vbudou # N1
-Vf VB Dv�ce
-Vp J^ N1
-Vje VB Z,
-Vje N1 J,
-Vf Vp Z-
-Vf VB Z.
-Vbude N1 VB
-Vs J^ Vje
-Vi VB Z,
-Vbude # Z"kK
-VB VB Vje
-Vp Vbyl J^
-Vf Vp Vs
-Vf Vp N6
-Vf # N1
-Vf Vje N7
-Vs Vje VB
-Vjsou VB J^
-Vjsou J�e VB
-VB N2 Vbyl
-Vp VB N4
-Vf Vp Rpro-1
-Vp # Z-
-Vp N1 Vs
-Vp # N1
-Vjsou N1 J^
-Vf VB N6
-VB N1 N6
-VB VB N2
-Vf Vje J,
-Vf N1 N1
-Vf Vje Rv-1
-Vp VB Vp
-Vs Vje Vf
-Vf VB N2
-Vb�t Vp VB
-Vs TT VB
-VB Vn� VB
-VB N1 Vje
-Vi # N4
-Vs N1 VB
-Vbyl Vp J^
-Vs Vje A1
-VB J^ Z:
-Vbudou Vp Vf
-Vbyl # N2
-Vje N1 Vp
-Vjsem Vp J^
-Vs VB Vje
-Vf Jaby Z,
-Vf Vp Rk-1
-Vp VB Z,
-Vjsou VB N1
-Vp N1 J,
-VB N2 N2
-Vp VB J,
-Vs N1 J^
-Vjsem Vp Vp
-Vs Vje Rs-1
-Vjsme # Z"kK
-Vf Vp Dg
-Vje J, VB
-VB N6 VB
-Vf VB Ro-1
-Vs VB VB
-Vp N1 N2
-Vbyl Vp VB
-Vjsou J�e Z,
-Vf J, Vp
-Vje Vp Z,
-Vf J^ J�e
-Vbyl VB J^
-Vbyl Vp Vp
-Vf VB Jaby
-Vf TT VB
-Vf VB Rza-1
-Vf Vp C=
-Vje N2 VB
-Vje N1 VB
-Vbude Vf J^
-VB J, Vp
-VB VB Z,
-Vf VB Vje
-Vp Jaby Vp
-Vf Vp Z.
-Vf N1 A1
-Vje Vp VB
-Vb�t VB N7
-Vje Vp Vp
-Vs Vp VB
-VB N1 Vf
-Vf Vp Jaby
-Vf VB A1
-Vf VB C=
-Vby J�e VB
-Vbyl VB Vs
-Vf N2 Vp
-VB N2 Vp
-VB VB N1
-Vf VB Z-
-Vby VB Vp
-Vs # Z"kK
-Vje VB VB
-Vf N2 J^
-Vf VB Rk-1
-Vf VB Db
-Vjsem # Z"kK
-Vf VB N3
-Vs Vje Rna-1
-Vbyl J�e Z,
-Vbyl # Z"kK
-Vby # Z"kK
-Vby VB VB
-Vp Vp Vp
-Vs Vp Vp
-Vp Vp VB
-Vs Vp Z,
-VB # N1
-Vf N1 Vp
-Vp J, VB
-Vjsme Vp J^
-VB Vp Vp
-Vf Vp Vf
-Vs Vje Rv-1
-Vf # N2
-VB VB Vp
-Vp N1 N1
-VB N4 VB
-Vbude VB Vf
-Vp VB J^
-Vje J�e VB
-VB J�e Vje
-Vby Vp Vp
-Vf VB Dg
-Vp VB VB
-VB Vp J^
-Vf VB J�e
-Vs Vje J^
-Vf N1 VB
-VB N1 Vp
-Vbyl Vp Vs
-Vf Vp Vp
-VB J�e Vp
-VB N1 N1
-Vs Vje Z,
-Vf VB Rna-1
-Vp N2 Vp
-Vje # Z"kK
-Vf VB Vp
-VB # TT
-Vp J�e VB
-Vp N2 J^
-VB VB VB
-Vf N2 VB
-Vf Vp N7
-VB Vp VB
-Vp N2 VB
-Vs Vje N7
-Vf VB Rv-1
-Vp J, Vp
-Vf # Z"kK
-VB N1 J^
-VB N2 J^
-VB N2 VB
-Vf VB N7
-Vf VB Vf
-Vp # N2
-Vp N1 VB
-VB VB J^
-Vf VB VB
-Vf Vp VB
-VB J, VB
-VB # N2
-Vp N1 Vp
-VB N1 VB
-Vp # Z"kK
-VB # Z"kK
-Vf VB N4
+Vp # Z)kK
+Vb�t VB Rv-1
+VB VB Z-
+VB N1 Vs
+Vf VB NN
+Vp Z.kK Z,
+Vf Vp Rod-1
+VB VB N4
+Vs # N2
+Vs Vje N4
+Vb�t Vp Vp
+VB VB A1
+Vp N1 Vje
+Vje N1 J^
+Vbudou VB Vf
+Vje J�e Vp
+Vjsou # VB
+Vs N1 N1
+Vjsou VB VB
+VB N1 A1
+Vbudou # N1
+Vf VB Dv�ce
+Vp J^ N1
+Vje VB Z,
+Vje N1 J,
+Vf Vp Z-
+Vf VB Z.
+Vbude N1 VB
+Vs J^ Vje
+Vi VB Z,
+Vbude # Z"kK
+VB VB Vje
+Vp Vbyl J^
+Vf Vp Vs
+Vf Vp N6
+Vf # N1
+Vf Vje N7
+Vs Vje VB
+Vjsou VB J^
+Vjsou J�e VB
+VB N2 Vbyl
+Vp VB N4
+Vf Vp Rpro-1
+Vp # Z-
+Vp N1 Vs
+Vp # N1
+Vjsou N1 J^
+Vf VB N6
+VB N1 N6
+VB VB N2
+Vf Vje J,
+Vf N1 N1
+Vf Vje Rv-1
+Vp VB Vp
+Vs Vje Vf
+Vf VB N2
+Vb�t Vp VB
+Vs TT VB
+VB Vn� VB
+VB N1 Vje
+Vi # N4
+Vs N1 VB
+Vbyl Vp J^
+Vs Vje A1
+VB J^ Z:
+Vbudou Vp Vf
+Vbyl # N2
+Vje N1 Vp
+Vjsem Vp J^
+Vs VB Vje
+Vf Jaby Z,
+Vf Vp Rk-1
+Vp VB Z,
+Vjsou VB N1
+Vp N1 J,
+VB N2 N2
+Vp VB J,
+Vs N1 J^
+Vjsem Vp Vp
+Vs Vje Rs-1
+Vjsme # Z"kK
+Vf Vp Dg
+Vje J, VB
+VB N6 VB
+Vf VB Ro-1
+Vs VB VB
+Vp N1 N2
+Vbyl Vp VB
+Vjsou J�e Z,
+Vf J, Vp
+Vje Vp Z,
+Vf J^ J�e
+Vbyl VB J^
+Vbyl Vp Vp
+Vf VB Jaby
+Vf TT VB
+Vf VB Rza-1
+Vf Vp C=
+Vje N2 VB
+Vje N1 VB
+Vbude Vf J^
+VB J, Vp
+VB VB Z,
+Vf VB Vje
+Vp Jaby Vp
+Vf Vp Z.
+Vf N1 A1
+Vje Vp VB
+Vb�t VB N7
+Vje Vp Vp
+Vs Vp VB
+VB N1 Vf
+Vf Vp Jaby
+Vf VB A1
+Vf VB C=
+Vby J�e VB
+Vbyl VB Vs
+Vf N2 Vp
+VB N2 Vp
+VB VB N1
+Vf VB Z-
+Vby VB Vp
+Vs # Z"kK
+Vje VB VB
+Vf N2 J^
+Vf VB Rk-1
+Vf VB Db
+Vjsem # Z"kK
+Vf VB N3
+Vs Vje Rna-1
+Vbyl J�e Z,
+Vbyl # Z"kK
+Vby # Z"kK
+Vby VB VB
+Vp Vp Vp
+Vs Vp Vp
+Vp Vp VB
+Vs Vp Z,
+VB # N1
+Vf N1 Vp
+Vp J, VB
+Vjsme Vp J^
+VB Vp Vp
+Vf Vp Vf
+Vs Vje Rv-1
+Vf # N2
+VB VB Vp
+Vp N1 N1
+VB N4 VB
+Vbude VB Vf
+Vp VB J^
+Vje J�e VB
+VB J�e Vje
+Vby Vp Vp
+Vf VB Dg
+Vp VB VB
+VB Vp J^
+Vf VB J�e
+Vs Vje J^
+Vf N1 VB
+VB N1 Vp
+Vbyl Vp Vs
+Vf Vp Vp
+VB J�e Vp
+VB N1 N1
+Vs Vje Z,
+Vf VB Rna-1
+Vp N2 Vp
+Vje # Z"kK
+Vf VB Vp
+VB # TT
+Vp J�e VB
+Vp N2 J^
+VB VB VB
+Vf N2 VB
+Vf Vp N7
+VB Vp VB
+Vp N2 VB
+Vs Vje N7
+Vf VB Rv-1
+Vp J, Vp
+Vf # Z"kK
+VB N1 J^
+VB N2 J^
+VB N2 VB
+Vf VB N7
+Vf VB Vf
+Vp # N2
+Vp N1 VB
+VB VB J^
+Vf VB VB
+Vf Vp VB
+VB J, VB
+VB # N2
+Vp N1 Vp
+VB N1 VB
+Vp # Z"kK
+VB # Z"kK
+Vf VB N4
diff --git a/zaznam.txt b/zaznam.txt
index 63968e1..b4947d0 100644
--- a/zaznam.txt
+++ b/zaznam.txt
@@ -1,5967 +1,5967 @@
-
-*******************************************************************************
-Perlov� parser - z�znam pokus�
-*******************************************************************************
-
-
-
-16.1.2002
-
-Zkop�roval jsem si ��st "am" z PDT verze 1. Tuto ��st budu nyn�
-pou��vat pro tr�nov�n�. Obsahuje 83197 v�t. Morfologick� anotace je
-provedena statisticky, morfologick� anal�za chyb�, ale d� se snad
-doplnit. Syntaktick� anotace je ru�n�.
-
-
-
-17.1.2002
-
-Prvn� m��en� na nov�ch tr�novac�ch datech, je�t� v�ak se star�mi
-(baltimorsk�mi) testovac�mi daty. Nov� model je zat�m v�hradn�
-lexik�ln� (tj. funguje na slovn�ch tvarech) a nebere v �vahu
-z�vislosti, kter� byly p�i tr�ninku vid�t jenom jednou (tj. co bylo
-vid�t jednou, jako by nebylo vid�t v�bec - �et�� se t�m pam� a �as).
-Model tak� zat�m nem� ��dn� finesy, kter� jsem d��ve dopl�oval do
-modelu na zna�k�ch, s v�jimkou projektivity. Chyb� tedy podp�rn� model
-pro plodnost slova, sm�r z�vislosti i vzd�lenost �len�
-z�vislosti. Tak� chyb� Viterbi, tj. strom se buduje hladovou (ale
-komponentovou) metodou.
-
-G 28685 - B 35019 - P 45,0
-
-P�id�n sm�r hrany.
-
-G 26955 - B 36749 - P 42,3
-
-Ponech�ny i z�znamy o hran�ch spat�en�ch jen jednou.
-
-G 43000 - B 20704 - P 67,5
-
-P�id�na "vzd�lenost" (sousedn� = B, bl�zko; nesousedn� = D, daleko).
-
-G 44671 - B 19033 - P 70,1
-
-P�echod na testovac� data z PDT1 (lu, lv, lw). �sp�nost klesla skoro
-na polovinu, co� je dost zar�ej�c�, mo�n� je chyba ve vyhodnocov�n�
-(nebo byla p�ed chv�l�).
-
-G 49157 - B 77450 - P 38,8
-
-
-
-18.1.2002
-
-Po nalezen� a odstran�n� chyby ve skriptu se �sp�nost vr�tila u� jen
-na 42 %. Z�vratn� v�sledky u star�ch dat byly z�ejm� zp�sobeny t�m, �e
-star� testovac� data jsou nyn� sou��st� nov�ch tr�novac�ch.
-
-G 53217 - B 73390 - P 42,0
-
-Z tr�novac�ch i testovac�ch dat odstran�na velk� p�smena, zbyte�n�
-�t�pila statistiky.
-
-G 54027 - B 72580 - P 42,7
-
-Je�t� jeden pokus zahodit z�vislosti, kter� byly vid�t jenom jednou.
-
-G 50365 - B 76242 - P 39,8
-
-Vr�ceny z�vislosti vid�n� jen jednou, p�id�n model pro plodnost uzlu.
-
-G 54421 - B 72186 - P 43,0
-
-Odstran�na chyba, �e n�kter� v�ty obsahovaly slovo "konec
-��dku". �sp�nost klesla, proto�e chyba um�le p�id�vala neexistuj�c�
-v�ty, kter� se nedaly zkazit.
-
-G 53982 - B 72046 - P 42,8
-
-Pokus s modelem na zna�k�ch (od taggeru). Zat�m neredukovan� sada
-zna�ek a bez Viterbiho, tak�e pokud se v�sledky podobaj� t�m z
-Baltimoru, je to komponentov�m budov�n�m stromu a zejm�na v�t��m
-objemem tr�novac�ch dat a snadn�ji analyzovateln�mi testovac�mi daty.
-
-G 71535 - B 54493 - P 56,8
-
-Redukovan� zna�ky: to snad ani za tu n�mahu nestoj�! �e by zase bug?
-
-G 71622 - B 54406 - P 56,8
-
-Zna�ky redukovan� podle Collinse: u zna�ek, kter� maj� p�d (N, A, P, C
-a R), slovn� druh a p�d, u ostatn�ch slovn� druh a poddruh.
-
-G 72207 - B 53821 - P 57,3
-
-Po na�ten� statistik pro slova i zna�ky �sp�nost kupodivu m�rn�
-stoupla, by� se ve statistik�ch nad�le hledaly jen zna�ky. Mo�n�
-proto, �e n�kter� slova jsou shodn� s n�kter�mi zna�kami a n�hodou to
-vy�lo?
-
-G 72364 - B 53664 - P 57,4
-
-
-
-Prvn� kombinace modelu na slovech s modelem na zna�k�ch! Zna�kov�
-model se pou�ije tehdy, kdy� slovn� doporu�uje z�vislost, kterou nikdy
-nevid�l. Jinak se d� v�dy p�ednost slovn�mu modelu.
-
-G 71445 - B 54583 - P 56,7
-
-P�i nahrazov�n� slovn�ch hran, kter� byly vid�t nejv��e jednou:
-
-G 72593 - B 53435 - P 57,6
-
-P�i nahrazov�n� slovn�ch hran, kter� byly vid�t nejv��e dvakr�t:
-
-G 72327 - B 53701 - P 57,4
-
-
-
--------------------------------------------------------------------------------
-Rokytnice nad Jizerou
-Pozor, tento t�den pokusy nejsou na stejn�ch tr�novac�ch ani
-testovac�ch datech, proto�e je d�l�m na notebooku a ten neut�hne
-p��li� velk� data. Ani b�hem toho t�dne nejsou bohu�el data po��d
-stejn�.
-
-
-
-21.1.2002
-
-V n�sleduj�c�ch testech se p�ednostn� pou��valy statistiky na slovech,
-pokud byla �etnost 0, 1 nebo 2, pou�ila se m�sto toho statistika na
-zna�k�ch. Pokud se tedy d�le mluv� o �etnosti, je to bu� �etnost na
-slovech, nebo na zna�k�ch, podle toho, jak se v�po�et odv�jel.
-924 slov celkem
-P�i pou�it� v�ech hran bez ohledu na �etnost:
-G 605 - B 319 - UG 0 - UB 0 - P 65,5 % - R 65,5 %
-P�i vynech�n� hran s �etnost� 0:
-G 582 - B 279 - UG 23 - UB 40 - P 67,6 % - R 63,0 %
-P�i vynech�n� hran s �etnost� men�� ne� 2:
-G 439 - B 168 - UG 166 - UB 151 - P 72,3 % - R 47,5 %
-P�i vynech�n� hran s �etnost� men�� ne� 3:
-G 354 - B 112 - UG 251 - UB 207 - P 76,0 % - R 38,3 %
-P�i vynech�n� hran s �etnost� men�� ne� 4:
-G 283 - B 68 - UG 322 - UB 251 - P 80,6 % - R 30,6 %
-P�i vynech�n� hran s �etnost� men�� ne� 5:
-G 244 - B 59 - UG 361 - UB 260 - P 80,5 % - R 26,4 %
-
-
-
-22.1.2002
-
-Nevynech�vaj� se ��dn� slova. V kolech, ve kter�ch vyhr�la z�vislost se
-slovn� pravd�podobnost� men�� ne� 5, se hled�n� opakuje s pou�it�m
-pravd�podobnosti slo�en� ze slovn� a zna�kov� pravd�podobnosti, p�i�em�
-ob� maj� stejnou v�hu 0,5.
-
-G 692 - B 232 - P 74,9
-
-Dotaz: Naj�t p��pady, kdy na z�klad� slovn� pravd�podobnosti vyhr�la
-�patn� z�vislost, ale s pou�it�m pravd�podobnosti na dvojic�ch (heslo,
-zna�ka) by vyhr�la spr�vn� z�vislost.
-
-K tomu je nutn� natr�novat model na dvojic�ch (heslo, zna�ka). Jsou dv�
-mo�nosti, jak takov� model definovat ale jen ta druh� m� smysl; ta prvn�
-je t�m�� ekvivalentn� modelu na slovech:
-
-P = P((heslo1, zna�ka1) - (heslo2, zna�ka2)) = P(slovo1 - slovo2)
-nebo
-P = P(heslo1 - heslo2) * P(zna�ka1 - zna�ka2)
-
-
-
-23.1.2002
-
-P�eps�ny kusy train.pl i parse.pl, aby se oba programy daly roz�i�ovat
-o r�zn� modely. Nyn� je pot�eba je vyladit, proto�e kv�li n�jak�m chyb�m
-�sp�nost zase hluboko klesla.
-
-1. Model slovn�ch, heslov�ch a zna�kov�ch z�vislost� p�etr�nov�n na bal�ku
-Lidov�ch novin. 865 soubor�, 45091 v�t, 698671 slov (bez ko�en�). Kl��in
-notebook tr�nuje rychlost� zhruba 1000 v�t za 50 vte�in (zpo��tku). Ale
-limit, ne� notebook upadne do nekone�n�ho swapov�n�, je asi 6000 v�t.
-Nakonec vzat v�sledek tr�nov�n� podle prvn�ch 5000 v�t. Nalezeno 57036
-r�zn�ch z�vislost� slov, 51328 r�zn�ch z�vislost� hesel a 2681 r�zn�ch
-z�vislost� zna�ek.
-
-
-
-24.1.2002
-
-Za��n�m testovat v�era natr�novan� model. Testovac� data velk� a mal�
-(kv�li rychlosti). Mal� data: lu02.a (53 v�t, 924 slov bez ko�en�).
-Velk� data: test.a = s�et�zen� lu02.a a� lu05.a (216 v�, 3540 slov bez
-ko�en�).
-
-Samotn� model z�vislost� zna�ek bez modelu plodnosti. V�sledky v prvn�m
-��dku plat� p�i pou�it� v�ech hran v�etn� t�ch, kter� nebyly v tr�novac�ch
-datech vid�t nikdy (tj. �ir� odhad). �daje ve druh�m ��dku takov� z�vislosti
-vynech�vaj�.
-
-G 510 - B 414 - P 55,2
-G 488 - B 385 - P 55,9 - R 52,8
-
-Model z�vislost� zna�ek v�etn� plodnosti (ale bez z�vislost� slov).
-
-G 519 - B 405 - P 56,2
-G 499 - B 375 - P 57,1 - R 54,0
-
-Model z�vislost� slov bez plodnosti. T�ch 53 v�t trv� na Kl��in� notebooku
-11 minut, z toho 5 minut na��t�n� statistik!
-
-G 315 - B 609 - P 34,1
-G 174 - B 228 - P 43,3 - R 18,8
-
-Tot�, ale s plodnost�.
-
-G 313 - B 611 - P 33,9
-G 173 - B 229 - P 43,0 - R 18,7
-
-Kombinace slovn�ho a zna�kov�ho modelu. Slovn� z�vislosti vid�n� alespo�
-p�tkr�t se pou�ij� bez ohledu na plodnost. Jinak se zkombinuj� se zna�kov�mi
-p�l na p�l (je u� nutn� normalizovat �etnosti, aby se z nich staly pravd�podobnosti,
-ale d��v jsem to ned�lal a fungovalo to, tak rad�ji vyzkou��me oboj�).
-Celkov� �etnost se n�sob� zna�kovou plodnost�, ��dn� slovn� plodnost se
-nevyu��v�.
-
-G 524 - B 400 - P 56,7
-G 515 - B 379 - P 57,6 - R 55,7
-
-Druh� pokus: od p�edchoz�ho se li�� pouze t�m, �e absolutn� �etnosti jsou
-p�evedeny na relativn�, tj. na pravd�podobnosti.
-
-G 524 - B 400 - P 56,7
-G 515 - B 379 - P 57,6 - R 55,7
-
-Je�t� jeden n�pad: Nekombinovat slova a zna�ky p�l na p�l, ale v opa�n�m
-pom�ru, ne� v jak�m jsou jejich pr�m�rn� �etnosti - aby se slova m�la
-v�bec �anci prosadit. Nebo v pom�ru "kolik je r�zn�ch z�vislost� slov"
-proti "kolik je r�zn�ch zna�ek".
-
-G 525 - B 399 - P 56,8
-G 516 - B 378 - P 57,7 - R 55,8
-
-
-
--------------------------------------------------------------------------------
-Praha
-Zp�tky z Rokytnice nad Jizerou, nejd��v se pokus�m p�esn� zopakovat
-v�sledky z Rokytnice (na stejn�ch datech).
-
-
-
-30.1.2002
-
-Stejn� tr�novac� i testovac� data jako v Rokytnici, stejn� v�sledky -
-to se mi ulevilo.
-
-G 525 - B 399 - P 56,8
-G 516 - B 378 - P 57,7 - R 55,8
-
-Tohle je bez vyhlazen� plodnosti a na rokytnick�ch tr�novac�ch datech
-(prvn�ch 5000 v�t z Lidov�ch novin), ale na kompletn�ch testovac�ch
-datech (sam� Lidov� noviny).
-
-G 72227 - B 53801 - P 57,3
-G 69951 - B 51605 - P 57,5 - R 55,5
-
-A te� je�t� opa�n� pokus: rokytnick� testovac� data (tj. pouze
-lu02.a), ale v�echna tr�novac� data (p�es 80000 v�t).
-
-G 546 - B 378 - P 59,1
-G 542 - B 367 - P 59,6 - R 58,7
-
-Na z�v�r dne: rokytnick� programy, ale kompletn� tr�novac� i testovac�
-data z PDT 1.
-
-G 72749 - B 53279 - P 57,7
-G 71792 - B 52300 - P 57,9 - R 57,0
-
-
-
-31.1.2002
-
-Vyhlazen� plodnosti. Pokud c(uzel)<5, d� se m�sto v�ech nulov�ch plodnost�
-mal� ��slo, kter� je men�� ne� nejmen�� skute�n� plodnost dan�ho uzlu, celek
-se pak normalizuje na sou�et 1. U uzl�, kter� byly vid�t �ast�ji, se nuly
-ponech�vaj�, proto�e se pova�uj� za dostate�n� prok�zan�. Pseudok�d pro
-��dce pozorovan� uzly:
-fmin = min(f(uzel, i), i);
-n0 = count(f(uzel, i)==0);
-foreach i where f(uzel, i)==0 {f(uzel, i) = 0.5*fmin/n0;}
-for i = 0 to 3 {f(uzel, i) /= (1+0.5*fmin);}
-
-G 72749 - B 53279 - P 57,7
-G 71792 - B 52300 - P 57,9 - R 57,0
-
-To je dost divn�, �e by tato zm�na neud�lala s v�sledky v�bec nic?
-Nejsp�� je to t�m, �e moment�ln� pou��v�m jen zna�kovou plodnost a tam
-se asi nuly p��li� nevyskytuj�.
-
-Zkus�me se tedy je�t� vr�tit ke slovn� plodnosti, te� u�
-vyhlazen�. Celkov� plodnost bude sou�in slovn� a zna�kov� plodnosti.
-
-G 72510 - B 53518 - P 57,5
-G 72095 - B 53024 - P 57,6 - R 57,2
-
-Pokus: adaptivn� anal�za. Po v�b�ru z�vislosti se tato p�id� do
-statistiky a od p���t� se m��e pou��t, jako by byla vid�na v
-tr�novac�ch datech.
-
-G 71304 - B 54724 - P 56,6
-G 71299 - B 54702 - P 56,6 - R 56,6
-
-Je to zhor�en�, tak�e se vr�t�me k p�vodn�mu stavu. Chyb p�i anal�ze
-je je�t� p��li� mnoho, ne� aby bylo dobr� se z anal�zy n�co u�it.
-
-
-
-1.2.2002
-
-Op�t zru�it adaptivn� anal�zu a taky slovn� plodnost.
-
-Pokus o demagnetizaci sou�ad�c�ch spojek. Pokud se to poda��, bude
-je�t� pot�eba demagnetizovat dvojk��� v ko�eni, ��rky (funguj� jako
-spojky) a mo�n� i n�co dal��ho.
-
-Prvn� zp�sob demagnetizace: spojka a posledn� �len koordinace se
-prohod�, ostatn� �leny koordinace a ��rky tedy z�visej� na posledn�m
-�lenu. Testov�n� je zat�m t�m m�n� �estn�m zp�sobem, tj. koordinace ve
-vzorov� anal�ze se transformuj� podobn� jako se transformovaly v
-tr�novac�ch datech. �estn�j�� by bylo prov�st inverzn� transformaci
-nalezen� anal�zy a v�sledek porovnat s netransformovanou vzorovou
-anal�zou. M��e se toti� st�t, �e transformace n�jakou informaci
-ztrat�, a pak oba postupy nebudou ekvivalentn�.
-
-I tak je ov�em v�sledek katastrof�ln�. Z m� nezn�m�ch p���in
-transformace koordinac� mimo��dn� zv��ily p�ita�livost ko�en� v�t.
-
-G 40659 - B 85369 - P 32,3
-G 40656 - B 85353 - P 32,3 - R 32,3
-
-Byla n�jak� bota v plodnosti. Zat�m plodnost odstavena �pln�, ale
-lep�� v�sledky asi budou, a� chybu odstran�me a plodnost znovu
-pou�ijeme.
-
-G 75578 - B 50450 - P 60,0
-G 75577 - B 50441 - P 60,0 - R 60,0
-
-
-
-7.2.2002
-
-Odstran�na chyba v plodnosti. Bohu�el se ukazuje, �e ani tak nen�
-plodnost v tomto tvaru p��nosem.
-
-G 73320 - B 52708 - P 58,2
-G 72823 - B 52255 - P 58,2 - R 57,8
-
-Plodnost tedy vy�azena z �innosti. Pro kontrolu je�t� jednou test, m�l
-by m�t stejn� v�sledky jako posledn� test z 1. �nora, ale nen� tomu
-tak. V��e zm�n�n� chyba (zp�soben� mimochodem u� p�i tr�nov�n�, kdy se
-dvojk��� z ko�ene nahrazoval pr�zdn�m �et�zcem) m�la z�ejm� p�i
-vynech�n� plodnosti blahod�rn� ��inky. Nicm�n� i tohle je zlep�en�
-oproti p�vodn�m koordinac�m o 0,6 %.
-
-G 73427 - B 52601 - P 58,3
-G 72985 - B 52059 - P 58,4 - R 57,9
-
-Druh� zp�sob demagnetizace koordina�n�ch spojek. Ko�enem podstromu je
-posledn� �len koordinace, na ka�d�m �lenu koordinace v�dy vis�
-p�edch�zej�c� �len a ��rka nebo spojka, kter� ho od p�edch�zej�c�ho
-�lenu odd�luje.
-
-G 74611 - B 51417 - P 59,2
-G 74168 - B 50887 - P 59,3 - R 58,9
-
-T�et� zp�sob demagnetizace koordina�n�ch spojek. Ko�enem podstromu je
-posledn� �len koordinace, na n�m vis� koordina�n� spojka, na n�
-p�edch�zej�c� �len koordinace, na n�m pop�. ��rka, pak dal�� �len atd.
----
-Objevena chyba v transformac�ch koordinac�. Po oprav� chyby nov�
-pokusy.
-
-Prvn� zp�sob (pouze v�m�na ko�ene):
-
-G 73943 - B 52085 - P 58,7
-G 73464 - B 51538 - P 58,8 - R 58,3
-
-Druh� zp�sob (bin�rn� strome�ek):
-
-G 74398 - B 51630 - P 59,0
-G 73919 - B 51084 - P 59,1 - R 58,7
-
-T�et� zp�sob (�et�zek):
-
-G 73059 - B 52969 - P 58,0
-G 72681 - B 52474 - P 58,1 - R 57,7
-
-
-
-8.2.2002
-
-Velmi �asto se chybuje v te�ce za v�tou. Dostane se na �adu a� p��li�
-pozd�, tak�e po n� d��ve ne� ko�en hm�tne n�jak� slovo v�ty. Dv� mo�n�
-�e�en�. Prvn�: je-li na konci v�ty interpunkce, hned na za��tku ji
-pov�sit pod ko�en. Druh� - statisticky �ist��, ale p�edpokl�d�m men��
-�sp�nost: do povolen�ch hran p�idat hranu z ko�ene do posledn�ho
-dosud nezav�en�ho slova v�ty - vzhledem k tomu, �e nepovolujeme
-zav�sit ko�en pod n�co jin�ho, projektivita se t�m neporu��. Mo�n�, �e
-dokonce m��eme povolit hranu z ko�ene kamkoliv, ale t�m si nejsem
-jist�. Zat�m zkus�m nejjednodu��� cestu, tj. prvn� �e�en�.
-
-G 78156 - B 47872 - P 62,0
-G 77975 - B 47735 - P 62,0 - R 61,9
-
-Dal�� probl�m je se slo�en�mi p�edlo�kami (nap�. "v oboru"). I na n�
-zavedeme transformaci a budeme je testovat "ne�estn�m zp�sobem",
-tj. tut� transformaci provedeme s testovac�mi daty, m�sto abychom
-inverzn� transformaci prov�d�li s v�sledkem anal�zy. V�sledkem je
-kupodivu zhor�en�. Rad�ji tuto transformaci zru��me.
-
-G 77619 - B 48409 - P 61,6
-G 77440 - B 48283 - P 61,6 - R 61,4
-
-Upravena Mikova redukce zna�ek. U interpunkce p�id�no jako druh� znak
-znam�nko samo.
-
-G 79364 - B 46664 - P 63,0
-G 79153 - B 46359 - P 63,0 - R 62,8
-
-Roz�t�pena statistika o z�vislostech na ko�eni. M�sto na sm�r (kter�
-je od ko�ene v�dy doprava) se pt�me, zda v�ta obsahuje nebo neobsahuje
-sloveso. Pokud ho toti� obsahuje, vis� na ko�eni obvykle ono,
-pop��pad� ��f koordinace, jeho� je �lenem, ale ne jin� slovn� druhy.
-
-G 79572 - B 46456 - P 63,1
-G 78634 - B 44988 - P 63,6 - R 62,4
-
-Ne�ekan�m d�sledkem je velmi �ast� chybn� p�ipojen� slovesa na
-koncovou interpunkci m�sto na ko�en. Proto je�t� roz����me �pravu sady
-zna�ek: pokud jde o posledn� prvek v�ty, p�ipoj� se na konec zna�ky
-"K", cel� zna�ka tedy bude nap�. "Z.K".
-
-G 81727 - B 44301 - P 64,8
-G 78618 - B 40262 - P 66,1 - R 62,4
-
-�sp�nost sice stoupla, ale na p��kladech chybn�ch v�t je vid�t, �e
-v m�stech, kv�li kter�m jsem k posledn�mu opat�en� s�hl, se toto
-minulo ��inkem. Bude nutn� je�t� tot� co se zna�kou prov�st s heslem
-a se slovem.
-
-G 81901 - B 44127 - P 65,0
-G 78624 - B 40100 - P 66,2 - R 62,4
-
-Navzdory v�� snaze uk�zky chyb i nad�le ukazuj� �adu z�vislost� vedouc�ch
-koncov� interpunkce dol�, tak�e bychom je mo�n� mohli zak�zat natvrdo. Efekt
-ale zpo��tku asi nebude velk�, proto�e ve stejn�m souboru chyb je vid�t, �e
-ko�en podstromu pod interpunkc� je stejn� n�jak� nesmysl, kter� ko�enem b�t
-nem�, tak�e zav�en�m cel�ho podstromu jinam se chyba neodstran�. Asi je
-nejvy��� �as vr�tit Viterbiho.
-
-
-
-9.2.2002
-
-Intermezzo - pokusy doma na men��ch tr�novac�ch i testovac�ch datech! Ke
-tr�nov�n� pou�ity soubory za��naj�c� na "c1", k testov�n� pouze soubor "l02.a".
-Testujeme algoritmus Viterbiho, tak�e n�m zmizelo pr�b�n� sledov�n�, co by se
-stalo, kdybychom vynech�vali z�vislosti s nulovou �etnost�. (Stejn� u� se to
-del�� dobu moc neli��.) Nicm�n� zat�m testujeme jen funk�nost, tak�e ���ka
-Viterbiho je nastavena na 1. V�sledek by tedy m�l b�t stejn� jako d��ve, co�
-je�t� pro jistotu ov���me pozd�ji na fakult�. POZOR (do p�edn�ky)! Viterbi
-vy�aduje alespo� primitivn� vyhlazen�, nuly ho dok�ou �pln� zni�it!
-
-G 629 - B 383 - P 62,2 - T 0:20 s
-
-
-
-10.2.2002
-
-Ale tot� star�m programem d�v� jin� v�sledky!
-
-G 590 - B 334 - P 63,9 - T 0:16 s
-G 569 - B 301 - P 65,4 - R 61,6
-
-U Viterbiho vych�z� celkem 1012 z�vislost�, v p�vodn� procedu�e 924 (co� je
-��slo, se kter�m se setk�v�m u� dlouho, tak�e mu v���m sp��).
-
-P�est�v�m porovn�vat ko�en (to jsou sam� chyby), stejn� ale nedost�v�m sou�et,
-jak� m� b�t. �sp�nost je ov�em te� zas lep�� ne� p�vodn�.
-
-G 629 - B 335 - P 65,2
-
-Objevena dal�� chyba - zav�en� koncov� interpunkce se zapo��t�valo dvakr�t.
-Nyn� u� v�sledky Viterbi(1) vypadaj� stejn� jako v�sledky p�vodn� procedury:
-
-G 590 - B 334 - P 63,9
-
-Viterbi(2)
-
-G 563 - B 361 - P 60,9
-
-Viterbi(2) se zapo��t�n�m obou nejlep��ch strom�:
-
-G 1091 - B 694 - P 61,1
-
-Objevena dal�� chyba - ko�en nem�l zna�ku #, n�br� pr�zdn� �et�zec. Oprava ale
-v�sledky vylep�it nedok�zala.
-
-G 590 - B 334 - P 63,9
-
-Objevena dal�� chyba - hrany se d�lily podle sm�ru i u ko�ene, p�esto�e tam je
-sm�r v�dy doprava a m�sto sm�ru se m�lo sledovat, zda v�ta obsahuje sloveso.
-
-G 595 - B 329 - P 64,4
-G 594 - B 325 - P 64,6 - R 64,3
-
-Tot� s viterbim(2), zapo��t�vaj� se oba nejlep�� stromy:
-
-G 826 - B 501 - P 62,2
-
-A te� se asi definitivn� vr�t�me k anal�ze bez Viterbiho (resp. k Viterbimu
-s paprskem ���ky 1). Nicm�n� budeme nad�le pracovat s programem, kter�
-Viterbiho na po��d�n� umo��uje. Star� program od t�to chv�le p�est�v�m
-aktualizovat.
-
-G 595 - B 329 - P 64,4
-
-U zna�kov�ho modelu nyn� k p�edlo�k�m m�sto p�du d�v�m p��mo p�edlo�ku samu.
-Br�n�m se t�m zbyte�n�m chyb�m zp�soben�m myln�m v�stupem Honzova taggeru.
-
-G 596 - B 328 - P 64,5
-
-Do vzd�lenosti p�id�n t�et� stav. Krom� B (bl�zko, tj. sousedi) a D (daleko,
-tj. nesousedi) je�t� zvl�tn� druh D, ozna�en� ��rkou (",") a znamenaj�c�, �e
-mezi doty�n�mi se vyskytla ��rka. Prvn� v�sledky jsem po��dil omylem - model
-byl u� natr�nov�n se t�emi stavy, ale pou�it st�le jen se dv�ma. Jsem zv�dav�,
-jestli po oprav� dojde k dal��mu zlep�en�, nebo naopak ke zhor�en�...
-
-G 611 - B 313 - P 66,1
-
-Po oprav� skute�n� trochu ztr�c�m, na�t�st� ne a� na p�vodn� �rove�:
-
-G 607 - B 317 - P 65,7
-
-Model vzd�lenosti je�t� roz���en, nyn� je evidov�n i po�et ��rek, kter� se mezi
-uzly vm�stnaly. T�m by se mohly spravit v�ce�lenn� koordinace.
-
-G 612 - B 312 - P 66,2
-
-
-
-11.2.2002
-
-P�eneseno zp�tky na fakultu. Natr�nov�no op�t na 83000 v�t, testov�no
-na 7319 v�t�ch. Jinak vnit�n� shodn�. V�sledky jsou m�rn�m zlep�en�m
-oproti stavu na fakult� v p�tek ve�er, ale zhor�en�m oproti stavu
-v�era ve�er doma.
-
-G 82312 - B 43818 - P 65,3 - T 5:28
-
-Pro jistotu zkus�me je�t� jednou Viterbiho. ��dn� p�ekvapen� se
-bohu�el nekon� :-(
-
-G 93253 - B 51820 - P 64,3 - T 25:32
-
-Pokusil jsem se, aby se stejn� jako u anal�zy ani u tr�ninku u�
-nevynech�vala posledn� v�ta. Proto�e jsem v�ak p�idal podm�nku, �e se
-zpracov�vaj� jen nepr�zdn� v�ty, celkov� po�et ve skute�nosti klesl, a
-to o dost: na 73088. Tr�nov�n� trvalo n�co p�es 2:49 minuty. Po�et
-testovac�ch v�t z�st�v� 7319.
-
-G 82312 - B 43818 - P 65,3
-
-Do zna�ky pro podstatn� jm�no jsem p�idal �daj, zda jde o k�estn�
-jm�no osoby (s dvojic� k�estn� jm�no - p��jmen� se zach�z� jinak ne� s
-jinou podobnou dvojic� podstatn�ch jmen a b�vaj� v tom chyby - snad
-tato evidence pom��e)...
-
-G 82948 - B 43257 - P 65,7
-
-Mal� statistika nav�c:
-34717 p��pad� rozhodoval pouze zna�kov� model (slovn� p=0).
-      To je 27,5 % ze 126205 celkem rozhodovan�ch slov.
-      Tyto p��pady dopadly G 20681 - B 14036 - P 59,6.
-100 % spr�vn�ch v�t bylo 867, tj. asi 11,8 %.
-      Nejdel�� z nich m�la 18 (!) slov.
-      Pr�m�rn� takov� v�ty m�ly 4 slova.
-      Pr�m�rn� d�lka testovac� v�ty je p�itom 17 slov.
-      Mo�n� by bylo zaj�mav� odvodit statistiku, kter� by krom�
-      �sp�nosti na z�vislostech tak� m��ila, jak t�k� bylo t�to
-      �sp�nosti dos�hnout - na v�t�ch o 1 slovu to bylo jednoduch�,
-      na v�t�ch o 100 slovech je i 50 % velk� �sp�ch - mo�n� v�t��,
-      ne� odpov�d� 50 zav�en�m slov�m?
-
-
-
-Prvn� pokus s modelem z�vislost� hesel. Samostatn� testujeme model
-"hesla*znacky", tj. pravd�podobnost, �e se sou�asn� vyskytla dan�
-z�vislost mezi hesly a dan� z�vislost mezi zna�kami. (To nen� tot�
-jako pravd�podobnost, �e se vyskytla z�vislost, jej�� ��d�c� uzel m�
-sou�asn� dan� heslo1 a zna�ku1 a z�visl� uzel m� sou�asn� dan� heslo2
-a zna�ku2. Tato druh� mo�nost je t�m�� ekvivalentn� modelu z�vislost�
-slov, zat�mco prvn� mo�nost je m�n� specificky parametrizov�na.
-
-"slova"
-A 126030 - G 54684 - B 71346 - P 43,4 (vse)
-A  40496 - G 22634 - B 17862 - P 55,9 (>=5)
-A  29997 - G 15635 - B 14362 - P 52,1 (>=1)
-A  55537 - G 16415 - B 39122 - P 29,6 (==0)
-
-"hesla"
-A 126030 - G 46360 - B 79670 - P 36,8 (vse)
-A  44601 - G 20362 - B 24239 - P 45,7 (>=5)
-A  21059 - G  8002 - B 13057 - P 38,0 (>=1)
-A  60370 - G 17996 - B 42374 - P 29,8 (==0)
-
-"znacky"
-A 126030 - G 85215 - B 40815 - P 67,6 (vse) <== NEJLEPSI!!!
-A 119222 - G 78586 - B 40636 - P 65,9 (>=5)
-A    210 - G    79 - B   131 - P 37,6 (>=1)
-A   6598 - G  6550 - B    48 - P 99,3 (==0) - ze by tohle byly Z.K?
-
-"0.5*slova+0.5*znacky" (resp. "$ls*slova+$lz*znacky")
-A 126030 - G 84264 - B 41766 - P 66,9 (vse)
-A 111976 - G 74632 - B 37344 - P 66,6 (>=5)
-A   7444 - G  3081 - B  4363 - P 41,4 (>=1)
-A   6610 - G  6551 - B    59 - P 99,1 (==0)
-
-pro >=5 "slova", jinak "0.5*slova+0.5*znacky"
-A 126030 - G 82487 - B 43543 - P 65,5 (vse)
-A 111734 - G 72799 - B 38935 - P 65,2 (>=5)
-A   7680 - G  3135 - B  4545 - P 40,8 (>=1)
-A   6616 - G  6553 - B    63 - P 99,0 (==0)
-
-pro >=15 "slova", jinak "0.5*slova+0.5*znacky"
-A 126030 - G 84089 - B 41941 - P 66,7 (vse)
-A 119175 - G 77448 - B 41727 - P 65,0 (>=5)
-A    244 - G    89 - B   155 - P 36,5 (>=1)
-A   6611 - G  6552 - B    59 - P 99,1 (==0)
-
-"hesla*znacky"
-A 126030 - G 47558 - B 78472 - P 37,7 (vse)
-A  63766 - G 29378 - B 34388 - P 46,1 (>=5)
-A   1289 - G    39 - B  1250 - P  3,0 (>=1)
-A  60975 - G 18141 - B 42834 - P 29,8 (==0)
-
-"slovo-znacka"
-A 126030 - G 46213 - B 79817 - P 36,7 (vse)
-A 109476 - G 37433 - B 72043 - P 34,2 (>=5)
-A   8915 - G  2083 - B  6832 - P 23,4 (>=1)
-A   7639 - G  6697 - B   942 - P 87,7 (==0)
-
-"heslo-znacka"
-A 126030 - G 44212 - B 81818 - P 35,1 (vse)
-A 111258 - G 36476 - B 74782 - P 32,8 (>=5)
-A   7092 - G  1044 - B  6048 - P 14,7 (>=1)
-A   7680 - G  6692 - B   988 - P 87,1 (==0)
-
-"(heslo-znacka)*znacky"
-A 126030 - G 54773 - B 71257 - P 43,5 (vse)
-A  21132 - G 14391 - B  6741 - P 68,1 (>=5)
-A  97168 - G 33680 - B 63488 - P 34,7 (>=1)
-A   7730 - G  6702 - B  1028 - P 86,7 (==0)
-
-pro >=5 "(heslo-znacka)*znacky", jinak "znacky"
-A 126030 - G 85101 - B 40929 - P 67,5 (vse)
-A 119222 - G 78472 - B 40750 - P 65,8 (>=5)
-A    210 - G    79 - B   131 - P 37,6 (>=1)
-A   6598 - G  6550 - B    48 - P 99,3 (==0)
-
-
-
-12.2.2002
-
-Hled�me nejlep�� vyv�en� model� "slova" a "zna�ky".
-"ls*slova+lz*znacky"
-
-ls=0
-A 126030 - G 85215 - B 40815 - P 67,6 (vse)
-A 119222 - G 78586 - B 40636 - P 65,9 (>=5)
-A    210 - G    79 - B   131 - P 37,6 (>=1)
-A   6598 - G  6550 - B    48 - P 99,3 (==0)
-
-ls=0,25
-A 126030 - G 85150 - B 40880 - P 67,6 (vse)
-A 119151 - G 78493 - B 40658 - P 65,9 (>=5)
-A    281 - G   107 - B   174 - P 38,1 (>=1)
-A   6598 - G  6550 - B    48 - P 99,3 (==0)
-
-ls=0,5
-A 126030 - G 85262 - B 40768 - P 67,7 (vse)
-A 119052 - G 78569 - B 40483 - P 66,0 (>=5)
-A    376 - G   143 - B   233 - P 38,0 (>=1)
-A   6602 - G  6550 - B    52 - P 99,2 (==0)
-
-ls=0,5625
-A 126030 - G 85265 - B 40765 - P 67,7 (vse)
-A 118953 - G 78540 - B 40413 - P 66,0 (>=5)
-A    475 - G   175 - B   300 - P 36,8 (>=1)
-A   6602 - G  6550 - B    52 - P 99,2 (==0)
-
-ls=0,625
-A 126030 - G 85292 - B 40738 - P 67,7 (vse)
-A 118863 - G 78536 - B 40327 - P 66,1 (>=5)
-A    564 - G   206 - B   358 - P 36,5 (>=1)
-A   6603 - G  6550 - B    53 - P 99,2 (==0)
-
-ls=0,6875
-A 126030 - G 85304 - B 40726 - P 67,7 (vse)
-A 118807 - G 78520 - B 40287 - P 66,1 (>=5)
-A    620 - G   234 - B   386 - P 37,7 (>=1)
-A   6603 - G  6550 - B    53 - P 99,2 (==0)
-
-ls=0,71875
-A 126030 - G 85339 - B 40691 - P 67,7 (vse)
-A 118755 - G 78537 - B 40218 - P 66,1 (>=5)
-A    672 - G   252 - B   420 - P 37,5 (>=1)
-A   6603 - G  6550 - B    53 - P 99,2 (==0)
-
-ls=0,734375
-A 126030 - G 85355 - B 40675 - P 67,7 (vse) <== NEJLEP��!
-A 118699 - G 78542 - B 40157 - P 66,2 (>=5)
-A    728 - G   263 - B   465 - P 36,1 (>=1)
-A   6603 - G  6550 - B    53 - P 99,2 (==0)
-
-ls=0,7421875
-A 126030 - G 85205 - B 40825 - P 67,6 (vse)
-A 118675 - G 78383 - B 40292 - P 66,0 (>=5)
-A    752 - G   272 - B   480 - P 36,2 (>=1)
-A   6603 - G  6550 - B    53 - P 99,2 (==0)
-
-ls=0,75
-A 126030 - G 85222 - B 40808 - P 67,6 (vse)
-A 118666 - G 78399 - B 40267 - P 66,1 (>=5)
-A    759 - G   273 - B   486 - P 36,0 (>=1)
-A   6605 - G  6550 - B    55 - P 99,2 (==0)
-
-ls=1
-A 126030 - G 54684 - B 71346 - P 43,4 (vse)
-A  40496 - G 22634 - B 17862 - P 55,9 (>=5)
-A  29997 - G 15635 - B 14362 - P 52,1 (>=1)
-A  55537 - G 16415 - B 39122 - P 29,6 (==0)
-
-Prvn� p�ibl��en� k pou�it� valence a sou�asn� k pou�it�
-trigram�. Pravd�podobnost z�vislosti nov� parametrizov�na ot�zkou, zda
-u� ekvivalentn� z�visl� uzel pod t�mt� ��d�c�m uzlem
-vis�. Ekvivalentn� je takov� uzel, kter� m� stejnou morfologickou
-zna�ku (resp. ty dva znaky, kter� n�m z n� zbyly).
-
-G 84960 - B 41070 - P 67,4
-
-Zhor�en�. Zkus�me zjemnit definici ekvivalentn�ch sourozenc�. Pokud
-maj� oba p�d, musej� ho m�t stejn�; jinak musej� m�t stejn� prvn�
-p�smeno zna�ky.
-
-
-
-12.2.2002 ve�er doma
-
-Opakov�n� posledn�ho testu, ale na dom�c�ch tr�novac�ch a testovac�ch datech.
-
-G 623 - B 301 - P 67,4
-
-Pokus: z testovac�ch dat vynech�ny v�ty, kter� obsahuj� alespo� jednu z�vislost
-typu ExD. Pokus je inspirov�n Carrollem et al. (1998), kter� do testov�n�
-experimentu se subkategoriza�n�mi pravd�podobnostmi p�i parsingu zahrnul pouze
-v�ty pokryt� svou gramatikou (tj. v�ty, ke kter�m gramatika najde alespo� jednu
-anal�zu) s od�vodn�n�m, �e zbytek stejn� obsahuje eliptick� jmenn� v�ty,
-fragmenty dialog� a podobn� podivnosti, kter� se stejn� nesna�� pokr�t.
-
-G 449 - B 215 - P 67,6
-
-Dota�en� pokusu do konce: doty�n� v�ty byly vynech�ny i p�i tr�ninku. M�sto asi
-1900 v�t se tr�novac� mno�ina scvrkla jen na 1246 v�t.
-
-G 446 - B 218 - P 67,2
-
-Od diskriminace v�t s ExD tedy zase ustupuji. Ustupuji tak� od parametrizace
-pravd�podobnost� podle dvoj�at, proto�e to �sp�nost nezvedlo a chyby, kter�mi
-to bylo motivov�no, se vyskytuj� vesele d�l. M�me tedy op�t 1983 tr�novac�ch
-v�t a 924 testovac�ch z�vislost�.
-
-G 608 - B 316 - P 65,8
-
-Pozor! Tak�e �sp�nost na dom�c�ch datech je v�razn� hor��! V tomto sv�tle
-p�est�v� b�t �pln� jist�, �e od v�c�, od kter�ch jsem pr�v� ustoupil, jsem
-opravdu ustupovat m�l. I kdy� jist� nen� ani opak, statistick� pr�kaznost
-dom�c�ch dat je p�ece jenom n�zk�.
-
-Opraveno po��t�n� �sp�nosti pro z�vislosti vybran� n�hodou (ve statistice m�ly
-�etnost 0). Chyba spo��vala v tom, �e se mezi tyto hrany p�ipletly z�vislosti
-koncov� interpunkce na ko�eni, kter� se p�i�azuj� bez statistiky, tj. �etnost u
-nich nebyla uvedena, ale m�ly skoro stoprocentn� �sp�nost.
-
-A 924 - G 608 - B 316 - P 65,8 (v�e)
-A 749 - G 529 - B 220 - P 70,6 (>=5)
-A 157 - G  71 - B  86 - P 45,2 (>=1)
-A  18 - G   8 - B  10 - P 44,4 (==0)
-
-Pokus: Vynechat z tr�ninku a testu v�ty, kter� obsahuj� koordinaci nebo
-apozici. Z 1983 tr�novac�ch v�t zbylo 900. Z testovac�ch v�t zbylo 21 (tj. 257
-slov).
-
-A 257 - G 187 - B 70 - P 72,8 (v�e)
-A 140 - G 119 - B 21 - P 85,0 (>=5)
-A 111 - G  65 - B 46 - P 58,6 (>=1)
-A   6 - G   3 - B  3 - P 50,0 (==0)
-
-
-
-13.2.2002
-
-Zopakov�n experiment s vynech�n�m koordinac� a apozic. V tr�novac�ch
-datech zbylo 36200 v�t, v testovac�ch 3496 v�t.
-
-A 41598 - G 31367 - B 10231 - P 75,4 (v�e)
-A 40805 - G 31050 - B  9755 - P 76,1 (>=5)
-A   756 - G   303 - B   453 - P 40,1 (>=1)
-A    37 - G    14 - B    23 - P 37,8 (==0)
-
-Zopakov�n experiment s vynech�n�m ExD (koordinace a apozice
-vr�ceny). V tr�novac�ch datech zbylo 53500 v�t, v testovac�ch 5522
-v�t.
-
-A 99092 - G 68494 - B 30598 - P 69,1 (v�e)
-A 98253 - G 68200 - B 30053 - P 69,4 (>=5)
-A   762 - G   283 - B   479 - P 37,1 (>=1)
-A    77 - G    11 - B    66 - P 14,3 (==0)
-
-Spojeny posledn� dva pokusy. Vynech�ny jsou v�ty obsahuj�c� ExD,
-koordinaci nebo apozici. V tr�novac�ch datech zbylo 25900 v�t,
-v testovac�ch 2658.
-
-A 36114 - G 27430 - B 8684 - P 76,0 (v�e)
-A 35300 - G 27076 - B 8224 - P 76,7 (>=5)
-A   746 - G   340 - B  406 - P 45,6 (>=1)
-A    68 - G    14 - B   54 - P 20,6 (==0)
-
-Pr�zkum je hotov. Zkus�m nicm�n� tento stav v�c� n�jakou dobu
-ponechat. Jednak se t�m zrychluje v�po�et a jednak se m��u l�pe
-soust�edit na druhy chyb, kter� s koordinacemi nesouvisej�.
-
-Pokus: p�estaneme do d�lky z�vislosti zahrnovat po�et ��rek, proto�e
-t�m se mo�n� statistika p��li� drob�. Ponech�me v�ak informaci, zda se
-na trase aspo� jedna ��rka vyskytla, �i nikoliv.
-
-G 27435 - B 8679 - P 76,0
-
-Zlep�en� je minim�ln�, ale alespo� se to nezhor�ilo, tak�e to tak
-nech�me.
-
-Valence - �vodn� pr�zkum. Do v�sledk� jsou nyn� zahrnuty pouze
-z�vislosti typu Sb, Obj, Adv, Pnom. Typ se ur�� podle vzorov� v�ty,
-pokud byl z�visl� uzel zav�en jinam, je to chyba. Analyzuje se ov�em
-cel� v�ta.
-
-G 8848 - B 2569 - P 77,5
-
-Tvary slovesa "b�t" zkop�rov�ny do zna�ek. Slibuji si od toho, �e
-konstrukce "bude d�lat" ("d�lat" m� b�t ��d�c�) se u� nebude pl�st
-s "m��e d�lat" ("m��e" m� b�t ��d�c�).
-
-G 9014 - B 2403 - P 79,0
-
-Znova rozli�eny zna�ky pro zvratn� z�jmena "se", "si" od ostatn�ch
-z�jmen. D�vod: tato dv� z�jmena hraj� ��dov� v�t�� roli p�i valenci
-ne� v�echna ostatn� z�jmena, tak�e by m�lo pomoct, kdy� si je nebudeme
-pl�st. Pozn�mka: mezi funkcemi, kter� se maj� kv�li valenc�m sledovat,
-jsem zapomn�l uv�st AuxT. V nejbli���m pokusu ho tedy je�t� tak�
-vynech�m, pak se k n�mu vr�t�m.
-
-G 9019 - B 2398 - P 79,0
-
-Nepatrn� zlep�en�. A te� jak to vyjde p�i p�id�n� kontroly AuxT?
-(Prvn� v�sledky jsou opakov�n�m baseline, druh� opakov�n�m pokusu s
-p�idan�m "b�t", t�et� opakov�n�m pokusu s p�idan�m "se/si".)
-
-G 9254 - B 2677 - P 77,6
-G 9445 - B 2486 - P 79,2
-G 9456 - B 2475 - P 79,3
-
-Je�t� vylep�en� "b�t". Je-li z�porn�, odstranit p�edponu "ne-". Je-li
-v p���est� minul�m, odstranit koncovku rodu a ��sla. U infinitivu se
-zastaralou koncovkou "-ti" odstranit koncov� "-i".
-
-G 9489 - B 2442 - P 79,5
-
-Nejprimitivn�j�� valence. Zkusit p�idat heslo ka�d�ho slovesa do
-zna�ky (p�i zachov�n� prvn�ch dvou p�smen zna�ky). Pravd�podobn� to
-sp�� u�kod�, proto�e data p��li� z��dnou bez n�le�it�ho vyhlazen�, ale
-za zkou�ku to stoj�.
-
-G 6522 - B 5409 - P 54,7
-
-Tak snad ani za zkou�ku to nest�lo. Je�t� mal� diletantsk� pokus
-(diletantsk�, proto�e se p��li� nezat�uje dodr�en�m z�kon�
-pravd�podobnosti): u z�vislost�, jejich� ��d�c�m uzlem je sloveso,
-ud�lat dva z�znamy do t�e tabulky: jeden bude m�t v ��d�c�m uzlu jen
-morfologickou zna�ku, druh� ji bude m�t obohacenu o heslo jako v
-p�edchoz�m pokusu. V z�visl�m uzlu bude za v�ech okolnost� zna�ka. P�i
-anal�ze se pak vyt�hnou oba z�znamy a �etnosti se se�tou. T�m se
-jednak trochu vyhlad� ��dkost dat, jednak se celkov� zv�hodn�
-z�vislosti ��zen� slovesem oproti jin�m, tj. slovesn� vazby se snad
-budou �e�it o n�co p�ednostn�ji.
-
-G 9537 - B 2394 - P 79,9
-
-Jednoduch� valence. Na za��tku ka�d� anal�zy si naj�t v�echna slovesa
-ve v�t�, ke ka�d�mu z nich v�echny zn�m� r�mce, ty rozsekat na �leny,
-naj�t potenci�ln� instance �len� ve v�t� a v�echny takto vznikl�
-z�vislosti si zapamatovat jako valen�n�. Zat�m se nept�me ani po tom,
-zda je n�kter� vazba povinn� (vyskytuje se ve v�ech r�mc�ch), ani zda
-dv� r�zn� valen�n� z�vislosti na tomt� slovese jsou ze stejn�ho r�mce
-tohoto slovesa, ani zda jedna valence nen� uspokojov�na opakovan�, ani
-zda valen�n� z�vislost p�eskakuje jin� sloveso, kter� m� stejnou
-neuspokojenou valenci. Na za��tku ka�d�ho kola pak hled�me nejd��ve
-valen�n� z�vislosti a teprve v p��pad�, �e ��dn� z nich nen� povolen�,
-hled�me mezi ostatn�mi.
-
-G 8660 - B 3271 - P 72,6
-
-Zd� se, �e tam, kde jedno sloveso m� v�ce variant r�mc�, zbyte�n�
-vyhr�vaj� ty m�n� pravd�podobn�. Ut�i�me tedy valen�n� z�vislosti
-sestupn� podle pravd�podobnosti.
-
-G 8835 - B 3096 - P 74,1
-
-A d�le: valen�n� z�vislosti dostanou p�ednost pouze v p��pad�, �e u�
-je povolena ta nejlep�� z nich. Jinak se postupuje norm�ln�m
-zp�sobem. I tak samoz�ejm� m��e vyhr�t valen�n� z�vislost, kter� nen�
-nejlep�� z valen�n�ch.
-
-G 9416 - B 2515 - P 78,9
-
-Opravena chyba: nezvratn� z�jmena s p�dem nebyla zapo��t�na jako
-jmenn� argumenty (jde zejm�na o vzta�n� a ukazovac� z�jmena - "to",
-"kter�" apod.).
-
-G 9426 - B 2505 - P 79,0
-
-Zkus�me je�t� jako druh� krit�rium �azen� valen�n�ch z�vislost� p�idat
-d�lku z�vislosti (��m krat��, t�m lep��).
-
-G 9407 - B 2524 - P 78,8
-
-Nezlep�uje se to. Ne� vr�t�me n�hodnou, zkus�me tedy, zda pom��e
-p��stup "��m del��, t�m lep��".
-
-G 9445 - B 2486 - P 79,2
-
-Kupodivu je tu m�rn� zlep�en�! Tak�e to tak nech�me.
-
-Z�sobn�k valen�n�ch z�vislost� se m��e zaseknout, pokud na jeho �ele
-v�z� z�vislost, kter� u� nikdy nebude povolena. V takov�m p��pad� je
-nutn� z�vislost ze z�sobn�ku odstranit. Takov� p��pad se pozn� podle
-toho, �e nastala jedna z n�sleduj�c�ch podm�nek: 1) z�visl� uzel u� je
-p�ipojen jinde; 2) nad z�visl�m uzlem vede z�vislost, kter� nevede nad
-��d�c�m nebo obr�cen�.
-
-G 9401 - B 2530 - P 78,8
-
-Nepomohlo to a je to dost divok�, tak to vr�t�m do p�vodn�ho
-stavu. N�kdy bych mohl lad�n�m vyzkoumat, co se tam vlastn� d�je a ve
-kter�ch p��padech k tomu do�lo, ale te� na to nen� �as.
-
-G 9445 - B 2486 - P 79,2
-
-Zkus�m z testu vynechat Adv (v�t�inou nejsou sou��st� valence).
-
-G 5903 - B 1668 - P 78,0
-
-Vr�t�me Adv, vynech�me Sb (nejsou podchyceny valen�n�mi r�mci).
-
-G 6962 - B 1953 - P 78,1
-
-Vr�t�me oboj�.
-
-G 9445 - B 2486 - P 79,2
-
-Vynech�me z valence sloveso "b�t", proto�e samo u� je bez valence
-podchyceno celkem dob�e a naopak se mnohokr�t vyskytuje jako pomocn�,
-nebo s mnoha r�zn�mi r�mci, tak�e valence by ho mohla sp�� popl�st.
-
-G 9455 - B 2476 - P 79,2
-
-Zv�hodn�me zav�ov�n� t�ch vedlej��ch v�t, kter� jdou snadno poznat,
-ale dosavadn� model na to nem� n�stroj. Jakmile pod sloveso p�ipoj�me
-zleva heslo "kter�", koukneme se, zda je p�ed n�m ��rka, p�ipoj�me ji
-tak� a potom hled�me nejbli��� p�edch�zej�c� podstatn� jm�no nebo
-z�jmeno (m�lo by se shodovat v rod� a ��sle, ale to sou�asn� zna�ky
-neumo��uj�, tak to odlo��me - stejn� nep�jde o p�edm�t ani podobnou
-z�vislost, tak�e jde sp��e o uklizen� vedlej�� v�ty ne� o jej� spr�vn�
-zav�en�).
-
-G 9507 - B 2424 - P 79,7
-
-Zkombinovat "diletantskou pseudovalenci", kterou jsme naho�e dos�hli
-79,9 %, s t�m, co jsme pou�ili v posledn�m pokusu. D�vod: te� sice
-l�pe ne� u pseudovalence preferuju valen�n� z�vislosti p�ed
-nevalen�n�mi, ale pro rozli�en� valen�n�ch mezi sebou zase pot�ebuju
-ur�it� stupe� lexikalizace, a ten byl v pseudovalenci obsa�en.
-
-G 9564 - B 2367 - P 80,2
-
-Zvratn� z�jmena "se" a "si" jsou u n�kter�ch sloves tak� zahrnuta pod
-valencemi N4, resp. N3. Povol�me tedy oboj�.
-
-G 9560 - B 2371 - P 80,1
-
-Mal� zhor�en�. Nov� valence na sebe sp��e nabalily r�zn� dal��
-kraviny. V��e uveden� druhy "se" a "si" je nutn� n�jak �e�it, ale
-takhle to nejde, tak�e beru zp�t.
-
-MUSIM ALE ZKONTROLOVAT seznam vazeb, kter� pou��v�m! Posledn�
-prov�d�n� pokus jsem d�lal, proto�e v seznamu v�bec nebylo "obr�tit
-se" (bylo tam pouze "obr�tit N4"), p�itom na webu je jasn� vid�t, �e
-existuje r�mec "obr�tit se na".
-
-
-
-14.2.2002
-
-Pokus: spojky "�e", "aby" a ("zda" nebo "zdali") se p�ilep� ke
-zna�ce.
-
-G 9635 - B 2296 - P 80,8
-
-Ale zapomn�l jsem upravit zna�ky ve valenc�ch, mo�n� to bude je�t�
-lep��.
-
-G 9619 - B 2312 - P 80,6
-
-Ou nou! Jakto�e je to zase hor��? Mus�m to ale asi nechat takhle, je
-to spr�vn�j��.
-
-
-
-21.2.2002
-
-Pokus o po��dn� zm��en� n�kter�ch v�sledk� uv�d�n�ch ve �l�nku do
-Taibei. Mus�m se dok�zat vr�tit k p�vodn� verzi programu, v p�tek p�ed
-odesl�n�m �l�nku jsem to d�lal narychlo zbrkle a nepovedlo se mi to.
-
-Prvn� krok: nyn� lze v konfiguraci nastavit, zda se maj� testovat
-pouze hrany, kter� maj� ve vzorov�ch datech ur�itou analytickou
-funkci, nebo v�echny hrany. Prvn� v�sledek je pro hrany s afuny Sb,
-Obj, Adv, Pnom a AuxT (tedy stejn� jako ve v�ech pokusech posledn�ch
-dn�), druh� je pro v�echny hrany (afun .*).
-
-G  9491 - B 2440 - P 79,5
-G 27318 - B 8796 - P 75,6
-
-Druh� krok: specifikaci afun�, kter� se nesm� ve v�t� vyskytnout, aby
-v�ta nebyla vynech�na, u� konfigurace umo��uje. Nyn� se zkus�me vr�tit
-na neomezen� data. Prvn� v�sledek je se zak�zan�mi afuny ExD, Coord a
-Apos (tak to bylo posledn�ch n�kolik dn�), druh� je pro povolen�
-v�echny afuny p�i testu (av�ak natr�nov�no je po��d na omezen�ch
-datech), t�et� pou��v� neomezen� data p�i testu i p�i tr�ninku. Ve
-v�ech pokusech u� je ponech�no testov�n� libovoln�ch afun� (ve v�t�ch,
-kter� nebyly vynech�ny).
-
-G 27318 - B  8796 - P 75,6
-G 84026 - B 42004 - P 66,7
-G 83540 - B 42490 - P 66,3
-
-Ni��� �sp�nost t�et�ho pokusu vzhledem k druh�mu je
-p�ekvapuj�c�. Krom� toho jsme klesli i pod p�vodn�
-�sp�nost. O�ek�v�no:
-
-G 85355 - B 40675 - P 67,7
-
-P�i zbrkl�m p�te�n�m pokusu o n�vrat byly ov�em vy�azeny ve�ker�
-machinace s morfologick�mi zna�kami, tak�e mimo jin� zmizel tak�
-rozd�l mezi uzly z�visej�c�mi na ko�eni, kdy� ve v�t� bylo sloveso, a
-kdy� tam nebylo. Nyn� naopak ve�ker� machinace vrac�m a budu je pak
-vy�azovat postupn�, s v�t��m rozmyslem. Nejd��ve ale pr�b�n�
-p�etr�nov�n� a p�etestov�n�:
-
-G 87589 - B 38441 - P 69,5
-
-Nyn� odstran�me tzv. selektivn� lexikalizaci zna�ek, tj. ve�ker�
-machinace se zna�kami v�etn� p�id�v�n� lemmatu do zna�ky pro
-interpunkci. V�jimkou je pouze �prava zna�ek pro k�estn� jm�no, kde se
-ale nep�id�v� lemma, n�br� cel� lexik�ln� kategorie; krom� toho to
-nesouvis� s valenc�. Interpunkce s valenc� taky moc nesouvis�, tak�e
-ji v p���t�m kroku je�t� tak� vr�t�m. Te� ale pr�b�n� v�sledky:
-
-G 84314 - B 41716 - P 66,9
-
-Vr�cena lexikalizace zna�ek pro interpunkci a p�edlo�ky. (P�edlo�ky
-byly lexikalizov�ny u� 10.2.2002, interpunkce je�t� d��ve.)
-
-G 85997 - B 40033 - P 68,2
-
-�sp�nost je po��d vy��� ne� p�ed pokusy s valenc�. Mohlo by to b�t
-t�m, �e te� v d�lce z�vislosti eviduji v�skyt ��rky, tenkr�t jsem
-evidoval i po�et ��rek. Je�t� tedy zkus�m vr�tit po�et ��rek. Je�t�
-jsem tak� nalezl n�silnou �pravu vedlej��ch v�t za��naj�c�ch z�jmenem
-"kter�", a vypnul jsem ji.
-
-G 85350 - B 40680 - P 67,7
-
-Kone�n� jsem se trefil v�ce m�n� do p�edvalen�n�ho v�sledku (jsem
-jenom o p�t z�vislost� hor��). Te� tedy op�t p�estanu evidovat po�et
-��rek mezi ��d�c�m a z�visl�m a m�sto n�j budu evidovat pouze
-existenci ��rky.
-
-G 85360 - B 40670 - P 67,7
-
-Vyp�n�m lexikalizaci p�edlo�ek, ta se stane sou��st� bal�ku
-"selektivn� lexikalizace", a nem��e se tedy zapo��t�vat do baseline
-p�ed valen�n�mi pokusy. P�i selektivn� lexikalizaci u� nav�c nebudu
-pracovat s pou�it�m tvarem p�edlo�ky, ale s jej�m lemmatem.
-
-G 85139 - B 40891 - P 67,6
-
-P���t� je pot�eba se n�jak postavit k n�siln�mu �e�en� vedlej��ch v�t
-za��naj�c�ch z�jmenem "kter�". Je t�eba pokr�t i dal�� vzta�n�
-z�jmena, kter�ch se to t�k�. Je t�eba zjistit, jak moc pom�h� povinn�
-p�ipojov�n� takov�ch v�t k nejbli���mu p�edch�zej�c�mu podstatn�mu
-jm�nu a kolikr�t p��mo toto p�ipojen� bylo �patn� �i spr�vn�. Je t�eba
-se zamyslet, zda nebude lep�� n�jak� voln�j�� a statisti�t�j�� model,
-kter� nap�. bude podmi�ovat oby�ejnou pravd�podobnost podm�nkami,
-kter� p�i n�siln�m �e�en� vedou p��mo k p�ipojen� vedlej�� v�ty. A
-cel� tato funkce by asi m�la b�t voliteln� v konfiguraci. Pokud se
-rozhodnu m�t ji pro valen�n� pokusy zapnutou, m�la by b�t sou��st�
-baseline.
-
-
-
-22.2.2002
-
-Pokus s povinn�m p�ipojov�n�m vzta�n�ch vedlej��ch v�t k nejbli���
-jmenn� fr�zi nalevo od ��rky. Zat�m vr�t�m to, co u� tam jednou bylo,
-tedy v�ty se z�jmenem "kter�" v r�zn�ch rodech. Ud�l�m to jako
-volitelnou funkci, ale pro nejbli��� pokus bude zapnuta. Zvlṻ tak�
-zm���m �sp�nost t�chto z�vislost�, proto�e jedna v�c je, kolikr�t
-byly �sp�n� ony samy, a jin�, kolik chyb odstranily nebo naopak
-zp�sobily jinde ve strom�.
-
-Vzta�n� v�ty budeme testovat na mal�m vzorku 445 v�t (soubory
-lu0?.a). Tady je jeho po��te�n� �sp�nost:
-
-G 5424 - B 2477 - P 68,6
-
-Prvn� ��dek je v�dy celkov� �sp�nost, druh� jen vzta�n� v�ty.
-
-G 5487 - B 2414 - P 69,4
-G   30 - B   16 - P 65,2
-
-To je pozoruhodn�! Jak je vid�t, samotn� zav�en� vzta�n�ch v�t je
-natolik chybn�, �e celkovou �sp�nost kaz�, av�ak i tak pom�h�
-umravnit jin� z�vislosti, d�ky �emu� celkov� �sp�nost naopak
-vzrostla! Mo�n� ale, �e zav�en� vzta�n�ch v�t bylo chybn� i p�edt�m,
-akor�t chyby sm��ovaly jinam, tak�e celkov� i tohle je zlep�en� (nem�m
-toti� mo�nost jednodu�e zm��it �sp�nost zav�en� vzta�n�ch v�t, kdy�
-nen� pou�ito zvl�tn� zach�zen�). To skoro stoj� za zm�nku v n�jak�
-publikaci. A te� mus�me zjistit, kde k chyb�m doch�z� a zda se s nimi
-d� n�co d�lat.
-
-Chyby lze rozd�lit do n�sleduj�c�ch skupin:
-1) Jmenn� fr�ze nebo sloveso ve vedlej�� v�t� jsou �leny n�jak�
-koordinace nebo apozice. To zat�m neum�m opravit, proto�e zat�m neum�m
-zach�zet s koordinacemi a apozicemi.
-2) Spr�vn� jmenn� fr�ze rozvita zprava jin�mi jmenn�mi fr�zemi v
-genitivu nebo p�edlo�kov�mi fr�zemi. Zat�m obecn� neum�m opravit a
-�e�en� bude velmi obt��n�, ��zen� leckdy s�manticky nebo dokonce ani
-�lov�kem nerozhodnuteln�. Mo�n� by nicm�n� st�lo za pr�zkum, zda nen�
-naopak �ast�j�� zav�en� na nejvy���ho �lena takov�ho �et�zku, m�sto
-na nejni���ho, kter� je sou�asn� nejbl��e k vedlej�� v�t�.
-3) Jako p�edchoz� skupina, av�ak �patn� jmenn� fr�ze se se vzta�n�m
-z�jmenem neshoduje v rod� a ��sle. To um�m opravit.
-
-Zak�z�no v�en�, kde nen� shoda (nev��m pak ale nikam, ani na
-nejbli��� shodnou jmennou fr�zi, je to zas nech�no na statistice).
-
-G 5477 - B 2424 - P 69,3
-G   29 - B    7 - P 80,6
-
-Celkov� �sp�nosti to sice nepomohlo, ale nem��u d�lat v�dom� chyby,
-abych zabr�nil jin�m, mus�m rad�ji hledat jin� zp�sob odstran�n� t�ch
-jin�ch. Nyn� zkus�m nav�c naj�t shodnou jmennou fr�zi, na kterou by
-vedlej�� v�ta �la zav�sit.
-
-G 5486 - B 2415 - P 69,4
-G   33 - B   11 - P 75,0
-
-M�sto z�jmena "kter�" nyn� vyzkou��me z�jmeno "jak�".
-
-G 5422 - B 2479 - P 68,6
-Vzta�n� v�ta uveden� z�jmenem "jak�" se neobjevila ani jednou!
-
-Vrac�me z�jmeno "kter�", z�jmeno "jak�" vypou�t�me. Vrac�me se k
-velk�m testovac�m dat�m.
-
-G 85830 - B 40200 - P 68,1
-G   390 - B   128 - P 75,3
-
-Roz����me pravidlo na v�skyty z�jmena "kter�" v p�edlo�kov�ch fr�z�ch
-(nap�. "Mu�, na kter�ho byla pod�na �aloba..."). Budeme tak� po��tat,
-kolikr�t se z�jmeno "kter�" vyskytlo v testovac�ch datech celkem, aby
-se poznalo, jak velkou ��st probl�mu jsme v�bec schopni uchopit.
-
-G 85844 - B 40186 - P 68,1
-G   400 - B   133 - P 75,0
-v�skyty z�jmena "kter�" = 124064
-
-Tak to je tedy k sm�chu, v�dy� 533 zachycen�ch v�skyt� "kter�" tvo�� z
-celkov�ho po�tu pouh� 4 promile! To se div�m, �e z�sah m�l v�bec
-alespo� takov� vliv, jak� m�l. Na vin� je samoz�ejm� p��sn� v�b�r
-okolnost�, a n�kter�m okolnostem by se snad dalo pomoci bez nebezpe��
-ztr�t - nap��klad se po�aduje, abych v dan�m okam�iku m�l u� z�jmeno i
-��rku p�ipojen�. Nem�m-li, t�eba to pro�vihnu. Nebudu ale te� u� tento
-sm�r sledovat d�l, proto�e v n�m stejn� nen� ��dn� statistika. Rad�ji
-se vr�t�m ke sledov�n� valence a sb�ru podklad� pro kone�nou verzi
-�l�nku do Taibei.
-
-Vyhodnocen� baseline (�pln� nelexikalizovan�ho parseru) paraleln� pro
-v�echny z�vislosti a pro valen�n� d�le�it� z�vislosti.
-
-G 85889 - B 40141 - P 68,1 (v�e)
-G 25459 - B  7936 - P 76,2 (valence)
-
-Lexikalizace s ls=0,734375
-
-G 85844 - B 40186 - P 68,1 (v�e)
-G 25446 - B  7949 - P 76,2 (valence)
-
-Tak te� u� tohle ani nen� optim�ln� ls, proto�e kdy� jsem ho
-stanovoval, byl cel� model tro�i�ku odli�n�. Na�t�st� rozd�ly jsou tak
-nepatrn�, �e na desetin�ch procenta se zhor�en� neprojev� a bude to
-vypadat, �e se nic nehnulo ani nahoru, ani dol�.
-
-�pln� oby�ejn� lexikalizace, tj. ls=1, n�sleduje:
-
-G 54844 - B 71186 - P 43,5 (v�e)
-G 14426 - B 18969 - P 43,2 (valence)
-
-Oby�ejn� lexikalizace vr�cena na 0,734375, p�id�na selektivn�
-lexikalizace (sloveso "b�t", p�edlo�ky, pod�ad�c� spojky a zvratn�
-z�jmena).
-
-G 87615 - B 38415 - P 69,5 (v�e)
-G 25098 - B  8297 - P 75,2 (valence)
-
-P�id�na "pseudovalence" (z�vislostem obsahuj�c�m slovesa se s��t�
-jejich pravd�podobnost podle zna�ek s pravd�podobnost�, kde zna�ka
-slovesa je lexikalizovan� heslem).
-
-G 87735 - B 38295 - P 69,6 (v�e)
-G 25299 - B  8096 - P 75,8 (valence)
-
-A nakonec p�id�na opravdov� valence v rozsahu, ke kter�mu jsem se p�i
-p��prav� �l�nku zat�m dostal (preference valen�n�ch z�vislost�). V�e
-v��e uveden� z�st�v� tak� zapnuto.
-
-G 87645 - B 38385 - P 69,5 (v�e)
-G 25259 - B  8136 - P 75,6 (valence)
-
-A te� budeme postupovat zase zp�tky, ale v�echno budeme m��it p�i
-vynechan�ch v�t�ch obsahuj�c�ch ExD, Coord nebo Apos.
-
-G 28592 - B 7522 - P 79,2 (v�e)
-G  9629 - B 2302 - P 80,7 (valence)
-
-Nyn� vypnu valenci.
-
-G 28644 - B 7470 - P 79,3 (v�e)
-G  9652 - B 2279 - P 80,9 (valence)
-
-Nyn� vypnu i pseudovalenci.
-
-G 28643 - B 7471 - P 79,3 (v�e)
-G  9608 - B 2323 - P 80,5 (valence)
-
-Nyn� vypnu i selektivn� lexikalizaci.
-
-G 27556 - B 8558 - P 76,3 (v�e)
-G  9544 - B 2387 - P 80,0 (valence)
-
-Nyn� zm�n�m ls na 1 (�pln� oby�ejn� lexikalizace).
-
-G 17557 - B 18557 - P 48,6 (v�e)
-G  4984 - B  6947 - P 41,8 (valence)
-
-Nyn� zm�n�m ls na 0 (��dn� lexikalizace).
-
-G 27496 - B 8618 - P 76,1 (v�e)
-G  9520 - B 2411 - P 79,8 (valence)
-
-Pokus: do selektivn� lexikalizace p�idat p��slovce neodvozen� z
-p��davn�ch jmen (uzav�en� skupina, zna�ka Db).
-
-G 28554 - B 7560 - P 79,1 (v�e)
-G  9561 - B 2370 - P 80,1 (valence)
-
-Proti dosud nejlep��m v�sledk�m s valenc� je to drobn�
-zhor�en�. P�id�me k nim je�t� p��slovce se zna�kou Dg, ale heslem
-"hodn�" nebo "m�lo-3" (jde n�m hlavn� o druh� stupn� "v�ce ne�" a
-"m�n� ne�").
-
-G 28558 - B 7556 - P 79,1 (v�e)
-G  9570 - B 2361 - P 80,2 (valence)
-
-P��slovce typu Db ru��m, p��slovce "hodn�" a "m�lo" ponech�v�m a do
-zna�ky ned�v�m jejich heslo, ale slovo.
-
-G 28587 - B 7527 - P 79,2 (v�e)
-G  9632 - B 2299 - P 80,7 (valence)
-
-Ru��m i p��slovce "hodn�" a "m�lo".
-
-G 28592 - B 7522 - P 79,2 (v�e)
-G  9629 - B 2302 - P 80,7 (valence)
-
-
-
-26.2.2002
-
-Zak�z�no, aby v�ce ne� jedna z�vislost vedla dovnit� �seku
-ohrani�en�ho ��rkami.
-
-G 28703 - B 7411 - P 79,5 (v�e)
-G  9930 - B 2001 - P 83,2 (valence)
-
-Opraveno: koncov� interpunkce je nyn� samostatn�m �sekem. Tot� plat�
-o ko�eni.
-
-G 29149 - B 6965 - P 80,7 (v�e)
-G 10009 - B 1922 - P 83,9 (valence)
-
-To je hezk�, te� ale ho��m zv�davost�, jak to bude vypadat, kdy�
-nebudu vynech�vat koordinace a spol.!
-
-G 91142 - B 34888 - P 72,3 (v�e)
-G 27256 - B  6139 - P 81,6 (valence)
-
-Te� se zase jednou pod�v�me, jak by n�m pomohl Melk. M� to ale
-h��ek. Mus�me pou��t nez�visl� testov�n� a to n�m nebude d�lat
-transformace koordinac�. Jin�mi slovy, na koordinac�ch hodn� ztrat�me,
-proto�e dokonce ani nebudeme zkou�et p�eskl�dat je ve strom�, kter�
-jsme vymysleli. Nez�visl� test bez melku tedy dopad� takto:
-
-G 83159 - B 42871 - P 66,0
-
-P�d je mo�n� je�t� v�razn�j��, ne� by se �ekalo, a to proto, �e ve
-v�t�ch s koordinac� neplat� pravidlo o uzav�enosti mezi��rkov�ch
-�sek�! Nap�. ve v�t� "Vid�l Martina, Lucku a Janu." se mus� nejd��ve
-p�es ��rku spojit Martin s Luckou a Janou, teprve potom se to cel�
-spoj� s "vid�l" a "vid�l" - op�t p�es ��rku, by� pomyslnou a na druhou
-stranu - se spoj� s ko�enem.
-
-P�i postsubstituci melku (v n�jak�m stavu z lo�sk�ho l�ta, tj. bez
-vylep�en�, kter� jsem k n�mu je�t� vym��lel na podzim):
-
-G 83577 - B 42453 - P 66,3
-
-Jasn� �kol nejbli���ch dn� tedy je: VY�E�IT KOORDINACE A APOZICE!!!
-V�z� v nich p��li� mnoho, ur�it� alespo� 10% �sp�nosti.
-
-
-
-27.2.2002
-
-Zahajuji front�ln� �tok na koordinace. Nebudou se konat ��dn� podvodn�
-transformace vzorov�ch anal�z p�i testov�n�, m�sto toho se rovnou
-vybuduje spr�vn� (tj. definic� PDT po�adovan�) struktura koordinace.
-
-Krok 1: Vypnout p�i tr�ninku i testu transformace koordinac�. Nutn�
-mus� nastat dal�� p�d �sp�nosti.
-
-G 86994 - B 39036 - P 69,0
-
-Kupodivu se �sp�nost naopak trochu vr�tila nahoru. Snad tedy p�ece
-jenom m�l dostate�nou s�lu fakt, �e tr�nujeme a testujeme stejn�m
-zp�sobem. V kroku 2 ov�em tento fakt op�t trochu naru��me.
-
-Krok 2: P�i tr�ninku vynechat z�vislosti, jejich� ��d�c�m nebo
-z�visl�m uzlem je koordina�n� spojka. Test zat�m ponechat beze zm�ny,
-adekv�tn� �prava testu bude provedena v n�kter�m z pozd�j��ch krok�.
-
-G 84078 - B 41952 - P 66,7
-
-Te� se pochopiteln� projevila naprost� neznalost koordinac� p�i
-testu. Nevad�, ty se toti� budeme u�it zvlṻ.
-
-Krok 3: P�i testu se v ka�d�m kole d�v�m, zda jsou mezi povolen�mi
-z�vislostmi ob� p�lky dvou�lenn� koordinace: z�vislost �ehokoli na
-sou�ad�c� spojce a z�vislost druh�ho �lena stejn�ho druhu (co do
-morfologick� zna�ky) na t� sam� spojce z druh� strany. Pokud je takov�
-dvojice z�vislost� povolen�, dostane p�ednost. To je sice dost hrub�
-z�sah do statistick�ho p�ediva, ale posl�ze bude metoda hrub� s�ly i
-zde nahrazena modelem.
-
-G 87276 - B 38754 - P 69,3
-
-Krok 3b: Oprava. Jednou pou�it� koordina�n� spojka je zablokovan� pro
-dal�� potenci�ln� koordinace. K zablokov�n� se nav�c pou�ije p�eps�n�
-jej� zna�ky zna�kou posledn�ho koordinovan�ho �lenu, tak�e se tak�
-usnadn� zav�ov�n� koordinace nahoru nebo nabalov�n� slov
-rozv�jej�c�ch celou koordinaci.
-
-G 87928 - B 38102 - P 69,8
-
-Krok 3c: Drobn� vylep�en�. Slovesa maj� jen dv� t��dy: Vf (infinitiv) a
-V (v�echno ostatn�, tj. ur�it� tvary slovesa). P�edpokl�d�m, �e
-pozd�ji bude tento z�sah nahrazen jemn�j�� statistikou o tom, jak�
-kategorie se jak �asto spojuj� do koordinac�, ale zat�m, v prost�ed�
-hrub� s�ly, je lep�� tohle ne� nic.
-
-G 88265 - B 37765 - P 70,0
-
-Krok 4: Roz���it na v�ce�etn� koordinace! Pokud je povolena z�vislost
-��rky na b�val� koordina�n� spojce (b�val� proto, �e u� byla zapojena
-do koordinace a nyn� je p�eps�na jedn�m ze �len�) a pokud nejbli���
-nezav�en� slovo nalevo od t�to ��rky je stejn�ho druhu jako �lenov�
-koordinace, p�ipojit ��rku pod koordina�n� spojku a na��dit p�ipojen�
-onoho slova tamt� v p���t�m kole.
-
-G 88561 - B 37469 - P 70,3
-
-Krok 4b: Opravit slovesn� t��dy i u v�ce�etn�ch koordinac�.
-
-G 88594 - B 37436 - P 70,3
-
-Krok 5: Prvn� pokus o p�id�n� statistik. Koordinace se sou�ad�c�mi
-spojkami (J^) se d�laj� nad�le natvrdo, p�ibyla v�ak mo�nost
-dvou�lenn�ch koordinac� s jin�mi spojkami (��rky, jin� slovn�
-druhy...). Pokud kolem takov� spojky existuj� dva voln� uzly,
-pravd�podobnost� koordinace je relativn� �etnost jejich v�skytu jako
-�len� v t�e koordinaci. Tato pravd�podobnost sout�� s
-pravd�podobnostmi oby�ejn�ch z�vislost�. Pokud vyhraje, m� druh� �len
-koordinace p�id�n� do stromu jist�.
-
-G 86448 - B 39582 - P 68,6
-
-Krok 5b: Oprava. Tak jako v 3b i tady zablokov�no, aby po pou�it�
-spojky v koordinaci byla ta sam� spojka pou�ita pro jinou koordinaci
-vzd�len�j��ch �len�. Tentokr�t u� neblokujeme zm�nou morfologick�
-zna�ky - bylo by to ne��inn�, proto�e spojka se nepozn�v� podle
-zna�ky, ale podle hesla. M�sto toho vypln�me jedni�ku do prvku pole
-$coord s indexem odpov�daj�c�m indexu spojky ve v�t�.
-
-G 87846 - B 38184 - P 69,7
-
-Krok 5c: Na statistiku naj��d� i sou�ad�c� spojky (J^).
-
-G 83291 - B 42739 - P 66,1
-
-Krok 5d: Oprava. Pole $coord se nyn� po anal�ze ka�d� v�ty vymaz�v�.
-
-G 85295 - B 40735 - P 67,7
-
-Krok 5e: Oprava. �ada koordinac� se zablokovala p�ed�asn�, jen proto,
-�e u� se o nich n�kdy uva�ovalo.
-
-G 85247 - B 40783 - P 67,6
-
-Krok 5f: Oprava. Nen� sice v�bec jist�, �e relativn� �etnosti
-koordina�n�ch ekvivalenc� jsou porovnateln� s relativn�mi �etnostmi
-z�vislost�, ale pokud by tomu tak m�lo b�t, museli bychom relativn�
-�etnosti koordinac� zmen�it (1-$ls)-kr�t, proto�e jsou postaveny na
-zna�k�ch a pravd�podobnosti z�vislost� se skl�daj� z model� zna�ek a
-slov. Proto nyn� n�sob�m koordina�n� relativn� �etnosti uveden�m
-faktorem.
-
-G 86235 - B 39795 - P 68,4
-
-Krok 5g: Oprava. Tak jako ve 3b, op�t se kop�ruje zna�ka jednoho ze
-�len� koordinace do zna�ky koordina�n� spojky. Tentokr�t ov�em
-v�sledek m��e b�t hor��, proto�e n�kdy se zkoordinuj� v�ci rozd�ln�ch
-typ� a pak se m��e st�t, �e bude vybr�n ten m�n� reprezentativn� typ.
-
-G 86812 - B 39218 - P 68,9
-
-Krok 5h: Lep�� pravd�podobnostn� model (p�etr�nov�no). Nyn� u� se
-nesleduje, jak �asto dan� spojka ��dila pr�v� koordinaci dan�ho druhu,
-proto�e jsem to stejn� nevyu��val. Zato se zji��uje, jak �asto dan�
-heslo bylo koordina�n� spojkou vzhledem ke v�em sv�m v�skyt�m, a t�mto
-��slem se n�sob� celkov� pravd�podobnost koordinace. Tak�e koordinaci
-u� nemagnetizuje kdejak� hejhula v �ele s ��rkami - �ance vyhr�t
-re�ln� u� z�st�v� op�t p�edev��m sou�ad�c�m spojk�m.
-
-G 87268 - B 38762 - P 69,2
-
-
-
-28.2.2002
-
-Krok 5i: Oprava. P�i tr�nov�n� nesledovat heslo, ale slovn� tvar
-spojky. Heslo v tomto p��pad� paradoxn� poskytuje �ast�ji v�ce
-mo�nost�, a to proto, �e mnoh� spojky pat�� k hesl�m s rozli�en�mi
-v�znamy (plus-1, plus-2) a lematiz�tor je ne v�dy tref�.
-
-G 87242 - B 38788 - P 69,2
-
-Do�lo dokonce k nepatrn�mu zhor�en�, i kdy� procentu�ln� �sp�nost se
-fakticky nezm�nila. Pro p���t� by ale m�lo b�t bezpe�n�j�� pou�it�
-slov m�sto hesel, tak�e to tak nech�m.
-
-Krok 6: Te� je pot�eba p�idat v�ce�etn� koordinace. P�i tr�ninku nov�
-sledujeme, kter� spojky jsou schopny ��dit i v�ce�etn� koordinace
-(nejsou to v�echny, nap��klad u poml�ky nebo dvojte�ky to
-neo�ek�v�m).
-
-G 87385 - B 38645 - P 69,3
-
-Krok 6b: Oprava. Do ko�ene koordinace se nesm� kop�rovat typ
-koordinace, pokud u� tam je (tj. pokud roz�i�uju existuj�c�
-koordinaci).
-
-G 87450 - B 38580 - P 69,4
-
-Krok 6c: Oprava. P�i tr�ninku rozebrat slo�en� koordinace, aby se
-nestalo, �e podstatn� jm�no bude koordina�n� ekvivalentn� se sou�ad�c�
-spojkou. Ani te� to ale ned�l�m po��dn�, proto�e pouze p�epl�cnu
-koordinaci, kter� u� byla zpracov�na, ale nem�m jistotu, �e je�t� p�ed
-jej�m zpracov�n�m nenaraz�m na koordinaci, do kter� je vlo�ena, nebo
-na z�vislost, kter� na n� vis� nebo kterou ona sama vis� na n�kom.
-
-G 87164 - B 38866 - P 69,2
-
-Krok 7: Je pot�eba p�ij�t na to, kdy se m� d�vat p�ednost koordinac�m
-a kdy ne. Radik�ln� krok: k nenulov�m pravd�podobnostem koordinac�,
-p�i��st 1. T�m se zajist�, �e pokud by to mohla b�t koordinace, pak
-dostane p�ednost.
-
-G 74126 - B 51904 - P 58,8
-
-To ale dost�vaj� p�ednost i koordinace se spojkami, kter� v 99 % sv�ch
-v�skyt� nemaj� s koordinacemi nic spole�n�ho, a koordinace �len�,
-kter� se na jedn� koordinaci pod�lely jen omylem. Mohli bychom tedy
-zkusit jin� podvod. Koordinace dostane p�ednost, pokud je alespo� 50 %
-pravd�podobnost, �e je to opravdu koordinace, neboli �e domn�l� spojka
-je opravdu koordina�n� spojkou a �e domn�l� �leny opravdu mohou b�t
-pohromad� v jedn� koordinaci. Pro prvn� pravd�podobnost u� m�me
-statistiku. Pro druhou bychom po�et v�skyt� zna�ky v koordinaci s
-konkr�tn� jinou zna�kou pot�ebovali d�lit celkov�m po�tem v�skyt�
-prvn� zna�ky v koordinac�ch, a ten zat�m nezn�me. Zat�m tedy budeme
-po�adovat, aby ob� zna�ky byly shodn�.
-(Krok 7b.)
-
-G 87772 - B 38258 - P 69,6
-
-Krok 7c: Oprava. Pokud dvojice zna�ek nebyla p�i tr�ninku vid�t v
-��dn� koordinaci, ale zna�ky jsou toto�n�, pravd�podobnost jejich
-koordina�n� ekvivalence direktivn� nastavit na 1.
-
-G 87844 - B 38186 - P 69,7
-
-Krok 7d: Koordinace s mnoha ��rkami a ��dnou jasnou spojkou se spojuj�
-hierarchicky, a to proto, �e nejd��ve se spoj� prvn� dva �leny pod
-��rkou mezi nimi a pak u� nen� �niku. Odte� mezi stejn�mi koordinacemi
-preferovat ty, jejich� spojka le�� v�ce vpravo.
-
-G 87847 - B 38183 - P 69,7
-
-�patn� zpr�va od Petra Pajase: "atd" a podobn� zkratky jsou zav�ov�ny
-poka�d� jinak, achich achich! Pokud lze zav�sit na n�co jin�ho
-(nap�. ��rku), ud�l� se to a "atd" je potom (obvykle) jedn�m ze �len�
-koordinace. Samotn� "atd" ��d� koordinaci pouze pokud jin� kandid�t
-nen�, tedy nap�. ve v�t� "P�i�el Tonda atd." V manu�lu k analytick�
-rovin� je to naps�no trochu jinak, ale pr� �patn�. V datech to tak�
-nen� v�dy spr�vn�, nap�. v�ta na za��tku testovac�ch dat s ob��
-koordinac� m� v ko�eni koordinace atd., p�esto�e p�ed n�m jsou spousty
-��rek.
-
-Krok 7e: Zru�eno zkreslov�n� pravd�podobnost� koordinac� na z�klad�
-jejich po�ad� ve v�t� - i tak je tam toho zkreslov�n� dost. Je pot�eba
-odstranit i absolutn� preferenci koordinac� jako takov�ch, ale kde
-naj�t vhodn� vyv�en� se z�vislostmi? N�kdy je pot�eba nejd��ve
-p�ipojit p��davn� jm�no k podstatn�mu a pak teprve spojit podstatn�
-jm�na do koordinace, jindy je nutn� nejd��ve spojit koordinaci
-p��davn�ch jmen a pak teprve v�sledek p�ipojit z�vislost� k
-podstatn�mu jm�nu.
-
-
-
-1.3.2002
-
-Pokus: pokud lze p��davn� jm�no bu� zav�sit na podstatn� jm�no
-doprava, nebo koordinovat s jin�m p��davn�m jm�nem vlevo, dostane
-p�ednost koordinace. V ostatn�ch p��padech rozhoduje statistika. Pokud
-pokus vyjde, pokus�m se ho tak� podchytit statisticky.
-
-G 87855 - B 38175 - P 69,7
-
-Krok 8: Prvn� pokus s ��ste�n�m podm�n�n�m v�b�ru zav�en� kontextem
-ostatn�ch mo�nost� v�b�ru. Ve stejnou chv�li byla vypnuta valence (ne
-pseudovalence ani selex), proto�e v sou�asn� podob� sp��e m�rn�
-�kod�. P�esto �sp�nost zat�m m�rn� klesla, ale jsem optimista, a� to
-dod�l�m, bude to snad lep��!
-
-G 87454 - B 38576 - P 69,4
-
-Krok 8b: K souboji s konkurenty vlevo p�id�n souboj s konkurenty
-vpravo. Dal�� zhor�en� :-(
-
-G 87172 - B 38858 - P 69,2
-Dopl�kov� statistika:
-Lev� konkurent 946 x pomohl, 985 x ubl��il, zbytek �patn� i bez n�j.
-Prav� konkurent 1080 x pomohl, 1454 x ubl��il, zbytek �patn� i bez n�j.
-
-Krok 8c: Zkus�me zv��it p�esnost na �kor �plnosti. Konkurent�m
-dovol�me zv�t�zit pouze s po�tem v�skyt� 10 nebo v�t��m.
-
-G 87864 - B 38166 - P 69,7
-lkl 806:761 lkp 784:648
-
-Krok 8d: OK, nav�c je�t� budeme po�adovat, aby p�evaha konkurenta nad
-p�vodn�m kandid�tem byla alespo� dvout�etinov�.
-
-G 88210 - B 37820 - P 70,0
-lkl 634:381 lkp 606:479
-
-No sl�va, aspo� �e tak! Uvid�me se p���t� t�den...
-
-
-
-4.3.2002
-
-Krok 8e: Sout�� o v�t�ze lok�ln�ch konflikt� se zat�m v�bec
-ne��astnily koordinace (p�esto�e pot�ebn� statistiky byly p�i tr�ninku
-z�sk�ny). Nyn� tedy p�id�v�m i koordinace.
-
-8e1: �e�en� lok�ln�ch konflikt� muselo b�t kv�li koordinac�m
-p�ebudov�no. V z�jmu dobr�ho odlad�n� tedy nejd��ve zkus�me zopakovat
-v�sledky, kde se LK �e�� pouze pro z�vislosti.
-
-G 87546 - B 38484 - P 69,5
-lkl 644:756 lkp 622:503
-
-Zhor�en� o 664 z�vislost�. N�kde je chyba.
-8e2: Pokus�me se tedy zopakovat v�sledek bez �e�en� LK.
-
-G 87920 - B 38110 - P 69,8
-
-V�sledek je o 65 z�vislost� lep�� ne� posledn� v�sledek p�ed krokem 8,
-ale to bude t�m, �e na za��tku kroku 8 jsme tak� vypnuli valence, a ty
-z�staly vypnut� i te�.
-
-Rozd�l mezi 8e1 a 8d m��e b�t je�t� v po�ad� testov�n�
-z�vislost�. Jakmile se najde prvn� konkuren�n� z�vislost, kter� je
-"dostate�n� lep��" ne� p�vodn� kandid�t, pou�ije se tato z�vislost a
-lep�� u� se nehled�. Po�ad� proch�zen� konkurent� tedy hraje
-roli. Neum�m sice asi dokonale zopakovat po�ad� z kroku 8d, ale m��u
-p�ed proch�zen�m konkurent� uspo��dat konkurenty podle vzd�lenosti od
-z�visl�ho uzlu.
-
-G 87546 - B 38484 - P 69,5
-
-8e3: Zji��uju, �e p�ece jenom nejsou vypnuty koordinace. Tak te� u� je
-vyp�n�m doopravdy.
-
-G 88209 - B 37821 - P 70,0
-
-Tak jsme kone�n� skoro p�esn� (a� na jednu z�vislost, d�vod nezn�m)
-tam, co v p�tek ve�er. �patn� zpr�va ov�em je, �e p�id�n�m koordinac�
-se model zjevn� op�t zhor��. (V�sledek viz 8e1.)
-
-8f: Opravena chyba. Za koordina�n� spojku se po��talo kde co v�etn�
-nap�. p�edlo�ky "z". Nyn� se s�la koordinace jako konkurenta n�sob�
-pravd�podobnost�, �e pou�it� koordina�n� spojka je skute�n�
-koordina�n� spojka.
-
-G 88000 - B 38030 - P 69,8
-lkl 636:519 lkp 609:480
-
-Tak te� u� je to snad technicky bez chyb, ale ten model... Nech�pu,
-jak je nap��klad mo�n�, �e "A1 L C N1 P N1" (p��davn� jm�no mohlo b�t
-spojeno doleva koordinac� s podstatn�m jm�nem, nebo rozv�jet jin�
-podstatn� jm�no napravo) vyhr�la koordinace 30:0!
-
-Tak je to proto, �e tagger ozna�il prvn� p��davn� jm�no chybn� jako
-podstatn� (nap�. ve v�t� "Dobr� i �patn� v�sledky se vyskytuj� u v�ech
-pou��van�ch syst�m�.") Pokud chceme p�i anal�ze pou��vat v�stup
-taggeru, tak asi nem��eme p�i tr�ninku jeho n�zory opravovat. M�li
-bychom je v�ak p�eb�t. Ned�je se tak mo�n� proto, �e zat�m p�i sb�r�n�
-pora�en�ch konkurent� bereme v �vahu jen opravdov� koordinace, ale p�i
-anal�ze zkoum�me v�echny potenci�ln� mo�n� koordinace. Mus�me tedy i
-p�i tr�ninku zkoumat, zda by n�co mohlo b�t koordina�n� spojkou, a
-pokud ano, mus�me odhadnout, kte�� z jeho soused� na druh� stran� by
-p�i anal�ze mohli figurovat jako koordinovan� sourozenci. Tohle je
-obt��n� ��st. Asi by se op�t m�la proch�zet v�echna slova za spojkou,
-kter� nejsou sv�z�na s n�jak�m slovem na na�� stran� spojky.
-
-
-
-6.3.2002
-
-8g: Opraveno tr�nov�n� tak, jak je uvedeno v��e. Nastalo m�rn�
-zlep�en�.
-
-G 88243 - B 37787 - P 70,0
-lkl 661:409 lkp 608:482
-
-8h: Ze skute�n�ch koordinac� p�i tr�nov�n� vynech�ny slo�en� (abych se
-neu�il koordinaci se spojkou), ale podle o�ek�v�n� se na v�sledku nic
-nezm�nilo.
-
-G 88243 - B 37787 - P 70,0
-lkl 661:409 lkp 608:482
-
-8i: P�i souboji s konkurenty nevyhraje prvn� konkurent, kter� je
-lep��, ale ten nejlep�� z lep��ch konkurent�. Na v�sledc�ch to skoro
-nic nem�n� (zlep�en� v�eho v�udy o dv� hrany). P�i bli���m pohledu na
-statistiku lok�ln�ch konflikt� je v�ak vid�t v�t�� pohyb: p�ibylo
-��astn�ch, ale i ne��astn�ch z�sah�.
-
-G 88245 - B 37785 - P 70,0
-lkl 687:455 lkp 620:505
-
-8j: Souboj s konkurenty nyn� prob�h� tak, �e se projdou v�echny
-dvojice lev� kandid�t - prav� kandid�t, kter� pro zav�en� dan�ho uzlu
-p�ich�zej� v �vahu. Na rozd�l od dosavadn�ch pokus� se tedy m��e st�t,
-�e konkurs na ��d�c� uzel vyhraje n�kdo na stejn� stran� jako p�vodn�
-kandid�t, ale nebude to p�vodn� kandid�t.
-
-G 76707 - B 49323 - P 60,9
-LKG 4164 - LKB 13726
-
-8j1: V�t�z mus� m�t alespo� 10 hlas�, jinak se pou�ije kandid�t podle
-nekontextov� pravd�podobnosti.
-
-G 78190 - B 47840 - P 62,0
-LKG 3019 - LKB 11544
-
-8j2: V�t�z mus� b�t alespo� dvakr�t lep�� ne� druh� nejlep��, jinak se
-pou�ije kandid�t podle nekontextov� pravd�podobnosti.
-
-G 87296 - B 38734 - P 69,3
-LKG 2185 - LKB 2809
-
-8j3: V�t�z nesm� m�t nekontextovou pravd�podobnost nulovou (co� m��e
-nastat i kv�li kontrole mezi��rkov�ch �sek�).
-
-G 87496 - B 38534 - P 69,4
-LKG 1867 - LKB 2158
-
-Pozastavuji v�voj t�mto sm�rem a vrac�m se k prvn� generaci lok�ln�ch
-souboj�, kterou se pokus�m rozv�jet jinak.
-
-G 88245 - B 37785 - P 70,0
-LKG 1307 - LKB 960
-
-Krok 9: P�ipravuji mo�nost zm�nit po�ad�, ve kter�m se p�id�vaj� nov�
-hrany do stromu. Dosud se v�dy bere hrana s nejvy��� nekontextovou
-pravd�podobnost� a pouze lok�ln� souboje na tom m��ou n�co zm�nit. V
-prvn� ��sti kroku 9 je�t� toto pravidlo zachov�m, ale p�ep��u parser
-tak, aby nejd��ve hledal z�visl� uzel a potom vyb�ral z kandid�t� na
-jeho ��d�c� uzel. V dal��ch podkroc�ch pak bude snadn� nahradit
-pravidlo pro v�b�r z�visl�ho uzlu jin�m.
-
-9a: Vyb�r� se z�visl� uzel z nejlep�� z�vislosti, ale ne z nejlep��
-koordinace.
-
-G 87033 - B 38997 - P 69,1
-LKG 1334 - LKB 976
-
-9b: Vyb�r� se z�visl� uzel z nejlep�� z�vislosti nebo
-koordinace. V�sledky by m�ly b�t rovny dosavadn�mu maximu (70%).
-
-G 88245 - B 37785 - P 70,0
-LKG 1317 - LKB 962 (??? - odkud ten rozd�l?)
-
-9c: Vyb�r� se z�visl� uzel, jeho� ��d�c� uzel vyhraje s nejv�t��
-absolutn� silou (tj. po�et v�her p�i tr�ninku, nikoli pom�r po�tu
-v�her k po�tu proher).
-
-G 75694 - B 50336 - P 60,1
-
-9d: Vyb�r� se z�visl� uzel, jeho� ��d�c� uzel vyhraje lok�ln� konkurz
-s nejv�t�� relativn� silou (tj. pom�r po�tu v�her a po�tu proher).
-
-G 76179 - B 49851 - P 60,4
-
-9e: Vyb�r� se z�visl� uzel, kter� m� nejv�ce kandid�t� na ��d�c�ho.
-
-G 47869 - B 78161 - P 38,0
-
-9f: Vyb�r� se z�visl� uzel, kter� m� nejm�n� kandid�t� na ��d�c�ho.
-
-G 47869 - B 78161 - P 38,0 (??? pro� je to stejn� jako 9e?)
-
-To je taky p�kn� blbost. Na za��tku se vybere posledn� slovo v�ty,
-proto�e m� jen jednu mo�nost, to ov�em v�bec nemus� b�t ta prav�. A
-pak se podobn� vyb�r� moment�ln� posledn� voln� slovo a� kdov� do
-kdy.
-
-9g: Je�t� m�m n�pad, �e by se mohly up�ednost�ovat z�visl� uzly, kter�
-jsou obvykle bl��e k list�m stromu, proto�e je samoz�ejm� ��douc�,
-abych zav�oval uzel a� ve chv�li, kdy je jeho podstrom (a tak�
-podstromy jeho sourozenc�) kompletn� postaven�. Te� u� ale nem�m chu�
-to implementovat, tak�e pro dne�ek se vrac�m k v�b�ru z�visl�ho uzlu
-podle toho, zda figuruje v hran� s nejv�t�� �etnost�.
-
-G 88242 - B 37788 - P 70,0
-LKG 1317 - LKB 963
-
-
-
-24.5.2002
-
-Zase na �as opou�t�m koordinace a vrac�m se k subkategorizaci (kv�li
-dokon�en� �l�nku na Coling 2002 do Taibei). Proto�e uplynulo 2,5
-m�s�ce a spoustu jsem toho zapomn�l, pro za��tek jen nov�
-p�etr�nov�n�, otestov�n� a porovn�n� s v�sledky zaznamenan�mi
-v��e. ��dn� v�ty nejsou vylou�eny, ale v z�vorce je uvedena �sp�nost
-pouze na Sb|Obj|AuxT|Pnom|Adv. Skute�n� valence p�i tomto pokusu nen�
-zapnuta (valen�n� z�vislosti nejsou up�ednost�ov�ny). Selektivn�
-lexikalizace zapnuta je.
-
-G 88273 - B 37757 - P 70,0 (78,6)
-
-Podobn� pokus, ale tr�novac� a testovac� data se omezuj� na v�ty bez
-ExD, Coord a Apos.
-
-G 28869 - B 7245 - P 79,9 (82,7)
-
-
-
-15.6.2002
-
-Je�t� hloub�ji do minulosti: je vypnuta i selektivn�
-lexikalizace. Prvn� ��dek obsahuje v�ty bez ExD, Coord a Apos, druh�
-��dek v�ty bez ExD, t�et� ��dek v�echny v�ty.
-
-G 28230 - B  7884 - P 77,5 (80,1)
-G 66862 - B 32230 - P 67,5 (77,7)
-G 83782 - B 42248 - P 66,5 (77,1)
---------------------------------- tot� pro lambda = 0
-G 28145 - B  7969 - P 77,3 (79,9)
-G 67800 - B 31292 - P 68,4 (77,7)
-G 82382 - B 43648 - P 65,4 (77,0)
---------------------------------- tot� pro lambda = 1
-G 23170 - B 12944 - P 46,7 (40,7)
-G 44815 - B 54277 - P 45,2 (42,5)
-G 57086 - B 68944 - P 45,3 (42,4)
-
-Nad�le bude napevno lambda = 0,734375. Op�t pro v�echny t�i mno�iny
-dat, tentokr�t zapneme selektivn� lexikalizaci.
-
-G 28828 - B  7286 - P 79,8 (82,0) bez ExD, Coord a Apos
-G 69394 - B 29698 - P 70,0 (79,2) bez ExD
-G 85695 - B 40335 - P 68,0 (78,5) v�e
-
-Selektivn� lexikalizace z�stane zapnuta, nav�c zapneme pseudovalenci.
-
-G 28801 - B  7313 - P 79,8 (82,1) bez ExD, Coord a Apos
-G 69409 - B 29683 - P 70,0 (79,3) bez ExD
-G 85730 - B 40300 - P 68,0 (78,7) v�e
-
-
-
-16.7.2002
-
-Porovn�n� m�ho a Charniakova parseru (kter� chyby, kter� d�l� on,
-ned�l�m j� a obr�cen�). Kv�li tomu je pot�eba se vr�tit k nastaven�,
-se kter�m m�j parser dos�hl nejvy��� �sp�nosti (70 %). Zap�n�m �e�en�
-lok�ln�ch konflikt�.
-
-17.7.2002
-
-Porovn�n� i s Collinsov�m parserem. V�sledky jsou n�sleduj�c� (��slo
-znamen� po�et z�vislost�, zkratky vedle uv�d�j�, kter� parsery m�ly
-pr�v� tyto z�vislosti ur�en� dob�e):
-
-77995 ec+mc+dz
-18508 ec+mc
- 3951 ec+dz
- 3801 mc+dz
- 5765 ec
- 3662 mc
- 2525 dz
- 9821 -
-
-
-
-19.7.2002
-
-Zp��sn�n� kontrola z�vislost� vedouc�ch p�es ��rku. Nyn� nesm� ��dn�
-z�vislost p�ekro�it ��rku nejen kdy� �sek, do n�j� n�le�� z�visl�
-uzel, nen� hotov�, ale ani kdy� kter�koli jin� mezi��rkov� �sek je�t�
-nen� hotov�. Jin�mi slovy: nejd��v pospojovat �seky mezi ��rkami,
-potom teprve �seky mezi sebou navz�jem.
-
-G 86527 - B 39503 - P 68,7 (78,8) v�e
-
-Do�lo ke zhor�en�, proto zase toto opat�en� ru��m.
-
-Jin� probl�m: N�kdy se p��li� brzy zav�s� �len koordinace na uzel, na
-kter�m by pozd�ji m�la viset koordinace cel� (nap��klad "je
-absolventem elektrotechnick� fakulty �vut a postgradu�ln�ho studia" -
-p��li� pozd� se spoj� "fakulty �vut", tak�e "fakulty" nevid� sv�ho
-koordinovan�ho sourozence "studia" a spoj� se tedy (p��li� brzy)
-"absolventem fakulty").
-
-N�vrh obecn�ho �e�en�: Ve chv�li, kdy se pod ��d�c� uzel zav�s� nov�
-z�visl� uzel, z�sk�v� ��d�c� uzel nov� sousedy. V tu chv�li mus� znova
-p�ezkoumat sv� vlastn� zav�en�, pokud u� n�jak� m�. I nyn� se bude
-omezovat na sv� sousedy, proto nem��e zavl�ct do stromu
-neprojektivitu.
-
-25.7.2002
-
-Kone�n� m�m odlad�nou prvn� verzi v��e uveden�ho, ale v�sledek je
-zklam�n�m (dosavadn� maximum je zopakov�no ve druh�m ��dku):
-
-G 87142 - B 38888 - P 69,1 (77,8)
-G 88273 - B 37757 - P 70,0 (78,6)
-ve skute�nosti nam��eno po vypnut� posledn�ho v�myslu
-G 88234 - B 37796 - P 70,0 (78,6)
-tj. je�t� o 39 z�vislost� h��e, ale to m��e b�t v d�sledku chybky
-nejen te�, ale i p�edt�m
-
-Opravy ji� zav�en�ch uzl� op�t zapnuty, ale povinn� se ihned po
-zru�en� z�vislosti znova zav�uje odpojen� uzel. Velmi nepatrn�
-zlep�en�.
-
-G 87204 - B 38826 - P 69,2 (77,7)
-
-Z dodate�n�ch oprav jsou vylou�eny uzly zav�en� v koordinac�ch. Zat�m
-jen velmi nahrubo, pokud je ��d�c�m uzlem "a" a jeho zna�ka neza��n�
-na "J".
-
-G 87587 - B 38443 - P 69,5 (77,7)
-
-Po��dn� implementace t�ho�: s vyu�it�m glob�ln�ho pole @coord.
-
-G 87768 - B 38262 - P 69,6 (77,4)
-
-
-
-26.7.2002
-
-Ale bude to cht�t detailn� srovn�n� anal�zy s dodate�n�mi opravami a
-bez nich a porovn�n� chyb: kter� zmizely a kter� p�ibyly. Zat�m po�ty:
-
-A 15060 ... po�et p��le�itost�, kdy to v�bec �lo zkusit
-B  5205 ... po�et p��le�itost� k oprav� (do t� chv�le to bylo �patn�)
-            Kdyby se v�echny tyto p��le�itosti vyu�ily, byl by
-        v�sledek anal�zy G 93439 - B 32591 - P 74,1. Bohu�el se
-        vyu�il jen zlomek z nich a naopak se v �ad� p��pad�
-        poda�ilo ji� dobrou anal�zu pokazit.
-
-POZOR! Ne v�e, �emu v��e ��k�m "p��le�itost k oprav�", musela b�t
-opravdu p��le�itost. Netestoval jsem, zda spr�vn� zav�en� u� bylo v
-tu chv�li k dispozici. Tak� nen� spr�vn� odhadnuta �sp�nost, kter� by
-mohlo b�t dosa�eno, proto�e po��t�m pokusy o opravu, ale u n�kter�ch
-uzl� mohlo doj�t postupn� k n�kolika pokus�m.
-
-S  4783 ... bylo a z�stalo �patn�
-L   422 ... poda�ilo se opravit
-D  8506 ... bylo a z�stalo dob�e
-H  1349 ... poda�ilo se zkazit
-
-Oprava: dosud p�i oprav� �patn� fungovalo omezen� povolen�ch
-z�vislost� na opravovan� uzel.
-
-G 87783 - B 38247 - P 69,7 (77,4)
-D 8789 - S 4823 - L 460 - H 1051
-
-Spo��t�ny opravdov� �ance n�co opravit, tj. nejenom �e v okam�iku
-pokusu o opravu byl dan� uzel �patn� zav�en, ale �e tak� bylo k
-dispozici jeho spr�vn� zav�en�. V�sledek:
-
-1497 �anc� celkem
-1434 uzl�, kter� �anci dostali aspo� jednou
-=> kdyby se v�echny �ance vyu�ily a nic nezkazilo, anal�za by skon�ila
-takto:
-G 89668 - B 36362 - P 71,1 :-( to je m�lo...
-
-Z�v�r: Opravy uzl� t�mto zp�sobem mohou anal�zu vylep�it jen o 1,1 %,
-co� je v t�to dob� je�t� dost m�lo. Ka�d� procento je sice dobr�, ale
-my neum�me zajistit, aby se v pr�b�hu oprav sou�asn� nepokazilo n�co,
-co u� bylo dob�e. Proto od oprav odstupuji, p�inejmen��m prozat�m.
-
-G 88235 - B 37795 - P 70,0 (78,6)
-
-
-
-Pokus: pravd�podobnost z�vislost� (ne koordinac�) n�sobit dopl�kem
-pravd�podobnosti, �e ��d�c� uzel je koordina�n� spojkou (zam��eno
-hlavn� proti p�ehnan�mu v�en� uzl� na spojku "a" je�t� d��ve, ne� je
-k dispozici druh� koordina�n� �len). Taky nepom�h�:
-
-G 87884 - B 38146 - P 69,7 (79,3)
-
-
-
-29.7.2002
-
-Kontrola �sek� mezi ��rkami p�epracov�na s pomoc� pole zak�zan�ch
-z�vislost�. Pravd�podobnost nekoordina�nosti z�st�v�
-zapnuta. Pochopiteln� to znamen� �tlum �sp�nosti. Uvid�me, zda se
-pozd�ji poda�� s novou implementac� ��rkov�ch �sek� dostat zp�t na
-p�vodn� �sp�nost.
-
-G 86807 - B 39223 - P 68,9 (80,1)
-
-Vypnuta pravd�podobnost nekoordina�nosti.
-
-G 87078 - B 38952 - P 69,1 (79,7)
-
-Mezi��rkov� �seky: op�t je p�ekro�en� ��rky povoleno ihned, jakmile se
-dokon�� z�visl� �sek (viz t� pokus 19.7.2002). Tentokr�t to ov�em
-nepomohlo.
-
-G 86116 - B 39914 - P 68,3 (78,3)
-
-P�ekro�en� ��rky je povoleno a� po sestaven� v�ech �sek�, bohu�el se
-nyn� mus�m spokojit s �sp�nost� 69,1 % :-(
-
-G 87078 - B 38952 - P 69,1 (79,7)
-
-
-
-Pokus: nelze p�esko�it p�edlo�ku z�vislost� vedouc� zleva doprava,
-dokud tato p�edlo�ka nem� d�t�. Op�t se pou��v� �ern� listina $zakaz.
-
-31.7.2002
-
-V�sledky pokusu jsou �patn�. V�po�et je t�ikr�t pomalej�� (trv� nyn�
-23:50 minut) a �sp�nost klesla o 1,3 %. (Po n�vratu k p�vodn�mu stavu
-program trv� 10:37 minut (d��ve to bylo kolem osmi?) a �sp�nost je
-op�t 69,1 %.)
-
-G 85486 - B 40544 - P 67,8 (74,2)
-
-Pozn�mka: po p�eps�n� pokusu s p�edlo�kami program b�el skoro stejn�
-dlouho (23:47 minut, co� m� p�ekvapuje, proto�e nov� implementace by
-m�la b�t efektivn�j��) a v�sledek se nepatrn� li�� (k lep��mu).
-
-G 85504 - B 40526 - P 67,8 (74,3)
-
-Objevena chyba v p�ehodnocov�n� z�kaz� p�eskakov�n� p�edlo�ek. Po
-jej�m odstran�n� se program zrychlil na 15:47 minut a zvedla se i
-�sp�nost:
-
-G 87512 - B 38518 - P 69,4 (80,5)
-
-Jak analyzovat vliv nov�ho omezen�?
-1) Spustit parser bez nov�ho omezen� a v�stup si schovat.
-parse.pl
-cp analyza.csts vystupy/omezeni-0.csts
-2) Spustit parser s nov�m omezen�m a v�stup si schovat.
-parse.pl
-cp analyza.csts vystupy/omezeni-1.csts
-3) Spustit program pro porovn�n� v�stup� n�kolika r�zn�ch
-parser�. Tento program mj. ulo�� nov� soubor, kde jsou slity v�sledky
-v�ech anal�z.
-
-2.8.2002
-
-Vy�len�ny v�ty, ve kter�ch z�kaz p�eskakov�n� p�edlo�ek zhor�il
-alespo� jednu z�vislost. Je jich celkem 417. V�sledky, kdy� je
-p�eskakov�n� p�edlo�ek zak�z�no:
-
-G 6142 - B 3665 - P 62,6 (72,9)
-
-Zaz�lohoval jsem lad�c� soubory analyza-debug.csts a analyza.log a
-pou�t�m test s vypnut�m z�kazem p�eskakov�n� p�edlo�ek.
-
-G 6279 - B 3528 - P 64,0 (74,4)
-
-5.8.2002
-
-Objevena chyba v ur�ov�n� d�lky hrany, konkr�tn� zda se mezi uzly
-nach�z� �i nenach�z� ��rka. Bez p�etr�nov�n� do�lo ke zhor�en�
-�sp�nosti (z�kaz p�eskakov�n� p�edlo�ek je zapnut). Snad to bude
-lep�� po p�etr�nov�n�.
-
-G 87512 - B 38518 - P 69,4 (80,5) p�ed opravou
-G 87124 - B 38906 - P 69,1 (80,5) po oprav�
-
-Po p�etr�nov�n� - sl�va! -:
-
-G 89639 - B 36391 - P 71,1 (82,5) po p�etr�nov�n�
-
-Te� je�t� zb�v� zjistit, jestli to bez z�kazu p�eskakov�n� p�edlo�ek
-nen� je�t� lep�� :-|
-
-6.8.2002
-
-Vypnut�m z�kazu p�eskakov�n� bezd�tn�ch p�edlo�ek se nyn� �sp�nost
-skute�n� zhor��, i kdy� pochopiteln� ne na �rove� p�ed odstran�n�m
-chyby.
-
-G 89323 - B 36707 - P 70,9 (81,9)
-
-
-
-Vzhledem k objeven� chyb� se je�t� jednou pokus�m vyzkou�et n�soben�
-pravd�podobnosti z�vislosti pravd�podobnost� toho, �e ��d�c� uzel nen�
-koordina�n� spojkou. Z�kaz p�eskakov�n� p�edlo�ek je aktivn�.
-
-G 89453 - B 36577 - P 71,0 (82,9) # prst. nekoordina�nosti aktivn�
-G 89639 - B 36391 - P 71,1 (82,5) # neaktivn�
-
-Kupodivu jsem v�sledky neaktivn� verze nedok�zal zreprodukovat a vy�ly
-o trochu lep��!
-
-G 89684 - B 36346 - P 71,2 (82,5)
-
-Anal�za:
-88395 spr�vn� p�ed i po
- 1289 spr�vn� pouze p�ed
- 1058 spr�vn� pouze po
-35288 �patn� p�ed i po
-Kdyby se poda�ilo z�skat v�echna "spr�vn�" najednou, bylo by
-P = 72,0 %.
-P�echodem z a0 na a1 se zhor�ilo 860 v�t. Z toho mj. vypl�v�, �e
-pr�m�rn� d�lka zhor�en� v�ty je 26 slov, co� je o 10 v�c ne� pr�m�r!
-�sp�nost t�chto v�t:
-
-G 13934 - B 8179 - P 63,0 (80,4) - a1 (aktivn�)
-G 14799 - B 7314 - P 66,9 (80,7) - a0 (neaktivn�)
-
-
-
-8.8.2002
-
-Nov� pokus s podmi�ov�n�m pravd�podobnosti z�vislosti �etnost�
-z�visl�ho uzlu. Plat� i u koordinac�, p�esto�e koordinace pak m� r�zn�
-pravd�podobnosti, podle toho, od kter�ho uzlu se d�v�me. Nem�lo by to
-ale vadit, proto�e ve stejnou chv�li by m�ly b�t povoleny pohledy od
-obou uzl�, tak�e prost� vyhraje jen jeden z nich.
-
-G 14206 - B 7907 - P 64,2 (80,3) - a1 aktivn�
-
-Vzhledem k m�rn�mu zlep�en� zkus�me tot� i pro cel� testovac� data.
-
-G 89562 - B 36468 - P 71,1 (a1)
-
-Zlep�en� je opravdu nepatrn�. Zkus�me je�t� pro a0 (neaktivn�). A pak
-zkus�me sou�ty v�ech ud�lost�, kter� se dan� hrany t�kaj�.
-
-
-
-27.9.2002
-
-Podm�n�n� pravd�podobnosti z�vislost�, a0 (neaktivn�).
-
-G 89103 - B 36927 - P 70,7 (a0)
-
-Op�t zap�n�m a1, tj. nekoordina�n� z�vislosti se podmi�uj�
-neschopnost� ��d�c�ho uzlu b�t koordina�n� spojkou.
-
-G 89562 - B 36468 - P 71,1 (a1, podm. p.)
-
-
-
-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
-MOMENTALNE BOHUZEL MUSIM DELAT POKUSY S NECIM JINYM, ABYCH MOHL NAPSAT
-CLANEK DO PBML. PAK SE ALE MUSIM K PRACI Z 8.8. VRATIT, PROTOZE NENI
-DOKONCENA!
-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
-
-
-
-27.9.2002
-
-Hlavn� my�lenka �l�nku do PBML: chyby v morfologick�m zna�kov�n�
-zvy�uj� po�et chyb syntaktick� anal�zy. Zjistit, jak velk� tento vliv
-je, a navrhnout a odzkou�et �e�en�. Mo�n� �e�en�: 1) na vstup parsingu
-pos�lat �plnou morfologickou anal�zu; 2) opravovat zna�kov�n� b�hem
-parsingu (t�m, �e se rozhodnu pro n�jakou variantu syntaktick� stavby,
-vylu�uji n�kter� varianty zna�kov�n�); 3) d�lat si cel� zna�kov�n�
-s�m; 4) jako 2 nebo 3, ale vytipovat nejz�va�n�j�� chyby (p�dy
-podstatn�ch jmen).
-
-�l�nek by mohl b�t tak� o ciz�ch slovech (Bank of America) a o jin�ch
-ru�iv�ch vlivech na parsing (zpracov�n� ��slovek, atd. v koordinac�ch
-atd.)
-
-
-
-11.10.2002
-
-Nov� s�rie pokus� s parsingem na r�zn�ch zdroj�ch morfologie (�pln�
-anal�za, automatick� zjednozna�n�n� (HMM, maxent), ru�n�
-zjednozna�n�n�). P�edch�zej�c� takov� s�rie prob�hla v roce 1998 v
-Baltimoru na neredukovan�ch pozi�n�ch zna�k�ch, PDT 0.5 nehotov�,
-zhruba 13000 tr�novac�ch a 3500 testovac�ch v�t. Nyn� vezmu analytick�
-tr�novac� data z PDT 1.0 (p�es 70000 v�t), z nich odd�l�m asi 5000
-testovac�ch v�t (nevezmu je z ��sti PDT ozna�en� jako testovac�,
-proto�e pot�ebuju m�t k dispozici i ru�n� morfologick� anotace) a
-zbytek ponech�m pro tr�nov�n�.
-
-P�vodn� tr�novac� data obsahuj� 1583 soubor� ze v�ech 4 zdroj�. Nyn�
-je pr�v� ka�d� des�t� z t�chto soubor� zkop�rov�n do mtest dat (158
-soubor�), zbytek do mtrain (1425 soubor�). Zastoupen� zdroj� by tedy
-m�lo z�stat zhruba ve stejn�ch proporc�ch.
-
-Ze v�eho nejd��v mus�me zopakovat dosavadn� pokus na zna�k�ch z
-taggeru, proto�e m�me jinou mno�inu dat, a tedy se asi budou m�rn�
-li�it i v�sledky.
-
-Nov� tr�novac� data maj� 65847 v�t a 1133509 slov. Tr�nov�n� trvalo
-8:38 minut. Nov� testovac� data maj� 7241 v�t a 122081 slov. Testov�n�
-trvalo 16:30 minut.
-
-G 85968 - B 36113 - P 70,4 (d-d)
-
-Tr�nov�n� podle ru�n� morfologie trvalo jen 4:38 minut a soubor se
-statistikou m� 47 MB m�sto 63 MB!
-
-G 76697 - B 45384 - P 62,8 (h-h blb�)
-
-To je dost podez�el�! Ur�it� je tam n�jak� chyba! Ano, u redukovan�ch
-zna�ek zmizel druh� znak (p�d nebo poddruh). Znova: tr�nov�n� trvalo
-5:37 minut a statistika m� 54 MB. Jen�e je�t� chyb� selektivn�
-lexikalizace zna�ek pro p�edlo�ky! Napot�et� trvalo tr�nov�n� 7:26
-minut, statistika m� 63 MB a na prvn� pohled je v po��dku. Testov�n�
-trvalo 15:55 minut. V�sledky:
-
-G 87795 - B 34286 - P 71,9 (h-h)
-
-Nezjednozna�n�n� morfologie, varianty zna�ek se slep� do jednoho
-�et�zce, p��padn� duplik�ty se odstran�. Tr�nov�n� trvalo 12:33 minut,
-statistika m� skoro 90 MB. Testov�n� trvalo 12:17 minut.
-
-G 82498 - B 39583 - P 67,6 (m-m s�et�zen�)
-
-
-
-18.10.2002
-
-Tr�nov�n� s nezjednozna�n�nou morfologi�, ale v�skyt nejednozna�n�
-ozna�kovan�ho slova se pova�uje za n�kolik necel�ch v�skyt�
-jednozna�n� ozna�kovan�ch slov. Tr�nov�n� trvalo 19:58 minut a
-v�sledn� soubor m� 63 MB. Testov�n� trvalo 37:31 minut.
-
-G 87634 - B 34447 - P 71,8 (m-m rozlo�en�)
-
-Asi byla chyba ve �ten� zna�ek, tak�e to budu muset zopakovat. Te� se
-ale zase mus�m v�novat n��emu jin�mu.
-
-
-
-25.10.2002
-
-N�vrat k �pln�m tr�novac�m a testovac�m dat�m. V�sledky jsou bohu�el o
-n�co hor��, ne� byly naposledy s touto konfigurac�, a nev�m pro� :-(
-Tenkr�t bylo P = 71,1 %.
-
-G 89343 - B 36687 - P 70,9
-
-Pot�ebuji zjistit, jak je to s �sp�nost� na ��slovk�ch.
-�sp�nost zav�ov�n� ��slovek, ��slovek s p�dem a ��slovek bez p�d�:
-
-G 2646 - B 789 - P 77,0
-G 1184 - B 220 - P 84,3
-G 2030 - B 569 - P 72,0
-
-�sp�nost slov, kter� m�la z�viset na ��slovk�ch, na ��slovk�ch
-s p�dem a na ��slovk�ch bez p�d�:
-
-G 1070 - B 542 - P 66,4
-G  298 - B 231 - P 56,3
-G  771 - B 310 - P 71,3
-
-Nyn� p�etr�nujeme a p�i �ten� p�ekrout�me v�echny ��slovky, aby visely
-pod sv�m podstatn�m jm�nem. V dokumentaci mus�m zd�raznit, �e zat�m
-nijak ne�e��m to, �e se mi te� do ko�ene negenitivn� fr�ze m��e dostat
-slovo v genitivu (pozd�ji to budu muset �e�it jako u koordinac�
-propagac� p�du nahoru).
-
-G 89311 - B 36719 - P 70,9
-
-Dokonce m�rn� zhor�en�! Budu se muset pod�vat, jestli nen� v programu
-n�jak� chyba, ale asi to bude t�m, �e nyn� maj� negenitivn� fr�ze
-genitivn� hlavy. Napsat do �l�nku, �e to vy�aduje hlub�� anal�zu
-rozd�l� v chyb�ch s a bez p�ekroucen�.
-
-
-
-1.11.2002
-
-Upravuji parser, aby nebyl tak n�ro�n� na pam� a mohl b�et i
-doma. Z�kladn� my�lenka: p�i tr�nov�n� se statistika rozd�l� na men��
-kusy, kter� se natr�nuj� a ulo�� samostatn�. Anal�za pak bude m�t dv�
-f�ze. V t� prvn� se postupn� vezmou v�echny d�l�� natr�novan�
-statistiky, projdou se s nimi analyzovan� data a ke ka�d�mu slovu se
-ulo�� v�pis ze statistiky pro v�echny jeho potenci�ln� rodi�e. Pot� se
-data projdou je�t� jednou, p�e�tou se ulo�en� hodnoty u jednotliv�ch
-slov a navrhnou se stromy.
-
-
-
-14.11.2002
-
-Dota�ena do konce prvn� verze rozd�len�ho parseru. Skript train.pl se
-zm�nil jen trochu, zastav� tr�nink v�dy po tolika ud�lostech, kolik
-ud�v� prom�nn� $konfig{split}, ulo�� natr�novan� d�l statistiky,
-vypr�zdn� statistiku v pam�ti a za�ne od dal��ho tr�novac�ho souboru
-nanovo. Skript parse.pl byl v�ak rozd�len na markparse.pl, kter�
-projde testovac� data postupn� se v�emi d�ly statistik a zap��e p��mo
-do dat statistiky zji�t�n� o doty�n� v�t�, a skript parsemark.pl,
-kter� je�t� naposledy projde testovac� data, p�e�te si v ka�d� v�t�
-ulo�en� ��sla a na jejich z�klad� vybuduje nejlep�� mo�n� strom.
-
-Kv�li rychlosti testuju zat�m d�len� parsing pouze na jednom
-testovac�m souboru, lu01.a. Z parsemark jsem vyh�zel ve�ker� nadstavby
-typu koordinace �i lok�ln� konflikty, tak�e �sp�nost musela
-klesnout. V�sledky ukazuj� v prvn�m ��dku d�len� parsing, ve druh�m
-p�vodn� parse.pl (s vyu�it�m cel� statistiky najednou):
-
-G 286 - B 295 - P 49,2
-G 618 - B 301 - P 67,2
-
-Zat�m je v programu n�jak� chyba, kter� zp�sobuje, �e se ani nep�i�ad�
-v�echny z�vislosti. Budu muset zase rychle zav�st lad�c� z�znamy.
-
-
-
-15.11.2002
-
-Po opraven� chyby u� se zpracuj� v�echny v�ty (a v�echna slova)
-vstupu. �sp�nost to nepatrn� zlep�ilo. Spodn� ��dek opakuje pro
-srovn�n� �sp�nost ned�len�ho parseru na stejn�ch datech.
-
-A 919 - G 466 - B 453 - P 50,7
-A 919 - G 618 - B 301 - P 67,2
-
-P�ed�lal jsem markparse tak, aby se ukl�daly r�zn� ud�losti v�etn�
-koordinac�. Parsemark ale te� na chv�li vyu��v� pouze OZZ (bez
-lexikalizace) a �sp�nost kupodivu posko�ila o hodn�.
-
-G 575 - B 344 - P 62,6
-G 618 - B 301 - P 67,2
-
-Kombinace OSS a OZZ 1:1.
-
-G 570 - B 349 - P 62,0
-G 618 - B 301 - P 67,2
-
-Kombinace OSS a OZZ v pom�ru $ls:(1-$ls) (0.734375:0.265625).
-
-G 575 - B 344 - P 62,6
-G 618 - B 301 - P 67,2
-
-Jednoduch� p�id�n� koordinac�, zat�m bez �ady akc� d�lan�ch d��ve
-(propagace zna�ky �len� do koordina�n� spojky, kontrola povolenosti
-partnera, n�soben� pravd�podobnosti koordinace pravd�podobnost�, �e
-slovo v ko�eni je koordina�n� spojkou...)
-
-G 569 - B 350 - P 61,9
-G 618 - B 301 - P 67,2
-
-P�id�n test, �e druh� v�tev zva�ovan� koordinace je povolena.
-
-G 591 - B 328 - P 64,3
-G 618 - B 301 - P 67,2
-
-P�id�no n�soben� pravd�podobnosti koordinace pravd�podobnost�
-koordina�n� spojky.
-
-G 585 - B 334 - P 63,7
-G 618 - B 301 - P 67,2
-
-Opravena chyba: ztr�cela se informace o povinn�m p�ipojen� druh� p�lky
-koordinace v p���t�m kole.
-
-G 612 - B 307 - P 66,6
-G 618 - B 301 - P 67,2
-
-P�id�no kop�rov�n� zna�ky �lena koordinace do zna�ky koordina�n�
-spojky. S �sp�nost� to nehnulo.
-
-G 612 - B 307 - P 66,6
-G 618 - B 301 - P 67,2
-
-P�id�na kontrola, �e jedna koordina�n� spojka nem��e ��dit dv�
-koordinace, z nich� jedna stoj� "obkro�mo" kolem druh�.
-
-
-
-21.11.2002
-
-Viz minule, koordinace se hledaly jen pro spojky, kter� u� pro n�jakou
-koordinaci nebyly vyu�ity. Prvn� v�sledek je s chybou - pou�it� spojky
-se ozna�ovalo jako $afun = "Coord", jen�e $afun se pln� u� p�i �ten�
-vzorov�ho souboru a v�echny spr�vn� spojky tak byly p�edem
-zablokov�ny. Druh� v�sledek je po �prav�, d�ky kter� se pou�it� spojky
-ozna�uje jako $afun = "CoordX". T�et� v�sledek je jako obvykle z
-nerozd�len�ho parseru.
-
-G 581 - B 338 - P 63,2
-G 616 - B 303 - P 67,0
-G 618 - B 301 - P 67,2
-
-
-
-12.12.2002
-
-Sna��m se posb�rat dochovan� verze perlov�ho parseru a spojit je pod
-CVS (Concurrent Versions System). Motivac� je zejm�na snaha naj�t
-verzi p�ed p�estavbou, kter� um�la 71,7 %, ale sb�r�m i jin�.
-
-Verze z 1.2.2002, nalezen� v zipu v z�loze dat doma na
-Amazonce. Z�znamy z 1.2.2002 potvrzuj�, �e tenkr�t bylo 60 % nejlep��
-dosa�en� v�sledek.
-G 75578 - B 50450 - P 60,0
-
-Verze z 11.10.2002 se tr�nuje jen na 65847 v�t�ch. Podle z�znam� z
-11.10.2002 �lo o nezjednozna�n�nou morfologii s�et�zenou do dlouh�ch zna�ek.
-G 82498 - B 39583 - P 67,6
-Po p�esm�rov�n� dat se ov�em v�sledky zhor��, proto�e parser.ini z t�
-doby je�t� neumo��oval p�ep�nat tak� zdroj morfologie, tj. �ten� MMt v
-n�m bylo nastaveno natvrdo v k�du, ale v "hlavn�ch" datech takov�
-anotace nen�. Tak�e se rozhodovalo n�hodn�.
-G 43983 - B 82047 - P 34,9
-Nad�ji sk�t� fakt, �e parse.pl v t�to verzi je�t� neobsahuje proceduru
-ud(). Zkou��m tedy v parslib.pl p�epnout mzdroj z "MM" na "MD", t�eba
-se �sp�nost je�t� vr�t�.
-
-13.12.2002
-
-Verze z 11.10.2002 p�etr�nov�na a p�etestov�na na zna�k�ch MDt a.
-G 89562 - B 36468 - P 71,1
-Poda�ilo se mi tedy naj�t verzi, kter� je�t� dosahovala zat�m nejvy���
-�sp�nosti z 27.9.2002 (kdy jsem musel p�eru�it v�voj a za��t se
-v�novat �l�nku do PBML). P�edt�m se takov� �sp�nost objevila u�
-8.8.2002 p�i posledn�m pokusu p�ed odjezdem na Tchaj-wan. Tenkr�t �lo
-o mal� zhor�en�, co� v�ak z�stalo bez pov�imnut�, proto�e jsem
-p�ech�zel od mal�ch dat k velk�m. U� 6.8. jsem toti� dos�hl v�sledku G
-89684 - B 36346 - P 71,2, co� bylo pro zm�nu nevysv�tlen� zlep�en�
-oproti v�sledku z 5.8. (G 89639 - B 36391 - P 71,1). Ze z�znam�
-vypl�v�, �e z 5. na 6. srpna jsem zkou�el zapnout p�en�sobov�n�
-pravd�podobnosti z�vislosti pravd�podobnost� nekoordina�nosti ��d�c�ho
-�lenu. Tento pokus �sp�nost zhor�il, ale po jeho op�tovn�m vypnut�
-vzrostla o n�co v��e ne� na p�vodn� �rove�! V�sledek z 5. srpna - sv�m
-zp�sobem posledn� stabiln� - byl dosa�en po z�kazu p�eskakov�n� dosud
-bezd�tn�ch p�edlo�ek a po odstran�n� n�jak� chyby v ur�ov�n�
-vzd�lenosti uzl� (d�lky z�vislosti).
-
-Nyn� zkus�m na objevenou verzi s �sp�nost� G 89562 d�t commit a pot�
-ov��it, zda s jin�m nastaven�m nezlep��me �sp�nost je�t� na �rove�
-6., nebo aspo� 5. srpna.
-
-Po zapnut� absolutn�ch pravd�podobnost� (pabs=1):
-G 89397 - B 36633 - P 70,9
-
-Po vypnut� pravd�podobnosti nekoordina�nosti (nekoord=0, pabs=1):
-G 89537 - B 36493 - P 71,0
-
-Po vypnut� oboj�ho (nekoord=0, pabs=0):
-G 89106 - B 36924 - P 70,7
-
-Tak�e n�vrat k (nekoord=1, pabs=0):
-G 89562 - B 36468 - P 71,1
-
-
-
-Pro jistotu je�t� jeden cvs commit, potom se p�esuneme k nov�j��
-verzi. Ta poch�z� z 25.10.2002 a m�la by b�t tedy po p�estavb�
-umo��uj�c� pou��vat slovn�kovou morfologii (a p�ep�nat zdroj
-morfologie v parser.ini m�sto p��mo ve zdroj�ku).
-
-�sp�nost verze z 25.10.2002 u� je opravdu ni���, tj. p�estavbou se
-n�co ztratilo (mzdroj je MD/a, tak�e spr�vn� by v�sledek m�l b�t
-stejn� jako 11.10.2002):
-G 89311 - B 36719 - P 70,9
-
-Ztratilo se 251 z�vislost�. Zkus�me je naj�t pomoc� rozd�l� v
-anal�z�ch. Nejd��v ale commitnout - zaevidovat verzi z 25.10., by�
-znamen� zhor�en�.
-
-Verze k 8.8.2002 (11.10.2002) s MDt a nejlep�� dochovanou �sp�nost�
-(71,1 %) byla v CVS otagov�na jako "rel-1". A� najdu chybu a oprav�m
-ji ve verzi z 25.10.2002, nebo a� hled�n� chyby vzd�m, mohly by
-sou�asn� verze soubor� z 25.10.2002 dostat tag "rel-2" a revizn� ��slo
-2.0. Soubory *.stat a *.csts by se mo�n� mohly vyhodit z repository,
-pokud to je�t� jde.
-
-Zkoum�m, kde se ztratilo t�ch 251 z�vislost�. Ukazuje se, �e se li��
-natr�novan� statistiky v obou verz�ch, probl�m je tedy u� p�i
-tr�ninku. Diffem na zdroj�ky obou verz� zji��uju, �e pravd�podobn� jde
-o chybu p�i zm�n�ch v parslib.pl. Jednoduchou v�m�nou podez�el�ho
-regul�rn�ho v�razu se sice nic nezm�nilo, ale po v�m�n� cel�ho
-parslib.pl chyba zmizela (statistiky jsou toto�n� a �sp�nost je tak�
-na p�vodn� �rovni, tj. 71,1 %).
-
-Budu postupovat od star�� verze parslib.pl k nov�j�� a v pr�b�hu budu
-kontrolovat tr�nink na jednom tr�novac�m souboru.
-
-
-
-2.1.2003
-
-Nalezena a opravena chyba v parslib.pl z 25.10.2002. Dosa�ena
-�sp�nost z 8.8.2002-11.10.2002:
-
-G 89562 - B 36468 - P 71,1
-
-
-
-3.1.2003
-
-V�echny verze zachovan� do 11.12.2002 jsou nyn� ji� p�evedeny pod
-CVS. I verze po 25.10.2002 pou��vaj� opraven� parslib.pl. Zkus�m nyn�,
-zda si �pln� posledn� verze NEd�len�ho parseru (kter� ov�em u�
-existuje paraleln� s d�len�m a sd�l� s n�m tr�novac� skript train.pl,
-kter� se o p��padn�m d�len� dozv� pouze z parser.ini) zachov�v�
-�sp�nost 71,1 %.
-
-Oprava parslib.pl: v obnoven� verzi chyb�la funkce cas() pou��van�
-v d�len�m parseru, dopln�no. Oprava train.pl: �etl z parser.ini
-velikost blok� pro d�len�, ale nev�d�l, �e velikost 0 znamen� z�kaz
-d�len�. Oprava parse.pl: neum�l ��st statistiku z pracovn� slo�ky;
-ztratila se mu procedura vymazat_vetu() (z�ejm� byla v chybn�m
-parslib.pl). Tak� neum�l do t�to slo�ky zapisovat sv� v�stupy
-(analyza.csts, analyza-debug.csts, analyza.log).
-
-G 89562 - B 36468 - P 71,1
-
-Heur�ka! Ned�len� parser tedy p�e�il ve sv� nejlep�� verzi a d�len� je
-mo�n� vyv�jet paraleln�, kdy� na n�j zrovna bude �as. Potvrzuji stav
-CVS.
-
-
-
-14.1.2003 Nov� Hut�
-
-Do�asn� nem��u pou��t cel� tr�novac� data, omezuju se na soubory
-z �eskomoravsk�ho Profitu (c*). Testovac� data jsem zat�m pou�il
-cel�, i kdy� kv�li rychlosti je posl�ze taky omez�m. Testov�n� na
-cel�ch datech trvalo n�co m�lo p�es 1 hodinu.
-
-G 86730 - B 39300 - P 68,8
-
-Men�� data: pouze soubory lu*, 2294 v�t, 39539 slov. Testov�n� trv�
-19:54 minut.
-
-G 27845 - B 11694 - P 70,4
-
-
-
-16.1.2003
-
-Test na pouze jednom souboru: lu01.a.
-
-G 632 - B 287 - P 68,8
-
-Kdy� se za pravd�podobnost pova�uje �etnost (slovn� �etnost
-kombinovan� se zna�kovou �etnost� vahami dan�mi konfigurac�, ale
-nep�eveden� na pravd�podobnost).
-
-G 625 - B 294 - P 68,0
-
-Zhor�en� by m�lo odpov�dat zapnut� absolutn� pravd�podobnosti
-(konfig{pabs}), kterou v tomto p��pad� nelze vypnout. Hned to
-vyzkou��me: vr�t�me se k p�vodn� procedu�e, ale zapneme pabs.
-Jen�e ve skute�nosti do�lo ke zlep�en�. Hm, to nech�pu.
-
-G 642 - B 277 - P 69,9
-
-Pouze se��st slovn� a zna�kovou �etnost, ale nevyva�ovat je. (Odpov�d�
-vah�m 0,5:0,5.)
-
-G 617 - B 302 - P 67,1
-
-P�idat �etnosti slovo-zna�ka a zna�ka-slovo.
-
-G 609 - B 310 - P 66,3
-
-P�idat �etnosti neberouc� v �vahu vzd�lenost a sm�r.
-
-G 578 - B 341 - P 62,9
-
-
-
-30.1.2003 Praha
-
-N�vrat k �pln�m dat�m. CVS commit, v�sledky st�le stejn� jako loni v
-srpnu, pro osv�en�:
-
-G 89562 - B 36468 - P 71,1
-
-Pokus se z�sobn�kem stav� (zat�m se jen buduje, ale nepou��v�). N�kde
-bude asi bug, proto�e nejen �e to trv� 1:04 hodiny, ale je�t� ke v�emu
-to ned�v� stejn� v�sledky.
-
-G 89295 - B 36735 - P 70,9
-
-Po vypnut� ukl�d�n� stavu se �sp�nost vr�tila a v�po�et trval jen 18
-minut.
-
-Kdy� jsem nechal ukl�d�n� stavu vypnut�, ale zapnul jsem kolem n�j
-pokusn� p�id�n� a op�tovn� ubr�n� z�vislosti ze stromu, �sp�nost
-klesla na 70,9 % - pridat_zavislost() a ubrat_zavislost() tedy
-nevracej� parser do p�vodn�ho stavu! Anal�za trvala 37 minut.
-
-Naopak kdy� jsem toto p�id�v�n� zatrhnul, ale dovolil jsem ukl�d�n�
-stav� (st�le stejn�ch, to nen� pro hash tak n�ro�n�), anal�za trvala
-21 minut a �sp�nost byla 71,1 %. Dalo by se tedy obej�t funkce
-pridat_zavislost() a ubrat_zavislost() (nap�. tak, �e bych pro
-ukl�d�n� pouze p�idal ru�n� do ukl�dan�ho seznamu jedno ��slo), to asi
-nakonec ud�l�m kv�li efektivit�, nicm�n� chybu v obou funkc�ch je
-nutn� naj�t a opravit.
-
-
-
-31.1.2003
-
-Chyba ve funkc�ch pridat_zavislost() a zrusit_zavislost() opravena
-tak, �e byla vytvo�ena t�et� funkce zjistit_povol(). Bohu�el se
-ukazuje, �e spr�vn� vytvo�en� seznam povolen�ch z�vislost� byl ten,
-kter� vedl na ni��� �sp�nost. V�sledky je�t� nejsou definitivn�,
-proto�e na novou funkci se je�t� nep�e�lo v cel�m programu. Seznam
-povolen�ch se te� nebude pr�b�n� udr�ovat, n�br� po��tat a� p�ed
-hled�n�m nov� z�vislosti. Je to pomalej�� jen o m�lo: cel� anal�za
-trvala necel�ch 20 minut, oproti v�erej��m 18 minut�m starou metodou.
-
-G 89296 - B 36734 - P 70,9 %
-
-Po �pln�m odstran�n� $povol �sp�nost je�t� klesla. Asi jsem dosud
-n�hodou nepovoloval n�jak� z�vislosti, kter� nebyly dob�e. Funkce
-zjistit_povol() se te� vol� na dvou m�stech, ale p�jde to sn��it na
-jedno. Anal�za trv� 23 minut.
-
-G 89196 - B 36834 - P 70,8 %
-
-Odstranil jsem druh� vol�n� zjistit_povol() ze
-zjistit_moznosti_zaveseni(), m�sto toho se seznam povolen�ch p�ed�v�
-shora z generovat_stavy() p�es lokalni_konflikty(). Taky jsem �pln�
-odstranil prom�nn� @rspan, @lspan a $soused, ale ty u� se v tu chv�li
-nikde nepou��valy. P�esto se pokazilo 9 z�vislost�. OPRAVIT!
-
-G 89187 - B 36843 - P 70,8 %
-
-
-
-3.2.2003
-
-Op�t p�id�no druh� zjistit_povol(). Chyba zmizela, tak�e probl�m nebyl
-v @lspan, ale tady!
-
-G 89196 - B 36834 - P 70,8 %
-
-Probl�m odstran�n, zjistit_povol() se vol� jen jednou b�hem p�id�v�n�
-jedn� z�vislosti, anal�za trv� 22 minut na po��ta�i loki. �sp�nost
-z�st�v� 70,8 %.
-
-Pokusil jsem se p�ej�t na slovn�kovou morfologii. Podle pokus� na
-n�hradn�ch testovac�ch datech vy�len�n�ch z tr�novac�ch dat (a ov�em
-nepou�it�ch v dan�m pokusu pro tr�nink) m�la vyj�t dokonce l�pe ne�
-ru�n� morfologie, a z�eteln� l�pe ne� morfologie z taggeru. Tady to
-v�ak tak ani trochu nevypad�. Bu� jsem ud�lal chybu tehdy, nebo te�.
-
-G 82258 - B 43772 - P 65,3
-
-
-
-4.2.2003
-
-Vrac�m se k morfologii z taggeru.
-B�hem dne d�l�m r�zn� pokusy s v�tami o d�lce 5, s p�edlo�kami a s
-p�eskakov�n�m sourozenc�. Nic z toho zat�m nen� dota�eno, nicm�n� m�m
-v�sledky pro tento pokus: N2 nesm� p�eskakovat sv�ho sourozence
-vlevo. Pokud by to cht�la ud�lat, tj. pokud mezi n� a zam��len�m
-��d�c�m uzlem le�� jin� uzel, kter� p��mo nebo nep��mo nez�vis� na n�,
-n�br� na ��d�c�m uzlu, dostane takov� z�vislost pravd�podobnost
-0. V�sledek ukazuje, �e to m�rn� zlep�en� p�in��, a �e bych se tedy
-p�eskakov�n�m m�l d�le zab�vat.
-
-G 89448 - B 36582 - P 71,0
-
-Je�t� drobnost. Do manipulace s morfologick�mi zna�kami p�id�na
-transformace �adov�ch ��slovek na p��davn� jm�na. Zlep�en� u t�ech
-slov :-)
-
-G 89451 - B 36579 - P 71,0
-
-
-
-5.2.2003
-
-Zji��uju plodnost ko�ene. Prvn� pokus: po vybudov�n� stromu se zjist�,
-kolik d�t� m� ko�en. Pokud jich m� v�ce ne� 2, vybere se koncov�
-interpunkce a nejpravd�podobn�j�� dal�� d�t�, ostatn� se odpoj� a
-p�ipoj� jinam. Nev�hody: tento p��stup zat�m neumo��uje nahradit jedno
-sloveso koordinac� sloves a obecn� nedovoluje ostatn�m uzl�m na zm�nu
-reagovat. P�esto do�lo k celkem viditeln�mu zlep�en�. Zhor�ila se
-ov�em �asov� n�ro�nost (anal�za trvala 32 minut), a to proto, �e do
-koordinac� bylo nutn� p�idat kontrolu povolenosti druh� hrany. M�lo by
-to j�t alespo� ��ste�n� opravit, proto�e seznam povolen�ch z�vislost�
-si lze pamatovat a dodat jako parametr.
-
-G 89765 - B 36265 - P 71,2
-
-Druh� pokus: zak�zat zav�en� na ko�en a na koncovou interpunkci a� do
-konce. Bohu�el se zd�, �e tento p��stup p�inesl v�c �kody ne� u�itku.
-
-G 89509 - B 36521 - P 71,0
-
-Prozat�m tedy n�vrat zp�t:
-
-G 89765 - B 36265 - P 71,2
-
-P�id�n ji� v�era vyzkou�en� pokus s v�tami d�lky 5 (zat�m se
-rozpozn�v� pouze vzorec "Praha (p�t) -").
-
-G 89978 - B 36052 - P 71,4
-
-
-
-6.2.2002
-
-Pokusy s ��rkami a z�vislostmi na nich. Prvn� p�ibl��en�: na ��rce
-nesm� nic viset, proto�e pak by to musela b�t koordinace nebo apozice,
-a ta se �e�� jinde.
-
-G 90992 - B 35038 - P 72,2
-
-Jup�!!!
-
-
-
-13.2.2003
-
-Po n�jak�m vrt�n� poklesla �sp�nost. Blb� je, �e u� si nepamatuju, co
-to bylo za pokus. Mysl�m ale, �e �lo o vypnut� lok�ln�ch konflikt�,
-proto�e jejich statistika je tentokr�t pr�zdn�. Vypnuty byly p�i
-tr�ninku, p�i testu ne, ale v�sledek je stejn�. Byly vypnuty kv�li
-n�jak� chyb� (cyklilo se to), doufal jsem, �e t�eba �sp�nost sp��
-kaz�, jejich statistika tomu napov�dala. Ov�em ony asi vylep�uj�
-�sp�nost ostatn�ch z�vislost�...
-
-G 90610 - B 35420 - P 71,9
-
-Lok�ln� konflikty znovuzprovozn�ny, ale �sp�nost st�le nen� na
-p�vodn� �rovni. Budu si muset nechat zjistit rozd�ly mezi verz�
-parseru ze 6.2. a tou dne�n�.
-
-G 90833 - B 35197 - P 72,1
-
-Ohled�n� rozd�l�.
-parslib.pl ... n�co se d�je s koordinacemi a s apozicemi (d�d�n�
-zna�ek) - s apozicemi se d��ve ned�lalo nic. Je ov�em ot�zka, odkud se
-tahle funkce vol�.
-train.pl ... li�� se, ale zat�m se zd�, �e v nepodstatn�ch v�cech
-(p�esunut� mechanick� pr�ce kolem otv�r�n� a proch�zen� soubor� do
-knihovny parslib.pl, p�esunut� maz�n� v�ty po jej�m zpracov�n� tamt�)
-
-Z�v�r: nena�el jsem rozd�l, kter� by mohl zp�sobovat rozd�l v
-�sp�nosti. Zkus�m tedy pustit parser ze 6.2., aby se vid�lo, zda
-v�bec m� �sp�nost, kv�li kter� jsem ho z�lohoval. A na v�sledek se
-p�ijdu pod�vat a� z�tra :-)
-
-
-
-14.2.2003
-
-Parser z 6.2.2003 m� opravdu �sp�nost 72,2 % (G 90992 - B
-35038). Na�el jsem chybu, kv�li kter� p�estaly fungovat t�et� a dal��
-�leny koordinac� (bylo nevhodn� po�adov�no povolen� p�id�n� budouc�
-hrany v okam�iku, kdy p�id�n� nemohlo b�t povoleno). Po jej�m
-odstran�n� se obnovila �sp�nost z 6.2.2003:
-
-G 90992 - B 35038 - P 72,2
-
-Prov�d�m cvs commit a ma�u vybalenou verzi z 6.2.2003.
-Vylep�ena efektivita zji��ov�n� povolen�ch hran v procedu�e
-zjistit_pravdepodobnost_koordinace(). Bohu�el b�hem testov�n� na�as
-vypadl jeden z disk�, tak�e nelze ��ct, o kolik se vylep�� �as na
-anal�zu. Te� kv�li v�padku trvala 40 minut. Ov��il jsem v�ak alespo�,
-�e oprava nezp�sobila n�jak� nov� chyby, po kter�ch by poklesla
-�sp�nost.
-
-G 90992 - B 35038 - P 72,2
-
-
-
-17.2.2003
-
-Kone�n� dops�n prototyp knihovn�ch funkc� pro d�d�n� morfologick�ch
-zna�ek u koordinac� a apozic. Otestov�no tr�nov�n� i anal�za, zda
-nebyly zavle�eny chyby a zejm�na zda to nepad�. Zat�m se ov�em zna�ky
-d�d�, ale ty zd�d�n� se k ni�emu nepou��vaj�, tak�e opravdov� zkou�ka
-ohn�m teprve bude. Tr�nov�n� trvalo 9:31 minut, anal�za trvala 26:40
-minut.
-
-G 90992 - B 35038 - P 72,2
-
-Pokus s pou�it�m d�d�n�ch zna�ek p�i tr�ninku na ud�losti OZZ, OSZ,
-OZS, ZZZ, ZSZ, ZZS a ZPV (pseudovalence), ne na koordinaci (KZZ,
-UZZ). A v�bec ne p�i parsingu. Zat�m to p�ineslo zhor�en�, co� p�i
-omezenosti pou�it� nen� a� tak divn�. Ud�lost� po tr�ninku je te�
-3354115 (v�c, d��ve pod 3300000), tr�nov�n� trv� 13:19 minut
-(!). Anal�za trv� 26 minut.
-
-G 89791 - B 36239 - P 71,2 :-(
-
-Mus�m zjistit, zda hlavn� pot�� nen� v tom, �e kv�li chybn�mu
-zna�kov�n� koordinace leckdy sdru�uj� �leny s nekompatibiln�mi
-zna�kami, a ty pak chybn� ovliv�uj� zna�ku cel� koordinace i jej�
-vztahy. Zjistit, zda by pomohlo, kdyby se alespo� v ko�eni ponechaly
-duplik�ty zna�ek (tj. nej�ast�j�� zna�ka by m�la tak� nejv�t��
-v�hu). To se toti� nyn� ned�l�, proto�e mechanismus pro zpracov�n�
-seznamu zna�ek po��t� se zna�kami z morfologick� anal�zy.
-
-Te� se tak d�v�m... Taky je to mo�n� t�m, �e se p�i tr�ninku
-alternativy ve zna�k�ch v�bec nerozsekaly! Tam se toti� testuje,
-jestli je zdroj morfologie "MM", a to nen�!
-
-
-
-18.2.2003
-
-Vyp�n�m d�d�n� zna�ky, vr�t�m se k nim za p�r t�dn�. Te� mus�m nutn�
-vytvo�it n�co, o �em p�jde napsat na ACL, a to d�d�n� zna�ky
-nejsou. M�la by to b�t subkategorizace - tentokr�t pou�it� jako
-v�stupn� filtr.
-
-Filtr se bude sna�it zabr�nit tomu, aby v�ce ne� jedno dopln�n�
-stejn�ho druhu rozv�jelo tot� sloveso, pokud toto sloveso nem� r�mec,
-kter� opakov�n� p�ipou�t�. Net�k� se voln�ch dopln�n� (zejm�na
-p��slove�n� ur�en� �asu a m�sta "kde"). Naopak se to t�k� podm�tu
-(l�pe: podstatn�ho jm�na v 1. p�d�), i kdy� podm�ty v r�mc�ch
-neevidujeme.
-
-Obecn�ji: pokud na slovesu vis� n�co, co vypad� jako vnit�n� dopln�n�,
-ale sloveso to nem� v r�mci, vyvolat poplach. Mo�n�, �e jin� sloveso
-si to r�do vezme.
-
-Na druh� stran�: pokud to vypad�, �e slovesu n�co chyb�, poohl�dnout
-se, jestli to v okol� nep�eb�v� (tj. je to tam a nikdo jin� na tom
-nesed� ze subkategoriza�n�ch pohnutek). Pokud ano, vyvolat tak�
-poplach. Zjistit, �e slovesu n�co chyb�, nen� �pln� trivi�ln�. Znamen�
-to, �e mus�me proj�t v�echny jeho r�mce a naj�t takov�, kde toho chyb�
-nejm�n�. Z prohled�v�n� jsou v�ce m�n� vylou�eny r�mce, kter� zavrhuj�
-n�co, co naopak na slovesu vis� (ale ne absolutn�: m��e to tam toti�
-viset omylem).
-
-Seznam r�mc� by mohl b�t nov�, po��zen� nov�m perlov�m k�dem, hlavn�
-v�ak z nov� verze treebanku, a asi nejen pro slovesa, ale pro v�echny
-slovn� druhy, u kter�ch se n�jak� preference vysleduj�.
-
-
-
-Ov�em po shl�dnut� souboru se statistikou usuzuji, �e nejd��v by se
-mohla vylep�it pseudovalence. Ze slovesn� zna�ky by se k heslu m�lo
-p�ipojit pouze po��te�n� "V", ale nikoli znak za n�m, ur�uj�c� �as a
-zp�sob. A v�bec by se nem�l br�t ohled na sm�r a d�lku z�vislosti.
-
-V tr�novac�ch datech zaznamen�no 3149779 ud�lost�. Tr�nov�n� trvalo
-11:44 minut.
-
-�prava pseudovalence: Bohu�el jsou v�sledky je�t� hor�� :-(
-
-G 88442 - B 37588 - P 70,2
-
-Poddruh ze zna�ky asi nebyl ned�le�it�, proto�e rozli�oval �inn� rod
-od trpn�ho, a ty maj� r�zn� r�mce. Taky infinitiv a rozkazovac� zp�sob
-jsou d�le�it�, proto�e nemaj� podm�t. Mo�n� by se nemuselo rozli�ovat
-mezi nimi navz�jem, stejn� jako mezi p��tomn�-budouc�m a minul�m
-�asem, ale to u� jsou asi jen drobnosti.
-
-Zkus�m tedy vr�tit zna�ku, ale zat�m nevr�tit sm�r a d�lku
-z�vislosti.
-
-Ud�lost� je te� 3178791. Tr�nov�n� trvalo 9 minut.
-
-G 90613 - B 35417 - P 71,9
-
-Vrac�m i sm�r a d�lku. Op�t 3225713 ud�lost�, tr�nov�n� trvalo 9:40
-minut.
-
-G 90992 - B 35038 - P 72,2
-
-Dal��m p�edb�n�m pokusem by mohl b�t z�kaz p�eskakov�n� v�znamov�ho
-slovesa kv�li nad�azen�mu mod�ln�mu slovesu vnit�n�mi dopln�n�mi (tedy
-pro tyto ��ely dejme tomu ��mkoliv s v�jimkou R6 a D). Je to obdoba
-ji� vyzkou�en�ho z�kazu p�eskakov�n� N2 jin�m N2.
-
-G 90774 - B 35256 - P 72,0
-
-Ru��m z�kaz, ani� bych v tuto chv�li podrobn�ji zkoumal, pro� to
-nefunguje.
-
-G 90992 - B 35038 - P 72,2
-
-
-
-19.2.2003
-
-Pokus s valenc�. Jestli�e na slovesu u� vis� N1, zak�zat zav�en�
-druh�ho N1 na tot� sloveso.
-
-G 90437 - B 35593 - P 71,8
-
-Pokra�ov�n� pokusu: v��e uveden� z�kaz se net�k� slovesa "b�t"
-(p��sudek jmenn� se sponou).
-
-
-
-5.3.2003
-
-Deadline ACL Sapporo jsem pro�vihnul, tak�e se m��u vr�tit k v�zkumu
-:-) Pro za��tek zkontrolujeme, �e m�me parser ve zdrav�m stavu, tj. �e
-dosahuje dosud nejlep�� dosa�en� �sp�nosti 72,2 %.
-
-G 90992 - B 35038 - P 72,2
-
-D�le se pod�v�me na stav, v jak�m bylo zanech�no zpracov�n� koordinac�
-a apozic. Opustili jsme ho 18.2., naposledy se s n�m n�co d�lo
-17.2. Bylo rozchozeno d�d�n� morfologick�ch zna�ek, ale jeho vyu�it�
-p�i syntaktick� anal�ze je�t� nebylo bezchybn� a tak� zhor�ovalo
-�sp�nost anal�zy.
-
-
-
-13.3.2003
-
-Odstran�ny n�jak� chyby v d�d�n� zna�ek a jeho vyu�it� p�i
-tr�ninku. �sp�nost se ov�em st�le zhor�uje, ale asi mi nezbyde, ne�
-to pova�ovat za nezbytnou drobnost na cest� ke kone�n�mu
-v�t�zstv�. Je�t� nem�m prozkouman� detaily, ale ��seln� v�sledky jsou
-n�sleduj�c�:
-
-G 90465 - B 35565 - P 71,8
-
-Jako obvykle je skute�n� p��bytek chyb v�t��, ne� t�ch 527 z�vislost�,
-proto�e na n�kter�ch m�stech se anal�za na opl�tku
-zlep�ila. Konkr�tn�:
-
-Po�et rozd�ln�ch n�zor� p�edch�zej�c�ho a sou�asn�ho parseru: 5814.
-Z tohoto po�tu m�l star� parser dob�e 1570, nov� 1043. Nov� parser
-tedy p�inesl 1570 zhor�en� a 1043 zlep�en�. V n�zoru na ostatn�
-z�vislosti z uveden�ch 5814 se parsery sice li�ily, ale oba ho m�ly
-�patn�.
-
-
-
-14.3.2003
-
-Pr�ce na notebooku (Intel Celeron 800 MHz, 250 MB pam�ti, z toho,
-zd� se, asi 100 MB vyu�ij� Windows ME). Tr�nink v pln� ���i by se
-sem neve�el, ale anal�za ano, pokud ze statistiky odstran�me v�echny
-ud�losti, kter� nebyly vid�ny v�ce ne� jednou. Velikost souboru se
-statistikou klesne ze 67 na 18 MB. �sp�nost klesne pouze nepatrn�:
-
-G 90759 - B 35271 - P 72,0
-
-P�esto asi budu v praxi pro testy pou��vat jen malou ��st dat,
-proto�e anal�za cel� mno�iny trv� dvakr�t d�le ne� na lokim: 1:28 h.
-Omez�me se na soubory lu* (48 soubor�). Jejich anal�za trv� 26 min,
-co� odpov�d� dob� pot�ebn� na lokim k anal�ze v�ech dat.
-
-G 29205 - B 10334 - P 73,9
-
-Stejn� pokus na stejn�m po��ta�i, ale pod Linuxem, je jednak del��
-(43 minut), jednak m� ni��� �sp�nost!!! Jedin� vysv�tlen�, kter� m�
-napad�, je, �e tento Linux ji� m�sto ISO Latin 2 pou��v� Unicode
-UTF-8, tak�e nefungovaly lexikalizovan� statistiky.
-
-G 28184 - B 11355 - P 71,3
-
-Objevil jsem pravd�podobnou p���inu, pro� klesla �sp�nost po
-natr�nov�n� na zd�d�n�ch zna�k�ch. Zm�nil se toti� po�et z�vislost�
-N1-N1: d��ve v�t�zil sm�r zleva doprava, nyn� zprava doleva. To
-znamen�, �e zd�d�n� zna�ka se dostala do z�vislosti s t�m, kdo ji
-zd�dil. Nap��klad by k tomu mohlo doj�t u apozic, proto�e koordinace
-jsou v tr�ninku u� z d��v�j�ka podchyceny, ale apozice ne.
-
-D�le: slova a hesla by se m�la d�dit stejn� jako zna�ky.
-
-D�le: na rozd�l od d��v�j��ho d�d�n� koordinac� nyn� d�d�me celou
-skupinu zna�ek (podobn� jako u morfologie ze slovn�ku). P�i evidenci
-z�vislost� u� se to vyu�ije, ale m�lo by se to vyu��t i p�i evidenci
-koordinac� a apozic. Nyn� by se zaevidovala koordinace v�dy, kdy�
-��d�c� uzel m� s-zna�ku Coord nebo Apos, a to mezi zna�kou z�visl�ho
-uzlu a v�emi ostatn�mi zna�kami v seznamu ve zd�d�n� zna�ce ��d�c�ho.
-
-
-
-28.3.2003
-
-N�vrat na po��ta� loki (Intel Pentium 4, 1.8 GHz, pam� 1.5 GB).
-Kontrola, �e parser je ve stavu, v jak�m si mysl�m, �e jsem ho
-zanechal.
-
-G 90465 - B 35565 - P 71,8
-
-OK, je to stejn� jako 13. b�ezna p�ed odst�hov�n�m na
-notebooka. Anal�za trvala 30 minut.
-
-Opraveno: p�i d�d�n� zna�ek se za �lena koordinace neozna�ila
-p�edlo�ka, ale podstatn� jm�no pod n�. Nyn� u� se ozna�uje
-p�edlo�ka. P�etr�nov�n� trvalo 15 minut, zaznamen�no 3301150
-ud�lost�.
-
-G 90588 - B 35442 - P 71,9
-
-Opraven zp�sob, jak�m se p�i tr�nov�n� odd�lovaly z�vislosti od
-koordinac�. Dosud se n�kter� koordinace omylem zapo��taly i do
-z�vislost�, naopak z�vislosti cel�ch koordinac� na n��em se
-vynech�valy apod. Nyn� p�i d�d�n� zna�ek sou�asn� buduju pro ka�d�
-uzel p��znak, zda je �lenem n�jak� koordinace, tak�e by to m�lo
-fungovat spr�vn� (p�inejmen��m tak spr�vn�, jak funguje d�d�n� zna�ek)
-a nav�c by to nov� m�lo zahrnovat i apozice. P�etr�nov�n� trvalo 18
-minut, statistika obsahuje 3222068 ud�lost� (to d�v� smysl, byl
-odstran�n �um chybn�ch ud�lost�).
-
-G 90893 - B 35137 - P 72,1
-
-Nyn� jedin� dal�� zm�na: v train.pl se za koordinaci pova�uj� nejen
-konstrukce ��zen� uzlem s s-zna�kou Coord, ale tak� Apos. Tr�nov�n�
-trvalo 13:30 minut, zji�t�no 3225577 ud�lost�.
-
-G 90634 - B 35396 - P 71,9 :-(
-
-
-
-31.3.2003
-
-Sna��m se vyu��t existenci alternativ u zna�ek
-v koordinac�ch. Opravuji chybu - regul�rn� v�raz se nedok�e sm��it
-se zna�kou "Z(". Zji�t�no 3242983 ud�lost�. Tr�nov�n� trvalo 11
-minut.
-
-G 90465 - B 35565 - P 71,8 ;-((
-
-Je to ale n�jak� divn�, proto�e nej�etn�j�� koordinace jsou ty, kter�
-neobsahuj� partnera. Opravena chyba. Zji�t�no 3009050
-ud�lost�. Tr�nov�n� trvalo necel�ch 11 minut.
-
-G 90420 - B 35610 - P 71,7
-
-
-
-3.4.2003
-
-Zahajuji p�estavbu parse.pl, kter� mi umo�n� paraleln� parsovat podle
-dvou r�zn�ch model� a porovn�vat jejich �sp�nost. Sou�asn� je to
-v�te�n� p��le�itost vy�istit po m�s�ce nabalovan� k�d. Dnes u� to ale
-nestihnu. Zat�m jen paraleln� b�el pokus s ned�d�n�mi zna�kami. M�l
-by dopadnout stejn� jako 5.3.2003, ale jedna z�vislost se n�kde
-ztratila, �ert ji vem.
-
-G 90991 - B 35039 - P 72,2
-
-
-
-16.4.2003
-
-Dokon�en� p�estavby odlo�eno na neur�ito. Te� ud�l�m jen jednu v�c,
-budu u ka�d�ho uzlu vypisovat seznam z�vislost�, kter� byly povolen� v
-okam�iku, kdy byl uzel zav�en. S pomoc� takov�ho v�pisu bych m�l b�t
-schopen naj�t chyby zp�soben� posledn� zm�nou parseru.
-
-Zat�m ale mus�m opravovat parser, aby byl op�t provozuschopn�, ten
-pokus o p�estavbu p�ed dv�ma t�dny ho zjevn� dostal do nekorektn�ho
-stavu. Test pou�t�m na o�ezan� statistice (pouze ud�losti, kter� se
-staly v�ce ne� jednou), tak�e �sp�nost nebude standardn�.
-
-G 90074 - B 35956 - P 71,5
-Pou�t�m tedy je�t� tot� na �pln� statistice.
-G 90252 - B 35778 - P 71,6
-
-
-
-9.5.2003
-
-Potvrzen v��e uveden� posledn� v�sledek, ani� bych si ov�em pamatoval,
-jak�mi zm�nami parametr� k n�mu do�lo (u� toti� pamatuju i
-lep��). Anal�za na lokim trvala 32 minut. Zkou��m ji je�t� pustit na
-shrekovi s lok�ln� kopi� dat, ale zrychlen� nen� na pohled nijak
-impozantn�, trv� to te� 28 minut.
-
-Zkus�m se vr�tit k verzi p�ed hr�tkami s apozicemi. Situaci mi
-komplikuje zmizen� slo�ky CVSROOT na �FALu, ale na�t�st� m�m n�jakou
-z�lohu z 13.3.2003 na notebooku, tak uvid�me.
-
-V�sledky na sou�asn�ch datech (ov�em t�ch "norm�ln�ch", nez�skan�ch na
-zd�d�n�ch zna�k�ch), jsou skute�n� ty spr�vn�.
-
-G 90992 - B 35038 - P 72,2
-
-
-
-12.5.2003
-
-Mus�me p�ij�t na to, kde je v nov�m parse.pl chyba, �e jeho �sp�nost
-je p�i pou�it� t�ho� modelu hor��. Omez�me test na men�� data.
-
-star�: G 672 - B 247 - P 73,1
-nov�:  G 665 - B 254 - P 72,4
-
-Rozd�ly mezi parse.pl a parse1.pl jsou p��li� rozs�hl�. Zkus�me
-nejd��ve zjistit, zda chyba nen� v parslib.pl. Nech�me star� parse.pl,
-aby pou��val nov� parslib1.pl.
-
-G 672 - B 247 - P 73,1
-
-Chyba je tedy p��mo v parse1.pl. Budu se postupn� p�esouvat od
-parse.pl k parse1.pl. Prvn� krok: p�id�m proceduru rozebrat_vetu(),
-ani� bych ji pou�il.
-
-G 672 - B 247 - P 73,1
-
-
-
-13.5.2003
-
-Star�� k�d nahrazen knihovn� (parslib.pl) funkc�
-projit_data(). V�sledky z�st�vaj� v po��dku.
-
-G 672 - B 247 - P 73,1
-
-
-
-14.5.2003
-
-Zvl�tn� zpracov�n� v�t o p�ti slovech posunuto v k�du v��. �sp�nost
-se sn��ila. Je to asi t�m, �e na konci z podm�nky vypadly n�jak� v�ci,
-kter� se maj� d�lat i pro p�tislovn� v�ty.
-
-G 667 - B 247 - P 73,0
-
-Opraveno.
-
-G 672 - B 247 - P 73,1
-
-K�men �razu je spojov�n� ko�ene s koncovou interpunkc�. Po jeho
-p�esunut� do funkce generovat_stavy() se zjevn� parser za�al chovat
-jinak (a h��e).
-
-G 665 - B 254 - P 72,4
-
-Opraveno.
-
-G 672 - B 247 - P 73,1
-
-Nakonec p�ep�n�m na funkci rozebrat_vetu(). Kr�tk� vzorek z�st�v�
-funk�n�. Te� tedy pro jistotu otestujeme cel� testovac� data. Je to v
-po��dku, stejn� jako v�sledky z 5. b�ezna!
-
-G 90992 - B 35038 - P 72,2
-
-P�echod ze star��ho na nov�j�� parse.pl dokon�en. �sp�nost z�st�v�
-nesn��en�.
-
-Te� zp�t k �sp�nosti koordinac� a zd�d�n�ch zna�ek. Vezme-li se
-statistika natr�novan� na zd�d�n�ch zna�k�ch, �sp�nost na lu01
-v�razn� klesne:
-
-G 660 - B 259 - P 71,8
-
-Te� je je�t� pot�eba d�t do po��dku train.pl. V sou�asn�m stavu na
-73088 v�t�ch zjist� 2998340 ud�lost�. Bohu�el, tohle nen� to "spr�vn�"
-tr�nov�n� z pohledu testu na lu01.
-
-G 662 - B 257 - P 72,0
-
-V train.pl na ��dc�ch 181 a 182 vym��uji zd�d�n� zna�ky za
-vlastn�. Na�lo se 2979202 ud�lost�. �sp�nost na lu01 vzrostla, ale
-po��d je�t� nen� train.pl v p�vodn� kondici.
-
-G 670 - B 249 - P 72,9
-
-
-
-15.5.2003
-
-Pokou��m se p�epnout do star�� verze train.pl, ale asi nen� dost
-star�, proto�e se v n� tak� pou��vaj� zd�d�n� zna�ky. Statistika
-obsahuje 2351310 ud�lost�. V�sledek je dost d�siv�.
-
-G 506 - B 413 - P 55,1
-
-Ze stejn� verze jsem odstranil pou��v�n� zd�d�n�ch zna�ek. Statistika
-obsahuje 3225713 ud�lost�.
-
-G 672 - B 247 - P 73,1
-G 90991 - B 35039 - P 72,2
-
-Ve velk�m testu se ztratila jedna z�vislost. Zkou��m train.pl vyta�en�
-z mezit�m opraven�ho CVS. Statistika obsahuje 3225713 ud�lost� a
-z�ejm� je toto�n� se statistikou z�skanou o pokus d��ve. Kdy� v�ak
-tento train.pl pust�m v p�vodn�m kontextu, tedy zejm�na s p�vodn�m
-parslib.pl a na p�vodn�ch datech (neobsahuj� nezjednozna�n�nou
-morfologickou anal�zu), dostanu sice tak� 3225713 ud�lost�, ale
-velikost souboru se statistikou se asi o 10000 bajt� li��.
-
-G 90992 - B 35038 - P 72,2
-
-Pou�t�m tento star� train.pl se star�m parslib.pl, ale s morfologicky
-analyzovan�mi daty (nem�lo by to vadit <MMt> se stejn� nepou�ij�,
-pou�ij� se <MDt>). V�sledn� statistika je pravd�podobn� shodn� s
-v�t�znou (dosahuj�c� G 90992).
-
-Pou�t�m tedy tot�, ale s nov�m parslib.pl. Statistika obsahuje
-3910869 ud�lost�, co� je dost divn�. Zbytek mus�m odlo�it na z�t�ek.
-
-
-
-16.5.2003
-
-V nov�m parslib.pl se star�m parser.ini se nezapnula redukce zna�ek.
-
-
-
-21.5.2003
-
-Pokra�uju v testov�n� star�ho train.pl a hled�n� optim�ln�
-konfigurace. V parser.ini, pou��van�m star�m train.pl, u� p�ibyl
-parametr upravovat_mzn = 1, kter� si p�e�te nov� parslib.pl. Pou�t�m
-star� train.pl s nov�m parslib.pl a s parser.ini upraven�m v��e
-uveden�m zp�sobem. V�stupem bude statistika-md.stat s datem 21.5.2003
-a �asem n�co po 12:28. Statistika obsahuje 3225713 ud�lost�. Velikost
-souboru je 68527045, to je ta �patn�. Chyba se tedy asi skr�v� v
-parslib.pl.
-
-
-
-22.5.2003
-
-Pr�ce na notebooku. Omezuji tr�novac� i testovac� data na
-�eskomoravsk� profit (soubory za��naj�c� na "c"). Nalezeno 252
-tr�novac�ch soubor�. Zpracov�no 11300 v�t. Nejdel�� v�ta obsahuje
-132 slov. Tr�nov�n� b�elo 4:56 minut (dal�� m��en�: 4:20, 4:18,
-4:34). Pr�m�rn� doba 272 vte�in, pr�m�rn� rychlost 42 v�t / s.
-Na Amazonce, ale s daty tahan�mi po s�ti z Conga, to trvalo 6:20.
-Kdy� se netahaj� data po s�ti, trv� to 6:19 (musel jsem nicm�n�
-vyu��t s��ov� slu�by a p�ipojit si lok�ln� disk jako s��ov�, ale
-hlavn� zpomalen� stejn� nejsp�� tkv� v procesoru a pam�ti).
-Pr�m�rn� rychlost ve Windows 2000 na Amazonce �in� 30 v�t / s.
-Statistika obsahuje 607328 ud�lost� a m� 12849 kB.
-
-S pou�it�m star�ho parslib.pl trv� tr�nov�n� 5:12 minut. Statistika
-obsahuje 607328 ud�lost� a m� 12847 kB.
-
-Upraven� star� parslib o rozd�l �. 3 (kontrola �sp�chu RE na <g> a
-<A>). 6:47 minut, 12847 kB. Tento rozd�l tedy roli nehraje.
-
-Star� parslib upraven o rozd�l �. 2 (volitelnost "upravovat_mzn").
-7:23 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
-
-Star� parslib upraven o rozd�l �. 1 (budov�n� $anot[$ord]{mznlist}).
-4:51 minut, 12847 kB. Tento rozd�l tak� nehraje roli. Rozd�l, kter�
-hled�me, nen� ve funkci zpracovat_slovo(), proto�e ta u� je te�
-v obou verz�ch stejn�.
-
-Vypr�zdn�na funkce transformovat_koordinace().
-5:46 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
-
-Zru�ena funkce transformovat_slozene_predlozky().
-5:29 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
-
-Vym�n�ny vnit�nosti funkce projit_data().
-4:58 minut, 12849 kB. Tady n�kde je ten rozd�l!
-
-Vnit�nosti vr�ceny, pouze p�id�na �prava zna�ek koncov� interpunkce.
-4:49 minut, 12849 kB. To je ono!
-
-
-
-23.5.2003
-
-Chyba byla v tom, �e se koncov� interpunkce ozna�ovala dvakr�t p�es
-sebe, jednou v parslib.pl a podruh� v train.pl. Po odstran�n�
-druh�ho ozna�ov�n� z train.pl a ponech�n� prvn�ho v parslib.pl m�
-v�sledn� statistika op�t jen 12847 kB. Tr�nov�n� trvalo 4:52 minut.
-Po spojen� takto opraven�ho train.pl s nov�m parslib.pl z�st�v�
-12847 kB.
-
-Nov� train.pl obsahuje jednak sv�j nov� k�d, jednak voliteln�
-kompletn� star� k�d. Star� po oprav� ozna�ov�n� koncov� interpunkce
-produkuje 12847 kB, nov� v�ak st�le nem� ani spr�vn� po�et ud�lost�
-(561619 m�sto 607328).
-
-��dek 141: netestovat Apos, ale jenom Coord
-��dek 174: pou�it� $anot[$i]{coordmember}
-��dky 183 a 184: pou�it� zd�d�n�ch zna�ek v z�vislostn�ch ud�lostech
-��dky 206 a� 257: podivn� else-blok, t�k� se asi koordinac�
-
-Do dom�c�ch testovac�ch dat za�azuji soubory za��naj�c� na "lu0".
-Celkem 9 soubor�, 445 v�t, 7901 slov. Testov�n� trv� 6:36 minut.
-G 5689 - B 2212 - P 72,0
-
-Pokus s �pravou tr�nov�n�. M�sto na p��m� testov�n�, zda j� nebo m�j
-rodi� m�me funkci Coord, se spol�h�me na anotaci coordmember, zji�-
-�ovanou p�i �ten� vstupu. Tato anotace ale zahrnuje i apozice a
-nept� se na m�ho rodi�e.
-Tr�nov�n� trvalo 5:09 minut, statistika obsahuje 557955 ud�lost� a
-m� 11885 kB. V�sledky testu:
-G 5697 - B 2204 - P 72,1
-
-V train.pl zavedeny dva rozskoky:
-$alt[0] = 0 ... coordmember je d�t� ko�ene koordinace, i kdyby nebylo
-                jej�m �lenem
-$alt[0] = 1 ... coordmember je �len koordinace, i kdyby nebyl d�t�tem
-                ko�ene, ale jeho vzd�len�j��m potomkem (t�eba p�es
-                p�edlo�ku)
-$alt[1] = 0 ... pouze Coord
-$alt[1] = 1 ... i Apos se zpracov�v� jako koordinace
-
-Konfigurace 00 odpov�d� star�mu (a zat�m nej�sp�n�j��mu) train.pl:
-5:10 minut, 607328 ud�lost�, 12847 kB.
-G 5689 - B 2212 - P 72,0
-
-Konfigurace 01 (p�idat Apos, ale nekomplikovat si �ivot vno�en�mi):
-4:50 minut, 597991 ud�lost�, 12672 kB.
-G 5680 - B 2221 - P 71,9
-
-Konfigurace 10 (hl�dat vno�en�, ale o apozice se nestarat):
-4:52 minut, 557955 ud�lost�, 11885 kB.
-G 5697 - B 2204 - P 72,1
-
-Konfigurace 11 (hl�dat vno�en� v�etn� apozic):
-5:06 minut, 555919 ud�lost�, 11845 kB.
-G 5700 - B 2201 - P 72,1
-
-$alt[2] = 0 ... vlastn� morfologick� zna�ky
-$alt[2] = 1 ... zd�d�n� morfologick� zna�ky
-
-Konfigurace 111 (nav�c zd�d�n� zna�ky; nem�lo by smysl, kdyby vlastnost
-�. 0 (prvn�) byla 0, proto�e pak by se m�sta, kde jde o d�d�n� zna�ky,
-vynech�vala):
-5:35 minut, 560668 ud�lost�, 12042 kB.
-G 5682 - B 2219 - P 71,9
-
-Konfigurace 1100 (kontroln�; �tvrt� vlastnost pokr�v� zat�m cel�
-else blok t�kaj�c� se koordinac�):
-5:33 minut, 556348 ud�lost�, 11864 kB.
-G 5723 - B 2178 - P 72,4
-To je p�ekvapiv� dobr�. Na druhou stranu a� te� se dostaly ke slovu
-n�kter� ��sti, kter� se maj� starat o koordinace, v�ak jsem se divil,
-�e nejsou v provozu. ��ste�n� o koordinace p�ece bylo postar�no u�
-d�vno. Jen mi nejde do hlavy, �e verze 00, kter� tyto ��sti tak�
-vyp�n�, by podle m�ch pokus� m�la b�t ekvivalentn� s verz�, kter�
-byla na velk�ch datech dosud hodnocena jako nej�sp�n�j��!
-
-Intermezzo: Testuji tent�� train.pl v t�e konfiguraci (1100) na
-loki s velk�mi daty. 73088 v�t, 2956228 ud�lost�. Tr�nov�n� trvalo
-16:51 minut. Anal�za trvala 31:24 minut. V�sledky:
-G 90765 - B 35265 - P 72,0
-
-
-
-27.5.2003
-
-Pozor, koordina�n� ud�losti se zpracov�vaj� na dvou r�zn�ch m�stech:
-postaru p�ed z�vislostmi, nov� po z�vislostech. Sou�asn� verze tedy
-n�kter� ud�losti eviduje dvakr�t. Te� jsem cel� druh� koordina�n�
-blok zakomentoval a pokou��m se zopakovat v�sledky pro konfiguraci
-0000. Povedlo se. 4:59 minut, 607328 ud�lost�, 12847 kB.
-
-Jednoduch� kr��ek, koordina�n� blok jsem p�esunul dozadu k tomu
-zakomentovan�mu (je ale o �rove� v�� ve vlastn� smy�ce, to jsem
-zachoval). Nem�lo by se nic zm�nit, ale zm�nilo se :-(. 4:20 minut,
-547314 ud�lost�, 11684 kB.
-
-Tak jinak. Zpracov�n� koordinac� je na p�vodn�m m�st�, ale odstranil
-jsem z n�j vol�n� funkce transformovat_koordinace(). 4:31 minut,
-607328 ud�lost�, 12847 kB. P�i�el jsem na to, pro� asi hraje roli,
-jestli se koordinace zpracov�vaj� p�ed z�vislostmi, nebo po nich. Ve
-star�m zpracov�n� koordinac� se toti� m�n� morfologick� zna�ka
-v ko�eni koordinace.
-
-Koordinace p�esunuty do samostatn� procedury. Kontroln� b�h train.pl.
-4:43 minut, 606506 ud�lost� (jakto?!), 12836 kB. Opravena chyba
-v odkazech. 4:54 minut, 607328 ud�lost�, 12847 kB. Zru�ena procedura
-evidovat_udalosti() (�lo jen o kopii star� tr�novac� procedury, u�
-nepou��vanou). 4:50 minut, 607328 ud�lost�, 12847 kB. Dokon�eno
-napojov�n� koordinac� na voliteln� rozskoky pro d�d�n� zna�ky. 5:01
-minut, 607328 ud�lost�, 12847 kB.
-
-Dal�� testov�n�, �e se zachovala nejen velikost statistiky, ale i
-�sp�nost anal�zy.
-Konfigurace 0000, parse.pl pro v�echny pokusy nezm�n�n.
-5:01 minut - 607328 ud�lost� - 12847 kB (neli�� se)
-6:30 minut - G 5689 - B 2212 - P 72,0 (neli�� se)
-
-Konfigurace 1000 (nov� zp�sob rozpozn�n� �lena koordinace):
-5:09 minut - 558561 ud�lost� - 11904 kB (li�� se od 10 zkou�. minule)
-6:05 minut - G 5695 - B 2206 - P 72,1 (o 2 hor�� ne� 10 minule)
-
-Konfigurace 0100 (apozice, ale rozpozn�n� �lena postaru):
-5:01 minut - 606744 ud�lost� - 12882 kB (li�� se)
-6:25 minut - G 5675 - B 2226 - P 71,8 (hor�� o 5)
-
-Konfigurace 1100 (nov� rozpozn�n� �lena + apozice):
-5:00 minut - 558997 ud�lost� - 11958 kB (li�� se)
-6:15 minut - G 5674 - B 2227 - P 71,8 (hor�� o 26)
-
-Konfigurace 1001 (nov� rozpozn�n� �lena + zd�d�n� zna�ky v koord):
-4:46 minut - 551019 ud�lost� - 11784 kB
-6:13 minut - G 5726 - B 2175 - P 72,5 (zat�m nejlep�� v�sledek)
-
-Konfigurace 1010 (nov� rozpozn�n� �lena + zd�d�n� zna�ky v z�visl):
-4:55 minut - 563541 ud�lost� - 12115 kB
-6:22 minut - G 5683 - B 2218 - P 71,9
-
-Konfigurace 1011 (nov� rozpozn�n� �lena + zd�d�n� v�ude):
-5:16 minut - 552908 ud�lost� - 11872 kB
-6:27 minut - G 5683 - B 2218 - P 71,9 (zvl�tn�: shodn� v�sledek s 1010, i kdy� statistika je jin�)
-
-Konfigurace 1101 (nov� rozpozn�n� �lena + apozice + zd�� v koord):
-5:16 minut - 551473 ud�lost� - 11851 kB
-6:19 minut - G 5717 - B 2184 - P 72,4
-
-Konfigurace 1110 (nov� rozpozn�n� �lena + apozice + zd�� v z�vis):
-4:55 minut - 564657 ud�lost� - 12180 kB
-6:14 minut - G 5667 - B 2234 - P 71,7
-
-Konfigurace 1111 (�pln� p�echod na apozice a zd�d�n� zna�ky):
-4:56 minut - 552929 ud�lost� - 11910 kB
-6:15 minut - G 5673 - B 2228 - P 71,8
-
-Z�v�r: obecn� se zd�, �e zahrnut� apozic nepom�h�. Ani jejich
-vypnut� v�ak samo o sob� nevede k nejvy��� �sp�nosti, p�esto�e
-konfigurace 1011 by mi p�i�la z t�ch bez apozic je�t� jako nej�ist��
-�e�en�.
-
-
-
-5.6.2003
-
-Op�t na lokim s velk�mi daty. I tady vyzkou��me n�kolik konfigurac�,
-ale asi u� ne v�echny. Konfigurace 1111.
-13:45 minut - 2927372 ud�lost� - 63160948 B
-31:24 minut - G 90811 - B 35219 - P 72,1
-
-
-
-11.6.2003
-
-Konfigurace 0000 (podle posledn�ch zku�enost� s velk�mi daty by to
-m�la b�t ta nejlep��).
-16:44 minut - 3225713 ud�lost� - 68517516 B
-31:46 minut - G 90992 - B 35038 - P 72,2
-
-Konfigurace 1001 (byla nejlep�� na mal�ch datech).
-12:03 minut - 2928036 ud�lost� - 62868492 B
-31:16 minut - G 91256 - B 34774 - P 72,4
-
-NOV� NEJLEP�� V�SLEDEK!
-Ukl�z�m rozvrtan� verze a potvrd�m CVS. Alternativy v train.pl
-z�stanou p�ep�nateln�, ale p�ep�n�n� nep�jde ovl�dat z konfigura�n�ho
-souboru (bude se muset prov�d�t p��mo ve zdroj�ku) a defaultn� z�stane
-zapnut� konfigurace 1001, co� znamen�:
-- rozpozn�n� �lena koordinace nov�m zp�sobem (porad� si s �lenem,
-  kter� nen� bezprost�edn�m d�t�tem koordina�n�ho ko�ene, n�br� je
-  zav�en nap�. p�es p�edlo�ku)
-- apozice se nepova�uje za koordinaci a nijak zvlṻ se nezpracov�v�
-- p�i tr�nov�n� z�vislost� se nepou��vaj� zd�d�n� zna�ky
-- p�i tr�nov�n� koordinac� se naopak zd�d�n� zna�ky pou��vaj�
-Posledn� dva body znamenaj�:
-
-P�i zaznamen�v�n� ud�losti KZZ (koordinace dvou zna�ek) zji��ujeme
-seznam zna�ek m�ch partner� ze seznamu zd�d�n�ch zna�ek ko�ene
-koordinace. Na rozd�l od star��ho p��stupu by tenhle m�l b�t odoln�j��
-v��i vno�en�m koordinac�m a p�edlo�k�m. D��ve se proch�zely v�echny
-uzly ve v�t�, o ka�d�m se zjistilo, zda je to �len koordinace, a pokud
-byl, jeho zna�ka (ze @znacky) se p�idala do @koortypy; z�rove� se
-p�idala KZZ pro n�j a v�echny ji� d��ve nalezen� @koortypy.
-
-Pozoruhodn� je, �e z�ejm� navlas stejn� zaznamen�v�n� ud�losti KZZ se
-d�je v bloku zpracovat_vetu() i ve z n�j volan�m bloku
-projit_koordinace(). Mus�m zjistit, zda je to pot�eba kv�li jin�m
-alternativ�m, nebo zda se do jedn� z kopi� b�h nikdy nedostane, nebo
-zda se dokonce prov�d�j� ob� kopie a ka�d� koordinace se zaeviduje
-dvakr�t!
-
-Skute�n� se volaj� ud(KZZ) na obou m�stech. Probl�m ale bude
-komplikovan�j��, proto�e poka�d� jsou parametry KZZ jin� zna�ky.
-
-
-
-12.6.2003
-
-Opraveno ukl�d�n� koordinac� se �patn�mi zna�kami. Zat�m neopraveno
-dvoj� ukl�d�n� koordinac�. Konfigurace 1001.
-13:46 minut - 2927251 ud�lost� - 62851146 B
-31:37 minut - G 91320 - B 34710 - P 72,5
-
-Vypnuto druh� ukl�d�n� koordinac�, prvn� ponech�no.
-13:40 minut - 2927054 ud�lost� - 62848982 B
-30:59 minut - G 91155 - B 34875 - P 72,3
-
-Nov� pokus o popis v�t�zn� konfigurace 1001:
-1) �len koordinace se pozn�v� nov�m algoritmem, zvl�daj�c�m vno�en�
-koordinace a p�edlo�ky v koordinac�ch.
-2) Apozice se nepova�uj� za koordinace a zach�z� se s nimi jako s p�ry
-oby�ejn�ch z�vislost�.
-3) Z�vislostn� ud�losti se sestavuj� z vlastn�ch zna�ek ��d�c�ho a
-z�visl�ho uzlu, nikoli z t�ch zd�d�n�ch. Dokonce se z�ejm� ned�l� ani
-to, co se d�lalo kdysi, toti� �e ko�en koordinace bude v z�vislostech
-n��eho na koordinaci �i koordinace na n��em zastoupen zna�kou prvn�ho
-nebo posledn�ho �lena koordinace. To by byla chyba! Koordinace by v
-z�vislostech m�la b�t reprezentov�na n���m lep��m ne� zna�kou spojky.
-4) Koordina�n� ud�losti se sestavuj� nov�m algoritmem, kter� vych�z�
-ze zd�d�n�ch zna�ek ko�ene. Mj. se t�m zajist� spr�vn� zapo��t�n�
-vno�en�ch koordinac�. (Star� algoritmus proch�zel v�echny uzly v�ty,
-pokud na�el �lena dan� koordinace, sp�roval ho obousm�rn� se v�emi
-d��ve nalezen�mi �leny t�to koordinace. Nov� algoritmus p�ruje jen
-jednosm�rn�, ale zato se v�emi �leny, tedy i s t�mi, kte�� ve v�t�
-n�sleduj� a� za pr�v� nalezen�m �lenem.)
-
-Opravena chyba: zna�ka prvn�ho �lena koordinace se nekop�rovala do
-ko�ene koordinace za ��elem sestavov�n� z�vislostn�ch ud�lost�, kde
-n�co z�vis� na koordinaci nebo koordinace z�vis� na
-n��em. (Techni�t�ji: $alt[2] se nep�ed�valo do a nepou��valo v
-procedu�e projit_koordinace().)
-
-14:00 minut - 2964897 ud�lost� - 63267805 B
-32:29 minut - G 89598 - B 36432 - P 71,1
-
-Ach jo. Zas jedna oprava chyby, kter� tot�ln� zkaz� �sp�nost. Zkus�me
-tedy je�t� jednou zapnout zd�d�n� zna�ky pro koordinace vstupuj�c� do
-z�vislost�. Konfigurace 1011.
-
-12:22 minut - 2932518 ud�lost� - 63163328 B
-31:01 minut - G 90852 - B 35178 - P 72,1
-
-
-
-17.6.2003
-
-Vzhledem k oprav�m minul� �tvrtek je bohu�el na m�st� op�t
-zkontrolovat, zda konfigurace 0000 je�t� st�le dosahuje stejn�
-�sp�nosti jako kdysi (i kdy� tato �sp�nost u� nen� nejlep�� v
-historii, lep�� �sp�nosti zat�m byly dosa�eny jen s pomoc� chyby, a
-tedy omylem a neod�vodn�n�).
-
-Pozn�mka 19.6.2003: p�ib�vaj� dal�� konfigurace, �ad�m je sestupn�
-podle �sp�nosti.
-
-Konfigurace 0010.
-
-13:15 minut - 2942371 ud�lost�
-29:44 minut - G 91258 - B 34772 - P 72,4
-
-Konfigurace 0011.
-
-13:11 minut - 2943053 ud�lost�
-30:47 minut - G 91103 - B 34927 - P 72,3
-
-Konfigurace 0110.
-
-13:01 minut - 2892516 ud�lost�.
-30:42 minut - G 91027 - B 35003 - P 72,2
-
-Konfigurace 0000.
-
-15:50 minut - 3225713 ud�lost�
-30:20 minut - G 90992 - B 35038 - P 72,2
-
-Konfigurace 1010.
-
-11:34 minut - 2932361 ud�lost�
-30:26 minut - G 90966 - B 35064 - P 72,2
-
-Konfigurace 1000.
-
-13:25 minut - 2969063 ud�lost�
-31:14 minut - G 90881 - B 35149 - P 72,1
-
-Konfigurace 0100.
-
-12:42 minut - 3216376 ud�lost�
-31:43 minut - G 90733 - B 35297 - P 72,0
-
-Konfigurace 1111.
-
-13:12 minut - 2926483 ud�lost�
-31:01 minut - G 90713 - B 35317 - P 72,0
-
-Konfigurace 0001.
-
-12:39 minut - 3209963 ud�lost�
-30:15 minut - G 89827 - B 36203 - P 71,3
-
-Konfigurace 1001.
-
-13:15 minut - 2964897 ud�lost�
-31:58 minut - G 89598 - B 36432 - P 71,1
-
-
-
-20.6.2003
-
-Dal�� konfigurace (zb�v� jich 6) u� nebudu testovat. Nov� nejlep��
-konfigurace je tedy 0010 s �sp�nost� 72,4 (91258). Tato konfigurace
-znamen�, �e:
-- �lenstv� v koordinaci se zji��uje postaru (tj. chybn�!)
-- apozice se nepova�uj� za koordinace
-- ko�en koordinace jako �. i z. �len z�vislost� pou��v� zd�d�n� zna�ky
-- v koordina�n�ch ud�lostech se zd�d�n� zna�ky nepou��vaj�
-Nastav�m tuto konfiguraci v train.pl a provedu cvs commit, pak ale
-znova zapnu i nov� zji��ov�n� �lenstv� v koordinaci a ob�tuju dv�
-desetiny procenta �sp�nosti ve prosp�ch spr�vn�ho postupu. D�le se
-tedy bude pokra�ovat s konfigurac� 1010, kter� m� �sp�nost 72,2
-(90966, co� je nepatrn� m�n�, ne� m�la dosavadn� 0000).
-
-
-
-Zkus�me ka�dou koordinaci (ud�lost KZZ) zapo��tat s dvojn�sobkem
-skute�n� �etnosti. Kdy� jsme n�co podobn�ho ud�lali omylem, �sp�nost
-se zv��ila; nen� akor�t jist�, �e to bylo t�mhle a ne je�t� n�jakou
-jinou chybou.
-
-13:25 minut - 2942371 ud�lost�
-29:10 minut - G 91763 - B 34267 - P 72,8
-
-To jsou v�ci... Zkus�m tedy, co se stane, kdy� se ka�d� koordinace
-zapo��t� t�ikr�t.
-
-13:18 minut - 2942371 ud�lost�
-30:14 minut - G 91971 - B 34059 - P 73,0
-
-
-
-26.6.2003
-
-Tr�nuju konfiguraci 1010 (v p�tek jsem a� do ve�era m�l zapnuto 0010),
-nech�v�m v�ak zapnuto trojn�sobn� zv�hodn�n� koordinac� proti
-z�vislostem.
-
-12:46 minut - 2932361 ud�lost�
-29:45 minut - G 91209 - B 34821 - P 72,4
-
-Pokus: n�siln� �prava funkce projit_koordinace(). Jestli�e m�
-koordinace jen jednoho �lena, vyma�e se ji� zaznamenan� ud�lost KJJ,
-nezaznamen� se ud�lost KZZ a m�sto toho se zaznamen� z�vislostn�
-ud�lost OZZ (jako z�stupce; ostatn� m�n� d�le�it� z�vislostn� ud�losti
-se zat�m nezaznamen�vaj�).
-
-11:17 minut - 2861004 ud�lost�
-29:43 minut - G 90400 - B 35630 - P 71,7
-
-Nijak slibn� to tedy nevypad�. Pokus ru��m a jedno�etn�mi koordinacemi
-se v t�to chv�li nebudu d�le zab�vat.
-
-
-
-27.6.2003
-
-POZOR! Nov� zp�sob zji��ov�n� �lenstv� v koordinaci je sice v n��em
-spr�vn�j��, ale zase ka�le na to, zda m�m nebo nem�m vypnut� apozice!
-Zkou��m je zat�m natvrdo vypnout v parslib.pl.
-
-13:38 minut - 2963729 ud�lost�.
-29:53 minut - G 91235 - B 34795 - P 72,4
-
-Abych mohl v�bec je�t� n�kdy n�co upravovat v train.pl, budu muset
-alternativy, kter� jsem v posledn�ch t�dnech vytvo�il, zase n�jak
-zkompaktnit a v�bec to cel� form�ln� upravit. Bylo by dobr�, kdyby i
-tak z�stala mo�nost alternativy p�ep�nat, ale hlavn� je nutn�, abych
-si nezkazil sou�asnou nejlep�� �sp�nost.
-
-Kontrola �sp�nosti:
-11:51 minut - 2963729 ud�lost�.
-30:07 minut - G 91235 - B 34795 - P 72,4
-
-
-
-30.6.2003
-
-Nov� druh ud�losti KMM ud�v�, �e uzel s jistou morfologickou zna�kou
-byl �lenem koordinace. Po vyd�len� p��slu�n�m po�tem ud�lost� UZZ by
-m�la vzniknout pravd�podobnost zapojen� uzlu do koordinace.
-
-Podle o�ek�v�n� z toho ��dn� z�zrak nevypadl.
-
-G 89526 - B 36504 - P 71,0
-
-
-
-1.7.2003
-
-Valence. N�vrat k tomu, o �em jsem psal do Taibei. Naposled jsem se
-t�m zab�val zhruba p�ed rokem, kdy� jsem odevzd�val kone�nou verzi
-�l�nku. Proto�e tehdy nebylo jist�, zda seznam slovesn�ch valenc� z
-Philadelphie byl ten nejlep��, ke kter�mu jsem se v roce 1999 dostal,
-pokus�m se ho z�skat znova. Tentokr�t p��mo perlov�m tr�nova�em,
-prost�ednictv�m ud�lost� nad zd�d�n�mi zna�kami, z cel�ho PDT 1 a pro
-v�echna slova (nejen slovesa). Budou to ud�losti, kde na jedn� stran�
-bude st�t heslo ��d�c�ho uzlu, na druh� stran� abecedn� se�azen�
-zd�d�n� morfologick� zna�ky z�visl�ch uzl�. Ze z�visl�ch uzl� se
-tentokr�t nebudou um�le vyhazovat podm�ty (podstatn� jm�na v prvn�m
-p�d�). U ��d�c�ch sloves se za samostatn� heslo budou pova�ovat tvary
-trpn�ho p���est�, jinak se heslo v�dy vezme z morfologick� roviny.
-
-18:29 minut - 3231635 ud�lost�, z toho 267906 RAM.
-
-Odbo�ka, post�eh: p�ivlast�ovac� a ukazovac� z�jmena se odte� budou
-p�i tr�ninku i p�i anal�ze pova�ovat za p��davn� jm�na.
-
-17:20 minut - 3224091 ud�lost�.
-30:03 minut - G 91035 - B 34995 - P 72,2
-
-Zhor�en�, vrac�m do p�vodn�ho stavu.
-
-18:43 minut - 3231635 ud�lost�.
-30:00 minut - G 91235 - B 34795 - P 72,4
-
-�sp�nost se vr�tila na dosavadn� maximum.
-
-
-
-2.7.2003
-
-Pokus s kr�tk�mi v�tami. V�echny v�ty d�lky 5 slov a m�n� se p�i
-tr�ninku zaznamenaj� jako ud�lost VET <vzor> <strom>, kde vzor bude
-posloupnost morfologick�ch zna�ek, zaznamenan� podobn� jako r�mec
-(zna�ky jsou odd�leny vlnovkou) a strom bude posloupnost ��sel, kter�
-pro ka�d� slovo ur�� odkazem jeho rodi�e. Nap�.:
-VET Rk~A3~N3 0,3,1
-
-13:22 minut - 3235652 ud�lost�, z toho 4018 VET.
-29:46 minut - G 91388 - B 34642 - P 72,5
-
-Zkus�me roz���en� na v�ty o �esti slovech.
-
-16:54 minut - 3237584 ud�lost�, z toho 5950 VET.
-30:51 minut - G 91391 - B 34639 - P 72,5
-
-Zlep�en� u� bylo dost nepatrn� a mo�n� by se s ohledem na nap�chan�
-�kody m�lo rad�ji z�stat u v�t do d�lky 5, ale p�esto se zkus�me je�t�
-pod�vat na v�ty o sedmi slovech. Tam u� pravd�podobn� dojde ke
-zhor�en�, ale kdo v�...
-
-13:54 minut - 3239777 ud�lost�, z toho 8143 VET.
-29:49 minut - G 91491 - B 34539 - P 72,6
-
-Dobr�, zkus�me je�t� v�ty o osmi slovech.
-
-13:42 minut - 3242203 ud�lost�, z toho 10569 VET.
-36:16 minut - G 91511 - B 34519 - P 72,6
-
-
-
-3.7.2003
-
-Pou�t�m se do disertace, p��padn� v�stupy n�sleduj�c�ch t�dn� se
-mo�n� objev� p��mo v n�.
-
-
-
-8.8.2003
-
-M�l jsem povyp�nan� zpracov�n� koordinac�, rad�ji zkontroluju, �e
-po��d je�t� um�m dos�hnout t� nejvy��� �sp�nosti.
-
-17:21 minut - 3242203 ud�lost�
-31:28 minut - G 91539 - B 34491 - P 72.6
-
-
-
-2.9.2003
-
-Selektivn� lexikalizuji vzta�n� z�jmena (kdo, co, kter�, jak�, ��,
-jen�) heslem. �sp�nost se zv��ila, ale jen nepatrn�.
-
-18:16 minut - 3262065 ud�lost� (011)
-33:12 minut - G 91550 - B 34480 - P 72,6
-
-Podobn� pokus, ale m�sto hesla p�id�v�m jen "W" (za "wh").
-
-17:38 minut - 3252683 ud�lost� (013)
-34:45 minut - G 91531 - B 34499 - P 72,6
-
-Vrac�m zp�t lexikalizaci heslem. Pokus o roz���en�: lexikalizuji
-v�echna z�jmena, nejen vzta�n�.
-
-14:29 minut - 3301172 ud�lost� (015)
-33:50 minut - G 91555 - B 34475 - P 72,6
-
-M�rn�j�� pokus: lexikalizuji osobn�, p�ivlast�ovac�, ukazovac� a
-vzta�n� (tj. nejb�n�j�� uzav�en� t��dy). Jde o z�jmena za��naj�c� na
-j�, ty, on, my, vy, m�j, tv�j, jeho, jej�, n�, v�, jejich, sv�j,
-ten, tento, tenhle, onen, takov�, t��, tent��, s�m, kdo, co, kter,
-jak, ��, jen�. Nastalo sice dal�� m�rn� zlep�en�, ale v c�lov� verzi
-parseru tuto �pravu nenech�m, proto�e je jazykov� z�visl�.
-
-18:22 minut - 3293735 ud�lost� (018)
-36:23 minut - G 91561 - B 34469 - P 72,7
-
-Vr�cena selektivn� lexikalizace v�ech z�jmen. P�id�na selektivn�
-lexikalizace pod�ad�c�ch spojek (dosud se lexikalizovaly pouze spojky
-za��naj�c� na "�e", "aby" a "zda").
-
-21:26 minut - 3316716 ud�lost� (020)
-30:09 minut - G 91344 - B 34686 - P 72,5
-
-Selektivn� lexikalizace pod�ad�c�ch spojek vr�cena do p�vodn�ho stavu.
-P�id�na selektivn� lexikalizace vybran�ch p��slovc�. Jsou vymezena v��tem
-p��mo ve zdroj�ku, ale p�i tro�e pr�ce je lze vymezit jazykov� nez�visle
-pro tr�nink i test jako takov� p��slovce (tvary, ne hesla), kter� se
-v tr�novac�ch datech vyskytla alespo� stokr�t. Bohu�el nejde pou��t
-rozli�en� zna�ek Db a Dg, i kdy� v�t�ina nej�ast�j��ch p��slovc� m� Db.
-Nap��klad des�t� nej�ast�j�� p��slovce "v�ce" se ��astn� konstrukc�, kv�li
-kter�m stoj� za to zkusit lexikalizaci, ale toto p��slovce m� zna�ku Dg
-(proto�e je to druh� stupe� p��slovce "hodn�").
-
-9 nej�ast�j��ch p��slovc�:
-1. tak (2101) 2. jak (1638) 3. u� (1611) 4. tak� (1566) 5. ji� (1344)
-6. je�t� (1314) 7. v�era (1293) 8. tedy (990) 9. pak (952)
-5 nej�ast�j��ch p��slovc� se zna�kou Dg:
-10. v�ce (946) 26. stejn� (448) 36. z�ejm� (377) 41. �asto (357)
-46. m�n� (335)
-
-20:37 minut - 3439991 ud�lost� (022)
-30:18 minut - G 91944 - B 34086 - P 73,0 (!!!)
-
-
-
-3.9.2003
-
-Nov� pokus rozchodit subkategorizaci. Pro za��tek (��slo pokusu 24) jsem
-v parser.ini zapnul valence=1. Na��t� se star� philadelphsk� seznam r�mc�
-z /home/zeman/programy/valence/seznam_ramcu.txt.
-
-G 91837 - B 34193 - P 72,9
-
-�sp�nost se sn��ila. Nechce se mi hned te� zkoumat, kde je probl�m.
-Soubor 0 = /home/zeman/data/test.amm, zna�ka = <g>
-Soubor 1 = 023.csts, zna�ka = <MDg.*?src="dz".*?>
-Soubor 2 = 024.csts, zna�ka = <MDg.*?src="dz".*?>
- 91639   0+1+2     (oba dob�e)
- 33690   0,1+2     (oba stejn� �patn�)
-   198   0,1,2     (oba �patn�, ka�d� jinak)
-   305   0+1,2     (zhor�en�)
-   198   0+2,1     (zlep�en�)
-
-
-
-5.9.2003
-
-Parser vr�cen do stavu z 2.9.2003, pou�it model 033.stat.
-
-G 91944 - B 34086 - P 73,0
-
-
-
-8.9.2003
-
-P�estavba. Pot�ebuju zachovat neredukovan� zna�ky pro v�stup, ale
-sou�asn� parser si je nepamatuje. Po p�estavb� budou v�echny anotace
-krom� vlastn�ho slovn�ho tvaru ulo�en� v poli hash� @anot. Pak se
-budou nov� druhy anotac� p�id�vat snadn�ji. V pr�b�hu p�estavby se
-budou muset prov�d�t �ast� kontroly alespo� na prvn�ch 200 v�t�ch,
-�e to je�t� funguje. Vzorov� anal�za (lu0*.csts) m� n�sleduj�c�
-v�sledky:
-
-G 5889 - B 2012 - P 74,5
-
-Prvn� etapa: $hesla[$i] nahrazena $anot[$i]{heslo}.
-parse.pl OK (G 5889)
-Druh� etapa: $znacky[$i] nahrazeny $anot[$i]{uznacka},
-$mznacky[$i] nahrazeny $anot[$i]{znacka}. To byl trochu v�t�� boj,
-snad posledn� probl�m je s kr�tk�mi v�tami, z�ejm� se te� ve vzorci
-objevuje zna�ka koncov� interpunkce s K (t�eba Z.K) a v natr�novan�
-statistice to tak nen�. Zaz�platoval jsem to v parse.pl, ale mo�n�
-to zas nebude chodit po nov�m p�etr�nov�n�, to se ka�dop�dn� mus�
-ov��it! Tak�e zat�m m�m ov��eno parse.pl na mal�ch datech
-(lu0*.csts). Te� p�ed odchodem pou�t�m tot� na velk�ch datech a pak
-tak� train.pl a je�t� jednou parse.pl, aby se ov��ilo, �e se
-nepokazil ani tr�nink.
-
-
-
-9.9.2003
-
-V�era podle o�ek�v�n� zafungovalo upraven� parse.pl nad starou statistikou,
-ale nezafungovalo po p�etr�nov�n�. Dnes jsem op�t zru�il �pravu a vzorce
-kr�tk�ch v�t tedy v�dy maj� zna�ku koncov� interpunkce roz���enou o "K".
-Bohu�el se n�kam ztratily 3 z�vislosti.
-
-G 91941 (m�sto 91944) - B 34089 - P 73,0
-
-Porovn�v�m statistiky 033 a 055 a logy 042 a 057. Ve statistik�ch se li��
-pouze nov�j�� ud�losti ARG, ADJ, RAM a VET - n�kter� z nich d��ve nem�ly ve
-zna�ce koncov� interpunkce na konci "K", a �ada z nich d��ve nem�la v hesle
-ko�ene dvojk���. Bohu�el se t�m asi nevysv�tluje pokles �sp�nosti. Ze srovn�n�
-log� je vid�t, �e ud�losti KZZ maj� poka�d� trochu jin� �etnosti. Jak k tomu
-ale mohlo doj�t, kdy� statistiky se v ��dc�ch KZZ neli��?
-
-
-
-15.9.2003
-
-Probl�m byl zp�soben t�m, �e n�kter� pravd�podobnosti byly z�visl� na prom�nn�
-$scelkem, co� byl bu� sou�et �etnost� v�ech evidovan�ch ud�lost�, nebo po�et
-r�zn�ch ud�lost�. Kdy� jsme p�idali do statistiky ud�losti, zm�nily se n�kter�
-pravd�podobnosti a ob�as to vedlo k v�b�ru jin� z�vislosti. A to p�esto, �e
-p�idan� ud�losti nem�ly s jevy, jejich� pravd�podobnost se zm�nila, v�bec nic
-spole�n�ho!
-
-�e�en�: ru��m "absolutn� pravd�podobnosti" ($konfig{pabs} je v sou�asn�
-konfiguraci stejn� nastaveno na 0), kv�li kter�m se $scelkem hlavn� pou��valo.
-Tam, kde se $scelkem pou��valo i p�i $konfig{pabs}==0, �lo o chybu. A i kdybych
-se v budoucnosti cht�l ke $konfig{pabs} vr�tit, muselo by se ve jmenovateli
-pou��vat n�jak� jin� ��slo, kter� se nezm�n�, pokud se nezm�n� statistiky,
-kter� se objevuj� v �itateli.
-
-Upozorn�n�: �sp�nost t�m nejsp�� je�t� v�ce klesne. Zkus�me ji pak pozvednout
-dal��m um�l�m zv�hodn�n�m koordinac� (t�eba �e se koordina�n� ud�losti budou
-p�i tr�ninku zaznamen�vat t�ikr�t nebo �ty�ikr�t).
-
-G 92022 - B 34008 - P 73,0
-
-Tak kupodivu tentokr�t �sp�nost naopak m�rn� p�ekonala dosavadn� rekord!
-Ud�l�m tedy cvs commit a vr�t�m se k v�zkumu ��rlivosti (�lo o to zjistit,
-kolikr�t parser zav�sil dva ��rlivce vedle sebe, kolikr�t byl jeden nebo oba
-�patn� atd.)
-
-S ��slov�n�m pokus� za��n�me op�t znova od za��tku, p�etr�nujeme s jedni�kou.
-
-3439995 ud�lost�, 20:43 minut
-G 92022 - B 34008 - P 73,0
-
-
-
-8.3.2004
-
-P�estavba parse.pl na parse1.pl a �adu modul�. Na souboru lu01 u� se
-p�vodn� i nov� parser chovaj� identicky. Podle v��e uveden�ch z�znam�
-ze z��� to v�ak vypad�, �e na cel�ch datech jsou po��d je�t�
-rezervy. N�sleduj� v�sledky nov�ho parseru (parse1):
-
-G 91933 - B 34097 - P 72,9
-
-Ukazuje se ov�em, �e parse.pl je na tom v sou�asn� dob� �pln�
-stejn�. Matn� si vzpom�n�m, �e n�kdy na podzim, kdy jsem nevedl
-po��dn� z�znamy, jsem se rozhodl odstranit n�jakou syst�movou chybu i
-za cenu toho, �e moment�ln� to lehce po�kod� �sp�nost.
-
-P�id�v�m nov� moduly do CVS a potvrzuji stav CVS. Prozat�m ponech�v�m
-nov� verzi jm�no parse1 a star� parse. V p���t� verzi se to asi u�
-zm�n�.
-
-
-
-10.4.2004
-
-Dal�� �prava parse1.pl kv�li znovurozchozen� subkategorizace.
-Po��te�n� m��en� mi poskytne srovn�n�, podle kter�ho bych m�l
-poznat, �e jsem zp�sobil chybu. Pou��v�m o�ezan� model 4013
-(chyb� ud�losti vid�n� jen jednou nebo m�n�kr�t). Testuju na prvn�m
-souboru lu01.
-
-G 680 - B 239 - P 74,0
-
-Pro za��tek p�ejdu z vol�n� parslib.pl na pou��v�n� csts.pm.
-Sou�asn� zru��m pou��v�n� pole @slova.
-
-
-
-11.4.2004
-
-Po dni pr�ce se mi poda�ilo za��dit, aby i upraven� parser d�val po�adovanou
-�sp�nost.
-
-G 680 - B 239 - P 74,0
-
-
-
-22.4.2004
-
-Pou�t�m parser na frekim se v�� par�dou, v�etn� n-tic. D�v� o p�l procenta vy���
-�sp�nost ne� bylo dosud b�n�. Odpov�d� to tomu, jak si pamatuju ��inek n-tic,
-ale v tomto z�znamu nem��u naj�t p��slu�n� ��slo, abych zjistil, zda to sed� p�esn�.
-
-G 92594 - B 33436 - P 73,5 - b�h 5031
-
-��elem dne�n� seance je ov��it vliv valence (pravd�podobn� zanedbateln�) na �sp�nost
-v sou�asn�ch podm�nk�ch. Mus� se to toti� napsat do disertace. Modul valence se
-kv�li tomu mus� opr�it a znovu rozchodit.
-
-G 92532 - B 33498 - P 73,4 - b�h 5032
-
-
-
-23.4.2004
-
-Pseudoval = 0, valence = 1.
-
-G 92458 - B 33572 - P 73,4 - b�h 5033
-
-Pseudoval = 0, valence = 0.
-
-G 92525 - B 33505 - P 73,4 - b�h 5034
-
-T�m bylo prozat�m u�in�no zadost pot�eb� ��sel v disertaci. Te� se vr�t�m k r�zn�m
-projev�m subkategorizace sloves, konkr�tn� k p�eskakov�n� slovesa z�vislost�.
-V b�hu 5031 (viz prvn� v�erej�� v�sledek, G 92594) hled�m v�echny p��pady, kdy
-n�jak� z�vislost p�esko�ila sloveso. D�l�m je na spr�vn� a chybn� a hled�m takov�,
-kter� jsou v drtiv� v�t�in� p��pad� (> 90 %) chybn�. D�l�m je podle upraven�ch
-zna�ek p�esko�en�ho slovesa, ��d�c�ho a z�visl�ho uzlu. Nej�etn�j�� chybn� jsou:
-(vysv�tlivky: po�et v�skyt� - procenta chybn�/celkem - zna�ka slovesa - ��d�c�ho - z�visl�ho - 0/1 chybn�/spr�vn�
-168x (91,3%) Vf VB N4 0
-120x (90,9%) Vf Vp N4 0
- 98x (89,1%) Vf Vp Z, 0
- 92x (82,9%) Vf VB Z, 0
- 88x (40,2%) Vp #  J^ 0
- 87x (92,6%) Vf VB J^ 0
-Celkem sou�et takov�ch p�esko�en�, kter� byla chybn� ve v�ce ne� 90 % p��pad�: 4946.
-Kdyby se 90 % z t�chto p��pad� (4451) p�idalo do spr�vn�ch z�vislost�, byla by
-�sp�nost 77 %! Jen�e to by vy�adovalo, abych m�sto zak�zan� z�vislosti na�el v�dy
-tu spr�vnou. A to je utopie.
-
-Pokud se nebudu ohl��et na zna�ku z�visl�ho uzlu, budou nej�ast�j�� op�t p�esko�en�
-infinitivy:
-852x (89%) Vf VB 0
-667x (87%) Vf Vp 0
-Celkem sou�et 90- a v�ceprocentn�ch: 1796.
-
-Krom� z�kazu p�esko�en� by se dala vyzkou�et i jin� v�c. P�i tr�nov�n� bych si
-u ka�d� z�vislosti pamatoval, zda p�esko�ila sloveso (a pop�. tak� jak�).
-
-Kdy� se zak�e p�eskakov�n� pro konkr�tn� zna�ky, kter� byly vid�t aspo� jednou
-a u nich� je p�eskok v aspo� 90 % chybn�, �sp�nost vzroste. Ale pozor, zat�m to
-nen� dvakr�t korektn�. Seznam zak�zan�ch p�eskok� toti� zji��uju z testovac�ch
-dat!
-
-G 93559 - B 32471 - P 74,2 - freki 5048
-
-Pou�t�m tedy na frekim test na tr�novac�ch datech. Na v�sledn�m CSTS zkus�m vyhledat
-nov� seznam zak�zan�ch p�eskok�. Bude asi zkreslen�, proto�e parser se na tr�novac�ch
-datech chov� jinak ne� na testovac�ch, ale nebude to podvod. Nechce se mi vy�le�ovat
-zvl�tn� data a parser p�etr�nov�vat na zbytku, i kdy� na to n�kdy t�eba tak� dojde.
-
-freki 5050 ... cel� tr�novac� data, z�kaz p�eskakov�n� vypnut
-shrek 5051 ... testovac� data, z�kaz zapnut, seznam z�kaz�: nejen slovesa, vid�na aspo� 1x
-Oboj� spadlo, proto�e Milan n�co d�lal a odpojil disk, na kter� se ukl�daly v�stupy.
-Na nov�m disku pod ��slem 14 to nakonec dob�hlo (trv� to ov�em kolem hodiny, proch�zen�
-v�ech p�eskok� ve t�ech vno�en�ch smy�k�ch je dost neefektivn�).
-
-G 93764 - B 32266 - P 74,4 - shrek 0014
-
-Tr�novac� data (znova 5050, te� pod ��slem 015).
-
-G 974093 - B 281497 - P 77,6 - 015
-
-
-
-26.4.2004
-
-Projdu v�stup z parsingu tr�novac�ch dat a zkus�m na n�m natr�novat z�kazy p�eskakov�n�.
-Z�skal jsem 5968 r�zn�ch trojic zna�ek, definuj�c�ch z�kazy (p�esko�en�, ��d�c�, z�visl�).
-Zahrnuty jsou pouze trojice, kter� se vyskytly alespo� p�tkr�t. Zkus�m pustit parser
-s vyu�it�m tohoto seznamu z�kaz�. Zap�n�m z�kaz p�eskakov�n�, vrac�m cestu k testovac�m
-dat�m.
-
-G 93132 - B 32898 - P 73,9 - freki 016 :-(
-
-Cht�lo by to p�ece jen zjistit, jak moc se �id�m, kdy� m�sto vy�len�n�ch dat pou��v�m
-anal�zu tr�novac�ch dat. Natr�novat tedy parser na mtrain datech a pustit ho na mtest
-data.
-
-017.stat je statistika natr�novan� na mtrain datech.
-freki 018 je anal�za mtest dat statistikou 017.
-G 89121 - B 32960 - P 73,0 - freki 018
-
-P�i t� p��le�itosti jsem pon�kud zcivilizoval train.pl, aby u� nepou��valo parslib.pl,
-ale csts.pm a parse.pm, a tak� aby pln� p�e�lo na pole @anot a zapomn�lo na @slova,
-@struktura a @afun. Nyn� p�ejmenuju parse1.pl na parse.pl a train1.pl na train.pl a
-cel� to ulo��m do CVS.
-
-Aktualizoval jsem seznam zak�zan�ch p�eskok� (p�esko�en�-��d�c�-z�visl�) podle
-018.csts. Jsou tam v�echny slovn� druhy v takov�ch p�eskoc�ch, kter� se vyskytly
-alespo� p�tkr�t a kter� byly z 90 % �patn�. Celkem seznam pokr�v� 22283 p�esko�en�ch
-uzl� v 018.csts. Nyn� otestuju tento seznam z�kaz� na dtest datech parserem natr�novan�m
-na train datech (statistika 013.stat).
-
-G 92782 - B 33248 - P 73,6 - T 31:11 min - freki 019
-
-Zpomalen� kv�li testov�n� zak�zan�ch p�eskok� (slo�itost n3) se v�razn�ji neprojevilo,
-ale freki je z�ejm� nov� d�lo (4� Intel Xeon 2.8 GHz, 4 GB pam�ti).
-
-�sp�nost je ov�em ni��� ne� se seznamem z testovac�ch dat. Je�t� mus�m otestovat
-seznamy z�kaz� z�skan� ze stejn�ch dat (018.csts), ale s jin�m nastaven�m.
-
-vid�no alespo� p�tkr�t, libovoln� slovn� druh ... u� bylo ......... 019 - G 92782 - B 33248 - P 73,6
-vid�no alespo� jednou, libovoln� slovn� druh .... 46264 v�skyt� ... 020 - G 91375 - B 34655 - P 72,5
-vid�no alespo� jednou, jen slovesa ..............  5043 v�skyt� ... 021 - G 92995 - B 33035 - P 73,8
-vid�no alespo� p�tkr�t, jen slovesa .............  2698 v�skyt� ... 022 - G 92995 - B 33035 - P 73,8
-
-
-
-27.4.2004
-
-Je�t� posledn� pokus. Ponech�me p�eskoky sloves, kter� byly vid�ny alespo� p�tkr�t,
-akor�t k nim p�id�me t�i nej�ast�j�� p�eskoky jin�ch uzl�. Jsou to pr�v� ty, kter�
-byly vid�ny alespo� 200kr�t:
-Z, Vp VB (219)
-Z, VB VB (250)
-Z, N1 N1 (267)
-
-G 92942 - B 33088 - P 73,7 - freki 023
-
-Nen� mi jasn�, pro� je to hor��. T�ch 736 hran sice nemus� b�t automaticky dob�e,
-za prv� v testovac�ch datech nemus� b�t stejn� �ast�, za druh� kdy� zak�u jednu
-�patnou mo�nost, je�t� to neznamen�, �e pozn�m tu spr�vnou. Ale kdy� se to nezlep��,
-pro� se to dokonce zhor��? Mo�n� kv�li vedlej��m ��ink�m z�kaz�. Kdy� v ur�it�m
-okam�iku zak�u ud�lat chybu, mo�n� t�m blokuju proveden� n��eho spr�vn�ho v p���t�m
-kroku, a n�kdo tomu n��emu spr�vn�mu pak vyfoukne rybn�k?
-
-Z�v�r: nech�me ten nejmen�� seznam, proto�e sou�asn� pat�� ke dv�ma nej�sp�n�j��m:
-p�eskakov�n� sloves, pokud takov� p�eskok byl k vid�n� alespo� p�tkr�t a z�rove�
-byl s alespo� devades�tiprocentn� pravd�podobnost� chybn�.
-
-Potvrzuju novou �sp�nost 73,8 (G 92995) do CVS.
-
-Pokra�uju v testov�n� subkategorizace. Nyn� se pokus�m vyu��t z�sobn�k stav� anal�zy.
-Na konci anal�zy se zjist�, zda m� n�kter� sloveso nenapln�n� r�mec a zda je ve
-v�t� materi�l, kter�m by ho �lo naplnit. Pokud ano, pokus�me se o to.
-
-
-
-28.4.2004
-
-Trochu jsem zcivilizoval ukl�d�n� stav� anal�zy v modulu rozebrat.pm. Te� kontroluju,
-�e jsem nepokazil �sp�nost.
-
-G 92995 - B 33075 - P 73,8 - freki 026
-
-OK, potvrzeno, �e jsem nic nezkazil.
-
-
-
-29.4.2004
-
-Dokon��m pou��v�n� z�sobn�ku stav� v p��pad�, �e na konci prvn�ho pokusu o anal�zu
-nem� n�kter� sloveso napln�n� sv�j valen�n� r�mec, a�koli by mohlo. Opravil jsem
-ukl�d�n� stav�, je�t� jednou vyzkou��m, �e se nic nepokazilo, ne� za�nu ulo�en�
-stavy doopravdy pou��vat.
-
-G 92995 - B 33075 - P 73,8 - drak 027 - T 58:50 minut
-
-�sp�nost se zapla� p�nb�h nezm�nila, ov�em ukl�d�n� stav� zv��ilo �asovou n�ro�nost
-skoro na dvojn�sobek. Ze stejn�ho d�vodu tak� vzrostla pam�ov� n�ro�nost ze 425 MB
-a� na 1 GB.
-
-Te� tedy zkus�me ulo�en� stavy opravdu vyu��vat. K tomu je pot�eba, aby se bal�k
-z�lo�n�ch stav� z hashe zm�nil na opravdov� z�sobn�k (pole). Hash se n�m v�ak tak�
-hodil, proto�e bylo mo�n� snadno zjistit, zda negenerujeme stav, kter� u� vygenerov�n
-byl. Rozd�l�me tedy strukturu stav� na dv� ��sti, hash vygenerovan�ch stav� a z�sobn�k
-nezpracovan�ch stav�.
-
-generovat_stavy()
-
-Vygeneruje v�echny stavy, ke kter�m se lze dostat z aktu�ln�ho stavu. Vezme v �vahu
-seznamy povolen�ch a zak�zan�ch z�vislost� i v p��pad�, �e n�kter� z�vislost m�
-p�ednost bez ohledu na pravd�podobnostn� model (nap�. tzv. valen�n� z�vislosti).
-Nevezme je v �vahu, pouze pokud m� n�kter� z�vislost absolutn� p�ednost (je to
-druh� d�l koordinace apod.) Nov� stavy jsou stavy se v��m v�udy, jako kdyby se
-v�po�et opravdu m�l ub�rat t�mto sm�rem. Nov� z�vislost je tedy p�id�na do stromu,
-jej� v�ha je zn�m� a je prom�tnuta do ohodnocen� cel�ho stromu. Nav�c se v�, jak�
-je pom�r mezi v�hou t�to z�vislosti a v�hou v�t�zn� z�vislosti v tomto kole (nap�.
-90 %, ale m��e to b�t i p�es 100 %, pokud n�jak� z�vislost vyhr�la d�ky protekci,
-t�eba proto�e je valen�n�). Pr�chod tedy mus� b�t dvoukolov�, nejd��ve se vygeneruj�
-v�echny mo�n� pokra�ovac� stavy v�etn� vah, potom se zjist�, kter� stav vyhraje,
-a k ostatn�m se dopo��t� jejich procentu�ln� odstup.
-
-Funkce generovat_stavy() dostane aktu�ln� stav a vr�t� v�echny stavy, ke kter�m
-se z n�j d� doj�t. Ozna�� tak� stav, kter� podle n� m� zv�t�zit v tomto kole (jak
-vypl�v� z p�edch�zej�c�ho odstavce, nem��eme se spolehnout na to, �e to bude stav
-se 100 % pom�rem k v�t�zi).
-
-Funkce generovat_stavy() nev� o celkov� evidenci vygenerovan�ch a zpracovan�ch
-stav�. Ani tedy nekontroluje, zda nenagenerovala n�jak� stav, kter� u� nageneroval
-n�kdo jin�. To v�echno mus� zajistit n�jak� ob�lka - funkce, kter� ji vol�. Mo�n�
-ale je�t� zm�n�m n�zor a ob� �innosti n�jak spoj�m.
-
-ob�lka
-
-Nechat si vygenerovat nov� stavy z aktu�ln�ho stavu.
-Vyjmout z nich v�t�ze kola, ten u� m� jist�, �e se stane p���t�m aktu�ln�m stavem.
-Z ostatn�ch vy�adit takov�, jejich� strom u� byl n�kdy vygenerov�n (bez ohledu na to, zda u� byly i zpracov�ny).
-Zb�vaj�c� stavy p�idat do p�ehledu stav�. P�ehled se�adit podle pom�ru stavu k v�t�zi jeho kola. (Kv�li tomuto �azen�
-nen� mo�n� ozna�it p�ehled ani za z�sobn�k, ani za frontu.)
-P�ehled stav� je pot�eba udr�ovat v rozumn� velikosti. O��znout ho na n^2 stav�, kde n je po�et slov ve v�t�.
-
-
-
-7.5.2004
-
-P�estavba k�du je z v�t�� ��sti dops�na, m��e se za��t ladit. Nejd��v ale rad�ji
-zkus�m nechat v chodu starou funkci generovat_stavy() a pou��t jen n�kolik nov�ch
-nezbytn�ch drobnost�. Funkce pridat_zavislost() a zrusit_zavislost() jsou p�est�hov�ny
-do nov�ho modulu stav a jsou do nich p�esunuty i n�kter� ��sti okoln�ho k�du, kter�
-d��ve le�ely v rozebrat_vetu(). A zd�d�n� upraven� morfologick� zna�ky u� nep�episuj�
-p�vodn� zna�ky v ko�enech koordinac�, n�br� se zapisuj� do stavu. Z n�j se potom
-vyzved�vaj� a� v modulu model, kdy� se zji��uj� pravd�podobnosti.
-
-Nov� k�d funguje jen na 53 %. Star� kupodivu taky, proto�e se sna�� pou��vat n�kter�
-nov� verze knihoven. Zji��uju, �e n�kter� knihovny nejsou p�id�ny do CVS! To se
-mus� napravit. Na�t�st� se mi poda�ilo sestavit verzi, kter� zvl�d� p�vodn�ch 73,8 %
-(G 92955). �up s n� do CVS :-).
-
-
-
-10.5.2004
-
-Te� je pot�eba zjistit, pro� nov� verze nefunguje.
-
-
-
-11.5.2004
-
-Postupn� jsem opravil rozebrat.pm, p�esunul jsem funkce pridat_zavislost() a zrusit_zavislost()
-do nov�ho modulu stav.pm, zru�il jsem Viterbiho a cel� modul rozebrat.pm jsem pro�istil.
-P�i vytvo�en� koordinace u� nem�n�m p�vodn� $anot->[$i]{uznacka}, ale ukl�d�m pr�b�n�
-m�n�n� zna�ky do $stav->{uznck}[$i]. T�m si uvol�uju ruce, abych se mohl kdykoli
-vr�tit k n�jak�mu star��mu stavu anal�zy, ale nav�c se uk�zalo, �e model n-tic a�
-dote� dost�val po�kozen� uznacky. Po oprav� stoupla maxim�ln� �sp�nost, co� jsem
-tak� okam�it� potvrdil do CVS.
-
-G 93709 - B 32321 - P 74,4 % - T 20:50 (geri 83) => skoro 6 v�t za vte�inu
-
-Nyn� se vr�t�me k p�estavb� zapo�at� 7.5.2004. Zb�v� asi jen vym�nit modul genstav.pm.
-Bohu�el se mi ho neda�� p�im�t ke stejn�mu v�konu jako p�vodn� genstav.pm, ten
-nov� zvl�d� jen 70,0 % (G 88273). Nav�c mu to trv� p���ern� dlouho (52:51 minut).
-Zkus�m to ud�lat znova a postupn�. Te� se vr�t�m k p�vodn�mu genstav.pm a douf�m,
-�e tak� k �sp�nosti 74,4 %. Nav�c zru��m adres�� staraverze a v�e zase p�est�huju
-do p�vodn� slo�ky.
-
-geri 111
-
-G 93708, to je sice chyba jen o jedinou z�vislost, ale nel�b� se mi to. Rozbaluju
-cvs checkout do slo�ky staraverze a pou�t�m anal�zu znova.
-
-geri 112
-
-G 93709, tak�e CVS z�loha funguje. Budu si muset pohr�t s jej�m slou�en�m s upravovanou
-verz�.
-
-geri 113 je nov� verze (v horn� slo�ce), zm�n�ny moduly rozebrat, genstav a stav
-(p�inejmen��m), eviduj� se vid�n� stromy, ale neschov�vaj� se k nim cel� stavy
-a nic se s nimi ned�l�. Evidence les� dosahuje �pi�ek mezi 1000 a 2000 prvk� a zd�
-se, �e nijak viditeln� nezat�uje pam�, proto�e zat�m tak� ke stromu neuchov�v�me
-��dn� velk� data.
-
-G 93708
-
-geri 114 je star� verze (v doln� slo�ce), kam jsem v�ak shora zkop�roval stav.pm.
-V nov�m stav.pm chyb�j� funkce ulozit_stavy() a odfajfkovat_stavy(), kter� by se
-nem�ly nikde pou��vat. Chyb� tam tak� funkce zkopirovat_stav(), co� douf�m tak�
-nevad�. Naopak p�ibylo po��dn� a opravdu hloubkov� duplikov�n� stav�, ale ani to
-se zat�m nikde nevyu��v�.
-
-G 93709
-
-freki 115 se od p�edch�zej�c�ho li�� t�m, �e z nov� verze sem byl zkop�rov�n i
-genstav.pm.
-
-G 93709
-
-freki 116 m� nav�c nov� rozebrat.pm, ��m� by m�l b�t kompletn� (a� na zaznam.txt).
-Uvid�me, zda dos�hne G 93709.
-
-G 93709
-
-
-
-12.5.2004
-
-Na�el jsem rozd�l v parser.ini. V tom hor��m bylo u� zapnuto valence1 = 1. Zkou��m
-ho vypnout, jestli to pom��e. Mimochodem, mezi dobrou a vadnou verz� jsou celkem
-3 odchylky v anal�ze, ale jen jedna z nich zhor�ila �sp�nost.
-
-G 93708 - freki 117
-
-Nepomohlo to. Doch�z� mi trp�livost a prov�d�m cvs checkout do horn� slo�ky. Snad
-pom��e aspo� tohle.
-
-G 93708 - freki 118
-
-Posledn� pokus. Zru�eny rozd�ly v povol.pm a zakaz.pm. Sl�va!
-
-G 93709 - freki 119
-
-Sl�va!
-
-Pokou��m se zcela za�lenit u�en� n-tic do train.pl. Zat�m zkus�m p�idat model n-tic
-do statistiky, ani� bych ho pou�il (bude se je�t� st�le na��tat z textov�ch soubor�
-le��c�ch vedle), a zkus�m kontroln� pustit anal�zu, zda s novou statistikou bude
-stejn� �sp�n�. Tr�nink se jmenuje freki 120.
-
-Mus� se dost �et�it pam�t�. Pokud se toti� krom� standardn�ch 3 000 000 tr�novac�ch
-ud�lost� je�t� najednou eviduj� v�echny n-tice pro n=2 a� 10, po�ere train.pl neuv��iteln�ch
-2,6 GB! V tr�novac�ch datech je 5 308 978 n-tic, po profiltrov�n� jich ov�em p�e�ije
-jen 7934. Tr�nov�n� na frekim (Intel Xeon 2,8 GHz) nyn� trv� 32 minut.
-
-Zkus�me, jestli se s takto natr�novanou statistikou d� analyzovat stejn� �sp�n�
-jako dosud. Nem�l by to b�t probl�m, proto�e jedin� rozd�l by m�lo b�t 7000 nov�ch
-��dk�, kter� se zat�m k ni�emu nepou��vaj�.
-
-
-
-13.5.2004
-
-freki 127 b�� nad statistikou 124.stat, kter� by se od 013.stat m�la li�it pr�v�
-p�idan�mi n-ticemi. P�vodn� textov� soubory je�t� le�� ve stejn� slo�ce, ale hned
-pust�m dal�� kontroln� test, kter� u� opravdu nebude m�t �anci je naj�t. freki 128
-Bohu�el, oba maj� neuspokojiv� v�sledky. (Oba stejn�.)
-
-G 92496 - B 33534 - P 73,4 - T 23:39
-
-Mo�n� je ale i jin� probl�m, mo�n� je n�jak� chyba v tr�ninku a jak�koliv nov�
-natr�novan� statistika d� hor�� v�sledky ne� 013.stat. Uvedu tedy parse.pl i ntice.pm
-do p�vodn�ho stavu, ale pust�m je stejn� na 124.stat.
-
-G 92202 - B 33828 - P 73,2 - T 22:19 - freki 129
-
-Mus�m zkontrolovat, jestli je�t� po��d dr�� �sp�nost alespo� na 013.stat.
-
-freki 130
-
-124.stat se li�� od 013.stat. Od 013 se nezachoval z�znam konfigurace, kter� by
-bylo mo�n� porovnat se sou�asnou konfigurac�. 013 m� datum 3.2.2004 13:22:41,
-tak�e v p��pad� nezbytnosti zkus�m s�hnout do CVS.
-
-
-
-14.5.2004
-
-Zjistit, pro� train.pl neukl�d� konfiguraci, se kterou byl spu�t�n. Opraveno,
-sakura 134 u� by si m�la zachovat ulo�enou konfiguraci. V train.pl tak� opravena
-ud�lost KJ3, aby se ve statistice m�sto slovn�ho tvaru neobjevoval "HASH". P�esto
-st�le train.pl negeneruje stejnou statistiku jako train0.pl z 15.9.2003 (posledn�
-CVS train p�ed vyroben�m statistiky 013.stat 3.2.2004; n�sleduj�c� verze 2.13 u�
-vznikla 8.3.2003). A d�le ani train0.pl negeneruje statistiku shodnou s 013, tak�e
-u� "optimum" mo�n� nikdy nezrekonstruuju.
-
-Rekapitulace statistik:
-013.stat (3.2.2004) ... optim�ln� stav co do �sp�nosti parsingu, chci se k n�mu
-    dostat, ale nev�m jak. Nezachovalo se nastaven� ani zdroj�k tr�nova�e.
-132.stat (14.5.2004) ... vyrobil train0.pl z 15.9.2003. Nad 132 pu�t�n parser
-    (sakura 133), ale ani ten nem� po�adovanou �sp�nost. M� jen G 92499 (73,4 %).
-138.stat (14.5.2004) ... nejnov�j�� train.pl, ob� v��e uveden� chyby opraveny.
-
-013.stat m� 70400220 B, 3186784 ud�lost� (��dk�). Obsahuje 108933 ud�lost� USS.
-132.stat m� 76127819 B, 3439995 ud�lost� (��dk�). Obsahuje 115479 ud�lost� USS.
-138.stat m� 75947290 B, 3418684 ud�lost� (��dk�). Obsahuje 115479 ud�lost� USS.
-
-Skoro to vypad�, �e 013 byl natr�nov�n na jin�ch datech? Srovn�me-li pouze ud�losti
-USS ve statistik�ch 013 a 138, zd� se (pohledem na prvn� str�nku diffu), �e 138
-m� v�echna ��sla v�t�� nebo rovna ��sl�m z 013, a nav�c m� n�kter� slova �pln�
-nov�. Nap�. slovo "abdikovali". A to je d�kaz! 013 vzniklo natr�nov�n�m na mtrainu!
-Zkus�me na mtrainu natr�novat novou statistiku (jak pomoc� train0.pl, tak pomoc�
-train.pl).
-
-sakura 139 ... train0.pl na mtrain.csts
-drak 140 ..... train.pl na mtrain.csts
-
-139.stat m� 70400220 B, 3186784 ud�lost�. Obsahuje 108933 ud�lost� USS.
-140.stat m� 70243916 B, 3167576 ud�lost�. Obsahuje 108933 ud�lost� USS.
-
-Te� tedy zkus�me parsing nad ob�ma nov�mi statistikami.
-
-G 92398 - B 33632 - P 73,3 - T 45:19 - loki 141 ....... nad 139.stat
-G 92096 - B 33934 - P 73,1 - T 22:23 - belzebub 143 ... nad 140.stat
-
-Je�t� jednou testuju �sp�nost nad statistikou 013. U� m� to unavuje, ale zd� se
-podez�el�, �e by se li�ila od statistiky 139, kdy� jsou p�esn� stejn� velk�. A
-p�itom tent�� parser na jedn� z nich funguje na 73,3 % a na druh� �dajn� na 74,4 %.
-Te� mi diff potvrdil, �e ob� statistiky se v�bec nijak neli��! A z pr�b�n�ch v�sledk�
-to vypad�, �e i na 013 v�kon n�jak poklesl.
-
-
-
-25.5.2004
-
-Vrac�m se k parsingu po narozen� Lucinky.
-Test drak 150 nad statistikou 013. Kontrola, zda dos�hneme nejlep�� zn�m� �sp�nosti.
-Optimum bylo dosa�eno 11.5.2004 a �in� 74,4 % (G 93709).
-
-G 93709 - B 32321 - P 74,4 - T 30:27
-
-Test drak 152 nad statistikou 139. Statistiky 013 a 139 jsou toto�n�, tak�e by
-v�sledek 152 m�l b�t stejn� jako 150.
-
-G 93709 - B 32321 - P 74,4 - T 30:16
-
-Test anette 153 nad statistikou 013. "Star� verze parseru", tj. posledn� verze
-ulo�en� v CVS.
-
-G 93709 - B 32321 - P 74,4 - T 26:02
-
-Te� se soust�ed�m na to, aby train.pl um�l vyrobit statistiku toto�nou s 013.stat.
-Verze z 15.9.2003 to z�ejm� um� (pou�il jsem ji 14.5.2004 a vznikla statistika
-139, kter� je s 013 toto�n�). Pro jistotu je�t� jednou pust�m train0.pl, co� je
-kopie verze z 15.9.2003, i kdy� u� m� jin� datum. Je to train anette 154, tr�nuje
-se na mtrain datech (1425 soubor�).
-
-3186784 ud�lost� - T 10:33 - 154.stat se shoduje s 013.stat
-
-Paraleln� pou�t�m i nov�j�� train.pl, op�t jen pro kontrolu, proto�e v�m, �e tvo��
-odli�nou statistiku. Je to train drak 155, rovn� se tr�nuje na mtrain datech.
-Asi po hodin� pr�ce to spadlo, proto�e to nena�lo funkci ntice::shrnout().
-
-Prozkoum�m rozd�ly mezi train0.pl a train.pl a tak� rozd�ly mezi ob�ma statistikami.
-Vytv���m p�echodov� skript train05.pl a budu pr�b�n� testovat, zda je�t� dosahuje
-stejn�ch v�sledk� jako train0.pl. Nejd��v sjednocuji "use" moduly v z�hlav� a odstra�uji
-s�hodlouh� "pod" koment��. Je to train anette 156.
-
-3186784 ud�lost� - T 10:38 - 156.stat se shoduje s 013.stat
-
-Nahrad�m �ten� subkategoriza�n�ho slovn�ku analogickou funkc� z modulu subkat.
-Je to train anette 157.
-
-3186784 ud�lost� - T 10:34 - 157.stat se shoduje s 013.stat
-
-Provedu v�echny �pravy, kter� nejsou z�visl� na nahrazen� parslib.pl modulem csts.pm.
-Vesm�s jsou jen kosmetick�. Tr�nov�n� ntic zat�m taky nep�id�m. Rozd�lov� soubor
-obou train� m� po��d je�t� 470 ��dk�. Test moment�ln�ho train05.pl je anette 158.
-
-3186784 ud�lost� - T 10:44 - 158.stat se shoduje s 013.stat
-
-Nahrad�m pole $struktura[$i] polem $anot->[$i]{rodic_vzor}. Polo�ka rodic_vzor
-se pln� u� i v parslib.pl, tak�e by nem�l vzniknout probl�m. Je to train anette 159.
-Bohu�el se z�ejm� zacyklil. Cyklen� zp�sobuje $struktura[$k] na ��dku 441. Zat�m
-nev�m pro� a pou�t�m train05, kde je tento ��dek postaru, v�echny ostatn� struktury
-jsou p�eps�ny pomoc� anot. Je to train anette 168.
-
-3192325 ud�lost� (!!!) - T 10:59 - 168.stat se od t�ch p�edchoz�ch li��!
-
-Mezit�m jsem za��dil, aby $anot->[0]{rodic_vzor} bylo 0 stejn� jako $struktura[0].
-M�lo by t�m odpadnout cyklen� a mo�n� tak� rozd�ly mezi statistikami, uvid�me.
-Je to train anette 172.
-
-3191989 ud�lost� - T 11:07 - 172.stat se li�� od 013.stat.
-
-Li�� se ud�losti typu LOK a RAM. "Norm�ln�" ud�losti se neli��. Proto nejv�t��
-podez�en� pad� na zm�ny ve funkci spocitat_lokalni_konflikty(). Krom� n�hrady
-$struktury $anotem jsem je�t� zp��s�oval podm�nku na ��dku 634 o $i<$#{$anot}.
-Toto zp��sn�n� te� zakomentov�v�m a pou�t�m train anette 174.
-
-3186448 ud�lost� - T 11:00 - 174.stat se li�� od 013.stat i od 172.stat.
-
-Od 013.stat se li�� m�n� ne� 172.stat. Ud�losti typu LOK u� jsou v po��dku, li��
-se pouze ud�losti typu RAM. Na t�ch by sice nez�le�elo, proto�e moment�ln� se,
-pokud v�m, p�i parsingu nepou��vaj�, ale pot�ebuju v�d�t, �e um�m vyrobit statistiku
-toto�nou s 013, tak�e se pokus�m opravit i je. To je train anette 175.
-
-3186784 ud�lost� - T 10:49 - 175.stat se shoduje s 013.stat.
-
-Nahrad�m pole $afun[$i] polem $anot->[$i]{afun}. Kv�li tomu upravuji parslib.pl,
-aby p�i �ten� vypl�oval afuny do @anot. Train anette 176.
-
-3186784 ud�lost� - T 11:08 - 176.stat se shoduje s 013.stat.
-
-Nahrad�m pole $slova[$i] polem $anot->[$i]{slovo}. Kv�li tomu upravuji parslib.pl,
-aby obsah obou pol� byl opravdu toto�n�. Zat�m se toti� u @anot nevypl�oval ko�en
-a u ��dn�ho slova se nenahrazovala velk� p�smena mal�mi. Bohu�el se to zase n�kde
-cykl�. Grrr! A zase je to v lok�ln�ch konfliktech! Je to z�ludn� chyba, neopr�vn�n�mi
-p��stupy za hranici pole @anot se toto pole natahovalo, co� m�lo fat�ln� d�sledky
-pro cyklus, kter� byl d�lkou pole ��zen. Chybu jsem nena�el, rad�ji jsem tedy na
-za��tku funkce d�lku pole zkop�roval, pak jsem se ve v�ech cyklech ptal na d�lku
-kopie a na konci jsem kopii zkop�roval zp�t do po�kozen�ho pole. Train anette 192.
-
-3186784 ud�lost� - T 10:57 - 192.stat se shoduje s 013.stat.
-
-Po odstran�n� pol� @struktura, @afun a @slova upravuji posledn� souvisej�c� ��dky,
-zejm�na vol�n� funkc�, ve kter�ch se d��ve tato pole pou��vala. Train anette 193.
-
-3186784 ud�lost� - T 13:04 - 193.stat se shoduje s 013.stat.
-
-Zd� se, �e nyn� je ji� v�e p�ipraveno k p�epojen� z parslib.pl na csts.pm. Provedu
-tedy vlastn� p�epojen�. Train anette 194.
-
-3158211 ud�lost� - T 21:14 - 194.stat se li�� od 013.stat :-(
-
-
-
-27.5.2004
-
-Pou�t�m parsing nad statistikou 194. P�edpokl�d�m, �e v�sledek bude hor�� ne� nad
-013. Parse anette 195.
-
-G 93643 - B 32387 - P 74,3 - T 27:34
-
-
-
-31.5.2004
-
-Porovn�v�m statistiky 013 a 194. Li�� se snad ve v�ech ud�lostech. Porovn�v�m po�ad�
-v�skytu ud�lost� v train03.pl (pou��v� parslib.pl) a train05.pl (pou��v� csts.pm).
-Rozd�l je v ko�enech koordinac�. Star�� program m� v $anot->[$koren]{uznacka} zna�ku
-ko�enov�ho slova nebo interpunkce. Nov�j�� program tam m� mno�inu zna�ek zd�d�n�ch
-od �len� koordinace.
-
-train anette 196: train03.pl se z�znamem ud�lost�
-train anette 197: train05.pl se z�znamem ud�lost�
-... a� po anette 230
-
-Zd� se, �e jsem kone�n� na�el v�echny rozd�ly v hled�n� zd�d�n�ch zna�ek. Pou�t�m
-nov� kompletn� tr�nink train05 (anette 231).
-
-3186784 ud�lost� - T 30:31 - 231.stat m� sice stejn� po�et ud�lost� jako 013.stat,
-ale neshoduj� se! Taky velikost soubor� se li��: 013 m� 70400220 B, 231 m� 72137493 B.
-Ale to by mohlo b�t t�m, �e jsem p�i lad�n� zm�nil OSS na OSSXXX. D�m to do po��dku
-a odstran�m v�echny v�pisy do souboru "ud", ��m� by se taky m�l program o t�etinu
-urychlit. Train anette 232.
-
-3186784 ud�lost� - T 20:28 - 232.stat se shoduje s 013.stat.
-
-Po 19 dnech se mi tedy kone�n� poda�ilo modernizovat k�d train.pl, ani� by se to
-podepsalo na generovan�ch statistik�ch. Pro tuto chv�li ov�em rezignuju na n�pad,
-kv�li kter�mu to cel� za�alo, toti� na za�len�n� modelu ntic do b�n�ho tr�ninku.
-Jednak u� nem�m na takov� blbosti �as, jednak by to nebylo jen tak, proto�e ntice
-vy�aduj� posb�rat obrovsk� mno�stv� nov�ch ud�lost�, z nich� lze mal� c�lov� vzorek
-odfiltrovat teprve na konci, kdy u� se v�, kter� ud�lost byla vid�na v�ce ne� jednou.
-T�m se n�kolikan�sobn� zvy�uje pam�ov� n�ro�nost programu (z n�kolika stovek MB
-a� na asi 2 GB) i �as pot�ebn� na v�po�et (asi dvakr�t).
-
-Zakomentov�v�m tedy ��dek s "ntice::ucit()", kop�ruji train05.pl do train.pl, ma�u
-v�echny mezistupn� trainNN.pl a potvrzuji cvs commit. Potom je�t� naposledy vol�m
-kontroln� "train.pl ; parse.pl" a jdu dom� :-)
-
-
-
-1.6.2004
-
-Oba z�v�re�n� pokusy dopadly dob�e. Tr�nink trval 10:46 minut.
-
-G 93709 - B 32321 - P 74,4 - T 25:31
-
-Te� se pokus�m opravit chybu v train.pl, kterou jsem objevil p�i jeho modernizaci,
-ale nemohl jsem s n� nic d�lat, proto�e bych nedostal toto�nou statistiku. Bohu�el
-nen� zaru�eno, �e opravou chyby �sp�nost stoupne a ne naopak klesne.
-
-Stejn� je dost divn�, �e lok�ln� konflikty, kter�ch se ta chyba t�k�, se dosud pod�lely
-na lep�� �sp�nosti (proto�e kdy� jsem je vypnul, �sp�nost klesla), p�esto�e sama
-slova, kter� byla p�i lok�ln�ch konfliktech p�ev�ena, dopadla b�dn�: 1286 zlep�en�
-proti 2137 zhor�en�m. Tato bilance byla z�ejm� zvr�cena nep��m�mi vlivy, nap�. �e
-jin� zav�en� uzlu v lok�ln�m konfliktu p�sobilo jako prevence n�kolika dal��ch chyb.
-
-train anette 235: 3192797 ud�lost� - T 11:18
-G 93717 - B 32313 - P 74,4 - T 25:39 - parse anette 236
-
-Sl�va, �sp�nost neklesla, i kdy� stoupla jen nepatrn�. Ani bilance lok�ln�ch konflikt�
-se nezm�nila nijak dramaticky: 1297 zlep�en� proti 2145 zhor�en�m. Cvs commit.
-
-
-
-Je na �ase vr�tit se ke snah�m o vybudov�n� z�sobn�ku stav� a o vracen� se v p��pad�
-nenapln�n�ho valen�n�ho r�mce. Naposledy jsem se o n�co t�mto sm�rem pokou�el 11.5.2004.
-N�jak� p�edstava, jak jsem to cht�l d�lat, je popsan� u 29.4.2004, ale stejn� si
-nejsem jist�, �e tahle p�edstava nepadla p�i konfrontaci s realitou.
-
-V modulu genstav.pm jsou nyn� dv� verze kl��ov� funkce. V provozu je zat�m st�le
-star� verze pod n�zvem generovat_stavy(). Nov� verze se jmenuje generovat_stavy1()
-a nevrac� v�t�zn�ho kandid�ta, n�br� seznam nov�ch stav�, ze kter�ch se a� pak
-mus� vybrat v�t�z.
-
-anette 238: generovat_stavy() u� opravdu ��ste�n� generuje nov� stavy, ale ty je�t�
-nemaj� vliv na v�b�r v�t�ze. Jde tedy jen o potvrzovac� b�h, �e se nic neposralo.
-�sp�nost sice z�stala nedot�ena, ale v�po�et trv� skoro �ty�ikr�t d�le!
-
-G 93717 - B 32313 - P 74,4 - T 1:36:08
-
-belzebub 249: O krok d�l. Z nov�ch stav� u� i vyb�r�m v�t�ze a kontroluju, �e se
-shoduje s v�t�zem, kter�ho vybral star� k�d. Pokud ne, hod� se v�jimka.
--> genstav1.pm (genstav0.pm je p�vodn� z CVS)
-
-G 93717 - B 32313 - P 74,4 - T 1:22:49
-
-anette 254: V�b�r v�t�ze z nov�ch stav� obohacen o lok�ln� konflikty. Shoda se
-kontroluje a� potom.
--> genstav2.pm
-
-G 93717 - B 32313 - P 74,4 - T 1:35:12
-
-Nem�me sice na nov� k�d p�evedeno cel� generov�n� nov�ho stavu, ale jeho podstatnou
-��st ano. Nyn� zm�n�m zp�sob, jak�m se v�sledek funkce generovat_stavy() p�ed�v�
-nahoru. Dosud se vracel "max-hash", kde kandid�ta popisovaly hodnoty r, z, c, p
-a priste. Nyn� se bude vracet pole stav�, jeho� prvn� prvek bude ten v�t�zn�. V�t�zn�
-kandid�t u� do n�j bude zanesen, tj. u volaj�c�ho odpadne n�sledn� vol�n� funkce
-stav::pridat_zavislost(). Zat�m se budou vracet stavy nalezen� star�m k�dem.
-
-belzebub 262 (v��e uveden�)
-G 93717 - B 32313 - P 74,4 - T 1:27:04
-
-
-
-2.6.2004
-
-Funkce generovat_stavy() od nyn�j�ka vrac� stavy nalezen� nov�m k�dem. K tomu je
-pot�eba, aby se i z�v�re�n� manipulace se stavem (souvisej�c� s koordinacemi) prov�d�la
-nad nov�mi stavy (a to nad v�emi je�t� p�ed p�id�n�m hrany, t�m se zajist� kompatibilita).
-P��slu�n� kus k�du jsem p�esunul do funkce stav::pridat_zavislost(). Pou�t�m dva
-v�po�ty, jeden je�t� vrac� stav upraven� star�m k�dem a akor�t spol�h� na ��st
-p�esunutou do pridat_zavislost(), druh� u� nav�c vrac� stavy nalezen� nov�m k�dem.
-Prvn� je belzebub 263, druh� anette 264.
-
-belzebub 263
-G 93717 - B 32313 - P 74,4 - T 1:29:30
-anette 264
-G 92693 - B 33337 - P 73,5 - T 2:10:46
-
-Zd� se, �e anette ztr�c� na �sp�nosti! Oba v�stupy se li��, anette ob�as m�sto
-odkazu na rodi�e vyp��e -1!
-
-Obrovsk� �asov� n�ro�nost generov�n� stav� mo�n� souvis� s t�m, �e se v�echny stavy
-cachuj� podle strom�. Vyp�n�m ukl�d�n� stav� (zakomentov�v�m ho).
-
-Vrac�m k�d na �rove� 263, tj. z�v�re�n� manipulace z�st�vaj� p�esunut� do modulu
-stav, ale vrac� se po��d stav z�skan� star�m k�dem. V z�jmu zp�ehledn�n� k�du vynd�v�m
-z generovat_stavy() zav�ov�n� koncov� interpunkce vyr�b�m j� samostatnou funkci
-generovat_pro_koncovou_interpunkci().
-
-sakura 265
-G 93717 - B 32313 - P 74,4 - T 1:34:14
-
-P�id�v�m obdobnou funkci pro generov�n� druh� ��sti koordinace.
-
-euler 266
-G 93717 - B 32313 - P 74,4 - T 1:59:20
-
-P�id�v�m obdobnou funkci pro zav�ov�n� valen�n�ch z�vislost�.
-
-anette 267
-G 93717 - B 32313 - P 74,4 - T 2:08:05
-
-U p�id�v�n� z�vislosti do duplik�tu stavu v nov�m k�du jsem na�el kopii k�du, kter�
-jsem p�ed 263 p�esouval do modulu stav. Te� u� by tato kopie m�la b�t nadbyte�n�,
-proto jsem ji smazal.
-
-euler 268
-G 93717 - B 32313 - P 74,4 - T 2:22:52
-
-Do zvl�tn� funkce jsem p�esunul i z�kladn� generov�n� nov�ch stav� a hled�n� v�t�zn�ho
-kandid�ta.
--> genstav3.pm
-
-sakura 272
-G 93717 - B 32313 - P 74,4 - T 1:33:27
-
-Zru�il jsem funkce gererovat_stavy1(), vybrat_viteze() a generovat_stavy_rozskok().
-Pat�ily k v�tvi, kterou u� te� m��u prohl�sit za slepou.
-
-belzebub 273
-G 93717 - B 32313 - P 74,4 - T 1:24:41
-
-Z nov�ho k�du jsem odstranil nepou��vanou kopii zpracov�n� koncov� interpunkce a
-valen�n�ch z�vislost�.
-
-geri 274
-G 93717 - B 32313 - P 74,4 - T 1:53:39
-
-V�b�r v�t�ze mezi nov�mi stavy jsem p�esunul p��mo do funkce, ve kter� seznam nov�ch
-stav� vznik�. Tam, kde se p�vodn� vyb�ral v�t�z, se automaticky p�edpokl�d�, �e
-ho najdeme na nult� pozici.
--> genstav4.pm
-
-anette 275
-G 93717 - B 32313 - P 74,4 - T 1:50:31
-
-Do zvl�tn� funkce jsem p�esunul i vol�n� lok�ln�ch konflikt�, v�etn� jejich nov�
-verze.
--> genstav5.pm
-
-euler 277
-G 93717 - B 32313 - P 74,4 - T 2:03:12
-
-Nov� pokus vr�tit z funkce generovat_stavy() pole stav� dodan� nov�m k�dem.
--> genstav6.pm
-
-Chyba, pro� to poprv� ne�lo, je ov�em mo�n� schovan� v rozebrat.pm v backtrack(),
-opravil jsem ji, ale rozebrat.pm jsem nez�lohoval.
-
-anette 279
-G 93719 - B 32311 - P 74,4 - T 1:46:02 !!! MAL� ZLEP�EN� - JAK TO?
-
-Odstra�uji zdvojen� zpracov�n� lok�ln�ch konflikt�. Nad�le se bude pou��vat pouze
-vol�n� v�zan� na nov� k�d. Parseru by se m�lo trochu ulevit co do �asov�ch n�rok�.
-
-sakura 280
-G 93719 - B 32311 - P 74,4 - T 1:40:13 !!! MAL� ZLEP�EN� - JAK TO?
-
-Odstra�uji tak� alternativn� ��sti k�du v hlavn� ��sti genstavu a kontrolu, zda
-nov� k�d produkuje tot� co star�. A m�stn� zpracov�n� lok�ln�ch konflikt� u� nevrac�
-hash s nov�m kandid�tem. Nen� to pot�eba, proto�e stejn� rovnou uprav� pole nov�ch
-stav�.
--> genstav7.pm
-
-belzebub 281
-G 93719 - B 32311 - P 74,4 - T 1:21:57 !!! MAL� ZLEP�EN� - JAK TO?
-
-Kv�li zna�n� �asov� n�ro�nosti bude generov�n� v�ech pokra�ovac�ch stav� voliteln�
-a standardn� se bude generovat pouze v�t�zn� stav. Zat�m pouze vytvo��m p��slu�n�
-vyp�na� a vypnu ho.
-
-sakura 282 Alarm! N�zk� �sp�nost!
-Rychle je�t� zkus�me tot� s vyp�na�em zapnut�m. Za��tek vypad� rozumn�, ale rad�ji
-ho nech�m dob�hnout do konce.
-
-sakura 283
-G 93719 - B 32311 - P 74,4 - T 1:37:31 !!! MAL� ZLEP�EN� - JAK TO?
-
-Chyba snad opravena, pou�t�m znova s vypnut�m vyp�na�em.
-
-geri 284
-G 93717 - B 32313 - P 74,4 - T 36:35
-
-
-
-Generov�n� stav� je p�ebudov�no. Je�t� v�ak nen� vy�e�eno ukl�d�n� vygenerovan�ch
-stav� tak, aby bylo pozd�ji mo�n� se k n�kter�mu z nich vr�tit. To u� by se kv�li
-rychlosti m�lo ur�it� d�lat jen u vytipovan�ch strom�, kde na konci nen� v po��dku
-valence.
-
-Naposledy jsem se valenc� zab�val 22.4.2004, ale jinak. Pak jsem se zab�val zak�zan�mi
-p�eskoky sloves. 29.4.2004 jsem u� psal p��mo o ukl�d�n� stav� a myslel jsem si,
-�e ho m�m skoro hotov�, ale nebyla to pravda. A� dnes to vypad�, �e m�m funk�n�
-to, co se mi zd�lo funk�n� u� tenkr�t. A je to cel� p�ebudovan�.
-
-Nikde ov�em nem��u naj�t zm�nku o tom, zda u� je naprogramovan� pozn�v�n�, �e ve
-v�t� nen� napln�n n�jak� valen�n� r�mec. M�lo by to b�t ud�lan�, proto�e, pokud
-v�m, p�ed �asem u� jsem m�l i statistiku, kolika v�t se ten tyj�tr t�k�.
-
-V modulu subkat.pm je funkce najit_nenaplnene_ramce(), kter� p�eb�r� stav anal�zy
-(nap�. kv�li n�vrhu stromu) a odkaz na valen�n� slovn�k a vr�t� 1, pokud zjist�,
-�e ve v�t� existuje sloveso s nenapln�n�m r�mcem a materi�l, kter�m by r�mec �el
-naplnit. Tato funkce se moment�ln� vol� z funkce backtrack() v modulu rozebrat,
-ale jej� v�sledek se ignoruje.
-
-M�lo by se ud�lat n�sleduj�c�:
-- Jestli�e byla funkce zavol�na na danou v�tu poprv� a vr�t� 1, zapnout ukl�d�n�
-  stav� a opakovat anal�zu v�ty a� k tomuto bodu. Funkci ani nemus�me hned znova
-  volat, stav by m�l b�t �pln� stejn�, jen vedle bude existovat z�soba z�lo�n�ch
-  stav�.
-- Obnovit vybran� stav. Ide�ln� by bylo obnovit druh� nejlep�� pokra�ov�n� z m�sta,
-  ve kter�m jsem si zazdil cestu k napln�n�mu valen�n�mu r�mci, ale nev�me, kter�
-  m�sto to je - cestu jsme si mohli zazd�t i nep��mo. Proto obnov�me stav, ve kter�m
-  nejm�n� ztrat�me na v�ze oproti stavu, kter� byl v dan� chv�li vybr�n p�vodn�.
-- Samoz�ejm� z v�b�ru vynech�me stavy, ke kter�m se pozd�ji stejn� dosp�lo norm�ln�
-  cestou. Mj. se tak vyhneme opakovan�mu zkoum�n� dvojic N-A na r�zn�ch m�stech
-  v�ty, kdy� ve skute�nosti se do anal�zy pohodln� ve�ly v�echny.
-- Mus�me tedy v n�jak�m hashi evidovat v�echny lesy, ze kter�ch u� jsme �d�mali
-  pokra�ovac� stavy. Ze z�soby stav� vylou��me takov�, kter� vych�zej� z ji� zn�m�ho
-  lesa.
-- I tak je nebezpe��, �e z�soba stav� nezvladateln� poroste. Mus�me tedy po�et stav�
-  v z�sob� shora omezit. Nem�m je�t� jasno jak moc, mo�n� by sta�ilo na konstantn�
-  mocninu po�tu slov ve v�t�, t�eba na n^2. Jde n�m toti� hlavn� o to, aby z�sobn�k
-  nerostl exponenci�ln�. Nejdel�� v�ta v testovac�ch datech m� asi 100 slov, n^2
-  by tedy bylo 10000.
-- Po�et stav� ze z�sobn�ku, kter� skute�n� vyzkou��me, by m�l b�t je�t� ni���, abychom
-  se v�sledku n�kdy do�kali. Navrhuji nam�tkou zkusit 50 n�vrat� z konce, pokud
-  se d��ve nenajde zapln�n� valen�n� r�mec.
-  - T�m se tak� br�n�m "zacyklen�" v p��pad�, �e v�ta ve skute�nosti nem� dost
-    materi�lu do r�mc�, ale na�e primitivn� metoda to nezjistila, nap�. kdy� je
-    ve v�t� jeden akuzativ, ale 2 slovesa, kter� by ho cht�la. Ze zacyklen� by se
-    sice teoreticky vyklouzlo vyzkou�en�m v�ech mo�n�ch stav�, ale jejich po�et
-    je v praxi nutn� pova�ovat za bl�zk� nekone�nu.
-- Pokud i po "valen�n�m backtrackingu" z�stane n�kter� r�mec nenapln�n, m�li bychom
-  se vr�tit k v�sledku, kter� jsme navrhovali jako prvn�, proto�e pozd�j��mi �pravami
-  jsme pravd�podobn� pokazili dal�� v�ci.
-  - Lep�� v�ak bude otestovat, jak to dopad� v praxi, zda t�eba jeden n�vrat v pr�m�ru
-    nep�inese n�jak� u�itek.
-
-
-
-4.6.2004
-
-Upravuji rozebrat.pm tak, aby se standardn� pracovalo bez ukl�d�n� z�lo�n�ch stav�,
-ale v moment�, kdy se na konci najde nenapln�n� (a naplniteln�) slovesn� r�mec,
-se cel� rozbor zopakuje s ukl�d�n�m stav�. Zat�m se s nimi nic ned�l�. Ov�em pozor,
-nejsp�� se ned�l� v�bec nic nav�c, proto�e jsem zapomn�l vynulovat v�choz� stav,
-tak�e strom je ihned hotov�.
-
-G 93717 - B 32313 - P 74,4 - T 22:01 - belzebub 285
-
-Oprava. U� resetuju stav p�ed novou anal�zou.
-
-G 93717 - B 32313 - P 74,4 - T 22:31 - belzebub 286
-
-
-
-7.6.2004
-
-Opravil jsem funkci subkat::najit_nenaplnene_ramce(), nyn� snad vrac� to, co m�.
-
-G 93719 - B 32311 - P 74,4 - T 1:51:54 - anette 305
-
-Byla tam chyba. Po nalezen� prvn� v�ty s nenapln�n�m r�mcem se u� p�epo��t�valy
-v�echny.
-
-G 93718 - B 32312 - P 74,4 - T 1:28:15 - anette 307 :-(
-
-
-
-10.6.2004
-
-Poprv� prob�hla cel� anal�za se zapnut�m vracen�m se pro valen�n� dopln�n�. Neo�ek�val
-jsem nijak p�evratn� v�sledky, ale zat�m se v�sledek zcela shoduje s v�sledkem
-anal�zy, p�i n�� byla doty�n� vlastnost vypnuta, co� je podez�el�.
-
-G 93718 - B 32312 - P 74,4 - T 1:31:59 - freki 312
-
-Pou�t�m to cel� je�t� jednou, ale p�id�v�m statistiku, v kolika v�t�ch k n�vratu
-do�lo, p��padn� ke kolika n�vrat�m do�lo a kolikr�t to v�bec vedlo k n�jak� zm�n�
-(zat�m zjevn� nikdy).
-
-Opraveno n�kolik chyb, te� u�, zd� se, backtracking funguje, akor�t v n�m je�t�
-chyb� restrikce na po�et stav�, tak�e hroz�, �e bu� "nikdy" neskon��, nebo skon��
-chybou pro nedostatek pam�ti. Pokusn� b�h na v�t� 6 nasb�ral 42000 stav�, pak jsem
-ho utnul, proto�e byl pu�t�n interaktivn� do more a nem�l jsem na n�j �as. Cht�lo
-by to p�i vyb�r�n� n�vratov�ho stavu posoudit, zda v tomto stavu je�t� je �ance
-zaplnit n�jakou nezapln�nou valenci. Jinak ho rovnou ozna�it za zpracovan�.
-
-freki 335 ... Podle o�ek�v�n� hned prvn� backtracking vyho�el na nedostatku pam�ti
-(nageneroval p�es 59000 stav�, zpracoval jich asi 4000 a spot�eboval p�es 2 GB).
-
-
-
-11.6.2004
-
-Pot�ebujeme seznam slov, kter� ve v�t� p�edstavuj� rezervu pro napl�ov�n� r�mc�.
-Jsou to slova, kter� spl�uj� valen�n� podm�nky toho kter�ho slovesa, ale tak� je
-je�t� ��dn� sloveso neanga�ovalo (valen�n�; mohou v�ak t�eba nepr�vem viset na
-mod�ln�m slovesu). Abychom takov� seznam z�skali, mus�me upravit funkci, kter�
-zat�m pouze zji��uje, zda lze uspokojit neuspokojen� po�adavky, ale m� na v�c.
-
-
-
-14.-18.6.2004
-
-Pracuju na modulu subkat.pm, aby dok�zal ��ct, kter� vazby v navrhovan� anal�ze
-chyb� a kter� pro jejich napln�n� nelze vyu��t. Vytvo�il jsem funkci obohatit_pole_deti(),
-kter� mi umo�n� se�adit d�ti slovesa podle pravd�podobnosti, �e jde o argumenty.
-V p�tek 18.6.2004 v 18:29 jsem to kone�n� dopsal, te� p�ijde lad�n�.
-
-
-
-7.7.2004
-
-Po dovolen� pou�t�m parse.pl. Neza�al se vracet u� u v�ty 6, ale a� u v�ty 17.
-Ani tady se ale nezd�, �e by to m�lo n�kdy skon�it. Oprava: Stav, ve kter�m nen�
-voln� n�jak� nad�jn� uzel (tj. takov�, kter� by mohl zaplnit valenci), se rovnou
-ozna�� za zpracovan�. V�po�et konverguje sice o n�co rychleji, doopravdy zpracovan�ch
-je te� asi 16000 uzl�, ale stejn� je to ne�nosn� dlouh� a stejn� to nakonec skon��
-na nedostatku pam�ti. P�jdeme tedy je�t� o krok d�l. Budeme hledat stavy, kde je
-nad�jn� uzel u� rovnou p�ipojen ke slovesu, kter� jeho pomoc pot�ebuje. Budeme
-ignorovat fakt, �e n�kter� pr�chody odepisujeme d��ve, ne� mohlo b�t p�ipojen�
-v�bec povoleno. Jestli�e u n�kter�ho nad�jn�ho uzlu vyzkou��me v�echna jeho p�ipojen�
-ke v�em hledaj�c�m sloves�m a nepom��e to, p�estaneme dan� uzel pova�ovat za nad�ji.
-Pot�ebujeme v�d�t, pro kter� sloveso je kter� uzel nad�j�.
-
-Zm�na. Nebudeme si komplikovat evidenci t�m, pro jak� sloveso je jak� uzel nad�j�.
-Prost� dovol�me pokra�ov�n� jen ze stav� t�sn� po zav�en� n�kter�ho nad�jn�ho
-uzlu. Prvn� �sp�ch: v�ta 17 je prvn�, kterou backtracking pro�el �sp�n� (tj.
-poda�ilo se mu valence zaplnit)! Bylo nasb�r�no 11295 stav�, z toho jen 407 bylo
-na konci ve front� nezpracovan�ch.
-
-I te� bohu�el hroz� krach v�po�tu z d�vodu nedostatku pam�ti. Zpracovan� stavy
-by se m�ly ihned po zpracov�n� (nebo zavr�en�) vyprazd�ovat a� na p��znak {zpracovano}.
-Byla by s t�m ale spojena dal�� �asov� re�ie a nav�c se ob�v�m, zda je to bezpe�n�,
-tj. zda opravdu nikde nesah�m na jin� polo�ky zpracovan�ch stav�.
-
-Zat�m se zd�, �e v�po�et by mohl m�t �anci na dob�hnut�, i kdy� i tak bude trvat
-��dov� d�le ne� norm�ln� v�po�ty.
-
-geri 362
-V�po�et um�le zastaven na v�t�, kde nejsp�� neexistuje optim�ln� zapln�n� r�mc�.
-V okam�iku zastaven� m�l proces alokov�no 2,3 GB pam�ti, nageneroval 101193 stav�,
-z toho 4017 zb�valo zpracovat (av�ak po�et nezpracovan�ch st�le pomalu rostl).
-
-Krom� vyprazd�ov�n� stav� bych asi m�l omezit celkov� po�et generovan�ch stav� (t�eba
-na 50000?) a celkov� po�et n�vrat� (500?). Zat�m zav�d�m vyprazd�ov�n� stav� a
-omezen� po�tu n�vrat� na 500.
-
-geri 363 - Nakonec tak� Segmentation fault.
-
-Omezuji po�et n�vrat� na 100.
-
-geri 364
-
-
-
-13.7.2004, Kolna
-
-P�i psan� disertace nar��m na probl�m vzta�n�ch v�t a toho, pro� se pravidlo
-pro n� ur�en� uplatn� tak m�lokr�t.
-
-Kolikr�t se zkoum�, zda jde o spr�vnou z�vislost typu "kter�"? 1160-kr�t.
-Ve v�ech t�chto p��padech u� je skute�n� p��tomno z�jmeno "kter�", ale je�t�
-nen� ov��ena shoda. P�es n�kter� z�jmena se tak� zkou�� natahovat cel� �ada
-z�vislost�. M�la by se chytat i z�jmena vis�c� p�es p�edlo�ku, ale nem�m ov��eno,
-�e to funguje, b�hem v�po�tu jsem nic takov�ho nevid�l.
-
-Na konci v�po�tu u� se p�ekvapiv� neobjevuje statistika �sp�nosti tohoto pravidla,
-tak�e nem�m podle �eho ov��it, jak to je. V testovac�ch datech je celkem 801 v�skyt�
-tvar� z�jmena "kter�". 48 z nich vis� p�es p�edlo�ku.
-
-Ve 483 p��padech se skute�n� pravidlo chytlo. Z toho 389-kr�t pravidlo zabralo
-spr�vn�, �sp�nost je tedy 80,5 %.
-
-
-
-16.7.2004
-
-Kapitola o plodnosti uzl�. P�etr�novat a znova pustit parser, jednak jako kontrolu,
-�e v�e �ije, jednak p�i tr�nov�n� p�idat ud�lost ZPL - zna�kov� plodnost. Nap�.
-"ZPL N7 2 10" znamen�, �e byl desetkr�t zaznamen�n p��pad, kdy uzel se zna�kou
-N7 m�l dv� d�ti.
-
-geri 367 - 3 448 405 ud�lost� - 76 MB - T 11:08
-geri 369 - parse.pl nad 367.stat, je to podez�el�, asi nebude �sp�nost takov�,
-jak� m� b�t. Tak� se mi v�po�et zd� pomal�. Skon�ilo to po 767 v�t�ch!
-G 15500 - B 5391 - P 74,2 - T 6:22
-Aha! Z�stal zapnut� filtr, kter� propustil pouze v�ty obsahuj�c� z�jmeno "kter�"!
-Vyp�n�m, pou�t�m znova.
-
-G 93785 - B 32245 - P 74,4 - T 22:12 - geri 370
-
-P�ekvapen�. Po vypnut� valence1 se �sp�nost ne�ekan� zlep�ila o 67 z�vislost�
-oproti nejlep��mu zaznamenan�mu stavu p�ed jej�m zapnut�m. Potvrzuji do CVS (kam
-sou�asn� p�id�v�m modul plodnost.pm).
-
-Zkou��m "typickou plodnost" (TFM). Pravd�podobnost i �etnost z�vislosti se n�sob�
-pravd�podobnost�, �e uzel bude m�t dal�� d�t�. Tato pravd�podobnost m� ov�em pouze
-t�i hodnoty. 0, pokud kv�ta d�t� u� byla napln�na �i p�ekro�ena. 1, pokud je�t�
-nebyla dosa�ena. A 0,5, pokud uzel neup�ednost�uje jednozna�n� konkr�tn� po�et
-d�t� (tj. nen� pravda, �e doty�n� m-zna�ka byla vid�t alespo� 100�, a z toho alespo�
-v 80 % s dan�m po�tem d�t�).
-
-G 93039 - P 73,8 % (geri 375)
-
-Zkou��m "hl�d�n� kv�ty d�t�" (QFM). Plodnostn� pravd�podobnost nyn� nab�v� pouze
-hodnot 0 a 1. Nula je pro uzly, kter� jednozna�n� preferuj� ur�itou kv�tu, a t�
-u� dos�hly nebo ji dokonce p�ekro�ily. Pro v�echny ostatn� je jedni�ka.
-
-G 93113 - P 73,9 % (geri 377)
-
-
-
-17.7.2004
-
-Implementuji �plnou plodnost (FFM). Dv� varianty: 3 a v�ce d�t� se bu� pova�uje
-za jedin� stav, nebo se pro ka�dou zna�ku zohled�uj� v�echny po�ty d�t�, se kter�mi
-byla vid�na. Pokud se 3 a v�ce d�t� eviduje najednou, dostane uzel, kter� u� m�
-3 d�ti, automaticky 0.5. Pozor, opraven� po��t�n� pravd�podobnosti oproti Modelu Jedna: kdy�
-chce uzel bu� 0 nebo 2 d�ti, ale rozhodn� ne 1, a u� jedno dostal, m� velmi vysokou
-pravd�podobnost, �e dostane i druh�!
-
-G 93677 - P 74,3 % (geri 378)
-
-Je�t� druh� varianta - i velk� po�ty d�t� se po��taj� samostatn�.
-
-G 90640 - P 71,9 % (geri 380)
-
-
-
-Vzd�lenost. Krom� standardn�ho zohled�ov�n� sousedstv� a p��padn�ho po�tu intervenuj�c�ch
-��rek se je�t� pravd�podobnost a �etnost z�vislosti d�l� vzd�lenost� obou uzl�.
-�in�m tak na radu Tom�e Holana, kter�mu to pomohlo.
-
-G 93845 - P 74,5 % - T 22:34 (geri 381)
-
-Nov� rekord! CVS commit.
-
-
-
-19.7.2004
-
-V�era jsem zkoumal v�skyt neprojektivity (pomoc� ../neproj/neproj.pl) ve v�stupech
-jednotliv�ch parser�. Zjistil jsem, �e u mne se vyskytly v�eho v�udy dv� (kv�li
-modelu n-tic, jinak by nebyly ��dn�), u Tomov�ch parser� kolem 200 (u jednoho a�
-1500) a u Zde�kova p�es 2000 (to u� odpov�d� jejich skute�n�mu po�tu v testovac�ch
-datech).
-
-Sou�asn� m� zasko�ilo zji�t�n�, �e jak Tom�, tak Zden�k si ned�laj� hlavu s t�m,
-zda jimi zplozen� struktura je strom!
-
-Dnes budu p�id�vat neprojektivity do sv�ho parseru. Za��n�m sb�rem rematiz�tor�
-pro typ RHEM-PREP-cokoli. Kv�li zachov�n� statistick�ho p��stupu se chci mno�inu
-rematiz�tor� nau�it z tr�novac�ch dat, nep�d�m se proto po seznamu, kter� ur�it�
-maj� anot�to�i treebanku.
-
-Budu tak� muset zjistit, zda se n�kter� rematiz�tory vyskytuj� v datech v podobn�
-konstelaci, ani� by byly zav�eny neprojektivn� na uzel za p�edlo�kou.
-
-Bohu�el se to st�v� pom�rn� �asto. 48 rematiz�tor� se vyskytlo aspo� jednou jako
-rematiz�tor a aspo� v 50% p�eva�uje jejich zav�en� na uzel za p�edlo�kou nad jin�mi
-zav�en�mi; obvykl� pod�l je v�ak jen mezi 60 a 70%.
-
-Dv� mo�nosti: 1) natvrdo p�ipojovat rematiz�tory za p�edlo�ky. Vzhledem k v��e
-uveden� statistice by to nem�lo m�t moc velk� �sp�ch. 2) p�i zmer�en� rematiz�toru
-pouze ud�lit v�jimku ze z�kazu neprojektivn�ch hran. Model rozhodne, zda bude v�jimka
-vyu�ita.
-
-geri 383: pouze povolit, ale nevnucovat
-G 94054 - P 74,6 - T 23:19 - Nov� rekord!
-
-Cht�lo by to zefektivnit a l�pe spravovat (voliteln� zap�n�n� v konfiguraci), ale
-to te� odkl�d�m. Tak, jak to je, p�id�v�m neproj.pm do cvs + commit.
-
-Infinitivy: jestli�e infinitiv vis� na sv�m lev�m sousedovi, v�em uzl�m, kter�
-maj� povoleno zleva viset na tomto sousedovi, povolit tak� viset na infinitivu.
-
-geri 384
-G 94074 - P 74,6 - T 23:17 - Nov� rekord!
-
-Li a v�ak: pouze povol�me jejich neprojektivn� p�eskakov�n�, zbytek a� u� si vy�e��
-statistika.
-
-geri 392
-G 94080 - P 74,6 - T 23:57 - Nov� rekord, i kdy� u� pom�rn� zanedbateln�. cvs commit
-
-
-
-20.7.2004
-
-Za��n� masivn� testov�n� za ��elem z�sk�n� z�v�re�n�ch ��sel do disertace.
-Vyp�n�m podm�n�nou pravd�podobnost, m�sto n� absolutn� �etnost z�vislosti.
-
-geri 394
-G 90684 - P 72,0 - T 23:11
-
-P�id�v�m alternativn� verzi funkce zjistit_povol(), kter� vedle komponentov�ho
-budov�n� stromu umo�n� tak� budov�n� shora dol�. Pozor, zat�m je d�sledkem vypnut�
-kontroly projektivity, tak�e v�sledek bude asi stra�n�.
-geri 395
-Zd� se, �e se v�po�et zacyklil u v�ty 14. Parser asi bohu�el po��t� s t�m, �e z�vislosti
-jsou povolov�ny ur�it�m zp�sobem, a te� nem�m �as ho u�it n�co jin�ho. Zkus�m je�t�
-funkci obohatit o kontrolu projektivity a kdy� to nepom��e, tak to zabal�m. Ne,
-bal�m to hned. Kontrola, �e funguje p�vodn� nastaven� (abscetnost=0, komponentove=1).
-geri 400
-G 93845 - P 74,5 - T 23:30
-Je�t� z�staly vypnut� neprojektivity. P�i t�to p��le�itosti je trochu umravn�m
-a jejich zap�n�n� p�esunu do parser.ini (zat�m bylo nutn� ho zakomentovat v genstav.pm).
-Zru��m model neproj.pm (i z CVS) a v�e p�esunu do povol.pm.
-geri 407
-G 94080 - P 74,6 - T 25:39 OK.
-
-Redukce zna�ek. Natr�novat model neredukovan�ch zna�ek. Tak� se pokusit o redukci
-zp�sobem pou��van�m v Modelu Jedna - n�kde m�m p�ibli�n� p�eklad v�ech zna�ek.
-freki 401 - tr�nuje s vypnutou redukc� zna�ek
-3 970 666 ud�lost� - T 11:40
-freki 408 - parse.pl nad 401 (i te� je pochopiteln� vypnut� redukce)
-G 88351 - P 70,1 - T 26:37
-
-Natr�novat model zna�ek redukovan�ch baltimorskou metodou.
-freki 410 - tr�nuje s baltimorskou redukc�
-3 659 134 ud�lost� - T 11:13
-freki 411 - parse.pl nad 410 (zapnuta baltimorsk� redukce)
-G 89535 - P 71,0 - T 26:02
-
-R�zn� m�ra lexikalizace (ne t� selektivn�, ale lambda).
-Op�t zapnout sou�asnou redukci zna�ek a pou��t statistiku 374.stat.
-geri 412 - parse.pl: ls = 0.734375
-G 94080 - P 74,6 - T 25:45
-freki 413 - parse.pl: ls = 0
-G 93090 - P 73,9 - T 40:21
-freki 414 - parse.pl: ls = 1
-G 69142 - P 54,9 - T 39:27
-
-Selektivn� lexikalizace.
-geri 416 - train.pl: vypnut� selektivn� lexikalizace
-3 061 758 ud�lost� - T 10:34
-geri 418 - parse.pl nad 416.stat
-G 91038 - P 72,2 - T 24:14
-
-Je�t� pot�ebujeme vyp�nat selektivn� lexikalizaci jednotliv�ch slovn�ch druh�
-zvlṻ.
-train geri 420 - bez p�edlo�ek - T 11:40
-  parse geri 426
-  G 93904 - P 74,5 - T 31:33
-train geri 421 - bez pod�ad�c�ch spojek - T 18:47
-  parse geri 427
-  G 93604 - P 74,3 - T 31:38
-train geri 422 - bez z�jmen - T 18:32
-  parse freki 428
-  G 93668 - P 74,3 - T 35:07
-train freki 423 - bez vybran�ch p��slovc� - T 17:17
-  parse freki 429
-  G 93487 - P 74,2 - T 34:42
-train geri 432 - bez slovesa b�t - 3365461 ud�lost� - T 11:01
-  parse geri 433
-  G 92235 - P 73,2 - T 24:40
-train freki 425 - bez pseudovalence (tj. selektivn� lexikalizace sloves) - T 17:12
-  parse drak 431
-  G 93987 - P 74,6 - T 24:05
-
-
-
-21.7.2004
-
-Dal�� probl�m s pseudovalenc� je na stran� 52. Jsou tam �sp�nosti m��en� nejen
-d�vno, ale hlavn� jen na z�vislostech na slovesech (Sb|Obj|AuxT|Pnom|Adv). V�era
-jsem zjistil, �e na celkov� �sp�nosti se vypnut� pseudovalence na prvn�m desetinn�m
-m�st� v�bec neprojev� (by� mal� rozd�l v po�tu spr�vn�ch z�vislost� existuje).
-
-S vypnutou pseudovalenc� (431.vysledky) to bylo 84,6 %.
-Se zapnutou pseudovalenc� (412.vysledky) to bylo 84,9 %.
-
-Op�t po��t�m norm�ln� �sp�nost na v�ech uzlech. Vyhodnocen� pseudovalence u� m�me
-ov���me ji ale i v kombinaci s valenc�0. Valenci0 tak� vyhodnot�me samostatn�.
-Valenci1 u� kv�li �asov�m n�rok�m nebudeme znova testovat a zve�ejn�me ��slo zji�t�n�
-posledn�m pokusem. Stejn� nebylo na cel�ch datech.
-
-Pro pseudoval=0 pou��t statistiku 425, pro pseudoval=1 pou��t 374.
-
-pseudoval=0, valence=0 ... u� m�me (b�h 431 v�era): G 93987 - P 74,6 - T 24:05 freki
-pseudoval=0, valence=1 ... geri 434:                G 91866 - P 72,9 - T 24:51 geri
-pseudoval=1, valence=0 ... freki 435:               G 91882 - P 72,9 - T 25:11 freki
-pseudoval=1, valence=1 ... drak 436:                G 91882 - P 72,9 - T 24:46 drak
-Toto�n� v�sledek na posledn�ch dvou ��dc�ch mi byl podez�el�, n�kolikr�t jsem kontroloval
-z�znam nastaven�, ale opravdu to bylo pu�t�no spr�vn�. A� NA TO, �E BYLO VYPNUTO SELEX B�T
-OPRAVA:
-pseudoval=0, valence=1 ... geri  437:               G 93987 - P 74,6 - T 24:21 geri
-pseudoval=1, valence=0 ... freki 439:               G 94080 - P 74,6 - T 24:37 freki
-pseudoval=1, valence=1 ... drak  438:               G 94080 - P 74,6 - T 25:17 drak
-Te� u� v�sledky nekoliduj� s d��v�j��mi zji�t�n�mi, ale je podez�el�, �e parametr
-$konfig{valence} nem� na v�sledky ��dn� vliv. Ukazuje se, �e p�i p�estavb� genstav.pm
-se �pln� vytratila podm�nka, kter� se na tento parametr d�v�. Podm�nku vrac�m a
-��dky s valence=0 testuju znova, mo�n� se budeme divit.
-pseudoval=0, valence=0 ... te� u� nemus� odpov�dat v�erej��mu 431; geri 440: G 93987 P 74,6
-pseudoval=1, valence=0 ... freki                                        441: G 94080 P 74,6
-Inu, valence z�ejm� trv� na sv�m, �e celkov� v�sledek nijak ovliv�ovat nebude.
-
-��rlivost. Pou�t�m tr�nink, kter� si u OZZ (a u ni�eho jin�ho!) v��m�, zda na dan�m
-rodi�i vis� je�t� jin� uzel se stejnou zna�kou jako posuzovan� d�t�.
-train geri 442 - 3449293 ud�lost� - T 11:29
-parse geri 444 - G 81075 - P 64,3 - T 24:57
-
-��rlivost op�t vypnuta, pro jistotu pou�t�m kontroln� b�h, kter� m� zjistit, zda
-op�t dosahujeme maxim�ln� zn�m� �sp�nosti G 94080 - P 74,6.
-geri 445 - G 94080 - P 74,6 - T 24:21
-Potvrzeno.
-
-Z�kaz p�eskakov�n� sloves (definovan� souborem zakazy_preskoceni.txt). Vyp�n�m ho
-p��znakem nepreskocv=0. P�etr�nov�n� nen� nutn�.
-freki 446 - G 93914 - P 74,5 - T 22:27
-
-Plodnost se zat�m zap�nala a vyp�nala natvrdo v k�du. P�ed�l�v�m ji tak, aby se
-dala zapnout v konfigura�n�m souboru a nav�c aby se dalo vybrat ze t�� p��stup�
-popsan�ch v disertaci (FFM, TFM a QFM). Statistika plodnosti nen� p��mou sou��st�
-hlavn� statistiky, ale �te se ze zvl�tn�ho souboru plodnost.txt. Proto p�ep�na�
-umis�uju mezi parametry, jejich� zm�na nevy�aduje p�etr�nov�n�.
-
-ffm - geri 447   - G 93852 - P 74,5 - T 25:26
-tfm - freki 448  - G 93292 - P 74,0 - T 24:27
-qfm - drak 449   - G 93315 - P 74,0 - T 24:22
-nic - sakura 450 - G 94080 - P 74,6 - T 31:27
-
-Experimenty se vzd�lenost�.
-1: Vzd�lenost v ��dn� podob� nen� parametrem pro v�hu z�vislosti.
-2: Parametrem je, zda ��d�c� a z�visl� spolu soused� (standard Modelu Jedna).
-3: T�et� stav - v�skyt ��rky mezi ��d�c�m a z�visl�m. Nyn� je parametrem B/D/,.
-4: Jako 3, ale v�ha z�vislosti se nav�c d�l� vzd�lenost� mezi ob�ma uzly.
-Nejd��ve je t�eba natr�novat modely pro 1 a 2. Pro 3 u� natr�nov�no m�me a 4 tr�nov�n� nevy�aduje.
-
-1: train geri 451  - 3283615 ud�lost� - T 10:42
-   parse geri 456  - G 91200 - P 72,4 - T 24:08
-2: train freki 452 - 3418129 ud�lost� - T 10:41
-   parse freki 457 - G 91926 - P 72,9 - T 24:32
-3: 374.stat
-   parse drak 453  - G 94032 - P 74,6 - T 23:38
-4: 374.stat
-   zn�m� v�sledek  - G 94080 - P 74,6
-
-Koordinace. Nejd��ve kontroln� b�h, �e je op�t �sp�nost na maximu.
-parse geri 458  - G 94080 - P 74,6 - T 24:34
-Te� prost� zkus�m koordinace=0 v parser.ini. Je tam naps�no, �e se mus� p�etr�novat,
-to� p�etr�nujem.
-train freki 459 - 3390516 ud�lost� - T 23:02
-parse freki 460 - G 92267 - P 73,2 - T 22:35
-
-
-
-22.7.2004
-
-Kr�tk� v�ty. Zat�m se nedaj� vyp�nat a zap�nat. Za�ad�m p�ep�na� do sekce nevy�aduj�c�
-p�etr�nov�n�, proto�e p�i p�etr�nov�n� se pot�ebn� statistiky sb�raj� ka�dop�dn�.
-geri 461 - G 93838 - P 74,5
-
-N-tice. Podobn� jako kr�tk� v�ty dosud nebyly voliteln�, te� budou.
-geri 462 - G 92556 - P 73,4
-Chyba, sou�asn� z�staly vypnut� i kr�tk� v�ty! Znova!
-geri 463 - G 93054 - P 73,8
-
-Pevn� omezen�.
-
-P�ipojov�n� koncov� interpunkce ke ko�eni.
-freki 464 - G 91339 - 72,5
-
-Z�vislosti na ko�eni nerozli�uj� sm�r, ale zato kontroluj� p��tomnost slovesa ve
-v�t�. Pozor, p�i zm�n� tohoto p�ep�na�e se mus� p�etr�novat!
-train geri 465 - 3445058 ud�lost�
-parse geri 466 - G 94027 - P 74,6
-
-
-
-23.7.2004
-
-Plodnost ko�enu nesm� b�t v�t�� ne� 2.
-parse geri 468 - G 93725 - P 74,4
-
-Pr�v� jedna vn�j�� z�vislost do �seku mezi dv�ma ��rkami.
-parse geri 469 - G 93545 - P 74,2
-
-Na ��rce nesm� viset nic.
-parse geri 470 - G 93923 - P 74,5
-
-Z�kaz p�eskakov�n� bezd�tn�ch p�edlo�ek.
-parse geri 471 - G 94024 - P 74,6
-
-Z�kaz p�eskakov�n� podstatn�ch jmen v genitivu.
-parse geri 472 - G 94112 - P 74,7
-Wow! Tak�e p�esto�e to kdysi pom�halo, te� je naopak lep�� to vypnout!
-cvs commit
-P�edch�zej�c� pokusy u� p�epo��t�vat nebudu, akor�t v�ude, kde v disertaci mluv�m
-o z�v�re�n� �sp�nosti, zm�n�m 74,6 na 74,7.
-
-Zvl�tn� zpracov�n� vzta�n�ch v�t se z�jmenem "kter�".
-parse geri 473 - G 93967 - P 74,6
-V d-test datech se 801-kr�t vyskytuje tvar z�jmena "kter�".
-1160-kr�t se parser ptal na n�kterou z�vislost, kter� p�es "kter�" m�la v�st (na n�kter�
-se mohl pt�t opakovan� a p�es n�kter� v�skyty "kter�" mohlo v�st n�kolik potenci�ln�ch
-z�vislost�, zejm�na proto�e p�ed z�jmenem le�elo n�kolik podstatn�ch jmen. 483-kr�t
-se nakonec pravidlo aplikovalo a z�vislost byla p�ijata; z toho 389x spr�vn�. To
-d�v� �sp�nost pravidla 80,5 %.
-
-Vypnut� v�ech vyp�nateln�ch vlastnost� Modelu Dva najednou:
-vztaz = 0
-nepreskocg = 0 (m� b�t nyn� vypnuto i ve fin�ln� verzi)
-predlozky = 0
-carka_je_list = 0
-mezicarkove_useky = 0
-koren_2_deti = 0
-pod_korenem_sloveso_misto_smeru = 0
-koncint = 0
------ tady kon�� pevn� omezen�
-ntice = 0
-krvety = 0
-koordinace = 0
-vzdalenost = 0
-vzdalenost_delitel = 0
-... plodnost z�st�v� vypnut� stejn� jako ve fin�ln� verzi
-nepreskocv = 0
-selex = 0
-pseudoval = 0
-upravovat_mzn = 0 (m�sto 2)
-abscetnost = 1 (m�sto 0)
-neselektivn� lexikalizace z�stala na lambda = 0.734375
-
-Mus�me p�etr�novat, pak teprv testy!
-train geri 474 - 3459989 ud�lost� - T 9:10
-parse geri 475 - G 71160 - P 56,5 - T 13:29 (!)
-
-Te� zase v�e zapnout, a� na pevn� omezen�.
-I tak se to mus� p�etr�novat a nem��e se pou��t 374.stat, proto�e za pevn� omezen�
-pova�uju i to, �e se p�i tr�nov�n� pod ko�enem m�sto sm�ru kouk� na p��tomnost slovesa.
-train geri 477 - 3445058 ud�lost� - T 11:03
-parse geri 478 - G 91177 - P 72,3 - T 21:57
-
-
-
-Rychle ov��it, �e po op�tovn�m zapnut� v�ech �sp�n�ch vylep�en� a p�epnut� na 374.stat
-se �sp�nost vr�t� k rekordn� hodnot�.
-parse geri 479
-
-dtest data 0.5 (bez p�etr�nov�n� na 0.5!)
-parse geri 484 - G 46505 - B 17213 - P 73,0
-etest data 0.5 (bez p�etr�nov�n� na 0.5!)
-parse geri 485 - G 47653 - B 17737 - P 72,9
-
-P�etr�nov�v�m podle tr�novac�ch dat z Baltimoru.
-train geri 486 - 1218787 ud�lost� - T 2:45
-parse geri 488 dtest - G 45299 - P 71,1
-parse geri 487 etest - G 46504 - P 71,1
-
-ETEST 1.0 (s maxim�ln�m v�konem a 374.stat)!!!
-A 125713 - G 94121 - B 31592 - P 74,9
-
-
-
-24.7.2004
-
-Natr�novat na r�zn�ch zdroj�ch morfologie. Bohu�el se to nebude t�kat vedlej��ch
-statistik, jako jsou n-tice, kr�tk� v�ty �i z�kazy p�eskakov�n� sloves. Nem�m u�
-�as, abych to dot�hl do konce. Pokud se ale potvrd�, �e nejl�pe to funguje na
-statistice z taggeru, nebude ��dn� dotahov�n� do konce nutn�.
-
-human
-  train geri 491  - 3397730 ud�lost� - T 10:56
-tagger a
-  u� hotovo (374) - 3448365 ud�lost�
-tagger b
-  train geri 492  - 5238005 ud�lost� - T 11:27
-dictionary
-  train freki 493 - 6394663 ud�lost� - T 27:12
-
-Je docela divn�, o kolik v�ce ud�lost� se objev� p�i pou�it� taggeru b oproti taggeru
-a. Te� prob�hne parsing. Nejd��v ka�d� na sv�m, "human" vynech�v�me, proto�e bychom
-ho museli testovat na jin�ch datech.
-
-tagger a - tagger a (374.stat)
-  u� hotovo (472): G 94112 - P 74,7
-tagger b - tagger b (492.stat)
-  geri 495
-dictionary - dictionary (493.stat)
-  freki 496
-
-human    - tagger a
-human    - tagger b
-
-Parsing nad 493.stat (nezjednozna�n�n� morfologie) spadl na nedostatku pam�ti.
-Nejd��v ze statistiky vyh�z�m v�ci, kter� se u� l�ta tr�nuj� jen ze zv�davosti,
-konkr�tn� ud�losti typu RAM, OSZ, OZS, ZZZ, ZSZ, ZZS, ZSS. T�m se statistika zmen��,
-potom se ale asi stejn� bude muset zkoumat, co je p�i v�m�n� morfologick�ho zdroje
-�patn�.
-
-MM ad train geri 497.stat - 2875424 ud�lost� (97 MB) - T 20:14
-MD a  parse geri 505 - G 91949 - P 73,0
-
-MM ad parse geri
-N�kde se ztr�c� pam�! Po na�ten� statistiky do parseru m� proces jen 400 MB,
-ale pak se klidn� vy�plh� na 2 GB a spadne!
-
-
-
-1.8.2004
-
-P�eprogramoval jsem rozepisov�n� alternativ jin�m zp�sobem a p�estala se ztr�cet
-pam�.
-
-MM ad train i parse - G 85754 - P 68,0 - T 47:22 - geri 524
-
-Probl�m je, �e p�i tr�nov�n� se z�ejm� alternativy rozepisovaly �patn�. Proto uprav�m
-train.pl, aby pou��val tut� funkci, a pust�m tr�nink je�t� jednou.
-
-train geri 526 - 2872481 ud�lost� (96 MB) - T 33:20
-parse geri 527 - G 85460 - P 67,8 - T 47:29
-
-Druh� verze: nejednozna�n� morfologie, ale bez rozepisov�n� alternativ (tj. �et�zec
-zna�ek se pova�uje za jedinou zna�ku).
-
-train geri 528 - 1774510 ud�lost� (55 MB) - T 9:09
-parse geri 529 - G 89553 - P 71,1 - T 21:23
-
-DOSUD ZJI�T�NO:
-526+527: G 85460 - P 67,8 - T 47:29 - oba MM ad rozepsan�
-528+529: G 89553 - P 71,1 - T 21:23 - oba MM ad nerozepsan�
-374+472: G 94112 - P 74,7 - T 24:21 - oba MD a
-
-Te� znova natr�nujeme podle MD b.
-
-train geri 530 - 2379504 ud�lost� (56 MB) - T 7:41
-parse geri 531
-
-Pr�b�n� �sp�nost je op�t d�siv� n�zk�, jak to?
-Regul�rn� v�raz pro <MDt src="b"> chytal �pln� nesmysly. Je nutn� p�etr�novat.
-
-train geri 534 - 1381009 ud�lost� (34 MB) - T 7:30
-parse geri 535 - G 93920 - P 74,5 - T 23:46
-
-Nov� nastudov�n� MD a:
-
-train geri 536 - 1379879 ud�lost� (33 MB) - T 7:44
-parse geri 537 - G 93840 - P 74,5 - T 22:35
-GRRR!!!
-Jak to, �e to nen� toto�n� s 374+472?
-Zap�n�m rozepisov�n� alternativ (mo�n� se stopov� vyskytlo i u MD?), pou��v�m 374.stat.
-parse geri 538 - G 93721 - P 74,4 - T 40:47
-
-
-
-2.8.2004
-
-Tak�e znova. Zru��me sou�asn� zp�sob rozepisov�n�, zapneme ten p�vodn� (i kdy�
-si mysl�m, �e je chybn�). A pou�ijeme 374.stat a MD a.
-
-parse geri 539 - G 93721 - P 74,4 :-(( - T 26:11
-
-Bez ohledu na v�sledek p�tr�n� po p�vodn�m optimu budu vypl�ovat ostatn� bu�ky
-tabulky. Jejich odchylky od hodnot, kter� bych dostal, kdybych znal a odstranil
-p���inu probl�mu s optimem, by pravd�podobn� byly zanedbateln�.
-
-MM ad + MD a, tj. nastavit zdroj na MD a a statistiku na 526.stat. Rozepisov�n�
-alternativ op�t vypnout kv�li �asov�m n�rok�m.
-
-parse freki 541 - G 91866 - P 72,9 - T 26:43
-
-MM ad + MD b, tj. nastavit zdroj na MD b a statistiku na 526.stat. Rozepisov�n�
-alternativ vypnout kv�li �asov�m n�rok�m.
-
-parse geri 542 - G 91964 - P 73,0 - T 29:42
-
-MD a + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
-na statistiku 536.stat.
-
-parse freki 543 - G 87236 - P 69,2 - T 48:52
-
-MD a + MD b, tj. nastavit zdroj na MD b, vypnout rozepisov�n� alternativ, p�epnout
-na statistiku 536.stat.
-
-parse belzebub 544 - G 93900 - P 74,5 - T 24:45
-
-MD b + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
-na statistiku 534.stat.
-
-parse drak 545 - G 87237 - P 69,2 - T 46:50
-
-MD b + MD a, tj. nastavit zdroj na MD a, vypnout rozepisov�n� alternativ, p�epnout
-na statistiku 534.stat.
-
-parse geri 546 - G 93743 - 74,4 - T 29:04
-
-human: Nejd��ve je pot�eba natr�novat statistiku.
-
-train loki 547 - 1354520 ud�lost� (33 MB) - T 13:31
-
-human + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
-na statistiku 547.stat.
-
-parse geri 548 - G 87239 - P 69,2 - T 46:39
-
-human + MD a, tj. nastavit zdroj na MD a, vypnout rozepisov�n� alternativ, p�epnout
-na statistiku 547.stat.
-
-parse geri 549 - G 93188 - P 73,9 - T 23:41
-
-human + MD b, tj. nastavit zdroj na MD b, vypnout rozepisov�n� alternativ, p�epnout
-na statistiku 547.stat.
-
-parse freki 550 - G 93296 - P 74,0 - T 23:12
-
-DOSUD ZJI�T�NO:
-
-MM ne + MM ne = 528+529: G 89553 - P 71,1 - T 21:23 (ne znamen� nerozepsan�)
-MM ad + MM ad = 526+527: G 85460 - P 67,8 - T 47:29
-MM ad + MD a  = 526+541: G 91866 - P 72,9 - T 26:43
-MM ad + MD b  = 526+542: G 91964 - P 73,0 - T 29:42
-MD a  + MM ad = 536+543: G 87236 - P 69,2 - T 48:52
-MD a  + MD a  = 374+472: G 94112 - P 74,7 - T 24:21 (m�lo by b�t tot� jako 536+537, ale nen�, chybu nezn�m)
-MD a  + MD b  = 536+544: G 93900 - P 74,5 - T 24:45
-MD b  + MM ad = 534+545: G 87237 - P 69,2 - T 46:50
-MD b  + MD a  = 534+546: G 93743 - P 74,4 - T 29:04
-MD b  + MD b  = 534+535: G 93920 - P 74,5 - T 23:46
-human + MM ad = 547+548: G 87239 - P 69,2 - T 46:39
-human + MD a  = 547+549: G 93188 - P 73,9 - T 23:41
-human + MD b  = 547+550: G 93296 - P 74,0 - T 23:12
-
-
-
-3.8.2004
-
-cvs tag rel-3-4, aby se dala snadno rozbalit dosud nejlep�� verze parseru. Sou�asn�
-verze sice na rozd�l od n� um� l�pe rozepisovat alternativy, ale zat�m je to za
-cenu poklesu �sp�nosti. Na hled�n� chyby te� nem�m �as, mus�m ho odlo�it.
-
-Sou�asnou verzi kop�ruju do z�lo�n� slo�ky a p�es ni rozbaluju rel-3-4. Pou�t�m
-pokusn� b�h, kter� m� ov��it, �e jsme se opravdu vr�tili k �sp�nosti 74,7 % (G 94112).
-
-parse geri 551 - G 94112 - P 74,7 - T 24:53
-
-Pro jistotu do CVS ukl�d�m i nov�j�� verzi (spr�vn� rozepisov�n�, ni��� �sp�nost).
-Ihned ji tak� taguji, aby se dala samostatn� rozbalit.
-cvs commit
-cvs tag rel-3-4b
-
-cvs commit, aby se uchovala verze, kter� um� spr�vn� rozepisovat alternativy. Pak
-se v�ak mus�m vr�tit k optim�ln� verzi co do �sp�nosti, abych mohl pokra�ovat
-v pokusech pro disertaci.
-
-Zjistit �sp�nost na v�t�ch, a to jak celkovou, tak na v�t�ch jednotliv�ch d�lek.
-Upravuju parse.pl. P�id�v�m do n�j taky jedinou zm�nu, kterou m�la jeho rel-3-4b
-oproti rel-3-4 - v tomto p��pad� by toti� nem�la m�t opravdu ��dn� vliv na �sp�nost.
-
-parse geri 552 - G 94112 - P 74,7
-7319 v�t, z toho 1539 stoprocentn�ch, tj. v�tn� �sp�nost 21,0 %.
-126030 slov, z toho 10716 ve stoprocentn�ch v�t�ch, tj. v�en� v�tn� �sp�nost 32,1 %.
-Podle d�lky v�t:
-d�lka - v�t - spr�vn�ch - �sp�nost
- 1  55  55 100,0
- 2 199 198  99,5
- 3 151 122  80,8
- 4 209 148  70,8
- 5 274 196  71,5
- 6 220 118  53,6
- 7 276 128  46,4
- 8 248  93  37,5
- 9 267  98  36,7
-10 313  85  27,2
-11 282  64  22,7
-12 289  50  17,3
-13 289  48  16,6
-14 297  29   9,8
-15 280  31  11,1
-16 262  16   6,1
-17 273  11   4,0
-18 275  14   5,1
-19 249  10   4,0
-20 231   6   2,6
-21 218   6   2,8
-22 198   4   2,0
-23 193   3   1,6
-24 183   2   1,1
-25 162   2   1,2
-30 101   1   1,0
-32  70   1   1,4
-
-Je�t� zji��uju aktu�ln� SLOVN� �sp�nost na r�zn� dlouh�ch v�t�ch.
-
-parse geri 557
-
-�sp�nost v�en� obt��nost� (op�t celkov� i na v�t�ch ur�it� d�lky).
-
-parse geri 559
-VAZENO OBTIZNOSTI: A 118711 - G 88372.7251405133 - P 0.744435858012427
-D   2 - N   99 - A    199 - G    198 - P  99.5
-D   3 - N  100 - A    302 - G    275 - P  91.2
-D   4 - N  156 - A    627 - G    553 - P  88.3
-D   5 - N  219 - A   1096 - G    978 - P  89.3
-D   6 - N  183 - A   1100 - G    926 - P  84.2
-D   7 - N  236 - A   1656 - G   1381 - P  83.4
-D   8 - N  217 - A   1736 - G   1444 - P  83.2
-D   9 - N  237 - A   2136 - G   1757 - P  82.3
-D  10 - N  281 - A   2817 - G   2276 - P  80.8
-D  11 - N  256 - A   2820 - G   2244 - P  79.6
-D  12 - N  264 - A   3179 - G   2536 - P  79.8
-D  13 - N  266 - A   3468 - G   2772 - P  79.9
-D  14 - N  275 - A   3861 - G   2993 - P  77.5
-D  15 - N  261 - A   3920 - G   3056 - P  78.0
-D  16 - N  245 - A   3930 - G   2955 - P  75.2
-D  17 - N  256 - A   4368 - G   3314 - P  75.9
-D  18 - N  259 - A   4675 - G   3573 - P  76.4
-D  19 - N  235 - A   4482 - G   3378 - P  75.4
-D  20 - N  219 - A   4389 - G   3286 - P  74.9
-D  21 - N  207 - A   4360 - G   3277 - P  75.2
-D  22 - N  189 - A   4158 - G   3000 - P  72.2
-D  23 - N  184 - A   4246 - G   3149 - P  74.2
-D  24 - N  175 - A   4209 - G   3146 - P  74.7
-D  25 - N  155 - A   3888 - G   2872 - P  73.9
-D  26 - N  147 - A   3825 - G   2769 - P  72.4
-D  27 - N  149 - A   4030 - G   2880 - P  71.5
-D  28 - N  117 - A   3294 - G   2464 - P  74.8
-D  29 - N  115 - A   3360 - G   2448 - P  72.9
-D  30 - N   97 - A   2929 - G   2100 - P  71.7
-D  31 - N   69 - A   2160 - G   1536 - P  71.1
-D  32 - N   67 - A   2170 - G   1546 - P  71.2
-D  33 - N   70 - A   2336 - G   1699 - P  72.8
-D  34 - N   57 - A   1947 - G   1345 - P  69.1
-D  35 - N   49 - A   1734 - G   1195 - P  69.0
-D  36 - N   43 - A   1575 - G   1085 - P  68.9
-D  37 - N   37 - A   1404 - G    962 - P  68.5
-D  38 - N   34 - A   1295 - G    913 - P  70.5
-D  39 - N   38 - A   1482 - G   1045 - P  70.5
-D  40 - N   36 - A   1443 - G    991 - P  68.7
-D  41 - N   24 - A   1000 - G    713 - P  71.3
-D  42 - N   23 - A    984 - G    647 - P  65.8
-D  43 - N   24 - A   1050 - G    726 - P  69.2
-D  44 - N   17 - A    774 - G    522 - P  67.6
-D  45 - N   19 - A    880 - G    606 - P  68.9
-D  46 - N   15 - A    720 - G    483 - P  67.1
-D  47 - N   12 - A    598 - G    422 - P  70.7
-D  48 - N   16 - A    799 - G    558 - P  69.9
-D  49 - N   12 - A    624 - G    429 - P  68.8
-D  50 - N   13 - A    686 - G    457 - P  66.7
-D  51 - N    9 - A    500 - G    332 - P  66.5
-D  52 - N    5 - A    306 - G    206 - P  67.6
-D  53 - N    8 - A    468 - G    301 - P  64.4
-D  54 - N    4 - A    265 - G    184 - P  69.6
-D  55 - N    2 - A    162 - G    118 - P  73.3
-D  56 - N    5 - A    330 - G    231 - P  70.2
-D  57 - N    4 - A    280 - G    125 - P  44.9
-D  58 - N    2 - A    171 - G     89 - P  52.3
-D  59 - N    0 - A     58 - G     35 - P  61.0
-D  60 - N    3 - A    236 - G    157 - P  66.7
-D  61 - N    1 - A    120 - G     67 - P  56.6
-D  62 - N    0 - A     61 - G     30 - P  50.0
-D  63 - N    2 - A    186 - G    101 - P  54.5
-D  64 - N    1 - A    126 - G     84 - P  67.2
-D  65 - N    0 - A     64 - G     29 - P  46.2
-D  66 - N    0 - A     65 - G     40 - P  62.1
-D  68 - N    1 - A    134 - G     76 - P  57.4
-D  70 - N    0 - A     69 - G     45 - P  65.7
-D  72 - N    0 - A     71 - G     41 - P  58.3
-D  73 - N    0 - A     72 - G     39 - P  54.8
-D  74 - N    0 - A     73 - G     51 - P  70.3
-D  75 - N    0 - A     74 - G     30 - P  41.3
-D 100 - N    0 - A     99 - G     49 - P  50.0
-V�po�et skon�il v 17:03:52.
-Program b�el 00:24:22 hodin.
-
-
-
-4.8.2004
-
-Zji��uju, jak� bude �sp�nost, kdy� vynech�m z�vislosti, kter� byly vid�t m�n�
-ne� p�tkr�t (tzv. experiment 1 v disertaci). A jak� bude p�esnost a �plnost.
-
-parse geri 562
-
-Nav�c p�id�v�m jako alternativn� z�vislosti, kter� dosahuj� alespo� 90% v�hy v�t�zn�
-z�vislosti. Proto�e to vy�aduje generovat v�echny stavy a bude to trvat mnohem d�le,
-pou�t�m to ihned. Je�t� bych m�l vymyslet, jak se zjist� P+R obou pokus� najednou.
-Z �asov�ch d�vod� se na to ale asi vyka�lu �pln�.
-
-parse geri 563 - AA 126030 - A 133500 - G 95622 - P 71,6 - R 75,9 - F 73,7
-
-Pou�t�m test, kter� dod� �sp�nost rozd�lenou podle vzorov�ch s-zna�ek (afun�).
-
-parse freki 564; v�sledky viz disertace, ��st 13.5.
-
-Chyst�m tr�nink na men��ch datech.
-
-1000 v�t: train geri 566
-  parse freki 570 - A 126030 - G 84202 - B 41828 - P 0.668110767277632 - T 33:13
-10000:    train freki 567
-  parse freki 571 - A 126030 - G 90130 - B 35900 - P 0.715147187177656 - T 33:05
-25000:    train freki 568
-  parse geri 572  - A 126030 - G 92499 - B 33531 - P 0.733944298976434 - T 38:08
-50000:    train geri 569
-  parse geri 573  - A 126030 - G 93623 - B 32407 - P 0.742862810441958 - T 38:35
-
-
-
-Nyn� parsing na um�le zmen�en�m modelu (tj. pou�ijeme 374.stat, ale vyh�z�me z n�j
-v�echny ud�losti vid�n� N-kr�t).
-
-N<1:  3351830 ud, 574.stat, 73 MB, parse freki 579 - G 94112 - P 74,7 - T 24:42
-N<=1:  944195 ud, 575.stat, 20 MB, parse freki 580 - G 93802 - P 74,4 - T 24:19
-N<=2:  538557 ud, 576.stat, 11 MB, parse geri 581  - G 93638 - P 74,3 - T 24:27
-N<=5:  238984 ud, 577.stat,  5 MB, parse geri 582  - G 93159 - P 73,9 - T 24:14
-N<=10: 123386 ud, 578.stat,  2 MB, parse drak 583  - G 92595 - P 73,5 - T 23:19
-
-Tr�nuju v�hradn� na Lidov�ch novin�ch. 865 soubor�.
-train geri 584, 698671 slov, p�es 39900 v�t, NEVYPSALA SE ��DN� STATISTIKA!
-train geri 600, 865 soubor�, 39978 v�t, 698671 slov, 2187990 ud�lost�, 48 MB, T 6:00
-parse geri 601 - G 93534 - P 74.2 - T 24:30
-
-Pro srovn�n� pot�ebujeme tr�novac� sadu, ve kter� bude stejn� nebo t�m�� stejn�
-po�et v�t, ale ze v�ech zdroj�, pokud mo�no ve stejn�m pom�ru, v jak�m se pod�lej�
-na cel�ch tr�novac�ch datech. Celkem m�me 73088 v�t, chceme vybrat 39978 v�t.
-Vezmeme tedy ka�d� (73088/39978)-t�, tj. ka�d� 1,83-t� soubor.
-
-train freki 602, 864 soubor�, 39687 v�t, 679665 slov, 2171319 ud�lost�, 48 MB, T 5:55
-parse geri 603 - G 93392 - P 74,1 - T 24:43
-
-Zjistit, jak se od sebe li�� �sp�nost jednotliv�ch blok� testovac�ch dat o 100
-v�t�ch. Pou�t�m zase klasick� parsing se 374.stat, akor�t na konci se vyp��e zvlṻ
-�sp�nost blok�.
-
-parse geri 605
-
-V�sledky:
-minimum 67,7 %
-maximum 82,2 %
-Pr�b�n� stav 77 % po 1000 testovac�ch v�t�ch!
-P�i spr�vn�m se�azen� se d� naj�t 12 blok�, jejich� celkov� �sp�nost je 80,1 %.
-Obdobn� nejhor��ch 12 blok� m� dohromady 69,8 %.
-
-Tak je�t� posledn� sada test�. Tr�nuju s vynech�n�m v�t obsahuj�c�ch ExD.
-train geri 610 - 53594 v�t - 974838 slov - ALE KURVA NEN� TAM POSLEDN� V�TA!!! - T 8:17
-train geri 613 - 53595 v�t - 974841 slov - 2837809 ud�lost� - 63 MB - T 12:41
-parse geri 621 - A 99094 - G 75418 - P 76.1 - T 18:07
-
-Tr�nuju s vynech�n�m v�t obsahuj�c�ch Coord nebo Apos.
-train freki 612 - T 5:56
-train geri 614 - 36261 v�t - 422292 slov - 1507160 ud�lost� - 32 MB - T 9:29
-parse geri 618 - A 41598 - G 34456 - P 82,8
-
-Tr�nuju s vynech�n�m v�t obsahuj�c�ch ExD, Coord nebo Apos.
-train freki 611 - T 5:43
-train freki 615 - 25970 v�t - 354784 slov - 1323832 ud�lost� - 28 MB - T 5:29
-parse freki 622 - A 36116 - G 29959 - P 83,0 - T 6:07
-
-
-
-6.8.2004
-
-Pot�ebuju nov� srovn�n� 7 parser�, kde bude za m�j parser pou�ita jeho nejnov�j��
-verze (G 94112 P 74,7). Nap�. 552.csts.
-
-We cannot use standard test data because we need held-out data to learn which parser specializes in what. PDT 1.0 d-test data contain 153 files. We keep the first 76 files for testing. The remaining 77 files will be used as held-out data. lv28.csts is the 76th file. The first sentence of lv29.csts is labeled ln94207:76-p3s14 but there are no labels in vse1.csts. The sentence begins with: Celn�k mi �ekl: A� v�m ty kv�tiny nikdy nezvadnou� a opice a� se u v�s furt usm�v� Here begins vseb.csts (held-out data). The first part is vsea.csts (new test data).
-New tests: vsea.csts contains 62677 words
-ec on vsea.csts: G 53275 - P 85.0 %
-mc on vsea.csts: G 52233 - P 83.3 %
-z� on vsea.csts: G 47729 - P 76.2 %
-dz on vsea.csts: G 47335 - P 75.5 %
-th(r2l) on vsea.csts: G 45331 - P 72.3 %
-th(l2r) on vsea.csts: G 44063 - P 70.3 %
-th(pshrt) on vsea.csts: G 39806 - P 63.5 %
-all parsers: G 27817 - P 44.4 %
-at least one parser: G 60255 - P 96.1 %
-absolute majority or ec: G 53761 - P 85.8 %
-absolute majority P+R: G 49277 - left-out 8352 - P 90.7 - R 78.6 - F 84.2
-tips: - for all parsers number of times they contribute whenever ec is wrong; - voting where ec has 3 votes, mc 2 votes, others 1 vote each.
-Now the same for three parsers (ec, mc, dz).
-All parsers: G 42090 - P 67.2 %
-At least one parser: G 58126 - P 92.7 %
-Absolute majority P+R: G 52627 - O 3890 - P 89.5 - R 84.0 - F 86.7 J
-Absolute majority or ec: G 54044 - P 86.2 %
-
-A te� vezmeme vseb.csts a zjist�me trojice mzn-z�v/mzn-���-ec/mzn-���-mc+dz, p�i
-nich� m� pravdu �ast�ji mc+dz ne� ec (>50%).
-
-A 62669 (JAK TO?) - G 53821 - P 85,9
-
-Dal�� mo�nosti:
-1. Po�adovat vy��� �sp�nost jednotliv�ch trojic (75%, 90%...)
-2. Zkusit jen dvojice mzn-z�v/mzn-���-ec.
-3. Zkusit jen dvojice mzn-z�v/mzn-���-mc+dz.
-4. Zkusit znova trojice i dvojice, ale jen slovn� druhy bez p�d�.
-5. Naopak zkusit kompletn� �pravu zna�ek, nejen tu zjednodu�enou popsanou v��e.
-
-Na cel�ch upraven�ch zna�k�ch, mc+dz proti ec.
-A 62677 - G 53561 - P 85,5
-
-Zv��en po�adavek na alespo� 2 v�skyty, p�es 50%.
-A 62677 - G 53458 - P 85,3
-
-Zv��en po�adavek na alespo� 2 v�skyty, p�es 75% (90% ani nem� smysl, to se skoro nevyskytuje).
-A 62677 - G 53392 - P 85,2
-V�tah z p�edn�ch m�st seznamu:
-N1#Z,        9       9  1.000000
-PseJ^Vp      8       8  1.000000
-NY2N2N2      6       6  1.000000
-A6Rv-1N6         6       6  1.000000
-...
-N6Rs-1Rv-1       6       7  0.857143
-VBZ,J�e      6       7  0.857143
-N4VBVf       6       7  0.857143
-N1J^Vp      32      39  0.820513
-A1VpN1       8      10  0.800000
-N6VBRv-1         4       5  0.800000
-A4J^N4      11      14  0.785714
-
-Op�t uvoln�no na aspo� 1 v�skyt, p�es 50 %. M�sto trojic se uva�uj� dvojice (��d�c� od Charniaka).
-A 62677 - G 53768 - P 85,8
-
-M�sto trojic dvojice jako u p�edch�zej�c�ho pokusu, ale m�sto od Charniaka se ��d�c� bere od MC+DZ.
-A 62677 - G 53853 - P 85,9 !!!
-
-M�sto �pln�ch upraven�ch zna�ek br�t jen slovn� druh a p�d.
-A 62677 - G 53963 - P 86,1 !!!
-
-Tot�, ale nyn� nesout�� MC+DZ proti EC, n�br� DZ proti EC i MC (ti se nemusej� shodovat).
-A 62677 - G 53271 - P 85,0 (dokonce o 4 z�vislosti hor�� ne� EC s�m)
-
-Tot�, ale nyn� se EC mus� shodovat s MC.
-A 62677 - G 53268 - P 85,0 (je�t� o dal�� 3 z�vislosti hor��)
-
-Vr�tit se k tomu, �e sout�� MC+DZ proti EC. Zkusit je�t� samotn� slovn� druhy bez
-p�d�.
-A 62677 - G 53999 - P 86,2 !!! to u� se kone�n� bl��� k tomu, co dok�zalo bezkontextov� hlasov�n� :-(
-
-Bezkontextov� hlasov�n� (MC+DZ m��e p�ehlasovat EC v�dycky, EC m� p�ednost pouze
-kdy� m� ka�d� parser vlastn� n�zor).
-A 62677 - G 54044 - P 86,2 !!!
-
-Je�t� zkus�me popis souboje obr�tit, ale m�lo by to snad b�t tot� co p�edt�m.
-Tedy: u��me se, kdy m��e EC zv�t�zit, i kdy� je ve sporu s MC a DZ, kte�� se shoduj�.
-Rodi�e zji��ujeme podle n�zoru EC. ��d�c� zna�ka je �pln� upraven�, z�visl� jen
-slovn� druh.
-A 62677 - G 54058 - P 86,2 !!!
-
-Tot�, ale ob� zna�ky jsou jen slovn� druh.
-A 62677 - G 54078 - P 86,3 !!!
-
-Tot�, ale ob� zna�ky jsou �pln� upraven�.
-A 62677 - G 54090 - P 86,3 !!!
-
-
-
-Je�t� by st�lo za to v�d�t, kdy m� vyhrat Collins m�sto Charniaka, kdy� v�ichni
-3 m�me sv�j vlastn� n�zor. Ale te� u� to nest�h�m vyzkou�et.
-tips: - for all parsers number of times they contribute whenever ec is wrong;
- - voting where ec has 3 votes, mc 2 votes, others 1 vote each.
-Use weights produced by some parsers (dz, th). Look at z� if it used the "last rule" for that constituent.
-Ze sekce 13.5 jasn� vypl�v�, �e neum�m koordinace a apozice. Schv�ln�, jestli mi model n�kdy dovol� p�ehlasovat Charniaka v z�vislosti �ehokoli na J^ nebo Z,.
-
-Roz���it zkoum�n� kontextu tak, �e pro libovolnou kombinaci n�zor� a zna�ek budeme
-schopni ��ct, v kolika procentech se stalo, �e n�kter� skupina parser� m�la pravdu.
-Stihnout to je�t� p�idat do kone�n� verze disertace!
-
-
-
-Ud�lat cvs commit kv�li p�idan�mu vyhodnoceni.pm! Nebude to takov� sranda, ono
-se to toti� br�n�, �e pr� sou�asn� verze nen� up-to-date!
-
-
-
-Urgentn� po dops�n� disertace: Ulo�it do CVS nov�j�� verzi parseru (zejm�na
-train.pl a model.pm), kter� um� spr�vn� rozepisovat varianty. Vyvolat z CVS
-star�� verzi, kter� um�la dos�hnout maxima 74,7 % na MDa+MDa. Odladit, naj�t
-chybu a slou�it ob� verze.
-
-
-
-###############################################################################
-N�pady:
-- Do zpracov�n� neprojektivit p�idat neprojektivity koncov� interpunkce
-  v uz�vorkovan�ch v�t�ch.
-- jin� p��stup k z�kazu p�eskok�: p�i tr�nov�n� si u ka�d� z�vislosti pamatovat,
-  zda p�esko�ila sloveso
-- 25.5.2004: train.pl: Ve funkci spocitat_lokalni_konflikty() se pou��v� pole
-  @rodic, kter� ale p�i tr�ninku v�bec neexistuje! Asi je to omyl, je tam toti�
-  v�tev if a else, v jedn� z nich je pou�it @rodic a ve druh� $anot->[]{rodic_vzor}.
-  Bohu�el to nem��u te� hned opravit a pod�vat se, co to ud�l� s �sp�nost�, proto�e
-  moment�ln� krok za krokem upravuju train.pl, aby mohl pou��vat nov� knihovny
-  a p�itom produkoval po��d TUTɮ statistiku.
-- 14.5.2004: genstav.pm: Dokon�ov�n� koordinac� by se m�lo ��dit syst�mem z�kaz�.
-- 26.3.2004: DTEST: 16329 sloves v 7319 v�t�ch, tedy 2,23 slovesa na
-  v�tu (v�etn� tvar� pomocn�ho slovesa b�t).
-  OSNOVA KAPITOLY O SUBKATEGORIZACI
-  - Vysv�tlit subkategorizaci.
-  - Vysv�tlit, pro� m��e pomoci p�i parsingu.
-    - SL�BIL JSEM, �E V KAPITOLE 9 UK��U, JAK Z�SKAT SEZNAM.
-  - Tabulka typick�ch argument� (> 50 % v�skyt�)
-    POZOR, ASI �PLN� IGNORUJU V�SKYTY, KDY DAN� �LEN VIS� NA N��EM
-    JIN�M NE� NA SLOVESE.
-  - ��rliv� slova, tabulky.
-    CHT�LO BY TO PLYNULEJ�� P�ECHOD K ��RLIVOSTI. VYSV�TLIT, PRO� SE
-    T�M ZAB�V�M.
-  - Odhalen�, �e je vlastn� dost m�lo chyb, s jejich� odstran�n�m to
-    m��e pomoci, by m�lo p�ij�t a� na konec, sp�� jako v�sledek
-    p�tr�n�, pro� subkategorizace nenese velk� ovoce. Aby bylo do t�
-    doby o �em ps�t.
-  ---
-  - Jak �asto slovesu n�co chyb�? 8583 (6,8 %).
-  - Jak �asto slovesu n�co p�eb�v�?
-  - Jak �asto jsou na slovese zav�eny vz�jemn� nekompatibiln� v�ci?
-  ---
-  Vf ... infinitiv
-  VB ... p��tomn� �as
-  Vp ... p���est� minul�
-  Vs ... p���est� trpn�
-  Nej�ast�j�� p��pad: N4 m� viset na Vf, ale bylo zav�eno na VB.
-  P = m�li viset a pov�sil jsem / pov�sil jsem
-  R = m�li viset a pov�sil jsem / m�li viset
-  29829 v�c� m�lo viset pod slovesem a z�rove� jsem je pod to
-  spr�vn� sloveso i pov�sil. 38412 m�lo b�t. 45255 bylo.
-  P = 29829 / 45255 = 65,9 %
-  R = 29829 / 38412 = 77,7 %
-  F = 2PR/(P+R) = 71,3 %
-- 8.4.2004: Koordinace: Ka�d� "a" mus� m�t pod sebou koordinaci!
-  Pokud t�sn� za "a" le�� sloveso, mus� to b�t koordinace sloves!
-- 8.4.2004: 592 p��pad� (0,47 %), kdy vis� Z: na VB, kdy� m�lo viset
-  na J^. 535 p��pad�, kdy ve stejn� situaci figurovalo Vp m�sto VB.
-- 8.4.2004: Do z�v�ru disertace: Named entities by pomohly.
-- 8.4.2004: KOPR: Jak se pozn� typick� z�vislost, kterou n�jak�
-  parser um� l�pe ne� jin� parsery?
-- 8.4.2004: Tomovy rady:
-  - selektivn� lexikalizace v�ech nej�ast�j��ch slov bez ohledu na
-    slovn� druh
-  - v�ha vzd�lenosti ��d�c�ho a z�visl�ho uzlu a� do vzd�lenosti 15
-    (ale je to v�ha, kterou se p�en�sob� cel� pravd�podobnost,
-    neuchov�vaj� se tedy samostatn� �etnosti ud�lost� o jednotliv�ch
-    vzd�lenostech)
-- 8.4.2004: V�en� v�skyty u sloves. Zat�m jsme po��tali slovesa, se
-  kter�mi bylo dan� dopln�n� vid�t. Te� budeme tak� po��tat,
-  kolikr�t bylo dopln�n� se kter�m slovesem vid�t.
-  nd = po�et v�skyt� dopln�n�
-  ns = po�et sloves celkem
-  � = nd / ns
-  J� si do po�tu sloves nezapamatuji toto sloveso 1�, ale...???
-  Normalizovat na nej�ast�j�� sloveso?
-  To taky nejde, n�kter� slovesa jsou extr�mn� �ast�!
-  � je n�co jako �ance dopln�n� trefit co nejv�c sloves.
-  Probl�m: � nen� pravd�podobnost. M��e nab�vat neomezen� vysok�ch
-  hodnot. Jen�e jen m�lo dopln�n� se vyskytlo v�ckr�t, ne� jak� je
-  po�et sloves:
-  N3 6943
-  VINF 15263
-  N7 10770
-  J 10613
-  PR4(se) 17253
-  R6(v) 16186
-  S 22934
-  Z 31708
-  N4 39375
-  DB 38834
-  N1 77233
-  �(N4) = 7,1. Interpretace: Kolikr�t se mohlo vyskytnout s ka�d�m
-  slovesem? T�m vyd�lit jeho v�skyty - normalizace na �etnost - ale
-  ne, to bychom dostali v�dy po�et sloves!
-- 8.4.2004: Pro ka�d� heslo a ka�dou vazbu si pamatovat pom�r:
-  (kolikr�t pod sebou m� tuto vazbu) / (kolikr�t se heslo vyskytlo)
-  Pokud se heslo vyskytlo alespo� 5�, zapamatovat si vazbu. Pokud
-  pak takov� vazba ve v�t� je a dostane ji jin� heslo, kter� po n�
-  netou�� stejn� siln�, pokusit se p�ehodnotit.
-- 8.4.2004: Kter� valen�n� dopln�n� maj� nejhor�� �sp�nost?
-- 8.4.2004: Pokud existuje n�co jako typick� chyba, je to z�vislost
-  na koordinac�ch.
-- 8.4.2004: Rozt��dit chyby do skupin podle:
-  - valen�n� zna�ky z�visl�ho uzlu
-  - lemmatu chybn� navr�en�ho ��d�c�ho uzlu
-  - lemmatu spr�vn�ho ��d�c�ho uzlu
-- Zkontrolovat, zda m�m nejlep�� a nejnov�j�� seznam valenc�.
-- Valence p�edem: pouze p�idat do zna�ek heslo tam, kde jde o sloveso.
-- Valence EX POST: budovat z�sobn�k strom� a na konci stromy se�adit
-  podle m�ry, do jak� uspokojuj� valen�n� po�adavky sv�ch uzl�.
-- Vylep�en� p�edlo�ek: do zna�ek strkat heslo, ne tvar!
-- Neodvozen� p��slovce zkop�rovat do zna�ek.
-- Podm�nit lambdy konkr�tn�mi slovy (nap�. u slova b�t pot�ebujeme v�d�t, �e
-  �lo o slovo b�t, i kdyby o druh�m �lenu z�vislosti m�ly rozhodovat jen
-  zna�ky).
-- Mo�n� konkr�tn� u slova b�t by st�lo za to p�idat slovn� tvar do zna�ky.
-- D�ti - na konci proj�t z�sobn�k a p�ehodnotit stromy podle toho,
-  kolik d�t� m� kter� uzel.
-- Podm�n�n� pravd�podobnosti: nejd��ve vybrat ��d�c� uzel (nap�. podle
-  vzd�lenosti od optim�ln�ho po�tu d�t�), potom vyb�rat mezi jeho
-  kandid�ty na z�visl� uzel, pravd�podobnosti jsou podm�n�n�.
-- Je�t� vylep�it koordinace. A nezapom�nat na apozice.
-- Valence: Je-li napln�n podm�t, u� nep�ipojovat dal��. Obdobn� u ko�ene
-  napln�no sloveso, u p�edlo�ky jmenn� fr�ze.
-- Valence: negativn� pravd�podobnosti: v�em z�vislostem, kter� nevedou
-  k uspokojen� n�jak�ho valen�n�ho po�adavku, adekv�tn� sn��it pravd�podobnost.
-- Valence: Nelze p�esko�it neuspokojen�ho z�jemce.
-- P�i stejn� pravd�podobnosti dvou z�vislost� d�t p�ednost z�vislosti
-  mezi slovy, kter� k sob� maj� ve v�t� bl��.
-- Dal�� zp�sob, jak �elit Honzov�m chyb�m v p�dech: pou��t morfologickou
-  anal�zu (pop�. s preferenc� p�du, kter� vybral Honza). Pozn�mka: Ob�as nejde
-  jen o p�dy, nap��klad infinitiv "pomoci" myln� ozna�en� jako podstatn� jm�no
-  dok�e taky po��dn� nabourat syntaxi.
-- Vypo��tan� lambdy (zkombinovat tolik rozm�r�, kolik to ut�hne).
-- Dal�� ot�zka krom� plodnosti: je u� valen�n� m�sto zapln�no? Pokud
-  ano, pravd�podobnost je bl�zk� nule.
-- Obt��n�j�� �kol: rozpoznat okam�ik, kdy se posledn�ho kandid�ta na
-  zapln�n� valen�n�ho m�sta chyst�m pov�sit jinam.
-- Rozli�ovat taggery A a B.
-- Dovolit si n�kter� z�vislosti nerozhodnout.
-- Dovolit si n�kde d�t na v�b�r s vahami.
-- Vylep�it plodnost. Nap�. ��rka m� bu� 0, nebo 2, ale nikdy 1. Kdy�
-  u� dvojka p�ev�� nulu, je nutn� to dot�hnout do konce a neskejsnout
-  na jedni�ce.
-- Nesnesiteln� magnetick� sou�ad�c� spojky. P�itom:
-    - Spojka mus� spojovat v�ci stejn�ho druhu.
-    - V�ci, kter� nejsou z r�zn�ch stran spojky, mus� b�t odd�leny
-    ��rkou.
-    - Alespo� 2 v�ci jsou v�t�inou spojeny, ale nen� to absolutn�
-    platn� pravidlo, spojky jako "v�ak" se n�kdy spokoj� s jedin�m
-    �lenem.
-
-- Distinguish the a tagger from the b tagger. Try the morphological analysis weighed using the taggers (both).
-- Pomoc� anal�zy, co bylo kdy kam zav�eno, zjistit, jakto�e lok�ln� konflikty v souhrnu pom�haj�, a�koli jejich vlastn�
-  vyhodnocen� ��k�, �e to, co maj� d�lat, d�laj� blb�?
-
-###############################################################################
-�koly od Honzy:
-1. N�co ud�lat s neprojektivitami (a zjistit, co s nimi d�lal Mike).
-2. P��padn� okolo parsingu: p�ev�st neprojektivity na projektivity a
-zp�t (=> �l�nek?).
-3. Eugene Charniak: ME inspired parser - prozkoumat, jak to funguje.
-###############################################################################
-Moje vlastn� �koly:
-- P�e��st n�sleduj�c� �l�nky:
-  M. Volk, G. Schneider: Comparing a Statistical and a Rule-Based
-  Tagger for German (http://xxx.lanl.gov:80/ps/cs/9811002).
-  Anoop Sarkar: Incremental Parser Generation for Tree Adjoining
-  Grammar. Proceedings of 34th ACL, Student Session, Santa Cruz, 1996.
-
-
-
--------------
-Zaj�mav� v�ty
--------------
-"Kolik m� vlastn� pen�z, Michaeli?" pt� se sn�d� novin�� s br�lemi
-nejslavn�j��ho zp�v�ka planety.
+
+*******************************************************************************
+Perlov� parser - z�znam pokus�
+*******************************************************************************
+
+
+
+16.1.2002
+
+Zkop�roval jsem si ��st "am" z PDT verze 1. Tuto ��st budu nyn�
+pou��vat pro tr�nov�n�. Obsahuje 83197 v�t. Morfologick� anotace je
+provedena statisticky, morfologick� anal�za chyb�, ale d� se snad
+doplnit. Syntaktick� anotace je ru�n�.
+
+
+
+17.1.2002
+
+Prvn� m��en� na nov�ch tr�novac�ch datech, je�t� v�ak se star�mi
+(baltimorsk�mi) testovac�mi daty. Nov� model je zat�m v�hradn�
+lexik�ln� (tj. funguje na slovn�ch tvarech) a nebere v �vahu
+z�vislosti, kter� byly p�i tr�ninku vid�t jenom jednou (tj. co bylo
+vid�t jednou, jako by nebylo vid�t v�bec - �et�� se t�m pam� a �as).
+Model tak� zat�m nem� ��dn� finesy, kter� jsem d��ve dopl�oval do
+modelu na zna�k�ch, s v�jimkou projektivity. Chyb� tedy podp�rn� model
+pro plodnost slova, sm�r z�vislosti i vzd�lenost �len�
+z�vislosti. Tak� chyb� Viterbi, tj. strom se buduje hladovou (ale
+komponentovou) metodou.
+
+G 28685 - B 35019 - P 45,0
+
+P�id�n sm�r hrany.
+
+G 26955 - B 36749 - P 42,3
+
+Ponech�ny i z�znamy o hran�ch spat�en�ch jen jednou.
+
+G 43000 - B 20704 - P 67,5
+
+P�id�na "vzd�lenost" (sousedn� = B, bl�zko; nesousedn� = D, daleko).
+
+G 44671 - B 19033 - P 70,1
+
+P�echod na testovac� data z PDT1 (lu, lv, lw). �sp�nost klesla skoro
+na polovinu, co� je dost zar�ej�c�, mo�n� je chyba ve vyhodnocov�n�
+(nebo byla p�ed chv�l�).
+
+G 49157 - B 77450 - P 38,8
+
+
+
+18.1.2002
+
+Po nalezen� a odstran�n� chyby ve skriptu se �sp�nost vr�tila u� jen
+na 42 %. Z�vratn� v�sledky u star�ch dat byly z�ejm� zp�sobeny t�m, �e
+star� testovac� data jsou nyn� sou��st� nov�ch tr�novac�ch.
+
+G 53217 - B 73390 - P 42,0
+
+Z tr�novac�ch i testovac�ch dat odstran�na velk� p�smena, zbyte�n�
+�t�pila statistiky.
+
+G 54027 - B 72580 - P 42,7
+
+Je�t� jeden pokus zahodit z�vislosti, kter� byly vid�t jenom jednou.
+
+G 50365 - B 76242 - P 39,8
+
+Vr�ceny z�vislosti vid�n� jen jednou, p�id�n model pro plodnost uzlu.
+
+G 54421 - B 72186 - P 43,0
+
+Odstran�na chyba, �e n�kter� v�ty obsahovaly slovo "konec
+��dku". �sp�nost klesla, proto�e chyba um�le p�id�vala neexistuj�c�
+v�ty, kter� se nedaly zkazit.
+
+G 53982 - B 72046 - P 42,8
+
+Pokus s modelem na zna�k�ch (od taggeru). Zat�m neredukovan� sada
+zna�ek a bez Viterbiho, tak�e pokud se v�sledky podobaj� t�m z
+Baltimoru, je to komponentov�m budov�n�m stromu a zejm�na v�t��m
+objemem tr�novac�ch dat a snadn�ji analyzovateln�mi testovac�mi daty.
+
+G 71535 - B 54493 - P 56,8
+
+Redukovan� zna�ky: to snad ani za tu n�mahu nestoj�! �e by zase bug?
+
+G 71622 - B 54406 - P 56,8
+
+Zna�ky redukovan� podle Collinse: u zna�ek, kter� maj� p�d (N, A, P, C
+a R), slovn� druh a p�d, u ostatn�ch slovn� druh a poddruh.
+
+G 72207 - B 53821 - P 57,3
+
+Po na�ten� statistik pro slova i zna�ky �sp�nost kupodivu m�rn�
+stoupla, by� se ve statistik�ch nad�le hledaly jen zna�ky. Mo�n�
+proto, �e n�kter� slova jsou shodn� s n�kter�mi zna�kami a n�hodou to
+vy�lo?
+
+G 72364 - B 53664 - P 57,4
+
+
+
+Prvn� kombinace modelu na slovech s modelem na zna�k�ch! Zna�kov�
+model se pou�ije tehdy, kdy� slovn� doporu�uje z�vislost, kterou nikdy
+nevid�l. Jinak se d� v�dy p�ednost slovn�mu modelu.
+
+G 71445 - B 54583 - P 56,7
+
+P�i nahrazov�n� slovn�ch hran, kter� byly vid�t nejv��e jednou:
+
+G 72593 - B 53435 - P 57,6
+
+P�i nahrazov�n� slovn�ch hran, kter� byly vid�t nejv��e dvakr�t:
+
+G 72327 - B 53701 - P 57,4
+
+
+
+-------------------------------------------------------------------------------
+Rokytnice nad Jizerou
+Pozor, tento t�den pokusy nejsou na stejn�ch tr�novac�ch ani
+testovac�ch datech, proto�e je d�l�m na notebooku a ten neut�hne
+p��li� velk� data. Ani b�hem toho t�dne nejsou bohu�el data po��d
+stejn�.
+
+
+
+21.1.2002
+
+V n�sleduj�c�ch testech se p�ednostn� pou��valy statistiky na slovech,
+pokud byla �etnost 0, 1 nebo 2, pou�ila se m�sto toho statistika na
+zna�k�ch. Pokud se tedy d�le mluv� o �etnosti, je to bu� �etnost na
+slovech, nebo na zna�k�ch, podle toho, jak se v�po�et odv�jel.
+924 slov celkem
+P�i pou�it� v�ech hran bez ohledu na �etnost:
+G 605 - B 319 - UG 0 - UB 0 - P 65,5 % - R 65,5 %
+P�i vynech�n� hran s �etnost� 0:
+G 582 - B 279 - UG 23 - UB 40 - P 67,6 % - R 63,0 %
+P�i vynech�n� hran s �etnost� men�� ne� 2:
+G 439 - B 168 - UG 166 - UB 151 - P 72,3 % - R 47,5 %
+P�i vynech�n� hran s �etnost� men�� ne� 3:
+G 354 - B 112 - UG 251 - UB 207 - P 76,0 % - R 38,3 %
+P�i vynech�n� hran s �etnost� men�� ne� 4:
+G 283 - B 68 - UG 322 - UB 251 - P 80,6 % - R 30,6 %
+P�i vynech�n� hran s �etnost� men�� ne� 5:
+G 244 - B 59 - UG 361 - UB 260 - P 80,5 % - R 26,4 %
+
+
+
+22.1.2002
+
+Nevynech�vaj� se ��dn� slova. V kolech, ve kter�ch vyhr�la z�vislost se
+slovn� pravd�podobnost� men�� ne� 5, se hled�n� opakuje s pou�it�m
+pravd�podobnosti slo�en� ze slovn� a zna�kov� pravd�podobnosti, p�i�em�
+ob� maj� stejnou v�hu 0,5.
+
+G 692 - B 232 - P 74,9
+
+Dotaz: Naj�t p��pady, kdy na z�klad� slovn� pravd�podobnosti vyhr�la
+�patn� z�vislost, ale s pou�it�m pravd�podobnosti na dvojic�ch (heslo,
+zna�ka) by vyhr�la spr�vn� z�vislost.
+
+K tomu je nutn� natr�novat model na dvojic�ch (heslo, zna�ka). Jsou dv�
+mo�nosti, jak takov� model definovat ale jen ta druh� m� smysl; ta prvn�
+je t�m�� ekvivalentn� modelu na slovech:
+
+P = P((heslo1, zna�ka1) - (heslo2, zna�ka2)) = P(slovo1 - slovo2)
+nebo
+P = P(heslo1 - heslo2) * P(zna�ka1 - zna�ka2)
+
+
+
+23.1.2002
+
+P�eps�ny kusy train.pl i parse.pl, aby se oba programy daly roz�i�ovat
+o r�zn� modely. Nyn� je pot�eba je vyladit, proto�e kv�li n�jak�m chyb�m
+�sp�nost zase hluboko klesla.
+
+1. Model slovn�ch, heslov�ch a zna�kov�ch z�vislost� p�etr�nov�n na bal�ku
+Lidov�ch novin. 865 soubor�, 45091 v�t, 698671 slov (bez ko�en�). Kl��in
+notebook tr�nuje rychlost� zhruba 1000 v�t za 50 vte�in (zpo��tku). Ale
+limit, ne� notebook upadne do nekone�n�ho swapov�n�, je asi 6000 v�t.
+Nakonec vzat v�sledek tr�nov�n� podle prvn�ch 5000 v�t. Nalezeno 57036
+r�zn�ch z�vislost� slov, 51328 r�zn�ch z�vislost� hesel a 2681 r�zn�ch
+z�vislost� zna�ek.
+
+
+
+24.1.2002
+
+Za��n�m testovat v�era natr�novan� model. Testovac� data velk� a mal�
+(kv�li rychlosti). Mal� data: lu02.a (53 v�t, 924 slov bez ko�en�).
+Velk� data: test.a = s�et�zen� lu02.a a� lu05.a (216 v�, 3540 slov bez
+ko�en�).
+
+Samotn� model z�vislost� zna�ek bez modelu plodnosti. V�sledky v prvn�m
+��dku plat� p�i pou�it� v�ech hran v�etn� t�ch, kter� nebyly v tr�novac�ch
+datech vid�t nikdy (tj. �ir� odhad). �daje ve druh�m ��dku takov� z�vislosti
+vynech�vaj�.
+
+G 510 - B 414 - P 55,2
+G 488 - B 385 - P 55,9 - R 52,8
+
+Model z�vislost� zna�ek v�etn� plodnosti (ale bez z�vislost� slov).
+
+G 519 - B 405 - P 56,2
+G 499 - B 375 - P 57,1 - R 54,0
+
+Model z�vislost� slov bez plodnosti. T�ch 53 v�t trv� na Kl��in� notebooku
+11 minut, z toho 5 minut na��t�n� statistik!
+
+G 315 - B 609 - P 34,1
+G 174 - B 228 - P 43,3 - R 18,8
+
+Tot�, ale s plodnost�.
+
+G 313 - B 611 - P 33,9
+G 173 - B 229 - P 43,0 - R 18,7
+
+Kombinace slovn�ho a zna�kov�ho modelu. Slovn� z�vislosti vid�n� alespo�
+p�tkr�t se pou�ij� bez ohledu na plodnost. Jinak se zkombinuj� se zna�kov�mi
+p�l na p�l (je u� nutn� normalizovat �etnosti, aby se z nich staly pravd�podobnosti,
+ale d��v jsem to ned�lal a fungovalo to, tak rad�ji vyzkou��me oboj�).
+Celkov� �etnost se n�sob� zna�kovou plodnost�, ��dn� slovn� plodnost se
+nevyu��v�.
+
+G 524 - B 400 - P 56,7
+G 515 - B 379 - P 57,6 - R 55,7
+
+Druh� pokus: od p�edchoz�ho se li�� pouze t�m, �e absolutn� �etnosti jsou
+p�evedeny na relativn�, tj. na pravd�podobnosti.
+
+G 524 - B 400 - P 56,7
+G 515 - B 379 - P 57,6 - R 55,7
+
+Je�t� jeden n�pad: Nekombinovat slova a zna�ky p�l na p�l, ale v opa�n�m
+pom�ru, ne� v jak�m jsou jejich pr�m�rn� �etnosti - aby se slova m�la
+v�bec �anci prosadit. Nebo v pom�ru "kolik je r�zn�ch z�vislost� slov"
+proti "kolik je r�zn�ch zna�ek".
+
+G 525 - B 399 - P 56,8
+G 516 - B 378 - P 57,7 - R 55,8
+
+
+
+-------------------------------------------------------------------------------
+Praha
+Zp�tky z Rokytnice nad Jizerou, nejd��v se pokus�m p�esn� zopakovat
+v�sledky z Rokytnice (na stejn�ch datech).
+
+
+
+30.1.2002
+
+Stejn� tr�novac� i testovac� data jako v Rokytnici, stejn� v�sledky -
+to se mi ulevilo.
+
+G 525 - B 399 - P 56,8
+G 516 - B 378 - P 57,7 - R 55,8
+
+Tohle je bez vyhlazen� plodnosti a na rokytnick�ch tr�novac�ch datech
+(prvn�ch 5000 v�t z Lidov�ch novin), ale na kompletn�ch testovac�ch
+datech (sam� Lidov� noviny).
+
+G 72227 - B 53801 - P 57,3
+G 69951 - B 51605 - P 57,5 - R 55,5
+
+A te� je�t� opa�n� pokus: rokytnick� testovac� data (tj. pouze
+lu02.a), ale v�echna tr�novac� data (p�es 80000 v�t).
+
+G 546 - B 378 - P 59,1
+G 542 - B 367 - P 59,6 - R 58,7
+
+Na z�v�r dne: rokytnick� programy, ale kompletn� tr�novac� i testovac�
+data z PDT 1.
+
+G 72749 - B 53279 - P 57,7
+G 71792 - B 52300 - P 57,9 - R 57,0
+
+
+
+31.1.2002
+
+Vyhlazen� plodnosti. Pokud c(uzel)<5, d� se m�sto v�ech nulov�ch plodnost�
+mal� ��slo, kter� je men�� ne� nejmen�� skute�n� plodnost dan�ho uzlu, celek
+se pak normalizuje na sou�et 1. U uzl�, kter� byly vid�t �ast�ji, se nuly
+ponech�vaj�, proto�e se pova�uj� za dostate�n� prok�zan�. Pseudok�d pro
+��dce pozorovan� uzly:
+fmin = min(f(uzel, i), i);
+n0 = count(f(uzel, i)==0);
+foreach i where f(uzel, i)==0 {f(uzel, i) = 0.5*fmin/n0;}
+for i = 0 to 3 {f(uzel, i) /= (1+0.5*fmin);}
+
+G 72749 - B 53279 - P 57,7
+G 71792 - B 52300 - P 57,9 - R 57,0
+
+To je dost divn�, �e by tato zm�na neud�lala s v�sledky v�bec nic?
+Nejsp�� je to t�m, �e moment�ln� pou��v�m jen zna�kovou plodnost a tam
+se asi nuly p��li� nevyskytuj�.
+
+Zkus�me se tedy je�t� vr�tit ke slovn� plodnosti, te� u�
+vyhlazen�. Celkov� plodnost bude sou�in slovn� a zna�kov� plodnosti.
+
+G 72510 - B 53518 - P 57,5
+G 72095 - B 53024 - P 57,6 - R 57,2
+
+Pokus: adaptivn� anal�za. Po v�b�ru z�vislosti se tato p�id� do
+statistiky a od p���t� se m��e pou��t, jako by byla vid�na v
+tr�novac�ch datech.
+
+G 71304 - B 54724 - P 56,6
+G 71299 - B 54702 - P 56,6 - R 56,6
+
+Je to zhor�en�, tak�e se vr�t�me k p�vodn�mu stavu. Chyb p�i anal�ze
+je je�t� p��li� mnoho, ne� aby bylo dobr� se z anal�zy n�co u�it.
+
+
+
+1.2.2002
+
+Op�t zru�it adaptivn� anal�zu a taky slovn� plodnost.
+
+Pokus o demagnetizaci sou�ad�c�ch spojek. Pokud se to poda��, bude
+je�t� pot�eba demagnetizovat dvojk��� v ko�eni, ��rky (funguj� jako
+spojky) a mo�n� i n�co dal��ho.
+
+Prvn� zp�sob demagnetizace: spojka a posledn� �len koordinace se
+prohod�, ostatn� �leny koordinace a ��rky tedy z�visej� na posledn�m
+�lenu. Testov�n� je zat�m t�m m�n� �estn�m zp�sobem, tj. koordinace ve
+vzorov� anal�ze se transformuj� podobn� jako se transformovaly v
+tr�novac�ch datech. �estn�j�� by bylo prov�st inverzn� transformaci
+nalezen� anal�zy a v�sledek porovnat s netransformovanou vzorovou
+anal�zou. M��e se toti� st�t, �e transformace n�jakou informaci
+ztrat�, a pak oba postupy nebudou ekvivalentn�.
+
+I tak je ov�em v�sledek katastrof�ln�. Z m� nezn�m�ch p���in
+transformace koordinac� mimo��dn� zv��ily p�ita�livost ko�en� v�t.
+
+G 40659 - B 85369 - P 32,3
+G 40656 - B 85353 - P 32,3 - R 32,3
+
+Byla n�jak� bota v plodnosti. Zat�m plodnost odstavena �pln�, ale
+lep�� v�sledky asi budou, a� chybu odstran�me a plodnost znovu
+pou�ijeme.
+
+G 75578 - B 50450 - P 60,0
+G 75577 - B 50441 - P 60,0 - R 60,0
+
+
+
+7.2.2002
+
+Odstran�na chyba v plodnosti. Bohu�el se ukazuje, �e ani tak nen�
+plodnost v tomto tvaru p��nosem.
+
+G 73320 - B 52708 - P 58,2
+G 72823 - B 52255 - P 58,2 - R 57,8
+
+Plodnost tedy vy�azena z �innosti. Pro kontrolu je�t� jednou test, m�l
+by m�t stejn� v�sledky jako posledn� test z 1. �nora, ale nen� tomu
+tak. V��e zm�n�n� chyba (zp�soben� mimochodem u� p�i tr�nov�n�, kdy se
+dvojk��� z ko�ene nahrazoval pr�zdn�m �et�zcem) m�la z�ejm� p�i
+vynech�n� plodnosti blahod�rn� ��inky. Nicm�n� i tohle je zlep�en�
+oproti p�vodn�m koordinac�m o 0,6 %.
+
+G 73427 - B 52601 - P 58,3
+G 72985 - B 52059 - P 58,4 - R 57,9
+
+Druh� zp�sob demagnetizace koordina�n�ch spojek. Ko�enem podstromu je
+posledn� �len koordinace, na ka�d�m �lenu koordinace v�dy vis�
+p�edch�zej�c� �len a ��rka nebo spojka, kter� ho od p�edch�zej�c�ho
+�lenu odd�luje.
+
+G 74611 - B 51417 - P 59,2
+G 74168 - B 50887 - P 59,3 - R 58,9
+
+T�et� zp�sob demagnetizace koordina�n�ch spojek. Ko�enem podstromu je
+posledn� �len koordinace, na n�m vis� koordina�n� spojka, na n�
+p�edch�zej�c� �len koordinace, na n�m pop�. ��rka, pak dal�� �len atd.
+---
+Objevena chyba v transformac�ch koordinac�. Po oprav� chyby nov�
+pokusy.
+
+Prvn� zp�sob (pouze v�m�na ko�ene):
+
+G 73943 - B 52085 - P 58,7
+G 73464 - B 51538 - P 58,8 - R 58,3
+
+Druh� zp�sob (bin�rn� strome�ek):
+
+G 74398 - B 51630 - P 59,0
+G 73919 - B 51084 - P 59,1 - R 58,7
+
+T�et� zp�sob (�et�zek):
+
+G 73059 - B 52969 - P 58,0
+G 72681 - B 52474 - P 58,1 - R 57,7
+
+
+
+8.2.2002
+
+Velmi �asto se chybuje v te�ce za v�tou. Dostane se na �adu a� p��li�
+pozd�, tak�e po n� d��ve ne� ko�en hm�tne n�jak� slovo v�ty. Dv� mo�n�
+�e�en�. Prvn�: je-li na konci v�ty interpunkce, hned na za��tku ji
+pov�sit pod ko�en. Druh� - statisticky �ist��, ale p�edpokl�d�m men��
+�sp�nost: do povolen�ch hran p�idat hranu z ko�ene do posledn�ho
+dosud nezav�en�ho slova v�ty - vzhledem k tomu, �e nepovolujeme
+zav�sit ko�en pod n�co jin�ho, projektivita se t�m neporu��. Mo�n�, �e
+dokonce m��eme povolit hranu z ko�ene kamkoliv, ale t�m si nejsem
+jist�. Zat�m zkus�m nejjednodu��� cestu, tj. prvn� �e�en�.
+
+G 78156 - B 47872 - P 62,0
+G 77975 - B 47735 - P 62,0 - R 61,9
+
+Dal�� probl�m je se slo�en�mi p�edlo�kami (nap�. "v oboru"). I na n�
+zavedeme transformaci a budeme je testovat "ne�estn�m zp�sobem",
+tj. tut� transformaci provedeme s testovac�mi daty, m�sto abychom
+inverzn� transformaci prov�d�li s v�sledkem anal�zy. V�sledkem je
+kupodivu zhor�en�. Rad�ji tuto transformaci zru��me.
+
+G 77619 - B 48409 - P 61,6
+G 77440 - B 48283 - P 61,6 - R 61,4
+
+Upravena Mikova redukce zna�ek. U interpunkce p�id�no jako druh� znak
+znam�nko samo.
+
+G 79364 - B 46664 - P 63,0
+G 79153 - B 46359 - P 63,0 - R 62,8
+
+Roz�t�pena statistika o z�vislostech na ko�eni. M�sto na sm�r (kter�
+je od ko�ene v�dy doprava) se pt�me, zda v�ta obsahuje nebo neobsahuje
+sloveso. Pokud ho toti� obsahuje, vis� na ko�eni obvykle ono,
+pop��pad� ��f koordinace, jeho� je �lenem, ale ne jin� slovn� druhy.
+
+G 79572 - B 46456 - P 63,1
+G 78634 - B 44988 - P 63,6 - R 62,4
+
+Ne�ekan�m d�sledkem je velmi �ast� chybn� p�ipojen� slovesa na
+koncovou interpunkci m�sto na ko�en. Proto je�t� roz����me �pravu sady
+zna�ek: pokud jde o posledn� prvek v�ty, p�ipoj� se na konec zna�ky
+"K", cel� zna�ka tedy bude nap�. "Z.K".
+
+G 81727 - B 44301 - P 64,8
+G 78618 - B 40262 - P 66,1 - R 62,4
+
+�sp�nost sice stoupla, ale na p��kladech chybn�ch v�t je vid�t, �e
+v m�stech, kv�li kter�m jsem k posledn�mu opat�en� s�hl, se toto
+minulo ��inkem. Bude nutn� je�t� tot� co se zna�kou prov�st s heslem
+a se slovem.
+
+G 81901 - B 44127 - P 65,0
+G 78624 - B 40100 - P 66,2 - R 62,4
+
+Navzdory v�� snaze uk�zky chyb i nad�le ukazuj� �adu z�vislost� vedouc�ch
+koncov� interpunkce dol�, tak�e bychom je mo�n� mohli zak�zat natvrdo. Efekt
+ale zpo��tku asi nebude velk�, proto�e ve stejn�m souboru chyb je vid�t, �e
+ko�en podstromu pod interpunkc� je stejn� n�jak� nesmysl, kter� ko�enem b�t
+nem�, tak�e zav�en�m cel�ho podstromu jinam se chyba neodstran�. Asi je
+nejvy��� �as vr�tit Viterbiho.
+
+
+
+9.2.2002
+
+Intermezzo - pokusy doma na men��ch tr�novac�ch i testovac�ch datech! Ke
+tr�nov�n� pou�ity soubory za��naj�c� na "c1", k testov�n� pouze soubor "l02.a".
+Testujeme algoritmus Viterbiho, tak�e n�m zmizelo pr�b�n� sledov�n�, co by se
+stalo, kdybychom vynech�vali z�vislosti s nulovou �etnost�. (Stejn� u� se to
+del�� dobu moc neli��.) Nicm�n� zat�m testujeme jen funk�nost, tak�e ���ka
+Viterbiho je nastavena na 1. V�sledek by tedy m�l b�t stejn� jako d��ve, co�
+je�t� pro jistotu ov���me pozd�ji na fakult�. POZOR (do p�edn�ky)! Viterbi
+vy�aduje alespo� primitivn� vyhlazen�, nuly ho dok�ou �pln� zni�it!
+
+G 629 - B 383 - P 62,2 - T 0:20 s
+
+
+
+10.2.2002
+
+Ale tot� star�m programem d�v� jin� v�sledky!
+
+G 590 - B 334 - P 63,9 - T 0:16 s
+G 569 - B 301 - P 65,4 - R 61,6
+
+U Viterbiho vych�z� celkem 1012 z�vislost�, v p�vodn� procedu�e 924 (co� je
+��slo, se kter�m se setk�v�m u� dlouho, tak�e mu v���m sp��).
+
+P�est�v�m porovn�vat ko�en (to jsou sam� chyby), stejn� ale nedost�v�m sou�et,
+jak� m� b�t. �sp�nost je ov�em te� zas lep�� ne� p�vodn�.
+
+G 629 - B 335 - P 65,2
+
+Objevena dal�� chyba - zav�en� koncov� interpunkce se zapo��t�valo dvakr�t.
+Nyn� u� v�sledky Viterbi(1) vypadaj� stejn� jako v�sledky p�vodn� procedury:
+
+G 590 - B 334 - P 63,9
+
+Viterbi(2)
+
+G 563 - B 361 - P 60,9
+
+Viterbi(2) se zapo��t�n�m obou nejlep��ch strom�:
+
+G 1091 - B 694 - P 61,1
+
+Objevena dal�� chyba - ko�en nem�l zna�ku #, n�br� pr�zdn� �et�zec. Oprava ale
+v�sledky vylep�it nedok�zala.
+
+G 590 - B 334 - P 63,9
+
+Objevena dal�� chyba - hrany se d�lily podle sm�ru i u ko�ene, p�esto�e tam je
+sm�r v�dy doprava a m�sto sm�ru se m�lo sledovat, zda v�ta obsahuje sloveso.
+
+G 595 - B 329 - P 64,4
+G 594 - B 325 - P 64,6 - R 64,3
+
+Tot� s viterbim(2), zapo��t�vaj� se oba nejlep�� stromy:
+
+G 826 - B 501 - P 62,2
+
+A te� se asi definitivn� vr�t�me k anal�ze bez Viterbiho (resp. k Viterbimu
+s paprskem ���ky 1). Nicm�n� budeme nad�le pracovat s programem, kter�
+Viterbiho na po��d�n� umo��uje. Star� program od t�to chv�le p�est�v�m
+aktualizovat.
+
+G 595 - B 329 - P 64,4
+
+U zna�kov�ho modelu nyn� k p�edlo�k�m m�sto p�du d�v�m p��mo p�edlo�ku samu.
+Br�n�m se t�m zbyte�n�m chyb�m zp�soben�m myln�m v�stupem Honzova taggeru.
+
+G 596 - B 328 - P 64,5
+
+Do vzd�lenosti p�id�n t�et� stav. Krom� B (bl�zko, tj. sousedi) a D (daleko,
+tj. nesousedi) je�t� zvl�tn� druh D, ozna�en� ��rkou (",") a znamenaj�c�, �e
+mezi doty�n�mi se vyskytla ��rka. Prvn� v�sledky jsem po��dil omylem - model
+byl u� natr�nov�n se t�emi stavy, ale pou�it st�le jen se dv�ma. Jsem zv�dav�,
+jestli po oprav� dojde k dal��mu zlep�en�, nebo naopak ke zhor�en�...
+
+G 611 - B 313 - P 66,1
+
+Po oprav� skute�n� trochu ztr�c�m, na�t�st� ne a� na p�vodn� �rove�:
+
+G 607 - B 317 - P 65,7
+
+Model vzd�lenosti je�t� roz���en, nyn� je evidov�n i po�et ��rek, kter� se mezi
+uzly vm�stnaly. T�m by se mohly spravit v�ce�lenn� koordinace.
+
+G 612 - B 312 - P 66,2
+
+
+
+11.2.2002
+
+P�eneseno zp�tky na fakultu. Natr�nov�no op�t na 83000 v�t, testov�no
+na 7319 v�t�ch. Jinak vnit�n� shodn�. V�sledky jsou m�rn�m zlep�en�m
+oproti stavu na fakult� v p�tek ve�er, ale zhor�en�m oproti stavu
+v�era ve�er doma.
+
+G 82312 - B 43818 - P 65,3 - T 5:28
+
+Pro jistotu zkus�me je�t� jednou Viterbiho. ��dn� p�ekvapen� se
+bohu�el nekon� :-(
+
+G 93253 - B 51820 - P 64,3 - T 25:32
+
+Pokusil jsem se, aby se stejn� jako u anal�zy ani u tr�ninku u�
+nevynech�vala posledn� v�ta. Proto�e jsem v�ak p�idal podm�nku, �e se
+zpracov�vaj� jen nepr�zdn� v�ty, celkov� po�et ve skute�nosti klesl, a
+to o dost: na 73088. Tr�nov�n� trvalo n�co p�es 2:49 minuty. Po�et
+testovac�ch v�t z�st�v� 7319.
+
+G 82312 - B 43818 - P 65,3
+
+Do zna�ky pro podstatn� jm�no jsem p�idal �daj, zda jde o k�estn�
+jm�no osoby (s dvojic� k�estn� jm�no - p��jmen� se zach�z� jinak ne� s
+jinou podobnou dvojic� podstatn�ch jmen a b�vaj� v tom chyby - snad
+tato evidence pom��e)...
+
+G 82948 - B 43257 - P 65,7
+
+Mal� statistika nav�c:
+34717 p��pad� rozhodoval pouze zna�kov� model (slovn� p=0).
+      To je 27,5 % ze 126205 celkem rozhodovan�ch slov.
+      Tyto p��pady dopadly G 20681 - B 14036 - P 59,6.
+100 % spr�vn�ch v�t bylo 867, tj. asi 11,8 %.
+      Nejdel�� z nich m�la 18 (!) slov.
+      Pr�m�rn� takov� v�ty m�ly 4 slova.
+      Pr�m�rn� d�lka testovac� v�ty je p�itom 17 slov.
+      Mo�n� by bylo zaj�mav� odvodit statistiku, kter� by krom�
+      �sp�nosti na z�vislostech tak� m��ila, jak t�k� bylo t�to
+      �sp�nosti dos�hnout - na v�t�ch o 1 slovu to bylo jednoduch�,
+      na v�t�ch o 100 slovech je i 50 % velk� �sp�ch - mo�n� v�t��,
+      ne� odpov�d� 50 zav�en�m slov�m?
+
+
+
+Prvn� pokus s modelem z�vislost� hesel. Samostatn� testujeme model
+"hesla*znacky", tj. pravd�podobnost, �e se sou�asn� vyskytla dan�
+z�vislost mezi hesly a dan� z�vislost mezi zna�kami. (To nen� tot�
+jako pravd�podobnost, �e se vyskytla z�vislost, jej�� ��d�c� uzel m�
+sou�asn� dan� heslo1 a zna�ku1 a z�visl� uzel m� sou�asn� dan� heslo2
+a zna�ku2. Tato druh� mo�nost je t�m�� ekvivalentn� modelu z�vislost�
+slov, zat�mco prvn� mo�nost je m�n� specificky parametrizov�na.
+
+"slova"
+A 126030 - G 54684 - B 71346 - P 43,4 (vse)
+A  40496 - G 22634 - B 17862 - P 55,9 (>=5)
+A  29997 - G 15635 - B 14362 - P 52,1 (>=1)
+A  55537 - G 16415 - B 39122 - P 29,6 (==0)
+
+"hesla"
+A 126030 - G 46360 - B 79670 - P 36,8 (vse)
+A  44601 - G 20362 - B 24239 - P 45,7 (>=5)
+A  21059 - G  8002 - B 13057 - P 38,0 (>=1)
+A  60370 - G 17996 - B 42374 - P 29,8 (==0)
+
+"znacky"
+A 126030 - G 85215 - B 40815 - P 67,6 (vse) <== NEJLEPSI!!!
+A 119222 - G 78586 - B 40636 - P 65,9 (>=5)
+A    210 - G    79 - B   131 - P 37,6 (>=1)
+A   6598 - G  6550 - B    48 - P 99,3 (==0) - ze by tohle byly Z.K?
+
+"0.5*slova+0.5*znacky" (resp. "$ls*slova+$lz*znacky")
+A 126030 - G 84264 - B 41766 - P 66,9 (vse)
+A 111976 - G 74632 - B 37344 - P 66,6 (>=5)
+A   7444 - G  3081 - B  4363 - P 41,4 (>=1)
+A   6610 - G  6551 - B    59 - P 99,1 (==0)
+
+pro >=5 "slova", jinak "0.5*slova+0.5*znacky"
+A 126030 - G 82487 - B 43543 - P 65,5 (vse)
+A 111734 - G 72799 - B 38935 - P 65,2 (>=5)
+A   7680 - G  3135 - B  4545 - P 40,8 (>=1)
+A   6616 - G  6553 - B    63 - P 99,0 (==0)
+
+pro >=15 "slova", jinak "0.5*slova+0.5*znacky"
+A 126030 - G 84089 - B 41941 - P 66,7 (vse)
+A 119175 - G 77448 - B 41727 - P 65,0 (>=5)
+A    244 - G    89 - B   155 - P 36,5 (>=1)
+A   6611 - G  6552 - B    59 - P 99,1 (==0)
+
+"hesla*znacky"
+A 126030 - G 47558 - B 78472 - P 37,7 (vse)
+A  63766 - G 29378 - B 34388 - P 46,1 (>=5)
+A   1289 - G    39 - B  1250 - P  3,0 (>=1)
+A  60975 - G 18141 - B 42834 - P 29,8 (==0)
+
+"slovo-znacka"
+A 126030 - G 46213 - B 79817 - P 36,7 (vse)
+A 109476 - G 37433 - B 72043 - P 34,2 (>=5)
+A   8915 - G  2083 - B  6832 - P 23,4 (>=1)
+A   7639 - G  6697 - B   942 - P 87,7 (==0)
+
+"heslo-znacka"
+A 126030 - G 44212 - B 81818 - P 35,1 (vse)
+A 111258 - G 36476 - B 74782 - P 32,8 (>=5)
+A   7092 - G  1044 - B  6048 - P 14,7 (>=1)
+A   7680 - G  6692 - B   988 - P 87,1 (==0)
+
+"(heslo-znacka)*znacky"
+A 126030 - G 54773 - B 71257 - P 43,5 (vse)
+A  21132 - G 14391 - B  6741 - P 68,1 (>=5)
+A  97168 - G 33680 - B 63488 - P 34,7 (>=1)
+A   7730 - G  6702 - B  1028 - P 86,7 (==0)
+
+pro >=5 "(heslo-znacka)*znacky", jinak "znacky"
+A 126030 - G 85101 - B 40929 - P 67,5 (vse)
+A 119222 - G 78472 - B 40750 - P 65,8 (>=5)
+A    210 - G    79 - B   131 - P 37,6 (>=1)
+A   6598 - G  6550 - B    48 - P 99,3 (==0)
+
+
+
+12.2.2002
+
+Hled�me nejlep�� vyv�en� model� "slova" a "zna�ky".
+"ls*slova+lz*znacky"
+
+ls=0
+A 126030 - G 85215 - B 40815 - P 67,6 (vse)
+A 119222 - G 78586 - B 40636 - P 65,9 (>=5)
+A    210 - G    79 - B   131 - P 37,6 (>=1)
+A   6598 - G  6550 - B    48 - P 99,3 (==0)
+
+ls=0,25
+A 126030 - G 85150 - B 40880 - P 67,6 (vse)
+A 119151 - G 78493 - B 40658 - P 65,9 (>=5)
+A    281 - G   107 - B   174 - P 38,1 (>=1)
+A   6598 - G  6550 - B    48 - P 99,3 (==0)
+
+ls=0,5
+A 126030 - G 85262 - B 40768 - P 67,7 (vse)
+A 119052 - G 78569 - B 40483 - P 66,0 (>=5)
+A    376 - G   143 - B   233 - P 38,0 (>=1)
+A   6602 - G  6550 - B    52 - P 99,2 (==0)
+
+ls=0,5625
+A 126030 - G 85265 - B 40765 - P 67,7 (vse)
+A 118953 - G 78540 - B 40413 - P 66,0 (>=5)
+A    475 - G   175 - B   300 - P 36,8 (>=1)
+A   6602 - G  6550 - B    52 - P 99,2 (==0)
+
+ls=0,625
+A 126030 - G 85292 - B 40738 - P 67,7 (vse)
+A 118863 - G 78536 - B 40327 - P 66,1 (>=5)
+A    564 - G   206 - B   358 - P 36,5 (>=1)
+A   6603 - G  6550 - B    53 - P 99,2 (==0)
+
+ls=0,6875
+A 126030 - G 85304 - B 40726 - P 67,7 (vse)
+A 118807 - G 78520 - B 40287 - P 66,1 (>=5)
+A    620 - G   234 - B   386 - P 37,7 (>=1)
+A   6603 - G  6550 - B    53 - P 99,2 (==0)
+
+ls=0,71875
+A 126030 - G 85339 - B 40691 - P 67,7 (vse)
+A 118755 - G 78537 - B 40218 - P 66,1 (>=5)
+A    672 - G   252 - B   420 - P 37,5 (>=1)
+A   6603 - G  6550 - B    53 - P 99,2 (==0)
+
+ls=0,734375
+A 126030 - G 85355 - B 40675 - P 67,7 (vse) <== NEJLEP��!
+A 118699 - G 78542 - B 40157 - P 66,2 (>=5)
+A    728 - G   263 - B   465 - P 36,1 (>=1)
+A   6603 - G  6550 - B    53 - P 99,2 (==0)
+
+ls=0,7421875
+A 126030 - G 85205 - B 40825 - P 67,6 (vse)
+A 118675 - G 78383 - B 40292 - P 66,0 (>=5)
+A    752 - G   272 - B   480 - P 36,2 (>=1)
+A   6603 - G  6550 - B    53 - P 99,2 (==0)
+
+ls=0,75
+A 126030 - G 85222 - B 40808 - P 67,6 (vse)
+A 118666 - G 78399 - B 40267 - P 66,1 (>=5)
+A    759 - G   273 - B   486 - P 36,0 (>=1)
+A   6605 - G  6550 - B    55 - P 99,2 (==0)
+
+ls=1
+A 126030 - G 54684 - B 71346 - P 43,4 (vse)
+A  40496 - G 22634 - B 17862 - P 55,9 (>=5)
+A  29997 - G 15635 - B 14362 - P 52,1 (>=1)
+A  55537 - G 16415 - B 39122 - P 29,6 (==0)
+
+Prvn� p�ibl��en� k pou�it� valence a sou�asn� k pou�it�
+trigram�. Pravd�podobnost z�vislosti nov� parametrizov�na ot�zkou, zda
+u� ekvivalentn� z�visl� uzel pod t�mt� ��d�c�m uzlem
+vis�. Ekvivalentn� je takov� uzel, kter� m� stejnou morfologickou
+zna�ku (resp. ty dva znaky, kter� n�m z n� zbyly).
+
+G 84960 - B 41070 - P 67,4
+
+Zhor�en�. Zkus�me zjemnit definici ekvivalentn�ch sourozenc�. Pokud
+maj� oba p�d, musej� ho m�t stejn�; jinak musej� m�t stejn� prvn�
+p�smeno zna�ky.
+
+
+
+12.2.2002 ve�er doma
+
+Opakov�n� posledn�ho testu, ale na dom�c�ch tr�novac�ch a testovac�ch datech.
+
+G 623 - B 301 - P 67,4
+
+Pokus: z testovac�ch dat vynech�ny v�ty, kter� obsahuj� alespo� jednu z�vislost
+typu ExD. Pokus je inspirov�n Carrollem et al. (1998), kter� do testov�n�
+experimentu se subkategoriza�n�mi pravd�podobnostmi p�i parsingu zahrnul pouze
+v�ty pokryt� svou gramatikou (tj. v�ty, ke kter�m gramatika najde alespo� jednu
+anal�zu) s od�vodn�n�m, �e zbytek stejn� obsahuje eliptick� jmenn� v�ty,
+fragmenty dialog� a podobn� podivnosti, kter� se stejn� nesna�� pokr�t.
+
+G 449 - B 215 - P 67,6
+
+Dota�en� pokusu do konce: doty�n� v�ty byly vynech�ny i p�i tr�ninku. M�sto asi
+1900 v�t se tr�novac� mno�ina scvrkla jen na 1246 v�t.
+
+G 446 - B 218 - P 67,2
+
+Od diskriminace v�t s ExD tedy zase ustupuji. Ustupuji tak� od parametrizace
+pravd�podobnost� podle dvoj�at, proto�e to �sp�nost nezvedlo a chyby, kter�mi
+to bylo motivov�no, se vyskytuj� vesele d�l. M�me tedy op�t 1983 tr�novac�ch
+v�t a 924 testovac�ch z�vislost�.
+
+G 608 - B 316 - P 65,8
+
+Pozor! Tak�e �sp�nost na dom�c�ch datech je v�razn� hor��! V tomto sv�tle
+p�est�v� b�t �pln� jist�, �e od v�c�, od kter�ch jsem pr�v� ustoupil, jsem
+opravdu ustupovat m�l. I kdy� jist� nen� ani opak, statistick� pr�kaznost
+dom�c�ch dat je p�ece jenom n�zk�.
+
+Opraveno po��t�n� �sp�nosti pro z�vislosti vybran� n�hodou (ve statistice m�ly
+�etnost 0). Chyba spo��vala v tom, �e se mezi tyto hrany p�ipletly z�vislosti
+koncov� interpunkce na ko�eni, kter� se p�i�azuj� bez statistiky, tj. �etnost u
+nich nebyla uvedena, ale m�ly skoro stoprocentn� �sp�nost.
+
+A 924 - G 608 - B 316 - P 65,8 (v�e)
+A 749 - G 529 - B 220 - P 70,6 (>=5)
+A 157 - G  71 - B  86 - P 45,2 (>=1)
+A  18 - G   8 - B  10 - P 44,4 (==0)
+
+Pokus: Vynechat z tr�ninku a testu v�ty, kter� obsahuj� koordinaci nebo
+apozici. Z 1983 tr�novac�ch v�t zbylo 900. Z testovac�ch v�t zbylo 21 (tj. 257
+slov).
+
+A 257 - G 187 - B 70 - P 72,8 (v�e)
+A 140 - G 119 - B 21 - P 85,0 (>=5)
+A 111 - G  65 - B 46 - P 58,6 (>=1)
+A   6 - G   3 - B  3 - P 50,0 (==0)
+
+
+
+13.2.2002
+
+Zopakov�n experiment s vynech�n�m koordinac� a apozic. V tr�novac�ch
+datech zbylo 36200 v�t, v testovac�ch 3496 v�t.
+
+A 41598 - G 31367 - B 10231 - P 75,4 (v�e)
+A 40805 - G 31050 - B  9755 - P 76,1 (>=5)
+A   756 - G   303 - B   453 - P 40,1 (>=1)
+A    37 - G    14 - B    23 - P 37,8 (==0)
+
+Zopakov�n experiment s vynech�n�m ExD (koordinace a apozice
+vr�ceny). V tr�novac�ch datech zbylo 53500 v�t, v testovac�ch 5522
+v�t.
+
+A 99092 - G 68494 - B 30598 - P 69,1 (v�e)
+A 98253 - G 68200 - B 30053 - P 69,4 (>=5)
+A   762 - G   283 - B   479 - P 37,1 (>=1)
+A    77 - G    11 - B    66 - P 14,3 (==0)
+
+Spojeny posledn� dva pokusy. Vynech�ny jsou v�ty obsahuj�c� ExD,
+koordinaci nebo apozici. V tr�novac�ch datech zbylo 25900 v�t,
+v testovac�ch 2658.
+
+A 36114 - G 27430 - B 8684 - P 76,0 (v�e)
+A 35300 - G 27076 - B 8224 - P 76,7 (>=5)
+A   746 - G   340 - B  406 - P 45,6 (>=1)
+A    68 - G    14 - B   54 - P 20,6 (==0)
+
+Pr�zkum je hotov. Zkus�m nicm�n� tento stav v�c� n�jakou dobu
+ponechat. Jednak se t�m zrychluje v�po�et a jednak se m��u l�pe
+soust�edit na druhy chyb, kter� s koordinacemi nesouvisej�.
+
+Pokus: p�estaneme do d�lky z�vislosti zahrnovat po�et ��rek, proto�e
+t�m se mo�n� statistika p��li� drob�. Ponech�me v�ak informaci, zda se
+na trase aspo� jedna ��rka vyskytla, �i nikoliv.
+
+G 27435 - B 8679 - P 76,0
+
+Zlep�en� je minim�ln�, ale alespo� se to nezhor�ilo, tak�e to tak
+nech�me.
+
+Valence - �vodn� pr�zkum. Do v�sledk� jsou nyn� zahrnuty pouze
+z�vislosti typu Sb, Obj, Adv, Pnom. Typ se ur�� podle vzorov� v�ty,
+pokud byl z�visl� uzel zav�en jinam, je to chyba. Analyzuje se ov�em
+cel� v�ta.
+
+G 8848 - B 2569 - P 77,5
+
+Tvary slovesa "b�t" zkop�rov�ny do zna�ek. Slibuji si od toho, �e
+konstrukce "bude d�lat" ("d�lat" m� b�t ��d�c�) se u� nebude pl�st
+s "m��e d�lat" ("m��e" m� b�t ��d�c�).
+
+G 9014 - B 2403 - P 79,0
+
+Znova rozli�eny zna�ky pro zvratn� z�jmena "se", "si" od ostatn�ch
+z�jmen. D�vod: tato dv� z�jmena hraj� ��dov� v�t�� roli p�i valenci
+ne� v�echna ostatn� z�jmena, tak�e by m�lo pomoct, kdy� si je nebudeme
+pl�st. Pozn�mka: mezi funkcemi, kter� se maj� kv�li valenc�m sledovat,
+jsem zapomn�l uv�st AuxT. V nejbli���m pokusu ho tedy je�t� tak�
+vynech�m, pak se k n�mu vr�t�m.
+
+G 9019 - B 2398 - P 79,0
+
+Nepatrn� zlep�en�. A te� jak to vyjde p�i p�id�n� kontroly AuxT?
+(Prvn� v�sledky jsou opakov�n�m baseline, druh� opakov�n�m pokusu s
+p�idan�m "b�t", t�et� opakov�n�m pokusu s p�idan�m "se/si".)
+
+G 9254 - B 2677 - P 77,6
+G 9445 - B 2486 - P 79,2
+G 9456 - B 2475 - P 79,3
+
+Je�t� vylep�en� "b�t". Je-li z�porn�, odstranit p�edponu "ne-". Je-li
+v p���est� minul�m, odstranit koncovku rodu a ��sla. U infinitivu se
+zastaralou koncovkou "-ti" odstranit koncov� "-i".
+
+G 9489 - B 2442 - P 79,5
+
+Nejprimitivn�j�� valence. Zkusit p�idat heslo ka�d�ho slovesa do
+zna�ky (p�i zachov�n� prvn�ch dvou p�smen zna�ky). Pravd�podobn� to
+sp�� u�kod�, proto�e data p��li� z��dnou bez n�le�it�ho vyhlazen�, ale
+za zkou�ku to stoj�.
+
+G 6522 - B 5409 - P 54,7
+
+Tak snad ani za zkou�ku to nest�lo. Je�t� mal� diletantsk� pokus
+(diletantsk�, proto�e se p��li� nezat�uje dodr�en�m z�kon�
+pravd�podobnosti): u z�vislost�, jejich� ��d�c�m uzlem je sloveso,
+ud�lat dva z�znamy do t�e tabulky: jeden bude m�t v ��d�c�m uzlu jen
+morfologickou zna�ku, druh� ji bude m�t obohacenu o heslo jako v
+p�edchoz�m pokusu. V z�visl�m uzlu bude za v�ech okolnost� zna�ka. P�i
+anal�ze se pak vyt�hnou oba z�znamy a �etnosti se se�tou. T�m se
+jednak trochu vyhlad� ��dkost dat, jednak se celkov� zv�hodn�
+z�vislosti ��zen� slovesem oproti jin�m, tj. slovesn� vazby se snad
+budou �e�it o n�co p�ednostn�ji.
+
+G 9537 - B 2394 - P 79,9
+
+Jednoduch� valence. Na za��tku ka�d� anal�zy si naj�t v�echna slovesa
+ve v�t�, ke ka�d�mu z nich v�echny zn�m� r�mce, ty rozsekat na �leny,
+naj�t potenci�ln� instance �len� ve v�t� a v�echny takto vznikl�
+z�vislosti si zapamatovat jako valen�n�. Zat�m se nept�me ani po tom,
+zda je n�kter� vazba povinn� (vyskytuje se ve v�ech r�mc�ch), ani zda
+dv� r�zn� valen�n� z�vislosti na tomt� slovese jsou ze stejn�ho r�mce
+tohoto slovesa, ani zda jedna valence nen� uspokojov�na opakovan�, ani
+zda valen�n� z�vislost p�eskakuje jin� sloveso, kter� m� stejnou
+neuspokojenou valenci. Na za��tku ka�d�ho kola pak hled�me nejd��ve
+valen�n� z�vislosti a teprve v p��pad�, �e ��dn� z nich nen� povolen�,
+hled�me mezi ostatn�mi.
+
+G 8660 - B 3271 - P 72,6
+
+Zd� se, �e tam, kde jedno sloveso m� v�ce variant r�mc�, zbyte�n�
+vyhr�vaj� ty m�n� pravd�podobn�. Ut�i�me tedy valen�n� z�vislosti
+sestupn� podle pravd�podobnosti.
+
+G 8835 - B 3096 - P 74,1
+
+A d�le: valen�n� z�vislosti dostanou p�ednost pouze v p��pad�, �e u�
+je povolena ta nejlep�� z nich. Jinak se postupuje norm�ln�m
+zp�sobem. I tak samoz�ejm� m��e vyhr�t valen�n� z�vislost, kter� nen�
+nejlep�� z valen�n�ch.
+
+G 9416 - B 2515 - P 78,9
+
+Opravena chyba: nezvratn� z�jmena s p�dem nebyla zapo��t�na jako
+jmenn� argumenty (jde zejm�na o vzta�n� a ukazovac� z�jmena - "to",
+"kter�" apod.).
+
+G 9426 - B 2505 - P 79,0
+
+Zkus�me je�t� jako druh� krit�rium �azen� valen�n�ch z�vislost� p�idat
+d�lku z�vislosti (��m krat��, t�m lep��).
+
+G 9407 - B 2524 - P 78,8
+
+Nezlep�uje se to. Ne� vr�t�me n�hodnou, zkus�me tedy, zda pom��e
+p��stup "��m del��, t�m lep��".
+
+G 9445 - B 2486 - P 79,2
+
+Kupodivu je tu m�rn� zlep�en�! Tak�e to tak nech�me.
+
+Z�sobn�k valen�n�ch z�vislost� se m��e zaseknout, pokud na jeho �ele
+v�z� z�vislost, kter� u� nikdy nebude povolena. V takov�m p��pad� je
+nutn� z�vislost ze z�sobn�ku odstranit. Takov� p��pad se pozn� podle
+toho, �e nastala jedna z n�sleduj�c�ch podm�nek: 1) z�visl� uzel u� je
+p�ipojen jinde; 2) nad z�visl�m uzlem vede z�vislost, kter� nevede nad
+��d�c�m nebo obr�cen�.
+
+G 9401 - B 2530 - P 78,8
+
+Nepomohlo to a je to dost divok�, tak to vr�t�m do p�vodn�ho
+stavu. N�kdy bych mohl lad�n�m vyzkoumat, co se tam vlastn� d�je a ve
+kter�ch p��padech k tomu do�lo, ale te� na to nen� �as.
+
+G 9445 - B 2486 - P 79,2
+
+Zkus�m z testu vynechat Adv (v�t�inou nejsou sou��st� valence).
+
+G 5903 - B 1668 - P 78,0
+
+Vr�t�me Adv, vynech�me Sb (nejsou podchyceny valen�n�mi r�mci).
+
+G 6962 - B 1953 - P 78,1
+
+Vr�t�me oboj�.
+
+G 9445 - B 2486 - P 79,2
+
+Vynech�me z valence sloveso "b�t", proto�e samo u� je bez valence
+podchyceno celkem dob�e a naopak se mnohokr�t vyskytuje jako pomocn�,
+nebo s mnoha r�zn�mi r�mci, tak�e valence by ho mohla sp�� popl�st.
+
+G 9455 - B 2476 - P 79,2
+
+Zv�hodn�me zav�ov�n� t�ch vedlej��ch v�t, kter� jdou snadno poznat,
+ale dosavadn� model na to nem� n�stroj. Jakmile pod sloveso p�ipoj�me
+zleva heslo "kter�", koukneme se, zda je p�ed n�m ��rka, p�ipoj�me ji
+tak� a potom hled�me nejbli��� p�edch�zej�c� podstatn� jm�no nebo
+z�jmeno (m�lo by se shodovat v rod� a ��sle, ale to sou�asn� zna�ky
+neumo��uj�, tak to odlo��me - stejn� nep�jde o p�edm�t ani podobnou
+z�vislost, tak�e jde sp��e o uklizen� vedlej�� v�ty ne� o jej� spr�vn�
+zav�en�).
+
+G 9507 - B 2424 - P 79,7
+
+Zkombinovat "diletantskou pseudovalenci", kterou jsme naho�e dos�hli
+79,9 %, s t�m, co jsme pou�ili v posledn�m pokusu. D�vod: te� sice
+l�pe ne� u pseudovalence preferuju valen�n� z�vislosti p�ed
+nevalen�n�mi, ale pro rozli�en� valen�n�ch mezi sebou zase pot�ebuju
+ur�it� stupe� lexikalizace, a ten byl v pseudovalenci obsa�en.
+
+G 9564 - B 2367 - P 80,2
+
+Zvratn� z�jmena "se" a "si" jsou u n�kter�ch sloves tak� zahrnuta pod
+valencemi N4, resp. N3. Povol�me tedy oboj�.
+
+G 9560 - B 2371 - P 80,1
+
+Mal� zhor�en�. Nov� valence na sebe sp��e nabalily r�zn� dal��
+kraviny. V��e uveden� druhy "se" a "si" je nutn� n�jak �e�it, ale
+takhle to nejde, tak�e beru zp�t.
+
+MUSIM ALE ZKONTROLOVAT seznam vazeb, kter� pou��v�m! Posledn�
+prov�d�n� pokus jsem d�lal, proto�e v seznamu v�bec nebylo "obr�tit
+se" (bylo tam pouze "obr�tit N4"), p�itom na webu je jasn� vid�t, �e
+existuje r�mec "obr�tit se na".
+
+
+
+14.2.2002
+
+Pokus: spojky "�e", "aby" a ("zda" nebo "zdali") se p�ilep� ke
+zna�ce.
+
+G 9635 - B 2296 - P 80,8
+
+Ale zapomn�l jsem upravit zna�ky ve valenc�ch, mo�n� to bude je�t�
+lep��.
+
+G 9619 - B 2312 - P 80,6
+
+Ou nou! Jakto�e je to zase hor��? Mus�m to ale asi nechat takhle, je
+to spr�vn�j��.
+
+
+
+21.2.2002
+
+Pokus o po��dn� zm��en� n�kter�ch v�sledk� uv�d�n�ch ve �l�nku do
+Taibei. Mus�m se dok�zat vr�tit k p�vodn� verzi programu, v p�tek p�ed
+odesl�n�m �l�nku jsem to d�lal narychlo zbrkle a nepovedlo se mi to.
+
+Prvn� krok: nyn� lze v konfiguraci nastavit, zda se maj� testovat
+pouze hrany, kter� maj� ve vzorov�ch datech ur�itou analytickou
+funkci, nebo v�echny hrany. Prvn� v�sledek je pro hrany s afuny Sb,
+Obj, Adv, Pnom a AuxT (tedy stejn� jako ve v�ech pokusech posledn�ch
+dn�), druh� je pro v�echny hrany (afun .*).
+
+G  9491 - B 2440 - P 79,5
+G 27318 - B 8796 - P 75,6
+
+Druh� krok: specifikaci afun�, kter� se nesm� ve v�t� vyskytnout, aby
+v�ta nebyla vynech�na, u� konfigurace umo��uje. Nyn� se zkus�me vr�tit
+na neomezen� data. Prvn� v�sledek je se zak�zan�mi afuny ExD, Coord a
+Apos (tak to bylo posledn�ch n�kolik dn�), druh� je pro povolen�
+v�echny afuny p�i testu (av�ak natr�nov�no je po��d na omezen�ch
+datech), t�et� pou��v� neomezen� data p�i testu i p�i tr�ninku. Ve
+v�ech pokusech u� je ponech�no testov�n� libovoln�ch afun� (ve v�t�ch,
+kter� nebyly vynech�ny).
+
+G 27318 - B  8796 - P 75,6
+G 84026 - B 42004 - P 66,7
+G 83540 - B 42490 - P 66,3
+
+Ni��� �sp�nost t�et�ho pokusu vzhledem k druh�mu je
+p�ekvapuj�c�. Krom� toho jsme klesli i pod p�vodn�
+�sp�nost. O�ek�v�no:
+
+G 85355 - B 40675 - P 67,7
+
+P�i zbrkl�m p�te�n�m pokusu o n�vrat byly ov�em vy�azeny ve�ker�
+machinace s morfologick�mi zna�kami, tak�e mimo jin� zmizel tak�
+rozd�l mezi uzly z�visej�c�mi na ko�eni, kdy� ve v�t� bylo sloveso, a
+kdy� tam nebylo. Nyn� naopak ve�ker� machinace vrac�m a budu je pak
+vy�azovat postupn�, s v�t��m rozmyslem. Nejd��ve ale pr�b�n�
+p�etr�nov�n� a p�etestov�n�:
+
+G 87589 - B 38441 - P 69,5
+
+Nyn� odstran�me tzv. selektivn� lexikalizaci zna�ek, tj. ve�ker�
+machinace se zna�kami v�etn� p�id�v�n� lemmatu do zna�ky pro
+interpunkci. V�jimkou je pouze �prava zna�ek pro k�estn� jm�no, kde se
+ale nep�id�v� lemma, n�br� cel� lexik�ln� kategorie; krom� toho to
+nesouvis� s valenc�. Interpunkce s valenc� taky moc nesouvis�, tak�e
+ji v p���t�m kroku je�t� tak� vr�t�m. Te� ale pr�b�n� v�sledky:
+
+G 84314 - B 41716 - P 66,9
+
+Vr�cena lexikalizace zna�ek pro interpunkci a p�edlo�ky. (P�edlo�ky
+byly lexikalizov�ny u� 10.2.2002, interpunkce je�t� d��ve.)
+
+G 85997 - B 40033 - P 68,2
+
+�sp�nost je po��d vy��� ne� p�ed pokusy s valenc�. Mohlo by to b�t
+t�m, �e te� v d�lce z�vislosti eviduji v�skyt ��rky, tenkr�t jsem
+evidoval i po�et ��rek. Je�t� tedy zkus�m vr�tit po�et ��rek. Je�t�
+jsem tak� nalezl n�silnou �pravu vedlej��ch v�t za��naj�c�ch z�jmenem
+"kter�", a vypnul jsem ji.
+
+G 85350 - B 40680 - P 67,7
+
+Kone�n� jsem se trefil v�ce m�n� do p�edvalen�n�ho v�sledku (jsem
+jenom o p�t z�vislost� hor��). Te� tedy op�t p�estanu evidovat po�et
+��rek mezi ��d�c�m a z�visl�m a m�sto n�j budu evidovat pouze
+existenci ��rky.
+
+G 85360 - B 40670 - P 67,7
+
+Vyp�n�m lexikalizaci p�edlo�ek, ta se stane sou��st� bal�ku
+"selektivn� lexikalizace", a nem��e se tedy zapo��t�vat do baseline
+p�ed valen�n�mi pokusy. P�i selektivn� lexikalizaci u� nav�c nebudu
+pracovat s pou�it�m tvarem p�edlo�ky, ale s jej�m lemmatem.
+
+G 85139 - B 40891 - P 67,6
+
+P���t� je pot�eba se n�jak postavit k n�siln�mu �e�en� vedlej��ch v�t
+za��naj�c�ch z�jmenem "kter�". Je t�eba pokr�t i dal�� vzta�n�
+z�jmena, kter�ch se to t�k�. Je t�eba zjistit, jak moc pom�h� povinn�
+p�ipojov�n� takov�ch v�t k nejbli���mu p�edch�zej�c�mu podstatn�mu
+jm�nu a kolikr�t p��mo toto p�ipojen� bylo �patn� �i spr�vn�. Je t�eba
+se zamyslet, zda nebude lep�� n�jak� voln�j�� a statisti�t�j�� model,
+kter� nap�. bude podmi�ovat oby�ejnou pravd�podobnost podm�nkami,
+kter� p�i n�siln�m �e�en� vedou p��mo k p�ipojen� vedlej�� v�ty. A
+cel� tato funkce by asi m�la b�t voliteln� v konfiguraci. Pokud se
+rozhodnu m�t ji pro valen�n� pokusy zapnutou, m�la by b�t sou��st�
+baseline.
+
+
+
+22.2.2002
+
+Pokus s povinn�m p�ipojov�n�m vzta�n�ch vedlej��ch v�t k nejbli���
+jmenn� fr�zi nalevo od ��rky. Zat�m vr�t�m to, co u� tam jednou bylo,
+tedy v�ty se z�jmenem "kter�" v r�zn�ch rodech. Ud�l�m to jako
+volitelnou funkci, ale pro nejbli��� pokus bude zapnuta. Zvlṻ tak�
+zm���m �sp�nost t�chto z�vislost�, proto�e jedna v�c je, kolikr�t
+byly �sp�n� ony samy, a jin�, kolik chyb odstranily nebo naopak
+zp�sobily jinde ve strom�.
+
+Vzta�n� v�ty budeme testovat na mal�m vzorku 445 v�t (soubory
+lu0?.a). Tady je jeho po��te�n� �sp�nost:
+
+G 5424 - B 2477 - P 68,6
+
+Prvn� ��dek je v�dy celkov� �sp�nost, druh� jen vzta�n� v�ty.
+
+G 5487 - B 2414 - P 69,4
+G   30 - B   16 - P 65,2
+
+To je pozoruhodn�! Jak je vid�t, samotn� zav�en� vzta�n�ch v�t je
+natolik chybn�, �e celkovou �sp�nost kaz�, av�ak i tak pom�h�
+umravnit jin� z�vislosti, d�ky �emu� celkov� �sp�nost naopak
+vzrostla! Mo�n� ale, �e zav�en� vzta�n�ch v�t bylo chybn� i p�edt�m,
+akor�t chyby sm��ovaly jinam, tak�e celkov� i tohle je zlep�en� (nem�m
+toti� mo�nost jednodu�e zm��it �sp�nost zav�en� vzta�n�ch v�t, kdy�
+nen� pou�ito zvl�tn� zach�zen�). To skoro stoj� za zm�nku v n�jak�
+publikaci. A te� mus�me zjistit, kde k chyb�m doch�z� a zda se s nimi
+d� n�co d�lat.
+
+Chyby lze rozd�lit do n�sleduj�c�ch skupin:
+1) Jmenn� fr�ze nebo sloveso ve vedlej�� v�t� jsou �leny n�jak�
+koordinace nebo apozice. To zat�m neum�m opravit, proto�e zat�m neum�m
+zach�zet s koordinacemi a apozicemi.
+2) Spr�vn� jmenn� fr�ze rozvita zprava jin�mi jmenn�mi fr�zemi v
+genitivu nebo p�edlo�kov�mi fr�zemi. Zat�m obecn� neum�m opravit a
+�e�en� bude velmi obt��n�, ��zen� leckdy s�manticky nebo dokonce ani
+�lov�kem nerozhodnuteln�. Mo�n� by nicm�n� st�lo za pr�zkum, zda nen�
+naopak �ast�j�� zav�en� na nejvy���ho �lena takov�ho �et�zku, m�sto
+na nejni���ho, kter� je sou�asn� nejbl��e k vedlej�� v�t�.
+3) Jako p�edchoz� skupina, av�ak �patn� jmenn� fr�ze se se vzta�n�m
+z�jmenem neshoduje v rod� a ��sle. To um�m opravit.
+
+Zak�z�no v�en�, kde nen� shoda (nev��m pak ale nikam, ani na
+nejbli��� shodnou jmennou fr�zi, je to zas nech�no na statistice).
+
+G 5477 - B 2424 - P 69,3
+G   29 - B    7 - P 80,6
+
+Celkov� �sp�nosti to sice nepomohlo, ale nem��u d�lat v�dom� chyby,
+abych zabr�nil jin�m, mus�m rad�ji hledat jin� zp�sob odstran�n� t�ch
+jin�ch. Nyn� zkus�m nav�c naj�t shodnou jmennou fr�zi, na kterou by
+vedlej�� v�ta �la zav�sit.
+
+G 5486 - B 2415 - P 69,4
+G   33 - B   11 - P 75,0
+
+M�sto z�jmena "kter�" nyn� vyzkou��me z�jmeno "jak�".
+
+G 5422 - B 2479 - P 68,6
+Vzta�n� v�ta uveden� z�jmenem "jak�" se neobjevila ani jednou!
+
+Vrac�me z�jmeno "kter�", z�jmeno "jak�" vypou�t�me. Vrac�me se k
+velk�m testovac�m dat�m.
+
+G 85830 - B 40200 - P 68,1
+G   390 - B   128 - P 75,3
+
+Roz����me pravidlo na v�skyty z�jmena "kter�" v p�edlo�kov�ch fr�z�ch
+(nap�. "Mu�, na kter�ho byla pod�na �aloba..."). Budeme tak� po��tat,
+kolikr�t se z�jmeno "kter�" vyskytlo v testovac�ch datech celkem, aby
+se poznalo, jak velkou ��st probl�mu jsme v�bec schopni uchopit.
+
+G 85844 - B 40186 - P 68,1
+G   400 - B   133 - P 75,0
+v�skyty z�jmena "kter�" = 124064
+
+Tak to je tedy k sm�chu, v�dy� 533 zachycen�ch v�skyt� "kter�" tvo�� z
+celkov�ho po�tu pouh� 4 promile! To se div�m, �e z�sah m�l v�bec
+alespo� takov� vliv, jak� m�l. Na vin� je samoz�ejm� p��sn� v�b�r
+okolnost�, a n�kter�m okolnostem by se snad dalo pomoci bez nebezpe��
+ztr�t - nap��klad se po�aduje, abych v dan�m okam�iku m�l u� z�jmeno i
+��rku p�ipojen�. Nem�m-li, t�eba to pro�vihnu. Nebudu ale te� u� tento
+sm�r sledovat d�l, proto�e v n�m stejn� nen� ��dn� statistika. Rad�ji
+se vr�t�m ke sledov�n� valence a sb�ru podklad� pro kone�nou verzi
+�l�nku do Taibei.
+
+Vyhodnocen� baseline (�pln� nelexikalizovan�ho parseru) paraleln� pro
+v�echny z�vislosti a pro valen�n� d�le�it� z�vislosti.
+
+G 85889 - B 40141 - P 68,1 (v�e)
+G 25459 - B  7936 - P 76,2 (valence)
+
+Lexikalizace s ls=0,734375
+
+G 85844 - B 40186 - P 68,1 (v�e)
+G 25446 - B  7949 - P 76,2 (valence)
+
+Tak te� u� tohle ani nen� optim�ln� ls, proto�e kdy� jsem ho
+stanovoval, byl cel� model tro�i�ku odli�n�. Na�t�st� rozd�ly jsou tak
+nepatrn�, �e na desetin�ch procenta se zhor�en� neprojev� a bude to
+vypadat, �e se nic nehnulo ani nahoru, ani dol�.
+
+�pln� oby�ejn� lexikalizace, tj. ls=1, n�sleduje:
+
+G 54844 - B 71186 - P 43,5 (v�e)
+G 14426 - B 18969 - P 43,2 (valence)
+
+Oby�ejn� lexikalizace vr�cena na 0,734375, p�id�na selektivn�
+lexikalizace (sloveso "b�t", p�edlo�ky, pod�ad�c� spojky a zvratn�
+z�jmena).
+
+G 87615 - B 38415 - P 69,5 (v�e)
+G 25098 - B  8297 - P 75,2 (valence)
+
+P�id�na "pseudovalence" (z�vislostem obsahuj�c�m slovesa se s��t�
+jejich pravd�podobnost podle zna�ek s pravd�podobnost�, kde zna�ka
+slovesa je lexikalizovan� heslem).
+
+G 87735 - B 38295 - P 69,6 (v�e)
+G 25299 - B  8096 - P 75,8 (valence)
+
+A nakonec p�id�na opravdov� valence v rozsahu, ke kter�mu jsem se p�i
+p��prav� �l�nku zat�m dostal (preference valen�n�ch z�vislost�). V�e
+v��e uveden� z�st�v� tak� zapnuto.
+
+G 87645 - B 38385 - P 69,5 (v�e)
+G 25259 - B  8136 - P 75,6 (valence)
+
+A te� budeme postupovat zase zp�tky, ale v�echno budeme m��it p�i
+vynechan�ch v�t�ch obsahuj�c�ch ExD, Coord nebo Apos.
+
+G 28592 - B 7522 - P 79,2 (v�e)
+G  9629 - B 2302 - P 80,7 (valence)
+
+Nyn� vypnu valenci.
+
+G 28644 - B 7470 - P 79,3 (v�e)
+G  9652 - B 2279 - P 80,9 (valence)
+
+Nyn� vypnu i pseudovalenci.
+
+G 28643 - B 7471 - P 79,3 (v�e)
+G  9608 - B 2323 - P 80,5 (valence)
+
+Nyn� vypnu i selektivn� lexikalizaci.
+
+G 27556 - B 8558 - P 76,3 (v�e)
+G  9544 - B 2387 - P 80,0 (valence)
+
+Nyn� zm�n�m ls na 1 (�pln� oby�ejn� lexikalizace).
+
+G 17557 - B 18557 - P 48,6 (v�e)
+G  4984 - B  6947 - P 41,8 (valence)
+
+Nyn� zm�n�m ls na 0 (��dn� lexikalizace).
+
+G 27496 - B 8618 - P 76,1 (v�e)
+G  9520 - B 2411 - P 79,8 (valence)
+
+Pokus: do selektivn� lexikalizace p�idat p��slovce neodvozen� z
+p��davn�ch jmen (uzav�en� skupina, zna�ka Db).
+
+G 28554 - B 7560 - P 79,1 (v�e)
+G  9561 - B 2370 - P 80,1 (valence)
+
+Proti dosud nejlep��m v�sledk�m s valenc� je to drobn�
+zhor�en�. P�id�me k nim je�t� p��slovce se zna�kou Dg, ale heslem
+"hodn�" nebo "m�lo-3" (jde n�m hlavn� o druh� stupn� "v�ce ne�" a
+"m�n� ne�").
+
+G 28558 - B 7556 - P 79,1 (v�e)
+G  9570 - B 2361 - P 80,2 (valence)
+
+P��slovce typu Db ru��m, p��slovce "hodn�" a "m�lo" ponech�v�m a do
+zna�ky ned�v�m jejich heslo, ale slovo.
+
+G 28587 - B 7527 - P 79,2 (v�e)
+G  9632 - B 2299 - P 80,7 (valence)
+
+Ru��m i p��slovce "hodn�" a "m�lo".
+
+G 28592 - B 7522 - P 79,2 (v�e)
+G  9629 - B 2302 - P 80,7 (valence)
+
+
+
+26.2.2002
+
+Zak�z�no, aby v�ce ne� jedna z�vislost vedla dovnit� �seku
+ohrani�en�ho ��rkami.
+
+G 28703 - B 7411 - P 79,5 (v�e)
+G  9930 - B 2001 - P 83,2 (valence)
+
+Opraveno: koncov� interpunkce je nyn� samostatn�m �sekem. Tot� plat�
+o ko�eni.
+
+G 29149 - B 6965 - P 80,7 (v�e)
+G 10009 - B 1922 - P 83,9 (valence)
+
+To je hezk�, te� ale ho��m zv�davost�, jak to bude vypadat, kdy�
+nebudu vynech�vat koordinace a spol.!
+
+G 91142 - B 34888 - P 72,3 (v�e)
+G 27256 - B  6139 - P 81,6 (valence)
+
+Te� se zase jednou pod�v�me, jak by n�m pomohl Melk. M� to ale
+h��ek. Mus�me pou��t nez�visl� testov�n� a to n�m nebude d�lat
+transformace koordinac�. Jin�mi slovy, na koordinac�ch hodn� ztrat�me,
+proto�e dokonce ani nebudeme zkou�et p�eskl�dat je ve strom�, kter�
+jsme vymysleli. Nez�visl� test bez melku tedy dopad� takto:
+
+G 83159 - B 42871 - P 66,0
+
+P�d je mo�n� je�t� v�razn�j��, ne� by se �ekalo, a to proto, �e ve
+v�t�ch s koordinac� neplat� pravidlo o uzav�enosti mezi��rkov�ch
+�sek�! Nap�. ve v�t� "Vid�l Martina, Lucku a Janu." se mus� nejd��ve
+p�es ��rku spojit Martin s Luckou a Janou, teprve potom se to cel�
+spoj� s "vid�l" a "vid�l" - op�t p�es ��rku, by� pomyslnou a na druhou
+stranu - se spoj� s ko�enem.
+
+P�i postsubstituci melku (v n�jak�m stavu z lo�sk�ho l�ta, tj. bez
+vylep�en�, kter� jsem k n�mu je�t� vym��lel na podzim):
+
+G 83577 - B 42453 - P 66,3
+
+Jasn� �kol nejbli���ch dn� tedy je: VY�E�IT KOORDINACE A APOZICE!!!
+V�z� v nich p��li� mnoho, ur�it� alespo� 10% �sp�nosti.
+
+
+
+27.2.2002
+
+Zahajuji front�ln� �tok na koordinace. Nebudou se konat ��dn� podvodn�
+transformace vzorov�ch anal�z p�i testov�n�, m�sto toho se rovnou
+vybuduje spr�vn� (tj. definic� PDT po�adovan�) struktura koordinace.
+
+Krok 1: Vypnout p�i tr�ninku i testu transformace koordinac�. Nutn�
+mus� nastat dal�� p�d �sp�nosti.
+
+G 86994 - B 39036 - P 69,0
+
+Kupodivu se �sp�nost naopak trochu vr�tila nahoru. Snad tedy p�ece
+jenom m�l dostate�nou s�lu fakt, �e tr�nujeme a testujeme stejn�m
+zp�sobem. V kroku 2 ov�em tento fakt op�t trochu naru��me.
+
+Krok 2: P�i tr�ninku vynechat z�vislosti, jejich� ��d�c�m nebo
+z�visl�m uzlem je koordina�n� spojka. Test zat�m ponechat beze zm�ny,
+adekv�tn� �prava testu bude provedena v n�kter�m z pozd�j��ch krok�.
+
+G 84078 - B 41952 - P 66,7
+
+Te� se pochopiteln� projevila naprost� neznalost koordinac� p�i
+testu. Nevad�, ty se toti� budeme u�it zvlṻ.
+
+Krok 3: P�i testu se v ka�d�m kole d�v�m, zda jsou mezi povolen�mi
+z�vislostmi ob� p�lky dvou�lenn� koordinace: z�vislost �ehokoli na
+sou�ad�c� spojce a z�vislost druh�ho �lena stejn�ho druhu (co do
+morfologick� zna�ky) na t� sam� spojce z druh� strany. Pokud je takov�
+dvojice z�vislost� povolen�, dostane p�ednost. To je sice dost hrub�
+z�sah do statistick�ho p�ediva, ale posl�ze bude metoda hrub� s�ly i
+zde nahrazena modelem.
+
+G 87276 - B 38754 - P 69,3
+
+Krok 3b: Oprava. Jednou pou�it� koordina�n� spojka je zablokovan� pro
+dal�� potenci�ln� koordinace. K zablokov�n� se nav�c pou�ije p�eps�n�
+jej� zna�ky zna�kou posledn�ho koordinovan�ho �lenu, tak�e se tak�
+usnadn� zav�ov�n� koordinace nahoru nebo nabalov�n� slov
+rozv�jej�c�ch celou koordinaci.
+
+G 87928 - B 38102 - P 69,8
+
+Krok 3c: Drobn� vylep�en�. Slovesa maj� jen dv� t��dy: Vf (infinitiv) a
+V (v�echno ostatn�, tj. ur�it� tvary slovesa). P�edpokl�d�m, �e
+pozd�ji bude tento z�sah nahrazen jemn�j�� statistikou o tom, jak�
+kategorie se jak �asto spojuj� do koordinac�, ale zat�m, v prost�ed�
+hrub� s�ly, je lep�� tohle ne� nic.
+
+G 88265 - B 37765 - P 70,0
+
+Krok 4: Roz���it na v�ce�etn� koordinace! Pokud je povolena z�vislost
+��rky na b�val� koordina�n� spojce (b�val� proto, �e u� byla zapojena
+do koordinace a nyn� je p�eps�na jedn�m ze �len�) a pokud nejbli���
+nezav�en� slovo nalevo od t�to ��rky je stejn�ho druhu jako �lenov�
+koordinace, p�ipojit ��rku pod koordina�n� spojku a na��dit p�ipojen�
+onoho slova tamt� v p���t�m kole.
+
+G 88561 - B 37469 - P 70,3
+
+Krok 4b: Opravit slovesn� t��dy i u v�ce�etn�ch koordinac�.
+
+G 88594 - B 37436 - P 70,3
+
+Krok 5: Prvn� pokus o p�id�n� statistik. Koordinace se sou�ad�c�mi
+spojkami (J^) se d�laj� nad�le natvrdo, p�ibyla v�ak mo�nost
+dvou�lenn�ch koordinac� s jin�mi spojkami (��rky, jin� slovn�
+druhy...). Pokud kolem takov� spojky existuj� dva voln� uzly,
+pravd�podobnost� koordinace je relativn� �etnost jejich v�skytu jako
+�len� v t�e koordinaci. Tato pravd�podobnost sout�� s
+pravd�podobnostmi oby�ejn�ch z�vislost�. Pokud vyhraje, m� druh� �len
+koordinace p�id�n� do stromu jist�.
+
+G 86448 - B 39582 - P 68,6
+
+Krok 5b: Oprava. Tak jako v 3b i tady zablokov�no, aby po pou�it�
+spojky v koordinaci byla ta sam� spojka pou�ita pro jinou koordinaci
+vzd�len�j��ch �len�. Tentokr�t u� neblokujeme zm�nou morfologick�
+zna�ky - bylo by to ne��inn�, proto�e spojka se nepozn�v� podle
+zna�ky, ale podle hesla. M�sto toho vypln�me jedni�ku do prvku pole
+$coord s indexem odpov�daj�c�m indexu spojky ve v�t�.
+
+G 87846 - B 38184 - P 69,7
+
+Krok 5c: Na statistiku naj��d� i sou�ad�c� spojky (J^).
+
+G 83291 - B 42739 - P 66,1
+
+Krok 5d: Oprava. Pole $coord se nyn� po anal�ze ka�d� v�ty vymaz�v�.
+
+G 85295 - B 40735 - P 67,7
+
+Krok 5e: Oprava. �ada koordinac� se zablokovala p�ed�asn�, jen proto,
+�e u� se o nich n�kdy uva�ovalo.
+
+G 85247 - B 40783 - P 67,6
+
+Krok 5f: Oprava. Nen� sice v�bec jist�, �e relativn� �etnosti
+koordina�n�ch ekvivalenc� jsou porovnateln� s relativn�mi �etnostmi
+z�vislost�, ale pokud by tomu tak m�lo b�t, museli bychom relativn�
+�etnosti koordinac� zmen�it (1-$ls)-kr�t, proto�e jsou postaveny na
+zna�k�ch a pravd�podobnosti z�vislost� se skl�daj� z model� zna�ek a
+slov. Proto nyn� n�sob�m koordina�n� relativn� �etnosti uveden�m
+faktorem.
+
+G 86235 - B 39795 - P 68,4
+
+Krok 5g: Oprava. Tak jako ve 3b, op�t se kop�ruje zna�ka jednoho ze
+�len� koordinace do zna�ky koordina�n� spojky. Tentokr�t ov�em
+v�sledek m��e b�t hor��, proto�e n�kdy se zkoordinuj� v�ci rozd�ln�ch
+typ� a pak se m��e st�t, �e bude vybr�n ten m�n� reprezentativn� typ.
+
+G 86812 - B 39218 - P 68,9
+
+Krok 5h: Lep�� pravd�podobnostn� model (p�etr�nov�no). Nyn� u� se
+nesleduje, jak �asto dan� spojka ��dila pr�v� koordinaci dan�ho druhu,
+proto�e jsem to stejn� nevyu��val. Zato se zji��uje, jak �asto dan�
+heslo bylo koordina�n� spojkou vzhledem ke v�em sv�m v�skyt�m, a t�mto
+��slem se n�sob� celkov� pravd�podobnost koordinace. Tak�e koordinaci
+u� nemagnetizuje kdejak� hejhula v �ele s ��rkami - �ance vyhr�t
+re�ln� u� z�st�v� op�t p�edev��m sou�ad�c�m spojk�m.
+
+G 87268 - B 38762 - P 69,2
+
+
+
+28.2.2002
+
+Krok 5i: Oprava. P�i tr�nov�n� nesledovat heslo, ale slovn� tvar
+spojky. Heslo v tomto p��pad� paradoxn� poskytuje �ast�ji v�ce
+mo�nost�, a to proto, �e mnoh� spojky pat�� k hesl�m s rozli�en�mi
+v�znamy (plus-1, plus-2) a lematiz�tor je ne v�dy tref�.
+
+G 87242 - B 38788 - P 69,2
+
+Do�lo dokonce k nepatrn�mu zhor�en�, i kdy� procentu�ln� �sp�nost se
+fakticky nezm�nila. Pro p���t� by ale m�lo b�t bezpe�n�j�� pou�it�
+slov m�sto hesel, tak�e to tak nech�m.
+
+Krok 6: Te� je pot�eba p�idat v�ce�etn� koordinace. P�i tr�ninku nov�
+sledujeme, kter� spojky jsou schopny ��dit i v�ce�etn� koordinace
+(nejsou to v�echny, nap��klad u poml�ky nebo dvojte�ky to
+neo�ek�v�m).
+
+G 87385 - B 38645 - P 69,3
+
+Krok 6b: Oprava. Do ko�ene koordinace se nesm� kop�rovat typ
+koordinace, pokud u� tam je (tj. pokud roz�i�uju existuj�c�
+koordinaci).
+
+G 87450 - B 38580 - P 69,4
+
+Krok 6c: Oprava. P�i tr�ninku rozebrat slo�en� koordinace, aby se
+nestalo, �e podstatn� jm�no bude koordina�n� ekvivalentn� se sou�ad�c�
+spojkou. Ani te� to ale ned�l�m po��dn�, proto�e pouze p�epl�cnu
+koordinaci, kter� u� byla zpracov�na, ale nem�m jistotu, �e je�t� p�ed
+jej�m zpracov�n�m nenaraz�m na koordinaci, do kter� je vlo�ena, nebo
+na z�vislost, kter� na n� vis� nebo kterou ona sama vis� na n�kom.
+
+G 87164 - B 38866 - P 69,2
+
+Krok 7: Je pot�eba p�ij�t na to, kdy se m� d�vat p�ednost koordinac�m
+a kdy ne. Radik�ln� krok: k nenulov�m pravd�podobnostem koordinac�,
+p�i��st 1. T�m se zajist�, �e pokud by to mohla b�t koordinace, pak
+dostane p�ednost.
+
+G 74126 - B 51904 - P 58,8
+
+To ale dost�vaj� p�ednost i koordinace se spojkami, kter� v 99 % sv�ch
+v�skyt� nemaj� s koordinacemi nic spole�n�ho, a koordinace �len�,
+kter� se na jedn� koordinaci pod�lely jen omylem. Mohli bychom tedy
+zkusit jin� podvod. Koordinace dostane p�ednost, pokud je alespo� 50 %
+pravd�podobnost, �e je to opravdu koordinace, neboli �e domn�l� spojka
+je opravdu koordina�n� spojkou a �e domn�l� �leny opravdu mohou b�t
+pohromad� v jedn� koordinaci. Pro prvn� pravd�podobnost u� m�me
+statistiku. Pro druhou bychom po�et v�skyt� zna�ky v koordinaci s
+konkr�tn� jinou zna�kou pot�ebovali d�lit celkov�m po�tem v�skyt�
+prvn� zna�ky v koordinac�ch, a ten zat�m nezn�me. Zat�m tedy budeme
+po�adovat, aby ob� zna�ky byly shodn�.
+(Krok 7b.)
+
+G 87772 - B 38258 - P 69,6
+
+Krok 7c: Oprava. Pokud dvojice zna�ek nebyla p�i tr�ninku vid�t v
+��dn� koordinaci, ale zna�ky jsou toto�n�, pravd�podobnost jejich
+koordina�n� ekvivalence direktivn� nastavit na 1.
+
+G 87844 - B 38186 - P 69,7
+
+Krok 7d: Koordinace s mnoha ��rkami a ��dnou jasnou spojkou se spojuj�
+hierarchicky, a to proto, �e nejd��ve se spoj� prvn� dva �leny pod
+��rkou mezi nimi a pak u� nen� �niku. Odte� mezi stejn�mi koordinacemi
+preferovat ty, jejich� spojka le�� v�ce vpravo.
+
+G 87847 - B 38183 - P 69,7
+
+�patn� zpr�va od Petra Pajase: "atd" a podobn� zkratky jsou zav�ov�ny
+poka�d� jinak, achich achich! Pokud lze zav�sit na n�co jin�ho
+(nap�. ��rku), ud�l� se to a "atd" je potom (obvykle) jedn�m ze �len�
+koordinace. Samotn� "atd" ��d� koordinaci pouze pokud jin� kandid�t
+nen�, tedy nap�. ve v�t� "P�i�el Tonda atd." V manu�lu k analytick�
+rovin� je to naps�no trochu jinak, ale pr� �patn�. V datech to tak�
+nen� v�dy spr�vn�, nap�. v�ta na za��tku testovac�ch dat s ob��
+koordinac� m� v ko�eni koordinace atd., p�esto�e p�ed n�m jsou spousty
+��rek.
+
+Krok 7e: Zru�eno zkreslov�n� pravd�podobnost� koordinac� na z�klad�
+jejich po�ad� ve v�t� - i tak je tam toho zkreslov�n� dost. Je pot�eba
+odstranit i absolutn� preferenci koordinac� jako takov�ch, ale kde
+naj�t vhodn� vyv�en� se z�vislostmi? N�kdy je pot�eba nejd��ve
+p�ipojit p��davn� jm�no k podstatn�mu a pak teprve spojit podstatn�
+jm�na do koordinace, jindy je nutn� nejd��ve spojit koordinaci
+p��davn�ch jmen a pak teprve v�sledek p�ipojit z�vislost� k
+podstatn�mu jm�nu.
+
+
+
+1.3.2002
+
+Pokus: pokud lze p��davn� jm�no bu� zav�sit na podstatn� jm�no
+doprava, nebo koordinovat s jin�m p��davn�m jm�nem vlevo, dostane
+p�ednost koordinace. V ostatn�ch p��padech rozhoduje statistika. Pokud
+pokus vyjde, pokus�m se ho tak� podchytit statisticky.
+
+G 87855 - B 38175 - P 69,7
+
+Krok 8: Prvn� pokus s ��ste�n�m podm�n�n�m v�b�ru zav�en� kontextem
+ostatn�ch mo�nost� v�b�ru. Ve stejnou chv�li byla vypnuta valence (ne
+pseudovalence ani selex), proto�e v sou�asn� podob� sp��e m�rn�
+�kod�. P�esto �sp�nost zat�m m�rn� klesla, ale jsem optimista, a� to
+dod�l�m, bude to snad lep��!
+
+G 87454 - B 38576 - P 69,4
+
+Krok 8b: K souboji s konkurenty vlevo p�id�n souboj s konkurenty
+vpravo. Dal�� zhor�en� :-(
+
+G 87172 - B 38858 - P 69,2
+Dopl�kov� statistika:
+Lev� konkurent 946 x pomohl, 985 x ubl��il, zbytek �patn� i bez n�j.
+Prav� konkurent 1080 x pomohl, 1454 x ubl��il, zbytek �patn� i bez n�j.
+
+Krok 8c: Zkus�me zv��it p�esnost na �kor �plnosti. Konkurent�m
+dovol�me zv�t�zit pouze s po�tem v�skyt� 10 nebo v�t��m.
+
+G 87864 - B 38166 - P 69,7
+lkl 806:761 lkp 784:648
+
+Krok 8d: OK, nav�c je�t� budeme po�adovat, aby p�evaha konkurenta nad
+p�vodn�m kandid�tem byla alespo� dvout�etinov�.
+
+G 88210 - B 37820 - P 70,0
+lkl 634:381 lkp 606:479
+
+No sl�va, aspo� �e tak! Uvid�me se p���t� t�den...
+
+
+
+4.3.2002
+
+Krok 8e: Sout�� o v�t�ze lok�ln�ch konflikt� se zat�m v�bec
+ne��astnily koordinace (p�esto�e pot�ebn� statistiky byly p�i tr�ninku
+z�sk�ny). Nyn� tedy p�id�v�m i koordinace.
+
+8e1: �e�en� lok�ln�ch konflikt� muselo b�t kv�li koordinac�m
+p�ebudov�no. V z�jmu dobr�ho odlad�n� tedy nejd��ve zkus�me zopakovat
+v�sledky, kde se LK �e�� pouze pro z�vislosti.
+
+G 87546 - B 38484 - P 69,5
+lkl 644:756 lkp 622:503
+
+Zhor�en� o 664 z�vislost�. N�kde je chyba.
+8e2: Pokus�me se tedy zopakovat v�sledek bez �e�en� LK.
+
+G 87920 - B 38110 - P 69,8
+
+V�sledek je o 65 z�vislost� lep�� ne� posledn� v�sledek p�ed krokem 8,
+ale to bude t�m, �e na za��tku kroku 8 jsme tak� vypnuli valence, a ty
+z�staly vypnut� i te�.
+
+Rozd�l mezi 8e1 a 8d m��e b�t je�t� v po�ad� testov�n�
+z�vislost�. Jakmile se najde prvn� konkuren�n� z�vislost, kter� je
+"dostate�n� lep��" ne� p�vodn� kandid�t, pou�ije se tato z�vislost a
+lep�� u� se nehled�. Po�ad� proch�zen� konkurent� tedy hraje
+roli. Neum�m sice asi dokonale zopakovat po�ad� z kroku 8d, ale m��u
+p�ed proch�zen�m konkurent� uspo��dat konkurenty podle vzd�lenosti od
+z�visl�ho uzlu.
+
+G 87546 - B 38484 - P 69,5
+
+8e3: Zji��uju, �e p�ece jenom nejsou vypnuty koordinace. Tak te� u� je
+vyp�n�m doopravdy.
+
+G 88209 - B 37821 - P 70,0
+
+Tak jsme kone�n� skoro p�esn� (a� na jednu z�vislost, d�vod nezn�m)
+tam, co v p�tek ve�er. �patn� zpr�va ov�em je, �e p�id�n�m koordinac�
+se model zjevn� op�t zhor��. (V�sledek viz 8e1.)
+
+8f: Opravena chyba. Za koordina�n� spojku se po��talo kde co v�etn�
+nap�. p�edlo�ky "z". Nyn� se s�la koordinace jako konkurenta n�sob�
+pravd�podobnost�, �e pou�it� koordina�n� spojka je skute�n�
+koordina�n� spojka.
+
+G 88000 - B 38030 - P 69,8
+lkl 636:519 lkp 609:480
+
+Tak te� u� je to snad technicky bez chyb, ale ten model... Nech�pu,
+jak je nap��klad mo�n�, �e "A1 L C N1 P N1" (p��davn� jm�no mohlo b�t
+spojeno doleva koordinac� s podstatn�m jm�nem, nebo rozv�jet jin�
+podstatn� jm�no napravo) vyhr�la koordinace 30:0!
+
+Tak je to proto, �e tagger ozna�il prvn� p��davn� jm�no chybn� jako
+podstatn� (nap�. ve v�t� "Dobr� i �patn� v�sledky se vyskytuj� u v�ech
+pou��van�ch syst�m�.") Pokud chceme p�i anal�ze pou��vat v�stup
+taggeru, tak asi nem��eme p�i tr�ninku jeho n�zory opravovat. M�li
+bychom je v�ak p�eb�t. Ned�je se tak mo�n� proto, �e zat�m p�i sb�r�n�
+pora�en�ch konkurent� bereme v �vahu jen opravdov� koordinace, ale p�i
+anal�ze zkoum�me v�echny potenci�ln� mo�n� koordinace. Mus�me tedy i
+p�i tr�ninku zkoumat, zda by n�co mohlo b�t koordina�n� spojkou, a
+pokud ano, mus�me odhadnout, kte�� z jeho soused� na druh� stran� by
+p�i anal�ze mohli figurovat jako koordinovan� sourozenci. Tohle je
+obt��n� ��st. Asi by se op�t m�la proch�zet v�echna slova za spojkou,
+kter� nejsou sv�z�na s n�jak�m slovem na na�� stran� spojky.
+
+
+
+6.3.2002
+
+8g: Opraveno tr�nov�n� tak, jak je uvedeno v��e. Nastalo m�rn�
+zlep�en�.
+
+G 88243 - B 37787 - P 70,0
+lkl 661:409 lkp 608:482
+
+8h: Ze skute�n�ch koordinac� p�i tr�nov�n� vynech�ny slo�en� (abych se
+neu�il koordinaci se spojkou), ale podle o�ek�v�n� se na v�sledku nic
+nezm�nilo.
+
+G 88243 - B 37787 - P 70,0
+lkl 661:409 lkp 608:482
+
+8i: P�i souboji s konkurenty nevyhraje prvn� konkurent, kter� je
+lep��, ale ten nejlep�� z lep��ch konkurent�. Na v�sledc�ch to skoro
+nic nem�n� (zlep�en� v�eho v�udy o dv� hrany). P�i bli���m pohledu na
+statistiku lok�ln�ch konflikt� je v�ak vid�t v�t�� pohyb: p�ibylo
+��astn�ch, ale i ne��astn�ch z�sah�.
+
+G 88245 - B 37785 - P 70,0
+lkl 687:455 lkp 620:505
+
+8j: Souboj s konkurenty nyn� prob�h� tak, �e se projdou v�echny
+dvojice lev� kandid�t - prav� kandid�t, kter� pro zav�en� dan�ho uzlu
+p�ich�zej� v �vahu. Na rozd�l od dosavadn�ch pokus� se tedy m��e st�t,
+�e konkurs na ��d�c� uzel vyhraje n�kdo na stejn� stran� jako p�vodn�
+kandid�t, ale nebude to p�vodn� kandid�t.
+
+G 76707 - B 49323 - P 60,9
+LKG 4164 - LKB 13726
+
+8j1: V�t�z mus� m�t alespo� 10 hlas�, jinak se pou�ije kandid�t podle
+nekontextov� pravd�podobnosti.
+
+G 78190 - B 47840 - P 62,0
+LKG 3019 - LKB 11544
+
+8j2: V�t�z mus� b�t alespo� dvakr�t lep�� ne� druh� nejlep��, jinak se
+pou�ije kandid�t podle nekontextov� pravd�podobnosti.
+
+G 87296 - B 38734 - P 69,3
+LKG 2185 - LKB 2809
+
+8j3: V�t�z nesm� m�t nekontextovou pravd�podobnost nulovou (co� m��e
+nastat i kv�li kontrole mezi��rkov�ch �sek�).
+
+G 87496 - B 38534 - P 69,4
+LKG 1867 - LKB 2158
+
+Pozastavuji v�voj t�mto sm�rem a vrac�m se k prvn� generaci lok�ln�ch
+souboj�, kterou se pokus�m rozv�jet jinak.
+
+G 88245 - B 37785 - P 70,0
+LKG 1307 - LKB 960
+
+Krok 9: P�ipravuji mo�nost zm�nit po�ad�, ve kter�m se p�id�vaj� nov�
+hrany do stromu. Dosud se v�dy bere hrana s nejvy��� nekontextovou
+pravd�podobnost� a pouze lok�ln� souboje na tom m��ou n�co zm�nit. V
+prvn� ��sti kroku 9 je�t� toto pravidlo zachov�m, ale p�ep��u parser
+tak, aby nejd��ve hledal z�visl� uzel a potom vyb�ral z kandid�t� na
+jeho ��d�c� uzel. V dal��ch podkroc�ch pak bude snadn� nahradit
+pravidlo pro v�b�r z�visl�ho uzlu jin�m.
+
+9a: Vyb�r� se z�visl� uzel z nejlep�� z�vislosti, ale ne z nejlep��
+koordinace.
+
+G 87033 - B 38997 - P 69,1
+LKG 1334 - LKB 976
+
+9b: Vyb�r� se z�visl� uzel z nejlep�� z�vislosti nebo
+koordinace. V�sledky by m�ly b�t rovny dosavadn�mu maximu (70%).
+
+G 88245 - B 37785 - P 70,0
+LKG 1317 - LKB 962 (??? - odkud ten rozd�l?)
+
+9c: Vyb�r� se z�visl� uzel, jeho� ��d�c� uzel vyhraje s nejv�t��
+absolutn� silou (tj. po�et v�her p�i tr�ninku, nikoli pom�r po�tu
+v�her k po�tu proher).
+
+G 75694 - B 50336 - P 60,1
+
+9d: Vyb�r� se z�visl� uzel, jeho� ��d�c� uzel vyhraje lok�ln� konkurz
+s nejv�t�� relativn� silou (tj. pom�r po�tu v�her a po�tu proher).
+
+G 76179 - B 49851 - P 60,4
+
+9e: Vyb�r� se z�visl� uzel, kter� m� nejv�ce kandid�t� na ��d�c�ho.
+
+G 47869 - B 78161 - P 38,0
+
+9f: Vyb�r� se z�visl� uzel, kter� m� nejm�n� kandid�t� na ��d�c�ho.
+
+G 47869 - B 78161 - P 38,0 (??? pro� je to stejn� jako 9e?)
+
+To je taky p�kn� blbost. Na za��tku se vybere posledn� slovo v�ty,
+proto�e m� jen jednu mo�nost, to ov�em v�bec nemus� b�t ta prav�. A
+pak se podobn� vyb�r� moment�ln� posledn� voln� slovo a� kdov� do
+kdy.
+
+9g: Je�t� m�m n�pad, �e by se mohly up�ednost�ovat z�visl� uzly, kter�
+jsou obvykle bl��e k list�m stromu, proto�e je samoz�ejm� ��douc�,
+abych zav�oval uzel a� ve chv�li, kdy je jeho podstrom (a tak�
+podstromy jeho sourozenc�) kompletn� postaven�. Te� u� ale nem�m chu�
+to implementovat, tak�e pro dne�ek se vrac�m k v�b�ru z�visl�ho uzlu
+podle toho, zda figuruje v hran� s nejv�t�� �etnost�.
+
+G 88242 - B 37788 - P 70,0
+LKG 1317 - LKB 963
+
+
+
+24.5.2002
+
+Zase na �as opou�t�m koordinace a vrac�m se k subkategorizaci (kv�li
+dokon�en� �l�nku na Coling 2002 do Taibei). Proto�e uplynulo 2,5
+m�s�ce a spoustu jsem toho zapomn�l, pro za��tek jen nov�
+p�etr�nov�n�, otestov�n� a porovn�n� s v�sledky zaznamenan�mi
+v��e. ��dn� v�ty nejsou vylou�eny, ale v z�vorce je uvedena �sp�nost
+pouze na Sb|Obj|AuxT|Pnom|Adv. Skute�n� valence p�i tomto pokusu nen�
+zapnuta (valen�n� z�vislosti nejsou up�ednost�ov�ny). Selektivn�
+lexikalizace zapnuta je.
+
+G 88273 - B 37757 - P 70,0 (78,6)
+
+Podobn� pokus, ale tr�novac� a testovac� data se omezuj� na v�ty bez
+ExD, Coord a Apos.
+
+G 28869 - B 7245 - P 79,9 (82,7)
+
+
+
+15.6.2002
+
+Je�t� hloub�ji do minulosti: je vypnuta i selektivn�
+lexikalizace. Prvn� ��dek obsahuje v�ty bez ExD, Coord a Apos, druh�
+��dek v�ty bez ExD, t�et� ��dek v�echny v�ty.
+
+G 28230 - B  7884 - P 77,5 (80,1)
+G 66862 - B 32230 - P 67,5 (77,7)
+G 83782 - B 42248 - P 66,5 (77,1)
+--------------------------------- tot� pro lambda = 0
+G 28145 - B  7969 - P 77,3 (79,9)
+G 67800 - B 31292 - P 68,4 (77,7)
+G 82382 - B 43648 - P 65,4 (77,0)
+--------------------------------- tot� pro lambda = 1
+G 23170 - B 12944 - P 46,7 (40,7)
+G 44815 - B 54277 - P 45,2 (42,5)
+G 57086 - B 68944 - P 45,3 (42,4)
+
+Nad�le bude napevno lambda = 0,734375. Op�t pro v�echny t�i mno�iny
+dat, tentokr�t zapneme selektivn� lexikalizaci.
+
+G 28828 - B  7286 - P 79,8 (82,0) bez ExD, Coord a Apos
+G 69394 - B 29698 - P 70,0 (79,2) bez ExD
+G 85695 - B 40335 - P 68,0 (78,5) v�e
+
+Selektivn� lexikalizace z�stane zapnuta, nav�c zapneme pseudovalenci.
+
+G 28801 - B  7313 - P 79,8 (82,1) bez ExD, Coord a Apos
+G 69409 - B 29683 - P 70,0 (79,3) bez ExD
+G 85730 - B 40300 - P 68,0 (78,7) v�e
+
+
+
+16.7.2002
+
+Porovn�n� m�ho a Charniakova parseru (kter� chyby, kter� d�l� on,
+ned�l�m j� a obr�cen�). Kv�li tomu je pot�eba se vr�tit k nastaven�,
+se kter�m m�j parser dos�hl nejvy��� �sp�nosti (70 %). Zap�n�m �e�en�
+lok�ln�ch konflikt�.
+
+17.7.2002
+
+Porovn�n� i s Collinsov�m parserem. V�sledky jsou n�sleduj�c� (��slo
+znamen� po�et z�vislost�, zkratky vedle uv�d�j�, kter� parsery m�ly
+pr�v� tyto z�vislosti ur�en� dob�e):
+
+77995 ec+mc+dz
+18508 ec+mc
+ 3951 ec+dz
+ 3801 mc+dz
+ 5765 ec
+ 3662 mc
+ 2525 dz
+ 9821 -
+
+
+
+19.7.2002
+
+Zp��sn�n� kontrola z�vislost� vedouc�ch p�es ��rku. Nyn� nesm� ��dn�
+z�vislost p�ekro�it ��rku nejen kdy� �sek, do n�j� n�le�� z�visl�
+uzel, nen� hotov�, ale ani kdy� kter�koli jin� mezi��rkov� �sek je�t�
+nen� hotov�. Jin�mi slovy: nejd��v pospojovat �seky mezi ��rkami,
+potom teprve �seky mezi sebou navz�jem.
+
+G 86527 - B 39503 - P 68,7 (78,8) v�e
+
+Do�lo ke zhor�en�, proto zase toto opat�en� ru��m.
+
+Jin� probl�m: N�kdy se p��li� brzy zav�s� �len koordinace na uzel, na
+kter�m by pozd�ji m�la viset koordinace cel� (nap��klad "je
+absolventem elektrotechnick� fakulty �vut a postgradu�ln�ho studia" -
+p��li� pozd� se spoj� "fakulty �vut", tak�e "fakulty" nevid� sv�ho
+koordinovan�ho sourozence "studia" a spoj� se tedy (p��li� brzy)
+"absolventem fakulty").
+
+N�vrh obecn�ho �e�en�: Ve chv�li, kdy se pod ��d�c� uzel zav�s� nov�
+z�visl� uzel, z�sk�v� ��d�c� uzel nov� sousedy. V tu chv�li mus� znova
+p�ezkoumat sv� vlastn� zav�en�, pokud u� n�jak� m�. I nyn� se bude
+omezovat na sv� sousedy, proto nem��e zavl�ct do stromu
+neprojektivitu.
+
+25.7.2002
+
+Kone�n� m�m odlad�nou prvn� verzi v��e uveden�ho, ale v�sledek je
+zklam�n�m (dosavadn� maximum je zopakov�no ve druh�m ��dku):
+
+G 87142 - B 38888 - P 69,1 (77,8)
+G 88273 - B 37757 - P 70,0 (78,6)
+ve skute�nosti nam��eno po vypnut� posledn�ho v�myslu
+G 88234 - B 37796 - P 70,0 (78,6)
+tj. je�t� o 39 z�vislost� h��e, ale to m��e b�t v d�sledku chybky
+nejen te�, ale i p�edt�m
+
+Opravy ji� zav�en�ch uzl� op�t zapnuty, ale povinn� se ihned po
+zru�en� z�vislosti znova zav�uje odpojen� uzel. Velmi nepatrn�
+zlep�en�.
+
+G 87204 - B 38826 - P 69,2 (77,7)
+
+Z dodate�n�ch oprav jsou vylou�eny uzly zav�en� v koordinac�ch. Zat�m
+jen velmi nahrubo, pokud je ��d�c�m uzlem "a" a jeho zna�ka neza��n�
+na "J".
+
+G 87587 - B 38443 - P 69,5 (77,7)
+
+Po��dn� implementace t�ho�: s vyu�it�m glob�ln�ho pole @coord.
+
+G 87768 - B 38262 - P 69,6 (77,4)
+
+
+
+26.7.2002
+
+Ale bude to cht�t detailn� srovn�n� anal�zy s dodate�n�mi opravami a
+bez nich a porovn�n� chyb: kter� zmizely a kter� p�ibyly. Zat�m po�ty:
+
+A 15060 ... po�et p��le�itost�, kdy to v�bec �lo zkusit
+B  5205 ... po�et p��le�itost� k oprav� (do t� chv�le to bylo �patn�)
+            Kdyby se v�echny tyto p��le�itosti vyu�ily, byl by
+        v�sledek anal�zy G 93439 - B 32591 - P 74,1. Bohu�el se
+        vyu�il jen zlomek z nich a naopak se v �ad� p��pad�
+        poda�ilo ji� dobrou anal�zu pokazit.
+
+POZOR! Ne v�e, �emu v��e ��k�m "p��le�itost k oprav�", musela b�t
+opravdu p��le�itost. Netestoval jsem, zda spr�vn� zav�en� u� bylo v
+tu chv�li k dispozici. Tak� nen� spr�vn� odhadnuta �sp�nost, kter� by
+mohlo b�t dosa�eno, proto�e po��t�m pokusy o opravu, ale u n�kter�ch
+uzl� mohlo doj�t postupn� k n�kolika pokus�m.
+
+S  4783 ... bylo a z�stalo �patn�
+L   422 ... poda�ilo se opravit
+D  8506 ... bylo a z�stalo dob�e
+H  1349 ... poda�ilo se zkazit
+
+Oprava: dosud p�i oprav� �patn� fungovalo omezen� povolen�ch
+z�vislost� na opravovan� uzel.
+
+G 87783 - B 38247 - P 69,7 (77,4)
+D 8789 - S 4823 - L 460 - H 1051
+
+Spo��t�ny opravdov� �ance n�co opravit, tj. nejenom �e v okam�iku
+pokusu o opravu byl dan� uzel �patn� zav�en, ale �e tak� bylo k
+dispozici jeho spr�vn� zav�en�. V�sledek:
+
+1497 �anc� celkem
+1434 uzl�, kter� �anci dostali aspo� jednou
+=> kdyby se v�echny �ance vyu�ily a nic nezkazilo, anal�za by skon�ila
+takto:
+G 89668 - B 36362 - P 71,1 :-( to je m�lo...
+
+Z�v�r: Opravy uzl� t�mto zp�sobem mohou anal�zu vylep�it jen o 1,1 %,
+co� je v t�to dob� je�t� dost m�lo. Ka�d� procento je sice dobr�, ale
+my neum�me zajistit, aby se v pr�b�hu oprav sou�asn� nepokazilo n�co,
+co u� bylo dob�e. Proto od oprav odstupuji, p�inejmen��m prozat�m.
+
+G 88235 - B 37795 - P 70,0 (78,6)
+
+
+
+Pokus: pravd�podobnost z�vislost� (ne koordinac�) n�sobit dopl�kem
+pravd�podobnosti, �e ��d�c� uzel je koordina�n� spojkou (zam��eno
+hlavn� proti p�ehnan�mu v�en� uzl� na spojku "a" je�t� d��ve, ne� je
+k dispozici druh� koordina�n� �len). Taky nepom�h�:
+
+G 87884 - B 38146 - P 69,7 (79,3)
+
+
+
+29.7.2002
+
+Kontrola �sek� mezi ��rkami p�epracov�na s pomoc� pole zak�zan�ch
+z�vislost�. Pravd�podobnost nekoordina�nosti z�st�v�
+zapnuta. Pochopiteln� to znamen� �tlum �sp�nosti. Uvid�me, zda se
+pozd�ji poda�� s novou implementac� ��rkov�ch �sek� dostat zp�t na
+p�vodn� �sp�nost.
+
+G 86807 - B 39223 - P 68,9 (80,1)
+
+Vypnuta pravd�podobnost nekoordina�nosti.
+
+G 87078 - B 38952 - P 69,1 (79,7)
+
+Mezi��rkov� �seky: op�t je p�ekro�en� ��rky povoleno ihned, jakmile se
+dokon�� z�visl� �sek (viz t� pokus 19.7.2002). Tentokr�t to ov�em
+nepomohlo.
+
+G 86116 - B 39914 - P 68,3 (78,3)
+
+P�ekro�en� ��rky je povoleno a� po sestaven� v�ech �sek�, bohu�el se
+nyn� mus�m spokojit s �sp�nost� 69,1 % :-(
+
+G 87078 - B 38952 - P 69,1 (79,7)
+
+
+
+Pokus: nelze p�esko�it p�edlo�ku z�vislost� vedouc� zleva doprava,
+dokud tato p�edlo�ka nem� d�t�. Op�t se pou��v� �ern� listina $zakaz.
+
+31.7.2002
+
+V�sledky pokusu jsou �patn�. V�po�et je t�ikr�t pomalej�� (trv� nyn�
+23:50 minut) a �sp�nost klesla o 1,3 %. (Po n�vratu k p�vodn�mu stavu
+program trv� 10:37 minut (d��ve to bylo kolem osmi?) a �sp�nost je
+op�t 69,1 %.)
+
+G 85486 - B 40544 - P 67,8 (74,2)
+
+Pozn�mka: po p�eps�n� pokusu s p�edlo�kami program b�el skoro stejn�
+dlouho (23:47 minut, co� m� p�ekvapuje, proto�e nov� implementace by
+m�la b�t efektivn�j��) a v�sledek se nepatrn� li�� (k lep��mu).
+
+G 85504 - B 40526 - P 67,8 (74,3)
+
+Objevena chyba v p�ehodnocov�n� z�kaz� p�eskakov�n� p�edlo�ek. Po
+jej�m odstran�n� se program zrychlil na 15:47 minut a zvedla se i
+�sp�nost:
+
+G 87512 - B 38518 - P 69,4 (80,5)
+
+Jak analyzovat vliv nov�ho omezen�?
+1) Spustit parser bez nov�ho omezen� a v�stup si schovat.
+parse.pl
+cp analyza.csts vystupy/omezeni-0.csts
+2) Spustit parser s nov�m omezen�m a v�stup si schovat.
+parse.pl
+cp analyza.csts vystupy/omezeni-1.csts
+3) Spustit program pro porovn�n� v�stup� n�kolika r�zn�ch
+parser�. Tento program mj. ulo�� nov� soubor, kde jsou slity v�sledky
+v�ech anal�z.
+
+2.8.2002
+
+Vy�len�ny v�ty, ve kter�ch z�kaz p�eskakov�n� p�edlo�ek zhor�il
+alespo� jednu z�vislost. Je jich celkem 417. V�sledky, kdy� je
+p�eskakov�n� p�edlo�ek zak�z�no:
+
+G 6142 - B 3665 - P 62,6 (72,9)
+
+Zaz�lohoval jsem lad�c� soubory analyza-debug.csts a analyza.log a
+pou�t�m test s vypnut�m z�kazem p�eskakov�n� p�edlo�ek.
+
+G 6279 - B 3528 - P 64,0 (74,4)
+
+5.8.2002
+
+Objevena chyba v ur�ov�n� d�lky hrany, konkr�tn� zda se mezi uzly
+nach�z� �i nenach�z� ��rka. Bez p�etr�nov�n� do�lo ke zhor�en�
+�sp�nosti (z�kaz p�eskakov�n� p�edlo�ek je zapnut). Snad to bude
+lep�� po p�etr�nov�n�.
+
+G 87512 - B 38518 - P 69,4 (80,5) p�ed opravou
+G 87124 - B 38906 - P 69,1 (80,5) po oprav�
+
+Po p�etr�nov�n� - sl�va! -:
+
+G 89639 - B 36391 - P 71,1 (82,5) po p�etr�nov�n�
+
+Te� je�t� zb�v� zjistit, jestli to bez z�kazu p�eskakov�n� p�edlo�ek
+nen� je�t� lep�� :-|
+
+6.8.2002
+
+Vypnut�m z�kazu p�eskakov�n� bezd�tn�ch p�edlo�ek se nyn� �sp�nost
+skute�n� zhor��, i kdy� pochopiteln� ne na �rove� p�ed odstran�n�m
+chyby.
+
+G 89323 - B 36707 - P 70,9 (81,9)
+
+
+
+Vzhledem k objeven� chyb� se je�t� jednou pokus�m vyzkou�et n�soben�
+pravd�podobnosti z�vislosti pravd�podobnost� toho, �e ��d�c� uzel nen�
+koordina�n� spojkou. Z�kaz p�eskakov�n� p�edlo�ek je aktivn�.
+
+G 89453 - B 36577 - P 71,0 (82,9) # prst. nekoordina�nosti aktivn�
+G 89639 - B 36391 - P 71,1 (82,5) # neaktivn�
+
+Kupodivu jsem v�sledky neaktivn� verze nedok�zal zreprodukovat a vy�ly
+o trochu lep��!
+
+G 89684 - B 36346 - P 71,2 (82,5)
+
+Anal�za:
+88395 spr�vn� p�ed i po
+ 1289 spr�vn� pouze p�ed
+ 1058 spr�vn� pouze po
+35288 �patn� p�ed i po
+Kdyby se poda�ilo z�skat v�echna "spr�vn�" najednou, bylo by
+P = 72,0 %.
+P�echodem z a0 na a1 se zhor�ilo 860 v�t. Z toho mj. vypl�v�, �e
+pr�m�rn� d�lka zhor�en� v�ty je 26 slov, co� je o 10 v�c ne� pr�m�r!
+�sp�nost t�chto v�t:
+
+G 13934 - B 8179 - P 63,0 (80,4) - a1 (aktivn�)
+G 14799 - B 7314 - P 66,9 (80,7) - a0 (neaktivn�)
+
+
+
+8.8.2002
+
+Nov� pokus s podmi�ov�n�m pravd�podobnosti z�vislosti �etnost�
+z�visl�ho uzlu. Plat� i u koordinac�, p�esto�e koordinace pak m� r�zn�
+pravd�podobnosti, podle toho, od kter�ho uzlu se d�v�me. Nem�lo by to
+ale vadit, proto�e ve stejnou chv�li by m�ly b�t povoleny pohledy od
+obou uzl�, tak�e prost� vyhraje jen jeden z nich.
+
+G 14206 - B 7907 - P 64,2 (80,3) - a1 aktivn�
+
+Vzhledem k m�rn�mu zlep�en� zkus�me tot� i pro cel� testovac� data.
+
+G 89562 - B 36468 - P 71,1 (a1)
+
+Zlep�en� je opravdu nepatrn�. Zkus�me je�t� pro a0 (neaktivn�). A pak
+zkus�me sou�ty v�ech ud�lost�, kter� se dan� hrany t�kaj�.
+
+
+
+27.9.2002
+
+Podm�n�n� pravd�podobnosti z�vislost�, a0 (neaktivn�).
+
+G 89103 - B 36927 - P 70,7 (a0)
+
+Op�t zap�n�m a1, tj. nekoordina�n� z�vislosti se podmi�uj�
+neschopnost� ��d�c�ho uzlu b�t koordina�n� spojkou.
+
+G 89562 - B 36468 - P 71,1 (a1, podm. p.)
+
+
+
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
+MOMENTALNE BOHUZEL MUSIM DELAT POKUSY S NECIM JINYM, ABYCH MOHL NAPSAT
+CLANEK DO PBML. PAK SE ALE MUSIM K PRACI Z 8.8. VRATIT, PROTOZE NENI
+DOKONCENA!
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
+
+
+
+27.9.2002
+
+Hlavn� my�lenka �l�nku do PBML: chyby v morfologick�m zna�kov�n�
+zvy�uj� po�et chyb syntaktick� anal�zy. Zjistit, jak velk� tento vliv
+je, a navrhnout a odzkou�et �e�en�. Mo�n� �e�en�: 1) na vstup parsingu
+pos�lat �plnou morfologickou anal�zu; 2) opravovat zna�kov�n� b�hem
+parsingu (t�m, �e se rozhodnu pro n�jakou variantu syntaktick� stavby,
+vylu�uji n�kter� varianty zna�kov�n�); 3) d�lat si cel� zna�kov�n�
+s�m; 4) jako 2 nebo 3, ale vytipovat nejz�va�n�j�� chyby (p�dy
+podstatn�ch jmen).
+
+�l�nek by mohl b�t tak� o ciz�ch slovech (Bank of America) a o jin�ch
+ru�iv�ch vlivech na parsing (zpracov�n� ��slovek, atd. v koordinac�ch
+atd.)
+
+
+
+11.10.2002
+
+Nov� s�rie pokus� s parsingem na r�zn�ch zdroj�ch morfologie (�pln�
+anal�za, automatick� zjednozna�n�n� (HMM, maxent), ru�n�
+zjednozna�n�n�). P�edch�zej�c� takov� s�rie prob�hla v roce 1998 v
+Baltimoru na neredukovan�ch pozi�n�ch zna�k�ch, PDT 0.5 nehotov�,
+zhruba 13000 tr�novac�ch a 3500 testovac�ch v�t. Nyn� vezmu analytick�
+tr�novac� data z PDT 1.0 (p�es 70000 v�t), z nich odd�l�m asi 5000
+testovac�ch v�t (nevezmu je z ��sti PDT ozna�en� jako testovac�,
+proto�e pot�ebuju m�t k dispozici i ru�n� morfologick� anotace) a
+zbytek ponech�m pro tr�nov�n�.
+
+P�vodn� tr�novac� data obsahuj� 1583 soubor� ze v�ech 4 zdroj�. Nyn�
+je pr�v� ka�d� des�t� z t�chto soubor� zkop�rov�n do mtest dat (158
+soubor�), zbytek do mtrain (1425 soubor�). Zastoupen� zdroj� by tedy
+m�lo z�stat zhruba ve stejn�ch proporc�ch.
+
+Ze v�eho nejd��v mus�me zopakovat dosavadn� pokus na zna�k�ch z
+taggeru, proto�e m�me jinou mno�inu dat, a tedy se asi budou m�rn�
+li�it i v�sledky.
+
+Nov� tr�novac� data maj� 65847 v�t a 1133509 slov. Tr�nov�n� trvalo
+8:38 minut. Nov� testovac� data maj� 7241 v�t a 122081 slov. Testov�n�
+trvalo 16:30 minut.
+
+G 85968 - B 36113 - P 70,4 (d-d)
+
+Tr�nov�n� podle ru�n� morfologie trvalo jen 4:38 minut a soubor se
+statistikou m� 47 MB m�sto 63 MB!
+
+G 76697 - B 45384 - P 62,8 (h-h blb�)
+
+To je dost podez�el�! Ur�it� je tam n�jak� chyba! Ano, u redukovan�ch
+zna�ek zmizel druh� znak (p�d nebo poddruh). Znova: tr�nov�n� trvalo
+5:37 minut a statistika m� 54 MB. Jen�e je�t� chyb� selektivn�
+lexikalizace zna�ek pro p�edlo�ky! Napot�et� trvalo tr�nov�n� 7:26
+minut, statistika m� 63 MB a na prvn� pohled je v po��dku. Testov�n�
+trvalo 15:55 minut. V�sledky:
+
+G 87795 - B 34286 - P 71,9 (h-h)
+
+Nezjednozna�n�n� morfologie, varianty zna�ek se slep� do jednoho
+�et�zce, p��padn� duplik�ty se odstran�. Tr�nov�n� trvalo 12:33 minut,
+statistika m� skoro 90 MB. Testov�n� trvalo 12:17 minut.
+
+G 82498 - B 39583 - P 67,6 (m-m s�et�zen�)
+
+
+
+18.10.2002
+
+Tr�nov�n� s nezjednozna�n�nou morfologi�, ale v�skyt nejednozna�n�
+ozna�kovan�ho slova se pova�uje za n�kolik necel�ch v�skyt�
+jednozna�n� ozna�kovan�ch slov. Tr�nov�n� trvalo 19:58 minut a
+v�sledn� soubor m� 63 MB. Testov�n� trvalo 37:31 minut.
+
+G 87634 - B 34447 - P 71,8 (m-m rozlo�en�)
+
+Asi byla chyba ve �ten� zna�ek, tak�e to budu muset zopakovat. Te� se
+ale zase mus�m v�novat n��emu jin�mu.
+
+
+
+25.10.2002
+
+N�vrat k �pln�m tr�novac�m a testovac�m dat�m. V�sledky jsou bohu�el o
+n�co hor��, ne� byly naposledy s touto konfigurac�, a nev�m pro� :-(
+Tenkr�t bylo P = 71,1 %.
+
+G 89343 - B 36687 - P 70,9
+
+Pot�ebuji zjistit, jak je to s �sp�nost� na ��slovk�ch.
+�sp�nost zav�ov�n� ��slovek, ��slovek s p�dem a ��slovek bez p�d�:
+
+G 2646 - B 789 - P 77,0
+G 1184 - B 220 - P 84,3
+G 2030 - B 569 - P 72,0
+
+�sp�nost slov, kter� m�la z�viset na ��slovk�ch, na ��slovk�ch
+s p�dem a na ��slovk�ch bez p�d�:
+
+G 1070 - B 542 - P 66,4
+G  298 - B 231 - P 56,3
+G  771 - B 310 - P 71,3
+
+Nyn� p�etr�nujeme a p�i �ten� p�ekrout�me v�echny ��slovky, aby visely
+pod sv�m podstatn�m jm�nem. V dokumentaci mus�m zd�raznit, �e zat�m
+nijak ne�e��m to, �e se mi te� do ko�ene negenitivn� fr�ze m��e dostat
+slovo v genitivu (pozd�ji to budu muset �e�it jako u koordinac�
+propagac� p�du nahoru).
+
+G 89311 - B 36719 - P 70,9
+
+Dokonce m�rn� zhor�en�! Budu se muset pod�vat, jestli nen� v programu
+n�jak� chyba, ale asi to bude t�m, �e nyn� maj� negenitivn� fr�ze
+genitivn� hlavy. Napsat do �l�nku, �e to vy�aduje hlub�� anal�zu
+rozd�l� v chyb�ch s a bez p�ekroucen�.
+
+
+
+1.11.2002
+
+Upravuji parser, aby nebyl tak n�ro�n� na pam� a mohl b�et i
+doma. Z�kladn� my�lenka: p�i tr�nov�n� se statistika rozd�l� na men��
+kusy, kter� se natr�nuj� a ulo�� samostatn�. Anal�za pak bude m�t dv�
+f�ze. V t� prvn� se postupn� vezmou v�echny d�l�� natr�novan�
+statistiky, projdou se s nimi analyzovan� data a ke ka�d�mu slovu se
+ulo�� v�pis ze statistiky pro v�echny jeho potenci�ln� rodi�e. Pot� se
+data projdou je�t� jednou, p�e�tou se ulo�en� hodnoty u jednotliv�ch
+slov a navrhnou se stromy.
+
+
+
+14.11.2002
+
+Dota�ena do konce prvn� verze rozd�len�ho parseru. Skript train.pl se
+zm�nil jen trochu, zastav� tr�nink v�dy po tolika ud�lostech, kolik
+ud�v� prom�nn� $konfig{split}, ulo�� natr�novan� d�l statistiky,
+vypr�zdn� statistiku v pam�ti a za�ne od dal��ho tr�novac�ho souboru
+nanovo. Skript parse.pl byl v�ak rozd�len na markparse.pl, kter�
+projde testovac� data postupn� se v�emi d�ly statistik a zap��e p��mo
+do dat statistiky zji�t�n� o doty�n� v�t�, a skript parsemark.pl,
+kter� je�t� naposledy projde testovac� data, p�e�te si v ka�d� v�t�
+ulo�en� ��sla a na jejich z�klad� vybuduje nejlep�� mo�n� strom.
+
+Kv�li rychlosti testuju zat�m d�len� parsing pouze na jednom
+testovac�m souboru, lu01.a. Z parsemark jsem vyh�zel ve�ker� nadstavby
+typu koordinace �i lok�ln� konflikty, tak�e �sp�nost musela
+klesnout. V�sledky ukazuj� v prvn�m ��dku d�len� parsing, ve druh�m
+p�vodn� parse.pl (s vyu�it�m cel� statistiky najednou):
+
+G 286 - B 295 - P 49,2
+G 618 - B 301 - P 67,2
+
+Zat�m je v programu n�jak� chyba, kter� zp�sobuje, �e se ani nep�i�ad�
+v�echny z�vislosti. Budu muset zase rychle zav�st lad�c� z�znamy.
+
+
+
+15.11.2002
+
+Po opraven� chyby u� se zpracuj� v�echny v�ty (a v�echna slova)
+vstupu. �sp�nost to nepatrn� zlep�ilo. Spodn� ��dek opakuje pro
+srovn�n� �sp�nost ned�len�ho parseru na stejn�ch datech.
+
+A 919 - G 466 - B 453 - P 50,7
+A 919 - G 618 - B 301 - P 67,2
+
+P�ed�lal jsem markparse tak, aby se ukl�daly r�zn� ud�losti v�etn�
+koordinac�. Parsemark ale te� na chv�li vyu��v� pouze OZZ (bez
+lexikalizace) a �sp�nost kupodivu posko�ila o hodn�.
+
+G 575 - B 344 - P 62,6
+G 618 - B 301 - P 67,2
+
+Kombinace OSS a OZZ 1:1.
+
+G 570 - B 349 - P 62,0
+G 618 - B 301 - P 67,2
+
+Kombinace OSS a OZZ v pom�ru $ls:(1-$ls) (0.734375:0.265625).
+
+G 575 - B 344 - P 62,6
+G 618 - B 301 - P 67,2
+
+Jednoduch� p�id�n� koordinac�, zat�m bez �ady akc� d�lan�ch d��ve
+(propagace zna�ky �len� do koordina�n� spojky, kontrola povolenosti
+partnera, n�soben� pravd�podobnosti koordinace pravd�podobnost�, �e
+slovo v ko�eni je koordina�n� spojkou...)
+
+G 569 - B 350 - P 61,9
+G 618 - B 301 - P 67,2
+
+P�id�n test, �e druh� v�tev zva�ovan� koordinace je povolena.
+
+G 591 - B 328 - P 64,3
+G 618 - B 301 - P 67,2
+
+P�id�no n�soben� pravd�podobnosti koordinace pravd�podobnost�
+koordina�n� spojky.
+
+G 585 - B 334 - P 63,7
+G 618 - B 301 - P 67,2
+
+Opravena chyba: ztr�cela se informace o povinn�m p�ipojen� druh� p�lky
+koordinace v p���t�m kole.
+
+G 612 - B 307 - P 66,6
+G 618 - B 301 - P 67,2
+
+P�id�no kop�rov�n� zna�ky �lena koordinace do zna�ky koordina�n�
+spojky. S �sp�nost� to nehnulo.
+
+G 612 - B 307 - P 66,6
+G 618 - B 301 - P 67,2
+
+P�id�na kontrola, �e jedna koordina�n� spojka nem��e ��dit dv�
+koordinace, z nich� jedna stoj� "obkro�mo" kolem druh�.
+
+
+
+21.11.2002
+
+Viz minule, koordinace se hledaly jen pro spojky, kter� u� pro n�jakou
+koordinaci nebyly vyu�ity. Prvn� v�sledek je s chybou - pou�it� spojky
+se ozna�ovalo jako $afun = "Coord", jen�e $afun se pln� u� p�i �ten�
+vzorov�ho souboru a v�echny spr�vn� spojky tak byly p�edem
+zablokov�ny. Druh� v�sledek je po �prav�, d�ky kter� se pou�it� spojky
+ozna�uje jako $afun = "CoordX". T�et� v�sledek je jako obvykle z
+nerozd�len�ho parseru.
+
+G 581 - B 338 - P 63,2
+G 616 - B 303 - P 67,0
+G 618 - B 301 - P 67,2
+
+
+
+12.12.2002
+
+Sna��m se posb�rat dochovan� verze perlov�ho parseru a spojit je pod
+CVS (Concurrent Versions System). Motivac� je zejm�na snaha naj�t
+verzi p�ed p�estavbou, kter� um�la 71,7 %, ale sb�r�m i jin�.
+
+Verze z 1.2.2002, nalezen� v zipu v z�loze dat doma na
+Amazonce. Z�znamy z 1.2.2002 potvrzuj�, �e tenkr�t bylo 60 % nejlep��
+dosa�en� v�sledek.
+G 75578 - B 50450 - P 60,0
+
+Verze z 11.10.2002 se tr�nuje jen na 65847 v�t�ch. Podle z�znam� z
+11.10.2002 �lo o nezjednozna�n�nou morfologii s�et�zenou do dlouh�ch zna�ek.
+G 82498 - B 39583 - P 67,6
+Po p�esm�rov�n� dat se ov�em v�sledky zhor��, proto�e parser.ini z t�
+doby je�t� neumo��oval p�ep�nat tak� zdroj morfologie, tj. �ten� MMt v
+n�m bylo nastaveno natvrdo v k�du, ale v "hlavn�ch" datech takov�
+anotace nen�. Tak�e se rozhodovalo n�hodn�.
+G 43983 - B 82047 - P 34,9
+Nad�ji sk�t� fakt, �e parse.pl v t�to verzi je�t� neobsahuje proceduru
+ud(). Zkou��m tedy v parslib.pl p�epnout mzdroj z "MM" na "MD", t�eba
+se �sp�nost je�t� vr�t�.
+
+13.12.2002
+
+Verze z 11.10.2002 p�etr�nov�na a p�etestov�na na zna�k�ch MDt a.
+G 89562 - B 36468 - P 71,1
+Poda�ilo se mi tedy naj�t verzi, kter� je�t� dosahovala zat�m nejvy���
+�sp�nosti z 27.9.2002 (kdy jsem musel p�eru�it v�voj a za��t se
+v�novat �l�nku do PBML). P�edt�m se takov� �sp�nost objevila u�
+8.8.2002 p�i posledn�m pokusu p�ed odjezdem na Tchaj-wan. Tenkr�t �lo
+o mal� zhor�en�, co� v�ak z�stalo bez pov�imnut�, proto�e jsem
+p�ech�zel od mal�ch dat k velk�m. U� 6.8. jsem toti� dos�hl v�sledku G
+89684 - B 36346 - P 71,2, co� bylo pro zm�nu nevysv�tlen� zlep�en�
+oproti v�sledku z 5.8. (G 89639 - B 36391 - P 71,1). Ze z�znam�
+vypl�v�, �e z 5. na 6. srpna jsem zkou�el zapnout p�en�sobov�n�
+pravd�podobnosti z�vislosti pravd�podobnost� nekoordina�nosti ��d�c�ho
+�lenu. Tento pokus �sp�nost zhor�il, ale po jeho op�tovn�m vypnut�
+vzrostla o n�co v��e ne� na p�vodn� �rove�! V�sledek z 5. srpna - sv�m
+zp�sobem posledn� stabiln� - byl dosa�en po z�kazu p�eskakov�n� dosud
+bezd�tn�ch p�edlo�ek a po odstran�n� n�jak� chyby v ur�ov�n�
+vzd�lenosti uzl� (d�lky z�vislosti).
+
+Nyn� zkus�m na objevenou verzi s �sp�nost� G 89562 d�t commit a pot�
+ov��it, zda s jin�m nastaven�m nezlep��me �sp�nost je�t� na �rove�
+6., nebo aspo� 5. srpna.
+
+Po zapnut� absolutn�ch pravd�podobnost� (pabs=1):
+G 89397 - B 36633 - P 70,9
+
+Po vypnut� pravd�podobnosti nekoordina�nosti (nekoord=0, pabs=1):
+G 89537 - B 36493 - P 71,0
+
+Po vypnut� oboj�ho (nekoord=0, pabs=0):
+G 89106 - B 36924 - P 70,7
+
+Tak�e n�vrat k (nekoord=1, pabs=0):
+G 89562 - B 36468 - P 71,1
+
+
+
+Pro jistotu je�t� jeden cvs commit, potom se p�esuneme k nov�j��
+verzi. Ta poch�z� z 25.10.2002 a m�la by b�t tedy po p�estavb�
+umo��uj�c� pou��vat slovn�kovou morfologii (a p�ep�nat zdroj
+morfologie v parser.ini m�sto p��mo ve zdroj�ku).
+
+�sp�nost verze z 25.10.2002 u� je opravdu ni���, tj. p�estavbou se
+n�co ztratilo (mzdroj je MD/a, tak�e spr�vn� by v�sledek m�l b�t
+stejn� jako 11.10.2002):
+G 89311 - B 36719 - P 70,9
+
+Ztratilo se 251 z�vislost�. Zkus�me je naj�t pomoc� rozd�l� v
+anal�z�ch. Nejd��v ale commitnout - zaevidovat verzi z 25.10., by�
+znamen� zhor�en�.
+
+Verze k 8.8.2002 (11.10.2002) s MDt a nejlep�� dochovanou �sp�nost�
+(71,1 %) byla v CVS otagov�na jako "rel-1". A� najdu chybu a oprav�m
+ji ve verzi z 25.10.2002, nebo a� hled�n� chyby vzd�m, mohly by
+sou�asn� verze soubor� z 25.10.2002 dostat tag "rel-2" a revizn� ��slo
+2.0. Soubory *.stat a *.csts by se mo�n� mohly vyhodit z repository,
+pokud to je�t� jde.
+
+Zkoum�m, kde se ztratilo t�ch 251 z�vislost�. Ukazuje se, �e se li��
+natr�novan� statistiky v obou verz�ch, probl�m je tedy u� p�i
+tr�ninku. Diffem na zdroj�ky obou verz� zji��uju, �e pravd�podobn� jde
+o chybu p�i zm�n�ch v parslib.pl. Jednoduchou v�m�nou podez�el�ho
+regul�rn�ho v�razu se sice nic nezm�nilo, ale po v�m�n� cel�ho
+parslib.pl chyba zmizela (statistiky jsou toto�n� a �sp�nost je tak�
+na p�vodn� �rovni, tj. 71,1 %).
+
+Budu postupovat od star�� verze parslib.pl k nov�j�� a v pr�b�hu budu
+kontrolovat tr�nink na jednom tr�novac�m souboru.
+
+
+
+2.1.2003
+
+Nalezena a opravena chyba v parslib.pl z 25.10.2002. Dosa�ena
+�sp�nost z 8.8.2002-11.10.2002:
+
+G 89562 - B 36468 - P 71,1
+
+
+
+3.1.2003
+
+V�echny verze zachovan� do 11.12.2002 jsou nyn� ji� p�evedeny pod
+CVS. I verze po 25.10.2002 pou��vaj� opraven� parslib.pl. Zkus�m nyn�,
+zda si �pln� posledn� verze NEd�len�ho parseru (kter� ov�em u�
+existuje paraleln� s d�len�m a sd�l� s n�m tr�novac� skript train.pl,
+kter� se o p��padn�m d�len� dozv� pouze z parser.ini) zachov�v�
+�sp�nost 71,1 %.
+
+Oprava parslib.pl: v obnoven� verzi chyb�la funkce cas() pou��van�
+v d�len�m parseru, dopln�no. Oprava train.pl: �etl z parser.ini
+velikost blok� pro d�len�, ale nev�d�l, �e velikost 0 znamen� z�kaz
+d�len�. Oprava parse.pl: neum�l ��st statistiku z pracovn� slo�ky;
+ztratila se mu procedura vymazat_vetu() (z�ejm� byla v chybn�m
+parslib.pl). Tak� neum�l do t�to slo�ky zapisovat sv� v�stupy
+(analyza.csts, analyza-debug.csts, analyza.log).
+
+G 89562 - B 36468 - P 71,1
+
+Heur�ka! Ned�len� parser tedy p�e�il ve sv� nejlep�� verzi a d�len� je
+mo�n� vyv�jet paraleln�, kdy� na n�j zrovna bude �as. Potvrzuji stav
+CVS.
+
+
+
+14.1.2003 Nov� Hut�
+
+Do�asn� nem��u pou��t cel� tr�novac� data, omezuju se na soubory
+z �eskomoravsk�ho Profitu (c*). Testovac� data jsem zat�m pou�il
+cel�, i kdy� kv�li rychlosti je posl�ze taky omez�m. Testov�n� na
+cel�ch datech trvalo n�co m�lo p�es 1 hodinu.
+
+G 86730 - B 39300 - P 68,8
+
+Men�� data: pouze soubory lu*, 2294 v�t, 39539 slov. Testov�n� trv�
+19:54 minut.
+
+G 27845 - B 11694 - P 70,4
+
+
+
+16.1.2003
+
+Test na pouze jednom souboru: lu01.a.
+
+G 632 - B 287 - P 68,8
+
+Kdy� se za pravd�podobnost pova�uje �etnost (slovn� �etnost
+kombinovan� se zna�kovou �etnost� vahami dan�mi konfigurac�, ale
+nep�eveden� na pravd�podobnost).
+
+G 625 - B 294 - P 68,0
+
+Zhor�en� by m�lo odpov�dat zapnut� absolutn� pravd�podobnosti
+(konfig{pabs}), kterou v tomto p��pad� nelze vypnout. Hned to
+vyzkou��me: vr�t�me se k p�vodn� procedu�e, ale zapneme pabs.
+Jen�e ve skute�nosti do�lo ke zlep�en�. Hm, to nech�pu.
+
+G 642 - B 277 - P 69,9
+
+Pouze se��st slovn� a zna�kovou �etnost, ale nevyva�ovat je. (Odpov�d�
+vah�m 0,5:0,5.)
+
+G 617 - B 302 - P 67,1
+
+P�idat �etnosti slovo-zna�ka a zna�ka-slovo.
+
+G 609 - B 310 - P 66,3
+
+P�idat �etnosti neberouc� v �vahu vzd�lenost a sm�r.
+
+G 578 - B 341 - P 62,9
+
+
+
+30.1.2003 Praha
+
+N�vrat k �pln�m dat�m. CVS commit, v�sledky st�le stejn� jako loni v
+srpnu, pro osv�en�:
+
+G 89562 - B 36468 - P 71,1
+
+Pokus se z�sobn�kem stav� (zat�m se jen buduje, ale nepou��v�). N�kde
+bude asi bug, proto�e nejen �e to trv� 1:04 hodiny, ale je�t� ke v�emu
+to ned�v� stejn� v�sledky.
+
+G 89295 - B 36735 - P 70,9
+
+Po vypnut� ukl�d�n� stavu se �sp�nost vr�tila a v�po�et trval jen 18
+minut.
+
+Kdy� jsem nechal ukl�d�n� stavu vypnut�, ale zapnul jsem kolem n�j
+pokusn� p�id�n� a op�tovn� ubr�n� z�vislosti ze stromu, �sp�nost
+klesla na 70,9 % - pridat_zavislost() a ubrat_zavislost() tedy
+nevracej� parser do p�vodn�ho stavu! Anal�za trvala 37 minut.
+
+Naopak kdy� jsem toto p�id�v�n� zatrhnul, ale dovolil jsem ukl�d�n�
+stav� (st�le stejn�ch, to nen� pro hash tak n�ro�n�), anal�za trvala
+21 minut a �sp�nost byla 71,1 %. Dalo by se tedy obej�t funkce
+pridat_zavislost() a ubrat_zavislost() (nap�. tak, �e bych pro
+ukl�d�n� pouze p�idal ru�n� do ukl�dan�ho seznamu jedno ��slo), to asi
+nakonec ud�l�m kv�li efektivit�, nicm�n� chybu v obou funkc�ch je
+nutn� naj�t a opravit.
+
+
+
+31.1.2003
+
+Chyba ve funkc�ch pridat_zavislost() a zrusit_zavislost() opravena
+tak, �e byla vytvo�ena t�et� funkce zjistit_povol(). Bohu�el se
+ukazuje, �e spr�vn� vytvo�en� seznam povolen�ch z�vislost� byl ten,
+kter� vedl na ni��� �sp�nost. V�sledky je�t� nejsou definitivn�,
+proto�e na novou funkci se je�t� nep�e�lo v cel�m programu. Seznam
+povolen�ch se te� nebude pr�b�n� udr�ovat, n�br� po��tat a� p�ed
+hled�n�m nov� z�vislosti. Je to pomalej�� jen o m�lo: cel� anal�za
+trvala necel�ch 20 minut, oproti v�erej��m 18 minut�m starou metodou.
+
+G 89296 - B 36734 - P 70,9 %
+
+Po �pln�m odstran�n� $povol �sp�nost je�t� klesla. Asi jsem dosud
+n�hodou nepovoloval n�jak� z�vislosti, kter� nebyly dob�e. Funkce
+zjistit_povol() se te� vol� na dvou m�stech, ale p�jde to sn��it na
+jedno. Anal�za trv� 23 minut.
+
+G 89196 - B 36834 - P 70,8 %
+
+Odstranil jsem druh� vol�n� zjistit_povol() ze
+zjistit_moznosti_zaveseni(), m�sto toho se seznam povolen�ch p�ed�v�
+shora z generovat_stavy() p�es lokalni_konflikty(). Taky jsem �pln�
+odstranil prom�nn� @rspan, @lspan a $soused, ale ty u� se v tu chv�li
+nikde nepou��valy. P�esto se pokazilo 9 z�vislost�. OPRAVIT!
+
+G 89187 - B 36843 - P 70,8 %
+
+
+
+3.2.2003
+
+Op�t p�id�no druh� zjistit_povol(). Chyba zmizela, tak�e probl�m nebyl
+v @lspan, ale tady!
+
+G 89196 - B 36834 - P 70,8 %
+
+Probl�m odstran�n, zjistit_povol() se vol� jen jednou b�hem p�id�v�n�
+jedn� z�vislosti, anal�za trv� 22 minut na po��ta�i loki. �sp�nost
+z�st�v� 70,8 %.
+
+Pokusil jsem se p�ej�t na slovn�kovou morfologii. Podle pokus� na
+n�hradn�ch testovac�ch datech vy�len�n�ch z tr�novac�ch dat (a ov�em
+nepou�it�ch v dan�m pokusu pro tr�nink) m�la vyj�t dokonce l�pe ne�
+ru�n� morfologie, a z�eteln� l�pe ne� morfologie z taggeru. Tady to
+v�ak tak ani trochu nevypad�. Bu� jsem ud�lal chybu tehdy, nebo te�.
+
+G 82258 - B 43772 - P 65,3
+
+
+
+4.2.2003
+
+Vrac�m se k morfologii z taggeru.
+B�hem dne d�l�m r�zn� pokusy s v�tami o d�lce 5, s p�edlo�kami a s
+p�eskakov�n�m sourozenc�. Nic z toho zat�m nen� dota�eno, nicm�n� m�m
+v�sledky pro tento pokus: N2 nesm� p�eskakovat sv�ho sourozence
+vlevo. Pokud by to cht�la ud�lat, tj. pokud mezi n� a zam��len�m
+��d�c�m uzlem le�� jin� uzel, kter� p��mo nebo nep��mo nez�vis� na n�,
+n�br� na ��d�c�m uzlu, dostane takov� z�vislost pravd�podobnost
+0. V�sledek ukazuje, �e to m�rn� zlep�en� p�in��, a �e bych se tedy
+p�eskakov�n�m m�l d�le zab�vat.
+
+G 89448 - B 36582 - P 71,0
+
+Je�t� drobnost. Do manipulace s morfologick�mi zna�kami p�id�na
+transformace �adov�ch ��slovek na p��davn� jm�na. Zlep�en� u t�ech
+slov :-)
+
+G 89451 - B 36579 - P 71,0
+
+
+
+5.2.2003
+
+Zji��uju plodnost ko�ene. Prvn� pokus: po vybudov�n� stromu se zjist�,
+kolik d�t� m� ko�en. Pokud jich m� v�ce ne� 2, vybere se koncov�
+interpunkce a nejpravd�podobn�j�� dal�� d�t�, ostatn� se odpoj� a
+p�ipoj� jinam. Nev�hody: tento p��stup zat�m neumo��uje nahradit jedno
+sloveso koordinac� sloves a obecn� nedovoluje ostatn�m uzl�m na zm�nu
+reagovat. P�esto do�lo k celkem viditeln�mu zlep�en�. Zhor�ila se
+ov�em �asov� n�ro�nost (anal�za trvala 32 minut), a to proto, �e do
+koordinac� bylo nutn� p�idat kontrolu povolenosti druh� hrany. M�lo by
+to j�t alespo� ��ste�n� opravit, proto�e seznam povolen�ch z�vislost�
+si lze pamatovat a dodat jako parametr.
+
+G 89765 - B 36265 - P 71,2
+
+Druh� pokus: zak�zat zav�en� na ko�en a na koncovou interpunkci a� do
+konce. Bohu�el se zd�, �e tento p��stup p�inesl v�c �kody ne� u�itku.
+
+G 89509 - B 36521 - P 71,0
+
+Prozat�m tedy n�vrat zp�t:
+
+G 89765 - B 36265 - P 71,2
+
+P�id�n ji� v�era vyzkou�en� pokus s v�tami d�lky 5 (zat�m se
+rozpozn�v� pouze vzorec "Praha (p�t) -").
+
+G 89978 - B 36052 - P 71,4
+
+
+
+6.2.2002
+
+Pokusy s ��rkami a z�vislostmi na nich. Prvn� p�ibl��en�: na ��rce
+nesm� nic viset, proto�e pak by to musela b�t koordinace nebo apozice,
+a ta se �e�� jinde.
+
+G 90992 - B 35038 - P 72,2
+
+Jup�!!!
+
+
+
+13.2.2003
+
+Po n�jak�m vrt�n� poklesla �sp�nost. Blb� je, �e u� si nepamatuju, co
+to bylo za pokus. Mysl�m ale, �e �lo o vypnut� lok�ln�ch konflikt�,
+proto�e jejich statistika je tentokr�t pr�zdn�. Vypnuty byly p�i
+tr�ninku, p�i testu ne, ale v�sledek je stejn�. Byly vypnuty kv�li
+n�jak� chyb� (cyklilo se to), doufal jsem, �e t�eba �sp�nost sp��
+kaz�, jejich statistika tomu napov�dala. Ov�em ony asi vylep�uj�
+�sp�nost ostatn�ch z�vislost�...
+
+G 90610 - B 35420 - P 71,9
+
+Lok�ln� konflikty znovuzprovozn�ny, ale �sp�nost st�le nen� na
+p�vodn� �rovni. Budu si muset nechat zjistit rozd�ly mezi verz�
+parseru ze 6.2. a tou dne�n�.
+
+G 90833 - B 35197 - P 72,1
+
+Ohled�n� rozd�l�.
+parslib.pl ... n�co se d�je s koordinacemi a s apozicemi (d�d�n�
+zna�ek) - s apozicemi se d��ve ned�lalo nic. Je ov�em ot�zka, odkud se
+tahle funkce vol�.
+train.pl ... li�� se, ale zat�m se zd�, �e v nepodstatn�ch v�cech
+(p�esunut� mechanick� pr�ce kolem otv�r�n� a proch�zen� soubor� do
+knihovny parslib.pl, p�esunut� maz�n� v�ty po jej�m zpracov�n� tamt�)
+
+Z�v�r: nena�el jsem rozd�l, kter� by mohl zp�sobovat rozd�l v
+�sp�nosti. Zkus�m tedy pustit parser ze 6.2., aby se vid�lo, zda
+v�bec m� �sp�nost, kv�li kter� jsem ho z�lohoval. A na v�sledek se
+p�ijdu pod�vat a� z�tra :-)
+
+
+
+14.2.2003
+
+Parser z 6.2.2003 m� opravdu �sp�nost 72,2 % (G 90992 - B
+35038). Na�el jsem chybu, kv�li kter� p�estaly fungovat t�et� a dal��
+�leny koordinac� (bylo nevhodn� po�adov�no povolen� p�id�n� budouc�
+hrany v okam�iku, kdy p�id�n� nemohlo b�t povoleno). Po jej�m
+odstran�n� se obnovila �sp�nost z 6.2.2003:
+
+G 90992 - B 35038 - P 72,2
+
+Prov�d�m cvs commit a ma�u vybalenou verzi z 6.2.2003.
+Vylep�ena efektivita zji��ov�n� povolen�ch hran v procedu�e
+zjistit_pravdepodobnost_koordinace(). Bohu�el b�hem testov�n� na�as
+vypadl jeden z disk�, tak�e nelze ��ct, o kolik se vylep�� �as na
+anal�zu. Te� kv�li v�padku trvala 40 minut. Ov��il jsem v�ak alespo�,
+�e oprava nezp�sobila n�jak� nov� chyby, po kter�ch by poklesla
+�sp�nost.
+
+G 90992 - B 35038 - P 72,2
+
+
+
+17.2.2003
+
+Kone�n� dops�n prototyp knihovn�ch funkc� pro d�d�n� morfologick�ch
+zna�ek u koordinac� a apozic. Otestov�no tr�nov�n� i anal�za, zda
+nebyly zavle�eny chyby a zejm�na zda to nepad�. Zat�m se ov�em zna�ky
+d�d�, ale ty zd�d�n� se k ni�emu nepou��vaj�, tak�e opravdov� zkou�ka
+ohn�m teprve bude. Tr�nov�n� trvalo 9:31 minut, anal�za trvala 26:40
+minut.
+
+G 90992 - B 35038 - P 72,2
+
+Pokus s pou�it�m d�d�n�ch zna�ek p�i tr�ninku na ud�losti OZZ, OSZ,
+OZS, ZZZ, ZSZ, ZZS a ZPV (pseudovalence), ne na koordinaci (KZZ,
+UZZ). A v�bec ne p�i parsingu. Zat�m to p�ineslo zhor�en�, co� p�i
+omezenosti pou�it� nen� a� tak divn�. Ud�lost� po tr�ninku je te�
+3354115 (v�c, d��ve pod 3300000), tr�nov�n� trv� 13:19 minut
+(!). Anal�za trv� 26 minut.
+
+G 89791 - B 36239 - P 71,2 :-(
+
+Mus�m zjistit, zda hlavn� pot�� nen� v tom, �e kv�li chybn�mu
+zna�kov�n� koordinace leckdy sdru�uj� �leny s nekompatibiln�mi
+zna�kami, a ty pak chybn� ovliv�uj� zna�ku cel� koordinace i jej�
+vztahy. Zjistit, zda by pomohlo, kdyby se alespo� v ko�eni ponechaly
+duplik�ty zna�ek (tj. nej�ast�j�� zna�ka by m�la tak� nejv�t��
+v�hu). To se toti� nyn� ned�l�, proto�e mechanismus pro zpracov�n�
+seznamu zna�ek po��t� se zna�kami z morfologick� anal�zy.
+
+Te� se tak d�v�m... Taky je to mo�n� t�m, �e se p�i tr�ninku
+alternativy ve zna�k�ch v�bec nerozsekaly! Tam se toti� testuje,
+jestli je zdroj morfologie "MM", a to nen�!
+
+
+
+18.2.2003
+
+Vyp�n�m d�d�n� zna�ky, vr�t�m se k nim za p�r t�dn�. Te� mus�m nutn�
+vytvo�it n�co, o �em p�jde napsat na ACL, a to d�d�n� zna�ky
+nejsou. M�la by to b�t subkategorizace - tentokr�t pou�it� jako
+v�stupn� filtr.
+
+Filtr se bude sna�it zabr�nit tomu, aby v�ce ne� jedno dopln�n�
+stejn�ho druhu rozv�jelo tot� sloveso, pokud toto sloveso nem� r�mec,
+kter� opakov�n� p�ipou�t�. Net�k� se voln�ch dopln�n� (zejm�na
+p��slove�n� ur�en� �asu a m�sta "kde"). Naopak se to t�k� podm�tu
+(l�pe: podstatn�ho jm�na v 1. p�d�), i kdy� podm�ty v r�mc�ch
+neevidujeme.
+
+Obecn�ji: pokud na slovesu vis� n�co, co vypad� jako vnit�n� dopln�n�,
+ale sloveso to nem� v r�mci, vyvolat poplach. Mo�n�, �e jin� sloveso
+si to r�do vezme.
+
+Na druh� stran�: pokud to vypad�, �e slovesu n�co chyb�, poohl�dnout
+se, jestli to v okol� nep�eb�v� (tj. je to tam a nikdo jin� na tom
+nesed� ze subkategoriza�n�ch pohnutek). Pokud ano, vyvolat tak�
+poplach. Zjistit, �e slovesu n�co chyb�, nen� �pln� trivi�ln�. Znamen�
+to, �e mus�me proj�t v�echny jeho r�mce a naj�t takov�, kde toho chyb�
+nejm�n�. Z prohled�v�n� jsou v�ce m�n� vylou�eny r�mce, kter� zavrhuj�
+n�co, co naopak na slovesu vis� (ale ne absolutn�: m��e to tam toti�
+viset omylem).
+
+Seznam r�mc� by mohl b�t nov�, po��zen� nov�m perlov�m k�dem, hlavn�
+v�ak z nov� verze treebanku, a asi nejen pro slovesa, ale pro v�echny
+slovn� druhy, u kter�ch se n�jak� preference vysleduj�.
+
+
+
+Ov�em po shl�dnut� souboru se statistikou usuzuji, �e nejd��v by se
+mohla vylep�it pseudovalence. Ze slovesn� zna�ky by se k heslu m�lo
+p�ipojit pouze po��te�n� "V", ale nikoli znak za n�m, ur�uj�c� �as a
+zp�sob. A v�bec by se nem�l br�t ohled na sm�r a d�lku z�vislosti.
+
+V tr�novac�ch datech zaznamen�no 3149779 ud�lost�. Tr�nov�n� trvalo
+11:44 minut.
+
+�prava pseudovalence: Bohu�el jsou v�sledky je�t� hor�� :-(
+
+G 88442 - B 37588 - P 70,2
+
+Poddruh ze zna�ky asi nebyl ned�le�it�, proto�e rozli�oval �inn� rod
+od trpn�ho, a ty maj� r�zn� r�mce. Taky infinitiv a rozkazovac� zp�sob
+jsou d�le�it�, proto�e nemaj� podm�t. Mo�n� by se nemuselo rozli�ovat
+mezi nimi navz�jem, stejn� jako mezi p��tomn�-budouc�m a minul�m
+�asem, ale to u� jsou asi jen drobnosti.
+
+Zkus�m tedy vr�tit zna�ku, ale zat�m nevr�tit sm�r a d�lku
+z�vislosti.
+
+Ud�lost� je te� 3178791. Tr�nov�n� trvalo 9 minut.
+
+G 90613 - B 35417 - P 71,9
+
+Vrac�m i sm�r a d�lku. Op�t 3225713 ud�lost�, tr�nov�n� trvalo 9:40
+minut.
+
+G 90992 - B 35038 - P 72,2
+
+Dal��m p�edb�n�m pokusem by mohl b�t z�kaz p�eskakov�n� v�znamov�ho
+slovesa kv�li nad�azen�mu mod�ln�mu slovesu vnit�n�mi dopln�n�mi (tedy
+pro tyto ��ely dejme tomu ��mkoliv s v�jimkou R6 a D). Je to obdoba
+ji� vyzkou�en�ho z�kazu p�eskakov�n� N2 jin�m N2.
+
+G 90774 - B 35256 - P 72,0
+
+Ru��m z�kaz, ani� bych v tuto chv�li podrobn�ji zkoumal, pro� to
+nefunguje.
+
+G 90992 - B 35038 - P 72,2
+
+
+
+19.2.2003
+
+Pokus s valenc�. Jestli�e na slovesu u� vis� N1, zak�zat zav�en�
+druh�ho N1 na tot� sloveso.
+
+G 90437 - B 35593 - P 71,8
+
+Pokra�ov�n� pokusu: v��e uveden� z�kaz se net�k� slovesa "b�t"
+(p��sudek jmenn� se sponou).
+
+
+
+5.3.2003
+
+Deadline ACL Sapporo jsem pro�vihnul, tak�e se m��u vr�tit k v�zkumu
+:-) Pro za��tek zkontrolujeme, �e m�me parser ve zdrav�m stavu, tj. �e
+dosahuje dosud nejlep�� dosa�en� �sp�nosti 72,2 %.
+
+G 90992 - B 35038 - P 72,2
+
+D�le se pod�v�me na stav, v jak�m bylo zanech�no zpracov�n� koordinac�
+a apozic. Opustili jsme ho 18.2., naposledy se s n�m n�co d�lo
+17.2. Bylo rozchozeno d�d�n� morfologick�ch zna�ek, ale jeho vyu�it�
+p�i syntaktick� anal�ze je�t� nebylo bezchybn� a tak� zhor�ovalo
+�sp�nost anal�zy.
+
+
+
+13.3.2003
+
+Odstran�ny n�jak� chyby v d�d�n� zna�ek a jeho vyu�it� p�i
+tr�ninku. �sp�nost se ov�em st�le zhor�uje, ale asi mi nezbyde, ne�
+to pova�ovat za nezbytnou drobnost na cest� ke kone�n�mu
+v�t�zstv�. Je�t� nem�m prozkouman� detaily, ale ��seln� v�sledky jsou
+n�sleduj�c�:
+
+G 90465 - B 35565 - P 71,8
+
+Jako obvykle je skute�n� p��bytek chyb v�t��, ne� t�ch 527 z�vislost�,
+proto�e na n�kter�ch m�stech se anal�za na opl�tku
+zlep�ila. Konkr�tn�:
+
+Po�et rozd�ln�ch n�zor� p�edch�zej�c�ho a sou�asn�ho parseru: 5814.
+Z tohoto po�tu m�l star� parser dob�e 1570, nov� 1043. Nov� parser
+tedy p�inesl 1570 zhor�en� a 1043 zlep�en�. V n�zoru na ostatn�
+z�vislosti z uveden�ch 5814 se parsery sice li�ily, ale oba ho m�ly
+�patn�.
+
+
+
+14.3.2003
+
+Pr�ce na notebooku (Intel Celeron 800 MHz, 250 MB pam�ti, z toho,
+zd� se, asi 100 MB vyu�ij� Windows ME). Tr�nink v pln� ���i by se
+sem neve�el, ale anal�za ano, pokud ze statistiky odstran�me v�echny
+ud�losti, kter� nebyly vid�ny v�ce ne� jednou. Velikost souboru se
+statistikou klesne ze 67 na 18 MB. �sp�nost klesne pouze nepatrn�:
+
+G 90759 - B 35271 - P 72,0
+
+P�esto asi budu v praxi pro testy pou��vat jen malou ��st dat,
+proto�e anal�za cel� mno�iny trv� dvakr�t d�le ne� na lokim: 1:28 h.
+Omez�me se na soubory lu* (48 soubor�). Jejich anal�za trv� 26 min,
+co� odpov�d� dob� pot�ebn� na lokim k anal�ze v�ech dat.
+
+G 29205 - B 10334 - P 73,9
+
+Stejn� pokus na stejn�m po��ta�i, ale pod Linuxem, je jednak del��
+(43 minut), jednak m� ni��� �sp�nost!!! Jedin� vysv�tlen�, kter� m�
+napad�, je, �e tento Linux ji� m�sto ISO Latin 2 pou��v� Unicode
+UTF-8, tak�e nefungovaly lexikalizovan� statistiky.
+
+G 28184 - B 11355 - P 71,3
+
+Objevil jsem pravd�podobnou p���inu, pro� klesla �sp�nost po
+natr�nov�n� na zd�d�n�ch zna�k�ch. Zm�nil se toti� po�et z�vislost�
+N1-N1: d��ve v�t�zil sm�r zleva doprava, nyn� zprava doleva. To
+znamen�, �e zd�d�n� zna�ka se dostala do z�vislosti s t�m, kdo ji
+zd�dil. Nap��klad by k tomu mohlo doj�t u apozic, proto�e koordinace
+jsou v tr�ninku u� z d��v�j�ka podchyceny, ale apozice ne.
+
+D�le: slova a hesla by se m�la d�dit stejn� jako zna�ky.
+
+D�le: na rozd�l od d��v�j��ho d�d�n� koordinac� nyn� d�d�me celou
+skupinu zna�ek (podobn� jako u morfologie ze slovn�ku). P�i evidenci
+z�vislost� u� se to vyu�ije, ale m�lo by se to vyu��t i p�i evidenci
+koordinac� a apozic. Nyn� by se zaevidovala koordinace v�dy, kdy�
+��d�c� uzel m� s-zna�ku Coord nebo Apos, a to mezi zna�kou z�visl�ho
+uzlu a v�emi ostatn�mi zna�kami v seznamu ve zd�d�n� zna�ce ��d�c�ho.
+
+
+
+28.3.2003
+
+N�vrat na po��ta� loki (Intel Pentium 4, 1.8 GHz, pam� 1.5 GB).
+Kontrola, �e parser je ve stavu, v jak�m si mysl�m, �e jsem ho
+zanechal.
+
+G 90465 - B 35565 - P 71,8
+
+OK, je to stejn� jako 13. b�ezna p�ed odst�hov�n�m na
+notebooka. Anal�za trvala 30 minut.
+
+Opraveno: p�i d�d�n� zna�ek se za �lena koordinace neozna�ila
+p�edlo�ka, ale podstatn� jm�no pod n�. Nyn� u� se ozna�uje
+p�edlo�ka. P�etr�nov�n� trvalo 15 minut, zaznamen�no 3301150
+ud�lost�.
+
+G 90588 - B 35442 - P 71,9
+
+Opraven zp�sob, jak�m se p�i tr�nov�n� odd�lovaly z�vislosti od
+koordinac�. Dosud se n�kter� koordinace omylem zapo��taly i do
+z�vislost�, naopak z�vislosti cel�ch koordinac� na n��em se
+vynech�valy apod. Nyn� p�i d�d�n� zna�ek sou�asn� buduju pro ka�d�
+uzel p��znak, zda je �lenem n�jak� koordinace, tak�e by to m�lo
+fungovat spr�vn� (p�inejmen��m tak spr�vn�, jak funguje d�d�n� zna�ek)
+a nav�c by to nov� m�lo zahrnovat i apozice. P�etr�nov�n� trvalo 18
+minut, statistika obsahuje 3222068 ud�lost� (to d�v� smysl, byl
+odstran�n �um chybn�ch ud�lost�).
+
+G 90893 - B 35137 - P 72,1
+
+Nyn� jedin� dal�� zm�na: v train.pl se za koordinaci pova�uj� nejen
+konstrukce ��zen� uzlem s s-zna�kou Coord, ale tak� Apos. Tr�nov�n�
+trvalo 13:30 minut, zji�t�no 3225577 ud�lost�.
+
+G 90634 - B 35396 - P 71,9 :-(
+
+
+
+31.3.2003
+
+Sna��m se vyu��t existenci alternativ u zna�ek
+v koordinac�ch. Opravuji chybu - regul�rn� v�raz se nedok�e sm��it
+se zna�kou "Z(". Zji�t�no 3242983 ud�lost�. Tr�nov�n� trvalo 11
+minut.
+
+G 90465 - B 35565 - P 71,8 ;-((
+
+Je to ale n�jak� divn�, proto�e nej�etn�j�� koordinace jsou ty, kter�
+neobsahuj� partnera. Opravena chyba. Zji�t�no 3009050
+ud�lost�. Tr�nov�n� trvalo necel�ch 11 minut.
+
+G 90420 - B 35610 - P 71,7
+
+
+
+3.4.2003
+
+Zahajuji p�estavbu parse.pl, kter� mi umo�n� paraleln� parsovat podle
+dvou r�zn�ch model� a porovn�vat jejich �sp�nost. Sou�asn� je to
+v�te�n� p��le�itost vy�istit po m�s�ce nabalovan� k�d. Dnes u� to ale
+nestihnu. Zat�m jen paraleln� b�el pokus s ned�d�n�mi zna�kami. M�l
+by dopadnout stejn� jako 5.3.2003, ale jedna z�vislost se n�kde
+ztratila, �ert ji vem.
+
+G 90991 - B 35039 - P 72,2
+
+
+
+16.4.2003
+
+Dokon�en� p�estavby odlo�eno na neur�ito. Te� ud�l�m jen jednu v�c,
+budu u ka�d�ho uzlu vypisovat seznam z�vislost�, kter� byly povolen� v
+okam�iku, kdy byl uzel zav�en. S pomoc� takov�ho v�pisu bych m�l b�t
+schopen naj�t chyby zp�soben� posledn� zm�nou parseru.
+
+Zat�m ale mus�m opravovat parser, aby byl op�t provozuschopn�, ten
+pokus o p�estavbu p�ed dv�ma t�dny ho zjevn� dostal do nekorektn�ho
+stavu. Test pou�t�m na o�ezan� statistice (pouze ud�losti, kter� se
+staly v�ce ne� jednou), tak�e �sp�nost nebude standardn�.
+
+G 90074 - B 35956 - P 71,5
+Pou�t�m tedy je�t� tot� na �pln� statistice.
+G 90252 - B 35778 - P 71,6
+
+
+
+9.5.2003
+
+Potvrzen v��e uveden� posledn� v�sledek, ani� bych si ov�em pamatoval,
+jak�mi zm�nami parametr� k n�mu do�lo (u� toti� pamatuju i
+lep��). Anal�za na lokim trvala 32 minut. Zkou��m ji je�t� pustit na
+shrekovi s lok�ln� kopi� dat, ale zrychlen� nen� na pohled nijak
+impozantn�, trv� to te� 28 minut.
+
+Zkus�m se vr�tit k verzi p�ed hr�tkami s apozicemi. Situaci mi
+komplikuje zmizen� slo�ky CVSROOT na �FALu, ale na�t�st� m�m n�jakou
+z�lohu z 13.3.2003 na notebooku, tak uvid�me.
+
+V�sledky na sou�asn�ch datech (ov�em t�ch "norm�ln�ch", nez�skan�ch na
+zd�d�n�ch zna�k�ch), jsou skute�n� ty spr�vn�.
+
+G 90992 - B 35038 - P 72,2
+
+
+
+12.5.2003
+
+Mus�me p�ij�t na to, kde je v nov�m parse.pl chyba, �e jeho �sp�nost
+je p�i pou�it� t�ho� modelu hor��. Omez�me test na men�� data.
+
+star�: G 672 - B 247 - P 73,1
+nov�:  G 665 - B 254 - P 72,4
+
+Rozd�ly mezi parse.pl a parse1.pl jsou p��li� rozs�hl�. Zkus�me
+nejd��ve zjistit, zda chyba nen� v parslib.pl. Nech�me star� parse.pl,
+aby pou��val nov� parslib1.pl.
+
+G 672 - B 247 - P 73,1
+
+Chyba je tedy p��mo v parse1.pl. Budu se postupn� p�esouvat od
+parse.pl k parse1.pl. Prvn� krok: p�id�m proceduru rozebrat_vetu(),
+ani� bych ji pou�il.
+
+G 672 - B 247 - P 73,1
+
+
+
+13.5.2003
+
+Star�� k�d nahrazen knihovn� (parslib.pl) funkc�
+projit_data(). V�sledky z�st�vaj� v po��dku.
+
+G 672 - B 247 - P 73,1
+
+
+
+14.5.2003
+
+Zvl�tn� zpracov�n� v�t o p�ti slovech posunuto v k�du v��. �sp�nost
+se sn��ila. Je to asi t�m, �e na konci z podm�nky vypadly n�jak� v�ci,
+kter� se maj� d�lat i pro p�tislovn� v�ty.
+
+G 667 - B 247 - P 73,0
+
+Opraveno.
+
+G 672 - B 247 - P 73,1
+
+K�men �razu je spojov�n� ko�ene s koncovou interpunkc�. Po jeho
+p�esunut� do funkce generovat_stavy() se zjevn� parser za�al chovat
+jinak (a h��e).
+
+G 665 - B 254 - P 72,4
+
+Opraveno.
+
+G 672 - B 247 - P 73,1
+
+Nakonec p�ep�n�m na funkci rozebrat_vetu(). Kr�tk� vzorek z�st�v�
+funk�n�. Te� tedy pro jistotu otestujeme cel� testovac� data. Je to v
+po��dku, stejn� jako v�sledky z 5. b�ezna!
+
+G 90992 - B 35038 - P 72,2
+
+P�echod ze star��ho na nov�j�� parse.pl dokon�en. �sp�nost z�st�v�
+nesn��en�.
+
+Te� zp�t k �sp�nosti koordinac� a zd�d�n�ch zna�ek. Vezme-li se
+statistika natr�novan� na zd�d�n�ch zna�k�ch, �sp�nost na lu01
+v�razn� klesne:
+
+G 660 - B 259 - P 71,8
+
+Te� je je�t� pot�eba d�t do po��dku train.pl. V sou�asn�m stavu na
+73088 v�t�ch zjist� 2998340 ud�lost�. Bohu�el, tohle nen� to "spr�vn�"
+tr�nov�n� z pohledu testu na lu01.
+
+G 662 - B 257 - P 72,0
+
+V train.pl na ��dc�ch 181 a 182 vym��uji zd�d�n� zna�ky za
+vlastn�. Na�lo se 2979202 ud�lost�. �sp�nost na lu01 vzrostla, ale
+po��d je�t� nen� train.pl v p�vodn� kondici.
+
+G 670 - B 249 - P 72,9
+
+
+
+15.5.2003
+
+Pokou��m se p�epnout do star�� verze train.pl, ale asi nen� dost
+star�, proto�e se v n� tak� pou��vaj� zd�d�n� zna�ky. Statistika
+obsahuje 2351310 ud�lost�. V�sledek je dost d�siv�.
+
+G 506 - B 413 - P 55,1
+
+Ze stejn� verze jsem odstranil pou��v�n� zd�d�n�ch zna�ek. Statistika
+obsahuje 3225713 ud�lost�.
+
+G 672 - B 247 - P 73,1
+G 90991 - B 35039 - P 72,2
+
+Ve velk�m testu se ztratila jedna z�vislost. Zkou��m train.pl vyta�en�
+z mezit�m opraven�ho CVS. Statistika obsahuje 3225713 ud�lost� a
+z�ejm� je toto�n� se statistikou z�skanou o pokus d��ve. Kdy� v�ak
+tento train.pl pust�m v p�vodn�m kontextu, tedy zejm�na s p�vodn�m
+parslib.pl a na p�vodn�ch datech (neobsahuj� nezjednozna�n�nou
+morfologickou anal�zu), dostanu sice tak� 3225713 ud�lost�, ale
+velikost souboru se statistikou se asi o 10000 bajt� li��.
+
+G 90992 - B 35038 - P 72,2
+
+Pou�t�m tento star� train.pl se star�m parslib.pl, ale s morfologicky
+analyzovan�mi daty (nem�lo by to vadit <MMt> se stejn� nepou�ij�,
+pou�ij� se <MDt>). V�sledn� statistika je pravd�podobn� shodn� s
+v�t�znou (dosahuj�c� G 90992).
+
+Pou�t�m tedy tot�, ale s nov�m parslib.pl. Statistika obsahuje
+3910869 ud�lost�, co� je dost divn�. Zbytek mus�m odlo�it na z�t�ek.
+
+
+
+16.5.2003
+
+V nov�m parslib.pl se star�m parser.ini se nezapnula redukce zna�ek.
+
+
+
+21.5.2003
+
+Pokra�uju v testov�n� star�ho train.pl a hled�n� optim�ln�
+konfigurace. V parser.ini, pou��van�m star�m train.pl, u� p�ibyl
+parametr upravovat_mzn = 1, kter� si p�e�te nov� parslib.pl. Pou�t�m
+star� train.pl s nov�m parslib.pl a s parser.ini upraven�m v��e
+uveden�m zp�sobem. V�stupem bude statistika-md.stat s datem 21.5.2003
+a �asem n�co po 12:28. Statistika obsahuje 3225713 ud�lost�. Velikost
+souboru je 68527045, to je ta �patn�. Chyba se tedy asi skr�v� v
+parslib.pl.
+
+
+
+22.5.2003
+
+Pr�ce na notebooku. Omezuji tr�novac� i testovac� data na
+�eskomoravsk� profit (soubory za��naj�c� na "c"). Nalezeno 252
+tr�novac�ch soubor�. Zpracov�no 11300 v�t. Nejdel�� v�ta obsahuje
+132 slov. Tr�nov�n� b�elo 4:56 minut (dal�� m��en�: 4:20, 4:18,
+4:34). Pr�m�rn� doba 272 vte�in, pr�m�rn� rychlost 42 v�t / s.
+Na Amazonce, ale s daty tahan�mi po s�ti z Conga, to trvalo 6:20.
+Kdy� se netahaj� data po s�ti, trv� to 6:19 (musel jsem nicm�n�
+vyu��t s��ov� slu�by a p�ipojit si lok�ln� disk jako s��ov�, ale
+hlavn� zpomalen� stejn� nejsp�� tkv� v procesoru a pam�ti).
+Pr�m�rn� rychlost ve Windows 2000 na Amazonce �in� 30 v�t / s.
+Statistika obsahuje 607328 ud�lost� a m� 12849 kB.
+
+S pou�it�m star�ho parslib.pl trv� tr�nov�n� 5:12 minut. Statistika
+obsahuje 607328 ud�lost� a m� 12847 kB.
+
+Upraven� star� parslib o rozd�l �. 3 (kontrola �sp�chu RE na <g> a
+<A>). 6:47 minut, 12847 kB. Tento rozd�l tedy roli nehraje.
+
+Star� parslib upraven o rozd�l �. 2 (volitelnost "upravovat_mzn").
+7:23 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
+
+Star� parslib upraven o rozd�l �. 1 (budov�n� $anot[$ord]{mznlist}).
+4:51 minut, 12847 kB. Tento rozd�l tak� nehraje roli. Rozd�l, kter�
+hled�me, nen� ve funkci zpracovat_slovo(), proto�e ta u� je te�
+v obou verz�ch stejn�.
+
+Vypr�zdn�na funkce transformovat_koordinace().
+5:46 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
+
+Zru�ena funkce transformovat_slozene_predlozky().
+5:29 minut, 12847 kB. Tento rozd�l tak� nehraje roli.
+
+Vym�n�ny vnit�nosti funkce projit_data().
+4:58 minut, 12849 kB. Tady n�kde je ten rozd�l!
+
+Vnit�nosti vr�ceny, pouze p�id�na �prava zna�ek koncov� interpunkce.
+4:49 minut, 12849 kB. To je ono!
+
+
+
+23.5.2003
+
+Chyba byla v tom, �e se koncov� interpunkce ozna�ovala dvakr�t p�es
+sebe, jednou v parslib.pl a podruh� v train.pl. Po odstran�n�
+druh�ho ozna�ov�n� z train.pl a ponech�n� prvn�ho v parslib.pl m�
+v�sledn� statistika op�t jen 12847 kB. Tr�nov�n� trvalo 4:52 minut.
+Po spojen� takto opraven�ho train.pl s nov�m parslib.pl z�st�v�
+12847 kB.
+
+Nov� train.pl obsahuje jednak sv�j nov� k�d, jednak voliteln�
+kompletn� star� k�d. Star� po oprav� ozna�ov�n� koncov� interpunkce
+produkuje 12847 kB, nov� v�ak st�le nem� ani spr�vn� po�et ud�lost�
+(561619 m�sto 607328).
+
+��dek 141: netestovat Apos, ale jenom Coord
+��dek 174: pou�it� $anot[$i]{coordmember}
+��dky 183 a 184: pou�it� zd�d�n�ch zna�ek v z�vislostn�ch ud�lostech
+��dky 206 a� 257: podivn� else-blok, t�k� se asi koordinac�
+
+Do dom�c�ch testovac�ch dat za�azuji soubory za��naj�c� na "lu0".
+Celkem 9 soubor�, 445 v�t, 7901 slov. Testov�n� trv� 6:36 minut.
+G 5689 - B 2212 - P 72,0
+
+Pokus s �pravou tr�nov�n�. M�sto na p��m� testov�n�, zda j� nebo m�j
+rodi� m�me funkci Coord, se spol�h�me na anotaci coordmember, zji�-
+�ovanou p�i �ten� vstupu. Tato anotace ale zahrnuje i apozice a
+nept� se na m�ho rodi�e.
+Tr�nov�n� trvalo 5:09 minut, statistika obsahuje 557955 ud�lost� a
+m� 11885 kB. V�sledky testu:
+G 5697 - B 2204 - P 72,1
+
+V train.pl zavedeny dva rozskoky:
+$alt[0] = 0 ... coordmember je d�t� ko�ene koordinace, i kdyby nebylo
+                jej�m �lenem
+$alt[0] = 1 ... coordmember je �len koordinace, i kdyby nebyl d�t�tem
+                ko�ene, ale jeho vzd�len�j��m potomkem (t�eba p�es
+                p�edlo�ku)
+$alt[1] = 0 ... pouze Coord
+$alt[1] = 1 ... i Apos se zpracov�v� jako koordinace
+
+Konfigurace 00 odpov�d� star�mu (a zat�m nej�sp�n�j��mu) train.pl:
+5:10 minut, 607328 ud�lost�, 12847 kB.
+G 5689 - B 2212 - P 72,0
+
+Konfigurace 01 (p�idat Apos, ale nekomplikovat si �ivot vno�en�mi):
+4:50 minut, 597991 ud�lost�, 12672 kB.
+G 5680 - B 2221 - P 71,9
+
+Konfigurace 10 (hl�dat vno�en�, ale o apozice se nestarat):
+4:52 minut, 557955 ud�lost�, 11885 kB.
+G 5697 - B 2204 - P 72,1
+
+Konfigurace 11 (hl�dat vno�en� v�etn� apozic):
+5:06 minut, 555919 ud�lost�, 11845 kB.
+G 5700 - B 2201 - P 72,1
+
+$alt[2] = 0 ... vlastn� morfologick� zna�ky
+$alt[2] = 1 ... zd�d�n� morfologick� zna�ky
+
+Konfigurace 111 (nav�c zd�d�n� zna�ky; nem�lo by smysl, kdyby vlastnost
+�. 0 (prvn�) byla 0, proto�e pak by se m�sta, kde jde o d�d�n� zna�ky,
+vynech�vala):
+5:35 minut, 560668 ud�lost�, 12042 kB.
+G 5682 - B 2219 - P 71,9
+
+Konfigurace 1100 (kontroln�; �tvrt� vlastnost pokr�v� zat�m cel�
+else blok t�kaj�c� se koordinac�):
+5:33 minut, 556348 ud�lost�, 11864 kB.
+G 5723 - B 2178 - P 72,4
+To je p�ekvapiv� dobr�. Na druhou stranu a� te� se dostaly ke slovu
+n�kter� ��sti, kter� se maj� starat o koordinace, v�ak jsem se divil,
+�e nejsou v provozu. ��ste�n� o koordinace p�ece bylo postar�no u�
+d�vno. Jen mi nejde do hlavy, �e verze 00, kter� tyto ��sti tak�
+vyp�n�, by podle m�ch pokus� m�la b�t ekvivalentn� s verz�, kter�
+byla na velk�ch datech dosud hodnocena jako nej�sp�n�j��!
+
+Intermezzo: Testuji tent�� train.pl v t�e konfiguraci (1100) na
+loki s velk�mi daty. 73088 v�t, 2956228 ud�lost�. Tr�nov�n� trvalo
+16:51 minut. Anal�za trvala 31:24 minut. V�sledky:
+G 90765 - B 35265 - P 72,0
+
+
+
+27.5.2003
+
+Pozor, koordina�n� ud�losti se zpracov�vaj� na dvou r�zn�ch m�stech:
+postaru p�ed z�vislostmi, nov� po z�vislostech. Sou�asn� verze tedy
+n�kter� ud�losti eviduje dvakr�t. Te� jsem cel� druh� koordina�n�
+blok zakomentoval a pokou��m se zopakovat v�sledky pro konfiguraci
+0000. Povedlo se. 4:59 minut, 607328 ud�lost�, 12847 kB.
+
+Jednoduch� kr��ek, koordina�n� blok jsem p�esunul dozadu k tomu
+zakomentovan�mu (je ale o �rove� v�� ve vlastn� smy�ce, to jsem
+zachoval). Nem�lo by se nic zm�nit, ale zm�nilo se :-(. 4:20 minut,
+547314 ud�lost�, 11684 kB.
+
+Tak jinak. Zpracov�n� koordinac� je na p�vodn�m m�st�, ale odstranil
+jsem z n�j vol�n� funkce transformovat_koordinace(). 4:31 minut,
+607328 ud�lost�, 12847 kB. P�i�el jsem na to, pro� asi hraje roli,
+jestli se koordinace zpracov�vaj� p�ed z�vislostmi, nebo po nich. Ve
+star�m zpracov�n� koordinac� se toti� m�n� morfologick� zna�ka
+v ko�eni koordinace.
+
+Koordinace p�esunuty do samostatn� procedury. Kontroln� b�h train.pl.
+4:43 minut, 606506 ud�lost� (jakto?!), 12836 kB. Opravena chyba
+v odkazech. 4:54 minut, 607328 ud�lost�, 12847 kB. Zru�ena procedura
+evidovat_udalosti() (�lo jen o kopii star� tr�novac� procedury, u�
+nepou��vanou). 4:50 minut, 607328 ud�lost�, 12847 kB. Dokon�eno
+napojov�n� koordinac� na voliteln� rozskoky pro d�d�n� zna�ky. 5:01
+minut, 607328 ud�lost�, 12847 kB.
+
+Dal�� testov�n�, �e se zachovala nejen velikost statistiky, ale i
+�sp�nost anal�zy.
+Konfigurace 0000, parse.pl pro v�echny pokusy nezm�n�n.
+5:01 minut - 607328 ud�lost� - 12847 kB (neli�� se)
+6:30 minut - G 5689 - B 2212 - P 72,0 (neli�� se)
+
+Konfigurace 1000 (nov� zp�sob rozpozn�n� �lena koordinace):
+5:09 minut - 558561 ud�lost� - 11904 kB (li�� se od 10 zkou�. minule)
+6:05 minut - G 5695 - B 2206 - P 72,1 (o 2 hor�� ne� 10 minule)
+
+Konfigurace 0100 (apozice, ale rozpozn�n� �lena postaru):
+5:01 minut - 606744 ud�lost� - 12882 kB (li�� se)
+6:25 minut - G 5675 - B 2226 - P 71,8 (hor�� o 5)
+
+Konfigurace 1100 (nov� rozpozn�n� �lena + apozice):
+5:00 minut - 558997 ud�lost� - 11958 kB (li�� se)
+6:15 minut - G 5674 - B 2227 - P 71,8 (hor�� o 26)
+
+Konfigurace 1001 (nov� rozpozn�n� �lena + zd�d�n� zna�ky v koord):
+4:46 minut - 551019 ud�lost� - 11784 kB
+6:13 minut - G 5726 - B 2175 - P 72,5 (zat�m nejlep�� v�sledek)
+
+Konfigurace 1010 (nov� rozpozn�n� �lena + zd�d�n� zna�ky v z�visl):
+4:55 minut - 563541 ud�lost� - 12115 kB
+6:22 minut - G 5683 - B 2218 - P 71,9
+
+Konfigurace 1011 (nov� rozpozn�n� �lena + zd�d�n� v�ude):
+5:16 minut - 552908 ud�lost� - 11872 kB
+6:27 minut - G 5683 - B 2218 - P 71,9 (zvl�tn�: shodn� v�sledek s 1010, i kdy� statistika je jin�)
+
+Konfigurace 1101 (nov� rozpozn�n� �lena + apozice + zd�� v koord):
+5:16 minut - 551473 ud�lost� - 11851 kB
+6:19 minut - G 5717 - B 2184 - P 72,4
+
+Konfigurace 1110 (nov� rozpozn�n� �lena + apozice + zd�� v z�vis):
+4:55 minut - 564657 ud�lost� - 12180 kB
+6:14 minut - G 5667 - B 2234 - P 71,7
+
+Konfigurace 1111 (�pln� p�echod na apozice a zd�d�n� zna�ky):
+4:56 minut - 552929 ud�lost� - 11910 kB
+6:15 minut - G 5673 - B 2228 - P 71,8
+
+Z�v�r: obecn� se zd�, �e zahrnut� apozic nepom�h�. Ani jejich
+vypnut� v�ak samo o sob� nevede k nejvy��� �sp�nosti, p�esto�e
+konfigurace 1011 by mi p�i�la z t�ch bez apozic je�t� jako nej�ist��
+�e�en�.
+
+
+
+5.6.2003
+
+Op�t na lokim s velk�mi daty. I tady vyzkou��me n�kolik konfigurac�,
+ale asi u� ne v�echny. Konfigurace 1111.
+13:45 minut - 2927372 ud�lost� - 63160948 B
+31:24 minut - G 90811 - B 35219 - P 72,1
+
+
+
+11.6.2003
+
+Konfigurace 0000 (podle posledn�ch zku�enost� s velk�mi daty by to
+m�la b�t ta nejlep��).
+16:44 minut - 3225713 ud�lost� - 68517516 B
+31:46 minut - G 90992 - B 35038 - P 72,2
+
+Konfigurace 1001 (byla nejlep�� na mal�ch datech).
+12:03 minut - 2928036 ud�lost� - 62868492 B
+31:16 minut - G 91256 - B 34774 - P 72,4
+
+NOV� NEJLEP�� V�SLEDEK!
+Ukl�z�m rozvrtan� verze a potvrd�m CVS. Alternativy v train.pl
+z�stanou p�ep�nateln�, ale p�ep�n�n� nep�jde ovl�dat z konfigura�n�ho
+souboru (bude se muset prov�d�t p��mo ve zdroj�ku) a defaultn� z�stane
+zapnut� konfigurace 1001, co� znamen�:
+- rozpozn�n� �lena koordinace nov�m zp�sobem (porad� si s �lenem,
+  kter� nen� bezprost�edn�m d�t�tem koordina�n�ho ko�ene, n�br� je
+  zav�en nap�. p�es p�edlo�ku)
+- apozice se nepova�uje za koordinaci a nijak zvlṻ se nezpracov�v�
+- p�i tr�nov�n� z�vislost� se nepou��vaj� zd�d�n� zna�ky
+- p�i tr�nov�n� koordinac� se naopak zd�d�n� zna�ky pou��vaj�
+Posledn� dva body znamenaj�:
+
+P�i zaznamen�v�n� ud�losti KZZ (koordinace dvou zna�ek) zji��ujeme
+seznam zna�ek m�ch partner� ze seznamu zd�d�n�ch zna�ek ko�ene
+koordinace. Na rozd�l od star��ho p��stupu by tenhle m�l b�t odoln�j��
+v��i vno�en�m koordinac�m a p�edlo�k�m. D��ve se proch�zely v�echny
+uzly ve v�t�, o ka�d�m se zjistilo, zda je to �len koordinace, a pokud
+byl, jeho zna�ka (ze @znacky) se p�idala do @koortypy; z�rove� se
+p�idala KZZ pro n�j a v�echny ji� d��ve nalezen� @koortypy.
+
+Pozoruhodn� je, �e z�ejm� navlas stejn� zaznamen�v�n� ud�losti KZZ se
+d�je v bloku zpracovat_vetu() i ve z n�j volan�m bloku
+projit_koordinace(). Mus�m zjistit, zda je to pot�eba kv�li jin�m
+alternativ�m, nebo zda se do jedn� z kopi� b�h nikdy nedostane, nebo
+zda se dokonce prov�d�j� ob� kopie a ka�d� koordinace se zaeviduje
+dvakr�t!
+
+Skute�n� se volaj� ud(KZZ) na obou m�stech. Probl�m ale bude
+komplikovan�j��, proto�e poka�d� jsou parametry KZZ jin� zna�ky.
+
+
+
+12.6.2003
+
+Opraveno ukl�d�n� koordinac� se �patn�mi zna�kami. Zat�m neopraveno
+dvoj� ukl�d�n� koordinac�. Konfigurace 1001.
+13:46 minut - 2927251 ud�lost� - 62851146 B
+31:37 minut - G 91320 - B 34710 - P 72,5
+
+Vypnuto druh� ukl�d�n� koordinac�, prvn� ponech�no.
+13:40 minut - 2927054 ud�lost� - 62848982 B
+30:59 minut - G 91155 - B 34875 - P 72,3
+
+Nov� pokus o popis v�t�zn� konfigurace 1001:
+1) �len koordinace se pozn�v� nov�m algoritmem, zvl�daj�c�m vno�en�
+koordinace a p�edlo�ky v koordinac�ch.
+2) Apozice se nepova�uj� za koordinace a zach�z� se s nimi jako s p�ry
+oby�ejn�ch z�vislost�.
+3) Z�vislostn� ud�losti se sestavuj� z vlastn�ch zna�ek ��d�c�ho a
+z�visl�ho uzlu, nikoli z t�ch zd�d�n�ch. Dokonce se z�ejm� ned�l� ani
+to, co se d�lalo kdysi, toti� �e ko�en koordinace bude v z�vislostech
+n��eho na koordinaci �i koordinace na n��em zastoupen zna�kou prvn�ho
+nebo posledn�ho �lena koordinace. To by byla chyba! Koordinace by v
+z�vislostech m�la b�t reprezentov�na n���m lep��m ne� zna�kou spojky.
+4) Koordina�n� ud�losti se sestavuj� nov�m algoritmem, kter� vych�z�
+ze zd�d�n�ch zna�ek ko�ene. Mj. se t�m zajist� spr�vn� zapo��t�n�
+vno�en�ch koordinac�. (Star� algoritmus proch�zel v�echny uzly v�ty,
+pokud na�el �lena dan� koordinace, sp�roval ho obousm�rn� se v�emi
+d��ve nalezen�mi �leny t�to koordinace. Nov� algoritmus p�ruje jen
+jednosm�rn�, ale zato se v�emi �leny, tedy i s t�mi, kte�� ve v�t�
+n�sleduj� a� za pr�v� nalezen�m �lenem.)
+
+Opravena chyba: zna�ka prvn�ho �lena koordinace se nekop�rovala do
+ko�ene koordinace za ��elem sestavov�n� z�vislostn�ch ud�lost�, kde
+n�co z�vis� na koordinaci nebo koordinace z�vis� na
+n��em. (Techni�t�ji: $alt[2] se nep�ed�valo do a nepou��valo v
+procedu�e projit_koordinace().)
+
+14:00 minut - 2964897 ud�lost� - 63267805 B
+32:29 minut - G 89598 - B 36432 - P 71,1
+
+Ach jo. Zas jedna oprava chyby, kter� tot�ln� zkaz� �sp�nost. Zkus�me
+tedy je�t� jednou zapnout zd�d�n� zna�ky pro koordinace vstupuj�c� do
+z�vislost�. Konfigurace 1011.
+
+12:22 minut - 2932518 ud�lost� - 63163328 B
+31:01 minut - G 90852 - B 35178 - P 72,1
+
+
+
+17.6.2003
+
+Vzhledem k oprav�m minul� �tvrtek je bohu�el na m�st� op�t
+zkontrolovat, zda konfigurace 0000 je�t� st�le dosahuje stejn�
+�sp�nosti jako kdysi (i kdy� tato �sp�nost u� nen� nejlep�� v
+historii, lep�� �sp�nosti zat�m byly dosa�eny jen s pomoc� chyby, a
+tedy omylem a neod�vodn�n�).
+
+Pozn�mka 19.6.2003: p�ib�vaj� dal�� konfigurace, �ad�m je sestupn�
+podle �sp�nosti.
+
+Konfigurace 0010.
+
+13:15 minut - 2942371 ud�lost�
+29:44 minut - G 91258 - B 34772 - P 72,4
+
+Konfigurace 0011.
+
+13:11 minut - 2943053 ud�lost�
+30:47 minut - G 91103 - B 34927 - P 72,3
+
+Konfigurace 0110.
+
+13:01 minut - 2892516 ud�lost�.
+30:42 minut - G 91027 - B 35003 - P 72,2
+
+Konfigurace 0000.
+
+15:50 minut - 3225713 ud�lost�
+30:20 minut - G 90992 - B 35038 - P 72,2
+
+Konfigurace 1010.
+
+11:34 minut - 2932361 ud�lost�
+30:26 minut - G 90966 - B 35064 - P 72,2
+
+Konfigurace 1000.
+
+13:25 minut - 2969063 ud�lost�
+31:14 minut - G 90881 - B 35149 - P 72,1
+
+Konfigurace 0100.
+
+12:42 minut - 3216376 ud�lost�
+31:43 minut - G 90733 - B 35297 - P 72,0
+
+Konfigurace 1111.
+
+13:12 minut - 2926483 ud�lost�
+31:01 minut - G 90713 - B 35317 - P 72,0
+
+Konfigurace 0001.
+
+12:39 minut - 3209963 ud�lost�
+30:15 minut - G 89827 - B 36203 - P 71,3
+
+Konfigurace 1001.
+
+13:15 minut - 2964897 ud�lost�
+31:58 minut - G 89598 - B 36432 - P 71,1
+
+
+
+20.6.2003
+
+Dal�� konfigurace (zb�v� jich 6) u� nebudu testovat. Nov� nejlep��
+konfigurace je tedy 0010 s �sp�nost� 72,4 (91258). Tato konfigurace
+znamen�, �e:
+- �lenstv� v koordinaci se zji��uje postaru (tj. chybn�!)
+- apozice se nepova�uj� za koordinace
+- ko�en koordinace jako �. i z. �len z�vislost� pou��v� zd�d�n� zna�ky
+- v koordina�n�ch ud�lostech se zd�d�n� zna�ky nepou��vaj�
+Nastav�m tuto konfiguraci v train.pl a provedu cvs commit, pak ale
+znova zapnu i nov� zji��ov�n� �lenstv� v koordinaci a ob�tuju dv�
+desetiny procenta �sp�nosti ve prosp�ch spr�vn�ho postupu. D�le se
+tedy bude pokra�ovat s konfigurac� 1010, kter� m� �sp�nost 72,2
+(90966, co� je nepatrn� m�n�, ne� m�la dosavadn� 0000).
+
+
+
+Zkus�me ka�dou koordinaci (ud�lost KZZ) zapo��tat s dvojn�sobkem
+skute�n� �etnosti. Kdy� jsme n�co podobn�ho ud�lali omylem, �sp�nost
+se zv��ila; nen� akor�t jist�, �e to bylo t�mhle a ne je�t� n�jakou
+jinou chybou.
+
+13:25 minut - 2942371 ud�lost�
+29:10 minut - G 91763 - B 34267 - P 72,8
+
+To jsou v�ci... Zkus�m tedy, co se stane, kdy� se ka�d� koordinace
+zapo��t� t�ikr�t.
+
+13:18 minut - 2942371 ud�lost�
+30:14 minut - G 91971 - B 34059 - P 73,0
+
+
+
+26.6.2003
+
+Tr�nuju konfiguraci 1010 (v p�tek jsem a� do ve�era m�l zapnuto 0010),
+nech�v�m v�ak zapnuto trojn�sobn� zv�hodn�n� koordinac� proti
+z�vislostem.
+
+12:46 minut - 2932361 ud�lost�
+29:45 minut - G 91209 - B 34821 - P 72,4
+
+Pokus: n�siln� �prava funkce projit_koordinace(). Jestli�e m�
+koordinace jen jednoho �lena, vyma�e se ji� zaznamenan� ud�lost KJJ,
+nezaznamen� se ud�lost KZZ a m�sto toho se zaznamen� z�vislostn�
+ud�lost OZZ (jako z�stupce; ostatn� m�n� d�le�it� z�vislostn� ud�losti
+se zat�m nezaznamen�vaj�).
+
+11:17 minut - 2861004 ud�lost�
+29:43 minut - G 90400 - B 35630 - P 71,7
+
+Nijak slibn� to tedy nevypad�. Pokus ru��m a jedno�etn�mi koordinacemi
+se v t�to chv�li nebudu d�le zab�vat.
+
+
+
+27.6.2003
+
+POZOR! Nov� zp�sob zji��ov�n� �lenstv� v koordinaci je sice v n��em
+spr�vn�j��, ale zase ka�le na to, zda m�m nebo nem�m vypnut� apozice!
+Zkou��m je zat�m natvrdo vypnout v parslib.pl.
+
+13:38 minut - 2963729 ud�lost�.
+29:53 minut - G 91235 - B 34795 - P 72,4
+
+Abych mohl v�bec je�t� n�kdy n�co upravovat v train.pl, budu muset
+alternativy, kter� jsem v posledn�ch t�dnech vytvo�il, zase n�jak
+zkompaktnit a v�bec to cel� form�ln� upravit. Bylo by dobr�, kdyby i
+tak z�stala mo�nost alternativy p�ep�nat, ale hlavn� je nutn�, abych
+si nezkazil sou�asnou nejlep�� �sp�nost.
+
+Kontrola �sp�nosti:
+11:51 minut - 2963729 ud�lost�.
+30:07 minut - G 91235 - B 34795 - P 72,4
+
+
+
+30.6.2003
+
+Nov� druh ud�losti KMM ud�v�, �e uzel s jistou morfologickou zna�kou
+byl �lenem koordinace. Po vyd�len� p��slu�n�m po�tem ud�lost� UZZ by
+m�la vzniknout pravd�podobnost zapojen� uzlu do koordinace.
+
+Podle o�ek�v�n� z toho ��dn� z�zrak nevypadl.
+
+G 89526 - B 36504 - P 71,0
+
+
+
+1.7.2003
+
+Valence. N�vrat k tomu, o �em jsem psal do Taibei. Naposled jsem se
+t�m zab�val zhruba p�ed rokem, kdy� jsem odevzd�val kone�nou verzi
+�l�nku. Proto�e tehdy nebylo jist�, zda seznam slovesn�ch valenc� z
+Philadelphie byl ten nejlep��, ke kter�mu jsem se v roce 1999 dostal,
+pokus�m se ho z�skat znova. Tentokr�t p��mo perlov�m tr�nova�em,
+prost�ednictv�m ud�lost� nad zd�d�n�mi zna�kami, z cel�ho PDT 1 a pro
+v�echna slova (nejen slovesa). Budou to ud�losti, kde na jedn� stran�
+bude st�t heslo ��d�c�ho uzlu, na druh� stran� abecedn� se�azen�
+zd�d�n� morfologick� zna�ky z�visl�ch uzl�. Ze z�visl�ch uzl� se
+tentokr�t nebudou um�le vyhazovat podm�ty (podstatn� jm�na v prvn�m
+p�d�). U ��d�c�ch sloves se za samostatn� heslo budou pova�ovat tvary
+trpn�ho p���est�, jinak se heslo v�dy vezme z morfologick� roviny.
+
+18:29 minut - 3231635 ud�lost�, z toho 267906 RAM.
+
+Odbo�ka, post�eh: p�ivlast�ovac� a ukazovac� z�jmena se odte� budou
+p�i tr�ninku i p�i anal�ze pova�ovat za p��davn� jm�na.
+
+17:20 minut - 3224091 ud�lost�.
+30:03 minut - G 91035 - B 34995 - P 72,2
+
+Zhor�en�, vrac�m do p�vodn�ho stavu.
+
+18:43 minut - 3231635 ud�lost�.
+30:00 minut - G 91235 - B 34795 - P 72,4
+
+�sp�nost se vr�tila na dosavadn� maximum.
+
+
+
+2.7.2003
+
+Pokus s kr�tk�mi v�tami. V�echny v�ty d�lky 5 slov a m�n� se p�i
+tr�ninku zaznamenaj� jako ud�lost VET <vzor> <strom>, kde vzor bude
+posloupnost morfologick�ch zna�ek, zaznamenan� podobn� jako r�mec
+(zna�ky jsou odd�leny vlnovkou) a strom bude posloupnost ��sel, kter�
+pro ka�d� slovo ur�� odkazem jeho rodi�e. Nap�.:
+VET Rk~A3~N3 0,3,1
+
+13:22 minut - 3235652 ud�lost�, z toho 4018 VET.
+29:46 minut - G 91388 - B 34642 - P 72,5
+
+Zkus�me roz���en� na v�ty o �esti slovech.
+
+16:54 minut - 3237584 ud�lost�, z toho 5950 VET.
+30:51 minut - G 91391 - B 34639 - P 72,5
+
+Zlep�en� u� bylo dost nepatrn� a mo�n� by se s ohledem na nap�chan�
+�kody m�lo rad�ji z�stat u v�t do d�lky 5, ale p�esto se zkus�me je�t�
+pod�vat na v�ty o sedmi slovech. Tam u� pravd�podobn� dojde ke
+zhor�en�, ale kdo v�...
+
+13:54 minut - 3239777 ud�lost�, z toho 8143 VET.
+29:49 minut - G 91491 - B 34539 - P 72,6
+
+Dobr�, zkus�me je�t� v�ty o osmi slovech.
+
+13:42 minut - 3242203 ud�lost�, z toho 10569 VET.
+36:16 minut - G 91511 - B 34519 - P 72,6
+
+
+
+3.7.2003
+
+Pou�t�m se do disertace, p��padn� v�stupy n�sleduj�c�ch t�dn� se
+mo�n� objev� p��mo v n�.
+
+
+
+8.8.2003
+
+M�l jsem povyp�nan� zpracov�n� koordinac�, rad�ji zkontroluju, �e
+po��d je�t� um�m dos�hnout t� nejvy��� �sp�nosti.
+
+17:21 minut - 3242203 ud�lost�
+31:28 minut - G 91539 - B 34491 - P 72.6
+
+
+
+2.9.2003
+
+Selektivn� lexikalizuji vzta�n� z�jmena (kdo, co, kter�, jak�, ��,
+jen�) heslem. �sp�nost se zv��ila, ale jen nepatrn�.
+
+18:16 minut - 3262065 ud�lost� (011)
+33:12 minut - G 91550 - B 34480 - P 72,6
+
+Podobn� pokus, ale m�sto hesla p�id�v�m jen "W" (za "wh").
+
+17:38 minut - 3252683 ud�lost� (013)
+34:45 minut - G 91531 - B 34499 - P 72,6
+
+Vrac�m zp�t lexikalizaci heslem. Pokus o roz���en�: lexikalizuji
+v�echna z�jmena, nejen vzta�n�.
+
+14:29 minut - 3301172 ud�lost� (015)
+33:50 minut - G 91555 - B 34475 - P 72,6
+
+M�rn�j�� pokus: lexikalizuji osobn�, p�ivlast�ovac�, ukazovac� a
+vzta�n� (tj. nejb�n�j�� uzav�en� t��dy). Jde o z�jmena za��naj�c� na
+j�, ty, on, my, vy, m�j, tv�j, jeho, jej�, n�, v�, jejich, sv�j,
+ten, tento, tenhle, onen, takov�, t��, tent��, s�m, kdo, co, kter,
+jak, ��, jen�. Nastalo sice dal�� m�rn� zlep�en�, ale v c�lov� verzi
+parseru tuto �pravu nenech�m, proto�e je jazykov� z�visl�.
+
+18:22 minut - 3293735 ud�lost� (018)
+36:23 minut - G 91561 - B 34469 - P 72,7
+
+Vr�cena selektivn� lexikalizace v�ech z�jmen. P�id�na selektivn�
+lexikalizace pod�ad�c�ch spojek (dosud se lexikalizovaly pouze spojky
+za��naj�c� na "�e", "aby" a "zda").
+
+21:26 minut - 3316716 ud�lost� (020)
+30:09 minut - G 91344 - B 34686 - P 72,5
+
+Selektivn� lexikalizace pod�ad�c�ch spojek vr�cena do p�vodn�ho stavu.
+P�id�na selektivn� lexikalizace vybran�ch p��slovc�. Jsou vymezena v��tem
+p��mo ve zdroj�ku, ale p�i tro�e pr�ce je lze vymezit jazykov� nez�visle
+pro tr�nink i test jako takov� p��slovce (tvary, ne hesla), kter� se
+v tr�novac�ch datech vyskytla alespo� stokr�t. Bohu�el nejde pou��t
+rozli�en� zna�ek Db a Dg, i kdy� v�t�ina nej�ast�j��ch p��slovc� m� Db.
+Nap��klad des�t� nej�ast�j�� p��slovce "v�ce" se ��astn� konstrukc�, kv�li
+kter�m stoj� za to zkusit lexikalizaci, ale toto p��slovce m� zna�ku Dg
+(proto�e je to druh� stupe� p��slovce "hodn�").
+
+9 nej�ast�j��ch p��slovc�:
+1. tak (2101) 2. jak (1638) 3. u� (1611) 4. tak� (1566) 5. ji� (1344)
+6. je�t� (1314) 7. v�era (1293) 8. tedy (990) 9. pak (952)
+5 nej�ast�j��ch p��slovc� se zna�kou Dg:
+10. v�ce (946) 26. stejn� (448) 36. z�ejm� (377) 41. �asto (357)
+46. m�n� (335)
+
+20:37 minut - 3439991 ud�lost� (022)
+30:18 minut - G 91944 - B 34086 - P 73,0 (!!!)
+
+
+
+3.9.2003
+
+Nov� pokus rozchodit subkategorizaci. Pro za��tek (��slo pokusu 24) jsem
+v parser.ini zapnul valence=1. Na��t� se star� philadelphsk� seznam r�mc�
+z /home/zeman/programy/valence/seznam_ramcu.txt.
+
+G 91837 - B 34193 - P 72,9
+
+�sp�nost se sn��ila. Nechce se mi hned te� zkoumat, kde je probl�m.
+Soubor 0 = /home/zeman/data/test.amm, zna�ka = <g>
+Soubor 1 = 023.csts, zna�ka = <MDg.*?src="dz".*?>
+Soubor 2 = 024.csts, zna�ka = <MDg.*?src="dz".*?>
+ 91639   0+1+2     (oba dob�e)
+ 33690   0,1+2     (oba stejn� �patn�)
+   198   0,1,2     (oba �patn�, ka�d� jinak)
+   305   0+1,2     (zhor�en�)
+   198   0+2,1     (zlep�en�)
+
+
+
+5.9.2003
+
+Parser vr�cen do stavu z 2.9.2003, pou�it model 033.stat.
+
+G 91944 - B 34086 - P 73,0
+
+
+
+8.9.2003
+
+P�estavba. Pot�ebuju zachovat neredukovan� zna�ky pro v�stup, ale
+sou�asn� parser si je nepamatuje. Po p�estavb� budou v�echny anotace
+krom� vlastn�ho slovn�ho tvaru ulo�en� v poli hash� @anot. Pak se
+budou nov� druhy anotac� p�id�vat snadn�ji. V pr�b�hu p�estavby se
+budou muset prov�d�t �ast� kontroly alespo� na prvn�ch 200 v�t�ch,
+�e to je�t� funguje. Vzorov� anal�za (lu0*.csts) m� n�sleduj�c�
+v�sledky:
+
+G 5889 - B 2012 - P 74,5
+
+Prvn� etapa: $hesla[$i] nahrazena $anot[$i]{heslo}.
+parse.pl OK (G 5889)
+Druh� etapa: $znacky[$i] nahrazeny $anot[$i]{uznacka},
+$mznacky[$i] nahrazeny $anot[$i]{znacka}. To byl trochu v�t�� boj,
+snad posledn� probl�m je s kr�tk�mi v�tami, z�ejm� se te� ve vzorci
+objevuje zna�ka koncov� interpunkce s K (t�eba Z.K) a v natr�novan�
+statistice to tak nen�. Zaz�platoval jsem to v parse.pl, ale mo�n�
+to zas nebude chodit po nov�m p�etr�nov�n�, to se ka�dop�dn� mus�
+ov��it! Tak�e zat�m m�m ov��eno parse.pl na mal�ch datech
+(lu0*.csts). Te� p�ed odchodem pou�t�m tot� na velk�ch datech a pak
+tak� train.pl a je�t� jednou parse.pl, aby se ov��ilo, �e se
+nepokazil ani tr�nink.
+
+
+
+9.9.2003
+
+V�era podle o�ek�v�n� zafungovalo upraven� parse.pl nad starou statistikou,
+ale nezafungovalo po p�etr�nov�n�. Dnes jsem op�t zru�il �pravu a vzorce
+kr�tk�ch v�t tedy v�dy maj� zna�ku koncov� interpunkce roz���enou o "K".
+Bohu�el se n�kam ztratily 3 z�vislosti.
+
+G 91941 (m�sto 91944) - B 34089 - P 73,0
+
+Porovn�v�m statistiky 033 a 055 a logy 042 a 057. Ve statistik�ch se li��
+pouze nov�j�� ud�losti ARG, ADJ, RAM a VET - n�kter� z nich d��ve nem�ly ve
+zna�ce koncov� interpunkce na konci "K", a �ada z nich d��ve nem�la v hesle
+ko�ene dvojk���. Bohu�el se t�m asi nevysv�tluje pokles �sp�nosti. Ze srovn�n�
+log� je vid�t, �e ud�losti KZZ maj� poka�d� trochu jin� �etnosti. Jak k tomu
+ale mohlo doj�t, kdy� statistiky se v ��dc�ch KZZ neli��?
+
+
+
+15.9.2003
+
+Probl�m byl zp�soben t�m, �e n�kter� pravd�podobnosti byly z�visl� na prom�nn�
+$scelkem, co� byl bu� sou�et �etnost� v�ech evidovan�ch ud�lost�, nebo po�et
+r�zn�ch ud�lost�. Kdy� jsme p�idali do statistiky ud�losti, zm�nily se n�kter�
+pravd�podobnosti a ob�as to vedlo k v�b�ru jin� z�vislosti. A to p�esto, �e
+p�idan� ud�losti nem�ly s jevy, jejich� pravd�podobnost se zm�nila, v�bec nic
+spole�n�ho!
+
+�e�en�: ru��m "absolutn� pravd�podobnosti" ($konfig{pabs} je v sou�asn�
+konfiguraci stejn� nastaveno na 0), kv�li kter�m se $scelkem hlavn� pou��valo.
+Tam, kde se $scelkem pou��valo i p�i $konfig{pabs}==0, �lo o chybu. A i kdybych
+se v budoucnosti cht�l ke $konfig{pabs} vr�tit, muselo by se ve jmenovateli
+pou��vat n�jak� jin� ��slo, kter� se nezm�n�, pokud se nezm�n� statistiky,
+kter� se objevuj� v �itateli.
+
+Upozorn�n�: �sp�nost t�m nejsp�� je�t� v�ce klesne. Zkus�me ji pak pozvednout
+dal��m um�l�m zv�hodn�n�m koordinac� (t�eba �e se koordina�n� ud�losti budou
+p�i tr�ninku zaznamen�vat t�ikr�t nebo �ty�ikr�t).
+
+G 92022 - B 34008 - P 73,0
+
+Tak kupodivu tentokr�t �sp�nost naopak m�rn� p�ekonala dosavadn� rekord!
+Ud�l�m tedy cvs commit a vr�t�m se k v�zkumu ��rlivosti (�lo o to zjistit,
+kolikr�t parser zav�sil dva ��rlivce vedle sebe, kolikr�t byl jeden nebo oba
+�patn� atd.)
+
+S ��slov�n�m pokus� za��n�me op�t znova od za��tku, p�etr�nujeme s jedni�kou.
+
+3439995 ud�lost�, 20:43 minut
+G 92022 - B 34008 - P 73,0
+
+
+
+8.3.2004
+
+P�estavba parse.pl na parse1.pl a �adu modul�. Na souboru lu01 u� se
+p�vodn� i nov� parser chovaj� identicky. Podle v��e uveden�ch z�znam�
+ze z��� to v�ak vypad�, �e na cel�ch datech jsou po��d je�t�
+rezervy. N�sleduj� v�sledky nov�ho parseru (parse1):
+
+G 91933 - B 34097 - P 72,9
+
+Ukazuje se ov�em, �e parse.pl je na tom v sou�asn� dob� �pln�
+stejn�. Matn� si vzpom�n�m, �e n�kdy na podzim, kdy jsem nevedl
+po��dn� z�znamy, jsem se rozhodl odstranit n�jakou syst�movou chybu i
+za cenu toho, �e moment�ln� to lehce po�kod� �sp�nost.
+
+P�id�v�m nov� moduly do CVS a potvrzuji stav CVS. Prozat�m ponech�v�m
+nov� verzi jm�no parse1 a star� parse. V p���t� verzi se to asi u�
+zm�n�.
+
+
+
+10.4.2004
+
+Dal�� �prava parse1.pl kv�li znovurozchozen� subkategorizace.
+Po��te�n� m��en� mi poskytne srovn�n�, podle kter�ho bych m�l
+poznat, �e jsem zp�sobil chybu. Pou��v�m o�ezan� model 4013
+(chyb� ud�losti vid�n� jen jednou nebo m�n�kr�t). Testuju na prvn�m
+souboru lu01.
+
+G 680 - B 239 - P 74,0
+
+Pro za��tek p�ejdu z vol�n� parslib.pl na pou��v�n� csts.pm.
+Sou�asn� zru��m pou��v�n� pole @slova.
+
+
+
+11.4.2004
+
+Po dni pr�ce se mi poda�ilo za��dit, aby i upraven� parser d�val po�adovanou
+�sp�nost.
+
+G 680 - B 239 - P 74,0
+
+
+
+22.4.2004
+
+Pou�t�m parser na frekim se v�� par�dou, v�etn� n-tic. D�v� o p�l procenta vy���
+�sp�nost ne� bylo dosud b�n�. Odpov�d� to tomu, jak si pamatuju ��inek n-tic,
+ale v tomto z�znamu nem��u naj�t p��slu�n� ��slo, abych zjistil, zda to sed� p�esn�.
+
+G 92594 - B 33436 - P 73,5 - b�h 5031
+
+��elem dne�n� seance je ov��it vliv valence (pravd�podobn� zanedbateln�) na �sp�nost
+v sou�asn�ch podm�nk�ch. Mus� se to toti� napsat do disertace. Modul valence se
+kv�li tomu mus� opr�it a znovu rozchodit.
+
+G 92532 - B 33498 - P 73,4 - b�h 5032
+
+
+
+23.4.2004
+
+Pseudoval = 0, valence = 1.
+
+G 92458 - B 33572 - P 73,4 - b�h 5033
+
+Pseudoval = 0, valence = 0.
+
+G 92525 - B 33505 - P 73,4 - b�h 5034
+
+T�m bylo prozat�m u�in�no zadost pot�eb� ��sel v disertaci. Te� se vr�t�m k r�zn�m
+projev�m subkategorizace sloves, konkr�tn� k p�eskakov�n� slovesa z�vislost�.
+V b�hu 5031 (viz prvn� v�erej�� v�sledek, G 92594) hled�m v�echny p��pady, kdy
+n�jak� z�vislost p�esko�ila sloveso. D�l�m je na spr�vn� a chybn� a hled�m takov�,
+kter� jsou v drtiv� v�t�in� p��pad� (> 90 %) chybn�. D�l�m je podle upraven�ch
+zna�ek p�esko�en�ho slovesa, ��d�c�ho a z�visl�ho uzlu. Nej�etn�j�� chybn� jsou:
+(vysv�tlivky: po�et v�skyt� - procenta chybn�/celkem - zna�ka slovesa - ��d�c�ho - z�visl�ho - 0/1 chybn�/spr�vn�
+168x (91,3%) Vf VB N4 0
+120x (90,9%) Vf Vp N4 0
+ 98x (89,1%) Vf Vp Z, 0
+ 92x (82,9%) Vf VB Z, 0
+ 88x (40,2%) Vp #  J^ 0
+ 87x (92,6%) Vf VB J^ 0
+Celkem sou�et takov�ch p�esko�en�, kter� byla chybn� ve v�ce ne� 90 % p��pad�: 4946.
+Kdyby se 90 % z t�chto p��pad� (4451) p�idalo do spr�vn�ch z�vislost�, byla by
+�sp�nost 77 %! Jen�e to by vy�adovalo, abych m�sto zak�zan� z�vislosti na�el v�dy
+tu spr�vnou. A to je utopie.
+
+Pokud se nebudu ohl��et na zna�ku z�visl�ho uzlu, budou nej�ast�j�� op�t p�esko�en�
+infinitivy:
+852x (89%) Vf VB 0
+667x (87%) Vf Vp 0
+Celkem sou�et 90- a v�ceprocentn�ch: 1796.
+
+Krom� z�kazu p�esko�en� by se dala vyzkou�et i jin� v�c. P�i tr�nov�n� bych si
+u ka�d� z�vislosti pamatoval, zda p�esko�ila sloveso (a pop�. tak� jak�).
+
+Kdy� se zak�e p�eskakov�n� pro konkr�tn� zna�ky, kter� byly vid�t aspo� jednou
+a u nich� je p�eskok v aspo� 90 % chybn�, �sp�nost vzroste. Ale pozor, zat�m to
+nen� dvakr�t korektn�. Seznam zak�zan�ch p�eskok� toti� zji��uju z testovac�ch
+dat!
+
+G 93559 - B 32471 - P 74,2 - freki 5048
+
+Pou�t�m tedy na frekim test na tr�novac�ch datech. Na v�sledn�m CSTS zkus�m vyhledat
+nov� seznam zak�zan�ch p�eskok�. Bude asi zkreslen�, proto�e parser se na tr�novac�ch
+datech chov� jinak ne� na testovac�ch, ale nebude to podvod. Nechce se mi vy�le�ovat
+zvl�tn� data a parser p�etr�nov�vat na zbytku, i kdy� na to n�kdy t�eba tak� dojde.
+
+freki 5050 ... cel� tr�novac� data, z�kaz p�eskakov�n� vypnut
+shrek 5051 ... testovac� data, z�kaz zapnut, seznam z�kaz�: nejen slovesa, vid�na aspo� 1x
+Oboj� spadlo, proto�e Milan n�co d�lal a odpojil disk, na kter� se ukl�daly v�stupy.
+Na nov�m disku pod ��slem 14 to nakonec dob�hlo (trv� to ov�em kolem hodiny, proch�zen�
+v�ech p�eskok� ve t�ech vno�en�ch smy�k�ch je dost neefektivn�).
+
+G 93764 - B 32266 - P 74,4 - shrek 0014
+
+Tr�novac� data (znova 5050, te� pod ��slem 015).
+
+G 974093 - B 281497 - P 77,6 - 015
+
+
+
+26.4.2004
+
+Projdu v�stup z parsingu tr�novac�ch dat a zkus�m na n�m natr�novat z�kazy p�eskakov�n�.
+Z�skal jsem 5968 r�zn�ch trojic zna�ek, definuj�c�ch z�kazy (p�esko�en�, ��d�c�, z�visl�).
+Zahrnuty jsou pouze trojice, kter� se vyskytly alespo� p�tkr�t. Zkus�m pustit parser
+s vyu�it�m tohoto seznamu z�kaz�. Zap�n�m z�kaz p�eskakov�n�, vrac�m cestu k testovac�m
+dat�m.
+
+G 93132 - B 32898 - P 73,9 - freki 016 :-(
+
+Cht�lo by to p�ece jen zjistit, jak moc se �id�m, kdy� m�sto vy�len�n�ch dat pou��v�m
+anal�zu tr�novac�ch dat. Natr�novat tedy parser na mtrain datech a pustit ho na mtest
+data.
+
+017.stat je statistika natr�novan� na mtrain datech.
+freki 018 je anal�za mtest dat statistikou 017.
+G 89121 - B 32960 - P 73,0 - freki 018
+
+P�i t� p��le�itosti jsem pon�kud zcivilizoval train.pl, aby u� nepou��valo parslib.pl,
+ale csts.pm a parse.pm, a tak� aby pln� p�e�lo na pole @anot a zapomn�lo na @slova,
+@struktura a @afun. Nyn� p�ejmenuju parse1.pl na parse.pl a train1.pl na train.pl a
+cel� to ulo��m do CVS.
+
+Aktualizoval jsem seznam zak�zan�ch p�eskok� (p�esko�en�-��d�c�-z�visl�) podle
+018.csts. Jsou tam v�echny slovn� druhy v takov�ch p�eskoc�ch, kter� se vyskytly
+alespo� p�tkr�t a kter� byly z 90 % �patn�. Celkem seznam pokr�v� 22283 p�esko�en�ch
+uzl� v 018.csts. Nyn� otestuju tento seznam z�kaz� na dtest datech parserem natr�novan�m
+na train datech (statistika 013.stat).
+
+G 92782 - B 33248 - P 73,6 - T 31:11 min - freki 019
+
+Zpomalen� kv�li testov�n� zak�zan�ch p�eskok� (slo�itost n3) se v�razn�ji neprojevilo,
+ale freki je z�ejm� nov� d�lo (4� Intel Xeon 2.8 GHz, 4 GB pam�ti).
+
+�sp�nost je ov�em ni��� ne� se seznamem z testovac�ch dat. Je�t� mus�m otestovat
+seznamy z�kaz� z�skan� ze stejn�ch dat (018.csts), ale s jin�m nastaven�m.
+
+vid�no alespo� p�tkr�t, libovoln� slovn� druh ... u� bylo ......... 019 - G 92782 - B 33248 - P 73,6
+vid�no alespo� jednou, libovoln� slovn� druh .... 46264 v�skyt� ... 020 - G 91375 - B 34655 - P 72,5
+vid�no alespo� jednou, jen slovesa ..............  5043 v�skyt� ... 021 - G 92995 - B 33035 - P 73,8
+vid�no alespo� p�tkr�t, jen slovesa .............  2698 v�skyt� ... 022 - G 92995 - B 33035 - P 73,8
+
+
+
+27.4.2004
+
+Je�t� posledn� pokus. Ponech�me p�eskoky sloves, kter� byly vid�ny alespo� p�tkr�t,
+akor�t k nim p�id�me t�i nej�ast�j�� p�eskoky jin�ch uzl�. Jsou to pr�v� ty, kter�
+byly vid�ny alespo� 200kr�t:
+Z, Vp VB (219)
+Z, VB VB (250)
+Z, N1 N1 (267)
+
+G 92942 - B 33088 - P 73,7 - freki 023
+
+Nen� mi jasn�, pro� je to hor��. T�ch 736 hran sice nemus� b�t automaticky dob�e,
+za prv� v testovac�ch datech nemus� b�t stejn� �ast�, za druh� kdy� zak�u jednu
+�patnou mo�nost, je�t� to neznamen�, �e pozn�m tu spr�vnou. Ale kdy� se to nezlep��,
+pro� se to dokonce zhor��? Mo�n� kv�li vedlej��m ��ink�m z�kaz�. Kdy� v ur�it�m
+okam�iku zak�u ud�lat chybu, mo�n� t�m blokuju proveden� n��eho spr�vn�ho v p���t�m
+kroku, a n�kdo tomu n��emu spr�vn�mu pak vyfoukne rybn�k?
+
+Z�v�r: nech�me ten nejmen�� seznam, proto�e sou�asn� pat�� ke dv�ma nej�sp�n�j��m:
+p�eskakov�n� sloves, pokud takov� p�eskok byl k vid�n� alespo� p�tkr�t a z�rove�
+byl s alespo� devades�tiprocentn� pravd�podobnost� chybn�.
+
+Potvrzuju novou �sp�nost 73,8 (G 92995) do CVS.
+
+Pokra�uju v testov�n� subkategorizace. Nyn� se pokus�m vyu��t z�sobn�k stav� anal�zy.
+Na konci anal�zy se zjist�, zda m� n�kter� sloveso nenapln�n� r�mec a zda je ve
+v�t� materi�l, kter�m by ho �lo naplnit. Pokud ano, pokus�me se o to.
+
+
+
+28.4.2004
+
+Trochu jsem zcivilizoval ukl�d�n� stav� anal�zy v modulu rozebrat.pm. Te� kontroluju,
+�e jsem nepokazil �sp�nost.
+
+G 92995 - B 33075 - P 73,8 - freki 026
+
+OK, potvrzeno, �e jsem nic nezkazil.
+
+
+
+29.4.2004
+
+Dokon��m pou��v�n� z�sobn�ku stav� v p��pad�, �e na konci prvn�ho pokusu o anal�zu
+nem� n�kter� sloveso napln�n� sv�j valen�n� r�mec, a�koli by mohlo. Opravil jsem
+ukl�d�n� stav�, je�t� jednou vyzkou��m, �e se nic nepokazilo, ne� za�nu ulo�en�
+stavy doopravdy pou��vat.
+
+G 92995 - B 33075 - P 73,8 - drak 027 - T 58:50 minut
+
+�sp�nost se zapla� p�nb�h nezm�nila, ov�em ukl�d�n� stav� zv��ilo �asovou n�ro�nost
+skoro na dvojn�sobek. Ze stejn�ho d�vodu tak� vzrostla pam�ov� n�ro�nost ze 425 MB
+a� na 1 GB.
+
+Te� tedy zkus�me ulo�en� stavy opravdu vyu��vat. K tomu je pot�eba, aby se bal�k
+z�lo�n�ch stav� z hashe zm�nil na opravdov� z�sobn�k (pole). Hash se n�m v�ak tak�
+hodil, proto�e bylo mo�n� snadno zjistit, zda negenerujeme stav, kter� u� vygenerov�n
+byl. Rozd�l�me tedy strukturu stav� na dv� ��sti, hash vygenerovan�ch stav� a z�sobn�k
+nezpracovan�ch stav�.
+
+generovat_stavy()
+
+Vygeneruje v�echny stavy, ke kter�m se lze dostat z aktu�ln�ho stavu. Vezme v �vahu
+seznamy povolen�ch a zak�zan�ch z�vislost� i v p��pad�, �e n�kter� z�vislost m�
+p�ednost bez ohledu na pravd�podobnostn� model (nap�. tzv. valen�n� z�vislosti).
+Nevezme je v �vahu, pouze pokud m� n�kter� z�vislost absolutn� p�ednost (je to
+druh� d�l koordinace apod.) Nov� stavy jsou stavy se v��m v�udy, jako kdyby se
+v�po�et opravdu m�l ub�rat t�mto sm�rem. Nov� z�vislost je tedy p�id�na do stromu,
+jej� v�ha je zn�m� a je prom�tnuta do ohodnocen� cel�ho stromu. Nav�c se v�, jak�
+je pom�r mezi v�hou t�to z�vislosti a v�hou v�t�zn� z�vislosti v tomto kole (nap�.
+90 %, ale m��e to b�t i p�es 100 %, pokud n�jak� z�vislost vyhr�la d�ky protekci,
+t�eba proto�e je valen�n�). Pr�chod tedy mus� b�t dvoukolov�, nejd��ve se vygeneruj�
+v�echny mo�n� pokra�ovac� stavy v�etn� vah, potom se zjist�, kter� stav vyhraje,
+a k ostatn�m se dopo��t� jejich procentu�ln� odstup.
+
+Funkce generovat_stavy() dostane aktu�ln� stav a vr�t� v�echny stavy, ke kter�m
+se z n�j d� doj�t. Ozna�� tak� stav, kter� podle n� m� zv�t�zit v tomto kole (jak
+vypl�v� z p�edch�zej�c�ho odstavce, nem��eme se spolehnout na to, �e to bude stav
+se 100 % pom�rem k v�t�zi).
+
+Funkce generovat_stavy() nev� o celkov� evidenci vygenerovan�ch a zpracovan�ch
+stav�. Ani tedy nekontroluje, zda nenagenerovala n�jak� stav, kter� u� nageneroval
+n�kdo jin�. To v�echno mus� zajistit n�jak� ob�lka - funkce, kter� ji vol�. Mo�n�
+ale je�t� zm�n�m n�zor a ob� �innosti n�jak spoj�m.
+
+ob�lka
+
+Nechat si vygenerovat nov� stavy z aktu�ln�ho stavu.
+Vyjmout z nich v�t�ze kola, ten u� m� jist�, �e se stane p���t�m aktu�ln�m stavem.
+Z ostatn�ch vy�adit takov�, jejich� strom u� byl n�kdy vygenerov�n (bez ohledu na to, zda u� byly i zpracov�ny).
+Zb�vaj�c� stavy p�idat do p�ehledu stav�. P�ehled se�adit podle pom�ru stavu k v�t�zi jeho kola. (Kv�li tomuto �azen�
+nen� mo�n� ozna�it p�ehled ani za z�sobn�k, ani za frontu.)
+P�ehled stav� je pot�eba udr�ovat v rozumn� velikosti. O��znout ho na n^2 stav�, kde n je po�et slov ve v�t�.
+
+
+
+7.5.2004
+
+P�estavba k�du je z v�t�� ��sti dops�na, m��e se za��t ladit. Nejd��v ale rad�ji
+zkus�m nechat v chodu starou funkci generovat_stavy() a pou��t jen n�kolik nov�ch
+nezbytn�ch drobnost�. Funkce pridat_zavislost() a zrusit_zavislost() jsou p�est�hov�ny
+do nov�ho modulu stav a jsou do nich p�esunuty i n�kter� ��sti okoln�ho k�du, kter�
+d��ve le�ely v rozebrat_vetu(). A zd�d�n� upraven� morfologick� zna�ky u� nep�episuj�
+p�vodn� zna�ky v ko�enech koordinac�, n�br� se zapisuj� do stavu. Z n�j se potom
+vyzved�vaj� a� v modulu model, kdy� se zji��uj� pravd�podobnosti.
+
+Nov� k�d funguje jen na 53 %. Star� kupodivu taky, proto�e se sna�� pou��vat n�kter�
+nov� verze knihoven. Zji��uju, �e n�kter� knihovny nejsou p�id�ny do CVS! To se
+mus� napravit. Na�t�st� se mi poda�ilo sestavit verzi, kter� zvl�d� p�vodn�ch 73,8 %
+(G 92955). �up s n� do CVS :-).
+
+
+
+10.5.2004
+
+Te� je pot�eba zjistit, pro� nov� verze nefunguje.
+
+
+
+11.5.2004
+
+Postupn� jsem opravil rozebrat.pm, p�esunul jsem funkce pridat_zavislost() a zrusit_zavislost()
+do nov�ho modulu stav.pm, zru�il jsem Viterbiho a cel� modul rozebrat.pm jsem pro�istil.
+P�i vytvo�en� koordinace u� nem�n�m p�vodn� $anot->[$i]{uznacka}, ale ukl�d�m pr�b�n�
+m�n�n� zna�ky do $stav->{uznck}[$i]. T�m si uvol�uju ruce, abych se mohl kdykoli
+vr�tit k n�jak�mu star��mu stavu anal�zy, ale nav�c se uk�zalo, �e model n-tic a�
+dote� dost�val po�kozen� uznacky. Po oprav� stoupla maxim�ln� �sp�nost, co� jsem
+tak� okam�it� potvrdil do CVS.
+
+G 93709 - B 32321 - P 74,4 % - T 20:50 (geri 83) => skoro 6 v�t za vte�inu
+
+Nyn� se vr�t�me k p�estavb� zapo�at� 7.5.2004. Zb�v� asi jen vym�nit modul genstav.pm.
+Bohu�el se mi ho neda�� p�im�t ke stejn�mu v�konu jako p�vodn� genstav.pm, ten
+nov� zvl�d� jen 70,0 % (G 88273). Nav�c mu to trv� p���ern� dlouho (52:51 minut).
+Zkus�m to ud�lat znova a postupn�. Te� se vr�t�m k p�vodn�mu genstav.pm a douf�m,
+�e tak� k �sp�nosti 74,4 %. Nav�c zru��m adres�� staraverze a v�e zase p�est�huju
+do p�vodn� slo�ky.
+
+geri 111
+
+G 93708, to je sice chyba jen o jedinou z�vislost, ale nel�b� se mi to. Rozbaluju
+cvs checkout do slo�ky staraverze a pou�t�m anal�zu znova.
+
+geri 112
+
+G 93709, tak�e CVS z�loha funguje. Budu si muset pohr�t s jej�m slou�en�m s upravovanou
+verz�.
+
+geri 113 je nov� verze (v horn� slo�ce), zm�n�ny moduly rozebrat, genstav a stav
+(p�inejmen��m), eviduj� se vid�n� stromy, ale neschov�vaj� se k nim cel� stavy
+a nic se s nimi ned�l�. Evidence les� dosahuje �pi�ek mezi 1000 a 2000 prvk� a zd�
+se, �e nijak viditeln� nezat�uje pam�, proto�e zat�m tak� ke stromu neuchov�v�me
+��dn� velk� data.
+
+G 93708
+
+geri 114 je star� verze (v doln� slo�ce), kam jsem v�ak shora zkop�roval stav.pm.
+V nov�m stav.pm chyb�j� funkce ulozit_stavy() a odfajfkovat_stavy(), kter� by se
+nem�ly nikde pou��vat. Chyb� tam tak� funkce zkopirovat_stav(), co� douf�m tak�
+nevad�. Naopak p�ibylo po��dn� a opravdu hloubkov� duplikov�n� stav�, ale ani to
+se zat�m nikde nevyu��v�.
+
+G 93709
+
+freki 115 se od p�edch�zej�c�ho li�� t�m, �e z nov� verze sem byl zkop�rov�n i
+genstav.pm.
+
+G 93709
+
+freki 116 m� nav�c nov� rozebrat.pm, ��m� by m�l b�t kompletn� (a� na zaznam.txt).
+Uvid�me, zda dos�hne G 93709.
+
+G 93709
+
+
+
+12.5.2004
+
+Na�el jsem rozd�l v parser.ini. V tom hor��m bylo u� zapnuto valence1 = 1. Zkou��m
+ho vypnout, jestli to pom��e. Mimochodem, mezi dobrou a vadnou verz� jsou celkem
+3 odchylky v anal�ze, ale jen jedna z nich zhor�ila �sp�nost.
+
+G 93708 - freki 117
+
+Nepomohlo to. Doch�z� mi trp�livost a prov�d�m cvs checkout do horn� slo�ky. Snad
+pom��e aspo� tohle.
+
+G 93708 - freki 118
+
+Posledn� pokus. Zru�eny rozd�ly v povol.pm a zakaz.pm. Sl�va!
+
+G 93709 - freki 119
+
+Sl�va!
+
+Pokou��m se zcela za�lenit u�en� n-tic do train.pl. Zat�m zkus�m p�idat model n-tic
+do statistiky, ani� bych ho pou�il (bude se je�t� st�le na��tat z textov�ch soubor�
+le��c�ch vedle), a zkus�m kontroln� pustit anal�zu, zda s novou statistikou bude
+stejn� �sp�n�. Tr�nink se jmenuje freki 120.
+
+Mus� se dost �et�it pam�t�. Pokud se toti� krom� standardn�ch 3 000 000 tr�novac�ch
+ud�lost� je�t� najednou eviduj� v�echny n-tice pro n=2 a� 10, po�ere train.pl neuv��iteln�ch
+2,6 GB! V tr�novac�ch datech je 5 308 978 n-tic, po profiltrov�n� jich ov�em p�e�ije
+jen 7934. Tr�nov�n� na frekim (Intel Xeon 2,8 GHz) nyn� trv� 32 minut.
+
+Zkus�me, jestli se s takto natr�novanou statistikou d� analyzovat stejn� �sp�n�
+jako dosud. Nem�l by to b�t probl�m, proto�e jedin� rozd�l by m�lo b�t 7000 nov�ch
+��dk�, kter� se zat�m k ni�emu nepou��vaj�.
+
+
+
+13.5.2004
+
+freki 127 b�� nad statistikou 124.stat, kter� by se od 013.stat m�la li�it pr�v�
+p�idan�mi n-ticemi. P�vodn� textov� soubory je�t� le�� ve stejn� slo�ce, ale hned
+pust�m dal�� kontroln� test, kter� u� opravdu nebude m�t �anci je naj�t. freki 128
+Bohu�el, oba maj� neuspokojiv� v�sledky. (Oba stejn�.)
+
+G 92496 - B 33534 - P 73,4 - T 23:39
+
+Mo�n� je ale i jin� probl�m, mo�n� je n�jak� chyba v tr�ninku a jak�koliv nov�
+natr�novan� statistika d� hor�� v�sledky ne� 013.stat. Uvedu tedy parse.pl i ntice.pm
+do p�vodn�ho stavu, ale pust�m je stejn� na 124.stat.
+
+G 92202 - B 33828 - P 73,2 - T 22:19 - freki 129
+
+Mus�m zkontrolovat, jestli je�t� po��d dr�� �sp�nost alespo� na 013.stat.
+
+freki 130
+
+124.stat se li�� od 013.stat. Od 013 se nezachoval z�znam konfigurace, kter� by
+bylo mo�n� porovnat se sou�asnou konfigurac�. 013 m� datum 3.2.2004 13:22:41,
+tak�e v p��pad� nezbytnosti zkus�m s�hnout do CVS.
+
+
+
+14.5.2004
+
+Zjistit, pro� train.pl neukl�d� konfiguraci, se kterou byl spu�t�n. Opraveno,
+sakura 134 u� by si m�la zachovat ulo�enou konfiguraci. V train.pl tak� opravena
+ud�lost KJ3, aby se ve statistice m�sto slovn�ho tvaru neobjevoval "HASH". P�esto
+st�le train.pl negeneruje stejnou statistiku jako train0.pl z 15.9.2003 (posledn�
+CVS train p�ed vyroben�m statistiky 013.stat 3.2.2004; n�sleduj�c� verze 2.13 u�
+vznikla 8.3.2003). A d�le ani train0.pl negeneruje statistiku shodnou s 013, tak�e
+u� "optimum" mo�n� nikdy nezrekonstruuju.
+
+Rekapitulace statistik:
+013.stat (3.2.2004) ... optim�ln� stav co do �sp�nosti parsingu, chci se k n�mu
+    dostat, ale nev�m jak. Nezachovalo se nastaven� ani zdroj�k tr�nova�e.
+132.stat (14.5.2004) ... vyrobil train0.pl z 15.9.2003. Nad 132 pu�t�n parser
+    (sakura 133), ale ani ten nem� po�adovanou �sp�nost. M� jen G 92499 (73,4 %).
+138.stat (14.5.2004) ... nejnov�j�� train.pl, ob� v��e uveden� chyby opraveny.
+
+013.stat m� 70400220 B, 3186784 ud�lost� (��dk�). Obsahuje 108933 ud�lost� USS.
+132.stat m� 76127819 B, 3439995 ud�lost� (��dk�). Obsahuje 115479 ud�lost� USS.
+138.stat m� 75947290 B, 3418684 ud�lost� (��dk�). Obsahuje 115479 ud�lost� USS.
+
+Skoro to vypad�, �e 013 byl natr�nov�n na jin�ch datech? Srovn�me-li pouze ud�losti
+USS ve statistik�ch 013 a 138, zd� se (pohledem na prvn� str�nku diffu), �e 138
+m� v�echna ��sla v�t�� nebo rovna ��sl�m z 013, a nav�c m� n�kter� slova �pln�
+nov�. Nap�. slovo "abdikovali". A to je d�kaz! 013 vzniklo natr�nov�n�m na mtrainu!
+Zkus�me na mtrainu natr�novat novou statistiku (jak pomoc� train0.pl, tak pomoc�
+train.pl).
+
+sakura 139 ... train0.pl na mtrain.csts
+drak 140 ..... train.pl na mtrain.csts
+
+139.stat m� 70400220 B, 3186784 ud�lost�. Obsahuje 108933 ud�lost� USS.
+140.stat m� 70243916 B, 3167576 ud�lost�. Obsahuje 108933 ud�lost� USS.
+
+Te� tedy zkus�me parsing nad ob�ma nov�mi statistikami.
+
+G 92398 - B 33632 - P 73,3 - T 45:19 - loki 141 ....... nad 139.stat
+G 92096 - B 33934 - P 73,1 - T 22:23 - belzebub 143 ... nad 140.stat
+
+Je�t� jednou testuju �sp�nost nad statistikou 013. U� m� to unavuje, ale zd� se
+podez�el�, �e by se li�ila od statistiky 139, kdy� jsou p�esn� stejn� velk�. A
+p�itom tent�� parser na jedn� z nich funguje na 73,3 % a na druh� �dajn� na 74,4 %.
+Te� mi diff potvrdil, �e ob� statistiky se v�bec nijak neli��! A z pr�b�n�ch v�sledk�
+to vypad�, �e i na 013 v�kon n�jak poklesl.
+
+
+
+25.5.2004
+
+Vrac�m se k parsingu po narozen� Lucinky.
+Test drak 150 nad statistikou 013. Kontrola, zda dos�hneme nejlep�� zn�m� �sp�nosti.
+Optimum bylo dosa�eno 11.5.2004 a �in� 74,4 % (G 93709).
+
+G 93709 - B 32321 - P 74,4 - T 30:27
+
+Test drak 152 nad statistikou 139. Statistiky 013 a 139 jsou toto�n�, tak�e by
+v�sledek 152 m�l b�t stejn� jako 150.
+
+G 93709 - B 32321 - P 74,4 - T 30:16
+
+Test anette 153 nad statistikou 013. "Star� verze parseru", tj. posledn� verze
+ulo�en� v CVS.
+
+G 93709 - B 32321 - P 74,4 - T 26:02
+
+Te� se soust�ed�m na to, aby train.pl um�l vyrobit statistiku toto�nou s 013.stat.
+Verze z 15.9.2003 to z�ejm� um� (pou�il jsem ji 14.5.2004 a vznikla statistika
+139, kter� je s 013 toto�n�). Pro jistotu je�t� jednou pust�m train0.pl, co� je
+kopie verze z 15.9.2003, i kdy� u� m� jin� datum. Je to train anette 154, tr�nuje
+se na mtrain datech (1425 soubor�).
+
+3186784 ud�lost� - T 10:33 - 154.stat se shoduje s 013.stat
+
+Paraleln� pou�t�m i nov�j�� train.pl, op�t jen pro kontrolu, proto�e v�m, �e tvo��
+odli�nou statistiku. Je to train drak 155, rovn� se tr�nuje na mtrain datech.
+Asi po hodin� pr�ce to spadlo, proto�e to nena�lo funkci ntice::shrnout().
+
+Prozkoum�m rozd�ly mezi train0.pl a train.pl a tak� rozd�ly mezi ob�ma statistikami.
+Vytv���m p�echodov� skript train05.pl a budu pr�b�n� testovat, zda je�t� dosahuje
+stejn�ch v�sledk� jako train0.pl. Nejd��v sjednocuji "use" moduly v z�hlav� a odstra�uji
+s�hodlouh� "pod" koment��. Je to train anette 156.
+
+3186784 ud�lost� - T 10:38 - 156.stat se shoduje s 013.stat
+
+Nahrad�m �ten� subkategoriza�n�ho slovn�ku analogickou funkc� z modulu subkat.
+Je to train anette 157.
+
+3186784 ud�lost� - T 10:34 - 157.stat se shoduje s 013.stat
+
+Provedu v�echny �pravy, kter� nejsou z�visl� na nahrazen� parslib.pl modulem csts.pm.
+Vesm�s jsou jen kosmetick�. Tr�nov�n� ntic zat�m taky nep�id�m. Rozd�lov� soubor
+obou train� m� po��d je�t� 470 ��dk�. Test moment�ln�ho train05.pl je anette 158.
+
+3186784 ud�lost� - T 10:44 - 158.stat se shoduje s 013.stat
+
+Nahrad�m pole $struktura[$i] polem $anot->[$i]{rodic_vzor}. Polo�ka rodic_vzor
+se pln� u� i v parslib.pl, tak�e by nem�l vzniknout probl�m. Je to train anette 159.
+Bohu�el se z�ejm� zacyklil. Cyklen� zp�sobuje $struktura[$k] na ��dku 441. Zat�m
+nev�m pro� a pou�t�m train05, kde je tento ��dek postaru, v�echny ostatn� struktury
+jsou p�eps�ny pomoc� anot. Je to train anette 168.
+
+3192325 ud�lost� (!!!) - T 10:59 - 168.stat se od t�ch p�edchoz�ch li��!
+
+Mezit�m jsem za��dil, aby $anot->[0]{rodic_vzor} bylo 0 stejn� jako $struktura[0].
+M�lo by t�m odpadnout cyklen� a mo�n� tak� rozd�ly mezi statistikami, uvid�me.
+Je to train anette 172.
+
+3191989 ud�lost� - T 11:07 - 172.stat se li�� od 013.stat.
+
+Li�� se ud�losti typu LOK a RAM. "Norm�ln�" ud�losti se neli��. Proto nejv�t��
+podez�en� pad� na zm�ny ve funkci spocitat_lokalni_konflikty(). Krom� n�hrady
+$struktury $anotem jsem je�t� zp��s�oval podm�nku na ��dku 634 o $i<$#{$anot}.
+Toto zp��sn�n� te� zakomentov�v�m a pou�t�m train anette 174.
+
+3186448 ud�lost� - T 11:00 - 174.stat se li�� od 013.stat i od 172.stat.
+
+Od 013.stat se li�� m�n� ne� 172.stat. Ud�losti typu LOK u� jsou v po��dku, li��
+se pouze ud�losti typu RAM. Na t�ch by sice nez�le�elo, proto�e moment�ln� se,
+pokud v�m, p�i parsingu nepou��vaj�, ale pot�ebuju v�d�t, �e um�m vyrobit statistiku
+toto�nou s 013, tak�e se pokus�m opravit i je. To je train anette 175.
+
+3186784 ud�lost� - T 10:49 - 175.stat se shoduje s 013.stat.
+
+Nahrad�m pole $afun[$i] polem $anot->[$i]{afun}. Kv�li tomu upravuji parslib.pl,
+aby p�i �ten� vypl�oval afuny do @anot. Train anette 176.
+
+3186784 ud�lost� - T 11:08 - 176.stat se shoduje s 013.stat.
+
+Nahrad�m pole $slova[$i] polem $anot->[$i]{slovo}. Kv�li tomu upravuji parslib.pl,
+aby obsah obou pol� byl opravdu toto�n�. Zat�m se toti� u @anot nevypl�oval ko�en
+a u ��dn�ho slova se nenahrazovala velk� p�smena mal�mi. Bohu�el se to zase n�kde
+cykl�. Grrr! A zase je to v lok�ln�ch konfliktech! Je to z�ludn� chyba, neopr�vn�n�mi
+p��stupy za hranici pole @anot se toto pole natahovalo, co� m�lo fat�ln� d�sledky
+pro cyklus, kter� byl d�lkou pole ��zen. Chybu jsem nena�el, rad�ji jsem tedy na
+za��tku funkce d�lku pole zkop�roval, pak jsem se ve v�ech cyklech ptal na d�lku
+kopie a na konci jsem kopii zkop�roval zp�t do po�kozen�ho pole. Train anette 192.
+
+3186784 ud�lost� - T 10:57 - 192.stat se shoduje s 013.stat.
+
+Po odstran�n� pol� @struktura, @afun a @slova upravuji posledn� souvisej�c� ��dky,
+zejm�na vol�n� funkc�, ve kter�ch se d��ve tato pole pou��vala. Train anette 193.
+
+3186784 ud�lost� - T 13:04 - 193.stat se shoduje s 013.stat.
+
+Zd� se, �e nyn� je ji� v�e p�ipraveno k p�epojen� z parslib.pl na csts.pm. Provedu
+tedy vlastn� p�epojen�. Train anette 194.
+
+3158211 ud�lost� - T 21:14 - 194.stat se li�� od 013.stat :-(
+
+
+
+27.5.2004
+
+Pou�t�m parsing nad statistikou 194. P�edpokl�d�m, �e v�sledek bude hor�� ne� nad
+013. Parse anette 195.
+
+G 93643 - B 32387 - P 74,3 - T 27:34
+
+
+
+31.5.2004
+
+Porovn�v�m statistiky 013 a 194. Li�� se snad ve v�ech ud�lostech. Porovn�v�m po�ad�
+v�skytu ud�lost� v train03.pl (pou��v� parslib.pl) a train05.pl (pou��v� csts.pm).
+Rozd�l je v ko�enech koordinac�. Star�� program m� v $anot->[$koren]{uznacka} zna�ku
+ko�enov�ho slova nebo interpunkce. Nov�j�� program tam m� mno�inu zna�ek zd�d�n�ch
+od �len� koordinace.
+
+train anette 196: train03.pl se z�znamem ud�lost�
+train anette 197: train05.pl se z�znamem ud�lost�
+... a� po anette 230
+
+Zd� se, �e jsem kone�n� na�el v�echny rozd�ly v hled�n� zd�d�n�ch zna�ek. Pou�t�m
+nov� kompletn� tr�nink train05 (anette 231).
+
+3186784 ud�lost� - T 30:31 - 231.stat m� sice stejn� po�et ud�lost� jako 013.stat,
+ale neshoduj� se! Taky velikost soubor� se li��: 013 m� 70400220 B, 231 m� 72137493 B.
+Ale to by mohlo b�t t�m, �e jsem p�i lad�n� zm�nil OSS na OSSXXX. D�m to do po��dku
+a odstran�m v�echny v�pisy do souboru "ud", ��m� by se taky m�l program o t�etinu
+urychlit. Train anette 232.
+
+3186784 ud�lost� - T 20:28 - 232.stat se shoduje s 013.stat.
+
+Po 19 dnech se mi tedy kone�n� poda�ilo modernizovat k�d train.pl, ani� by se to
+podepsalo na generovan�ch statistik�ch. Pro tuto chv�li ov�em rezignuju na n�pad,
+kv�li kter�mu to cel� za�alo, toti� na za�len�n� modelu ntic do b�n�ho tr�ninku.
+Jednak u� nem�m na takov� blbosti �as, jednak by to nebylo jen tak, proto�e ntice
+vy�aduj� posb�rat obrovsk� mno�stv� nov�ch ud�lost�, z nich� lze mal� c�lov� vzorek
+odfiltrovat teprve na konci, kdy u� se v�, kter� ud�lost byla vid�na v�ce ne� jednou.
+T�m se n�kolikan�sobn� zvy�uje pam�ov� n�ro�nost programu (z n�kolika stovek MB
+a� na asi 2 GB) i �as pot�ebn� na v�po�et (asi dvakr�t).
+
+Zakomentov�v�m tedy ��dek s "ntice::ucit()", kop�ruji train05.pl do train.pl, ma�u
+v�echny mezistupn� trainNN.pl a potvrzuji cvs commit. Potom je�t� naposledy vol�m
+kontroln� "train.pl ; parse.pl" a jdu dom� :-)
+
+
+
+1.6.2004
+
+Oba z�v�re�n� pokusy dopadly dob�e. Tr�nink trval 10:46 minut.
+
+G 93709 - B 32321 - P 74,4 - T 25:31
+
+Te� se pokus�m opravit chybu v train.pl, kterou jsem objevil p�i jeho modernizaci,
+ale nemohl jsem s n� nic d�lat, proto�e bych nedostal toto�nou statistiku. Bohu�el
+nen� zaru�eno, �e opravou chyby �sp�nost stoupne a ne naopak klesne.
+
+Stejn� je dost divn�, �e lok�ln� konflikty, kter�ch se ta chyba t�k�, se dosud pod�lely
+na lep�� �sp�nosti (proto�e kdy� jsem je vypnul, �sp�nost klesla), p�esto�e sama
+slova, kter� byla p�i lok�ln�ch konfliktech p�ev�ena, dopadla b�dn�: 1286 zlep�en�
+proti 2137 zhor�en�m. Tato bilance byla z�ejm� zvr�cena nep��m�mi vlivy, nap�. �e
+jin� zav�en� uzlu v lok�ln�m konfliktu p�sobilo jako prevence n�kolika dal��ch chyb.
+
+train anette 235: 3192797 ud�lost� - T 11:18
+G 93717 - B 32313 - P 74,4 - T 25:39 - parse anette 236
+
+Sl�va, �sp�nost neklesla, i kdy� stoupla jen nepatrn�. Ani bilance lok�ln�ch konflikt�
+se nezm�nila nijak dramaticky: 1297 zlep�en� proti 2145 zhor�en�m. Cvs commit.
+
+
+
+Je na �ase vr�tit se ke snah�m o vybudov�n� z�sobn�ku stav� a o vracen� se v p��pad�
+nenapln�n�ho valen�n�ho r�mce. Naposledy jsem se o n�co t�mto sm�rem pokou�el 11.5.2004.
+N�jak� p�edstava, jak jsem to cht�l d�lat, je popsan� u 29.4.2004, ale stejn� si
+nejsem jist�, �e tahle p�edstava nepadla p�i konfrontaci s realitou.
+
+V modulu genstav.pm jsou nyn� dv� verze kl��ov� funkce. V provozu je zat�m st�le
+star� verze pod n�zvem generovat_stavy(). Nov� verze se jmenuje generovat_stavy1()
+a nevrac� v�t�zn�ho kandid�ta, n�br� seznam nov�ch stav�, ze kter�ch se a� pak
+mus� vybrat v�t�z.
+
+anette 238: generovat_stavy() u� opravdu ��ste�n� generuje nov� stavy, ale ty je�t�
+nemaj� vliv na v�b�r v�t�ze. Jde tedy jen o potvrzovac� b�h, �e se nic neposralo.
+�sp�nost sice z�stala nedot�ena, ale v�po�et trv� skoro �ty�ikr�t d�le!
+
+G 93717 - B 32313 - P 74,4 - T 1:36:08
+
+belzebub 249: O krok d�l. Z nov�ch stav� u� i vyb�r�m v�t�ze a kontroluju, �e se
+shoduje s v�t�zem, kter�ho vybral star� k�d. Pokud ne, hod� se v�jimka.
+-> genstav1.pm (genstav0.pm je p�vodn� z CVS)
+
+G 93717 - B 32313 - P 74,4 - T 1:22:49
+
+anette 254: V�b�r v�t�ze z nov�ch stav� obohacen o lok�ln� konflikty. Shoda se
+kontroluje a� potom.
+-> genstav2.pm
+
+G 93717 - B 32313 - P 74,4 - T 1:35:12
+
+Nem�me sice na nov� k�d p�evedeno cel� generov�n� nov�ho stavu, ale jeho podstatnou
+��st ano. Nyn� zm�n�m zp�sob, jak�m se v�sledek funkce generovat_stavy() p�ed�v�
+nahoru. Dosud se vracel "max-hash", kde kandid�ta popisovaly hodnoty r, z, c, p
+a priste. Nyn� se bude vracet pole stav�, jeho� prvn� prvek bude ten v�t�zn�. V�t�zn�
+kandid�t u� do n�j bude zanesen, tj. u volaj�c�ho odpadne n�sledn� vol�n� funkce
+stav::pridat_zavislost(). Zat�m se budou vracet stavy nalezen� star�m k�dem.
+
+belzebub 262 (v��e uveden�)
+G 93717 - B 32313 - P 74,4 - T 1:27:04
+
+
+
+2.6.2004
+
+Funkce generovat_stavy() od nyn�j�ka vrac� stavy nalezen� nov�m k�dem. K tomu je
+pot�eba, aby se i z�v�re�n� manipulace se stavem (souvisej�c� s koordinacemi) prov�d�la
+nad nov�mi stavy (a to nad v�emi je�t� p�ed p�id�n�m hrany, t�m se zajist� kompatibilita).
+P��slu�n� kus k�du jsem p�esunul do funkce stav::pridat_zavislost(). Pou�t�m dva
+v�po�ty, jeden je�t� vrac� stav upraven� star�m k�dem a akor�t spol�h� na ��st
+p�esunutou do pridat_zavislost(), druh� u� nav�c vrac� stavy nalezen� nov�m k�dem.
+Prvn� je belzebub 263, druh� anette 264.
+
+belzebub 263
+G 93717 - B 32313 - P 74,4 - T 1:29:30
+anette 264
+G 92693 - B 33337 - P 73,5 - T 2:10:46
+
+Zd� se, �e anette ztr�c� na �sp�nosti! Oba v�stupy se li��, anette ob�as m�sto
+odkazu na rodi�e vyp��e -1!
+
+Obrovsk� �asov� n�ro�nost generov�n� stav� mo�n� souvis� s t�m, �e se v�echny stavy
+cachuj� podle strom�. Vyp�n�m ukl�d�n� stav� (zakomentov�v�m ho).
+
+Vrac�m k�d na �rove� 263, tj. z�v�re�n� manipulace z�st�vaj� p�esunut� do modulu
+stav, ale vrac� se po��d stav z�skan� star�m k�dem. V z�jmu zp�ehledn�n� k�du vynd�v�m
+z generovat_stavy() zav�ov�n� koncov� interpunkce vyr�b�m j� samostatnou funkci
+generovat_pro_koncovou_interpunkci().
+
+sakura 265
+G 93717 - B 32313 - P 74,4 - T 1:34:14
+
+P�id�v�m obdobnou funkci pro generov�n� druh� ��sti koordinace.
+
+euler 266
+G 93717 - B 32313 - P 74,4 - T 1:59:20
+
+P�id�v�m obdobnou funkci pro zav�ov�n� valen�n�ch z�vislost�.
+
+anette 267
+G 93717 - B 32313 - P 74,4 - T 2:08:05
+
+U p�id�v�n� z�vislosti do duplik�tu stavu v nov�m k�du jsem na�el kopii k�du, kter�
+jsem p�ed 263 p�esouval do modulu stav. Te� u� by tato kopie m�la b�t nadbyte�n�,
+proto jsem ji smazal.
+
+euler 268
+G 93717 - B 32313 - P 74,4 - T 2:22:52
+
+Do zvl�tn� funkce jsem p�esunul i z�kladn� generov�n� nov�ch stav� a hled�n� v�t�zn�ho
+kandid�ta.
+-> genstav3.pm
+
+sakura 272
+G 93717 - B 32313 - P 74,4 - T 1:33:27
+
+Zru�il jsem funkce gererovat_stavy1(), vybrat_viteze() a generovat_stavy_rozskok().
+Pat�ily k v�tvi, kterou u� te� m��u prohl�sit za slepou.
+
+belzebub 273
+G 93717 - B 32313 - P 74,4 - T 1:24:41
+
+Z nov�ho k�du jsem odstranil nepou��vanou kopii zpracov�n� koncov� interpunkce a
+valen�n�ch z�vislost�.
+
+geri 274
+G 93717 - B 32313 - P 74,4 - T 1:53:39
+
+V�b�r v�t�ze mezi nov�mi stavy jsem p�esunul p��mo do funkce, ve kter� seznam nov�ch
+stav� vznik�. Tam, kde se p�vodn� vyb�ral v�t�z, se automaticky p�edpokl�d�, �e
+ho najdeme na nult� pozici.
+-> genstav4.pm
+
+anette 275
+G 93717 - B 32313 - P 74,4 - T 1:50:31
+
+Do zvl�tn� funkce jsem p�esunul i vol�n� lok�ln�ch konflikt�, v�etn� jejich nov�
+verze.
+-> genstav5.pm
+
+euler 277
+G 93717 - B 32313 - P 74,4 - T 2:03:12
+
+Nov� pokus vr�tit z funkce generovat_stavy() pole stav� dodan� nov�m k�dem.
+-> genstav6.pm
+
+Chyba, pro� to poprv� ne�lo, je ov�em mo�n� schovan� v rozebrat.pm v backtrack(),
+opravil jsem ji, ale rozebrat.pm jsem nez�lohoval.
+
+anette 279
+G 93719 - B 32311 - P 74,4 - T 1:46:02 !!! MAL� ZLEP�EN� - JAK TO?
+
+Odstra�uji zdvojen� zpracov�n� lok�ln�ch konflikt�. Nad�le se bude pou��vat pouze
+vol�n� v�zan� na nov� k�d. Parseru by se m�lo trochu ulevit co do �asov�ch n�rok�.
+
+sakura 280
+G 93719 - B 32311 - P 74,4 - T 1:40:13 !!! MAL� ZLEP�EN� - JAK TO?
+
+Odstra�uji tak� alternativn� ��sti k�du v hlavn� ��sti genstavu a kontrolu, zda
+nov� k�d produkuje tot� co star�. A m�stn� zpracov�n� lok�ln�ch konflikt� u� nevrac�
+hash s nov�m kandid�tem. Nen� to pot�eba, proto�e stejn� rovnou uprav� pole nov�ch
+stav�.
+-> genstav7.pm
+
+belzebub 281
+G 93719 - B 32311 - P 74,4 - T 1:21:57 !!! MAL� ZLEP�EN� - JAK TO?
+
+Kv�li zna�n� �asov� n�ro�nosti bude generov�n� v�ech pokra�ovac�ch stav� voliteln�
+a standardn� se bude generovat pouze v�t�zn� stav. Zat�m pouze vytvo��m p��slu�n�
+vyp�na� a vypnu ho.
+
+sakura 282 Alarm! N�zk� �sp�nost!
+Rychle je�t� zkus�me tot� s vyp�na�em zapnut�m. Za��tek vypad� rozumn�, ale rad�ji
+ho nech�m dob�hnout do konce.
+
+sakura 283
+G 93719 - B 32311 - P 74,4 - T 1:37:31 !!! MAL� ZLEP�EN� - JAK TO?
+
+Chyba snad opravena, pou�t�m znova s vypnut�m vyp�na�em.
+
+geri 284
+G 93717 - B 32313 - P 74,4 - T 36:35
+
+
+
+Generov�n� stav� je p�ebudov�no. Je�t� v�ak nen� vy�e�eno ukl�d�n� vygenerovan�ch
+stav� tak, aby bylo pozd�ji mo�n� se k n�kter�mu z nich vr�tit. To u� by se kv�li
+rychlosti m�lo ur�it� d�lat jen u vytipovan�ch strom�, kde na konci nen� v po��dku
+valence.
+
+Naposledy jsem se valenc� zab�val 22.4.2004, ale jinak. Pak jsem se zab�val zak�zan�mi
+p�eskoky sloves. 29.4.2004 jsem u� psal p��mo o ukl�d�n� stav� a myslel jsem si,
+�e ho m�m skoro hotov�, ale nebyla to pravda. A� dnes to vypad�, �e m�m funk�n�
+to, co se mi zd�lo funk�n� u� tenkr�t. A je to cel� p�ebudovan�.
+
+Nikde ov�em nem��u naj�t zm�nku o tom, zda u� je naprogramovan� pozn�v�n�, �e ve
+v�t� nen� napln�n n�jak� valen�n� r�mec. M�lo by to b�t ud�lan�, proto�e, pokud
+v�m, p�ed �asem u� jsem m�l i statistiku, kolika v�t se ten tyj�tr t�k�.
+
+V modulu subkat.pm je funkce najit_nenaplnene_ramce(), kter� p�eb�r� stav anal�zy
+(nap�. kv�li n�vrhu stromu) a odkaz na valen�n� slovn�k a vr�t� 1, pokud zjist�,
+�e ve v�t� existuje sloveso s nenapln�n�m r�mcem a materi�l, kter�m by r�mec �el
+naplnit. Tato funkce se moment�ln� vol� z funkce backtrack() v modulu rozebrat,
+ale jej� v�sledek se ignoruje.
+
+M�lo by se ud�lat n�sleduj�c�:
+- Jestli�e byla funkce zavol�na na danou v�tu poprv� a vr�t� 1, zapnout ukl�d�n�
+  stav� a opakovat anal�zu v�ty a� k tomuto bodu. Funkci ani nemus�me hned znova
+  volat, stav by m�l b�t �pln� stejn�, jen vedle bude existovat z�soba z�lo�n�ch
+  stav�.
+- Obnovit vybran� stav. Ide�ln� by bylo obnovit druh� nejlep�� pokra�ov�n� z m�sta,
+  ve kter�m jsem si zazdil cestu k napln�n�mu valen�n�mu r�mci, ale nev�me, kter�
+  m�sto to je - cestu jsme si mohli zazd�t i nep��mo. Proto obnov�me stav, ve kter�m
+  nejm�n� ztrat�me na v�ze oproti stavu, kter� byl v dan� chv�li vybr�n p�vodn�.
+- Samoz�ejm� z v�b�ru vynech�me stavy, ke kter�m se pozd�ji stejn� dosp�lo norm�ln�
+  cestou. Mj. se tak vyhneme opakovan�mu zkoum�n� dvojic N-A na r�zn�ch m�stech
+  v�ty, kdy� ve skute�nosti se do anal�zy pohodln� ve�ly v�echny.
+- Mus�me tedy v n�jak�m hashi evidovat v�echny lesy, ze kter�ch u� jsme �d�mali
+  pokra�ovac� stavy. Ze z�soby stav� vylou��me takov�, kter� vych�zej� z ji� zn�m�ho
+  lesa.
+- I tak je nebezpe��, �e z�soba stav� nezvladateln� poroste. Mus�me tedy po�et stav�
+  v z�sob� shora omezit. Nem�m je�t� jasno jak moc, mo�n� by sta�ilo na konstantn�
+  mocninu po�tu slov ve v�t�, t�eba na n^2. Jde n�m toti� hlavn� o to, aby z�sobn�k
+  nerostl exponenci�ln�. Nejdel�� v�ta v testovac�ch datech m� asi 100 slov, n^2
+  by tedy bylo 10000.
+- Po�et stav� ze z�sobn�ku, kter� skute�n� vyzkou��me, by m�l b�t je�t� ni���, abychom
+  se v�sledku n�kdy do�kali. Navrhuji nam�tkou zkusit 50 n�vrat� z konce, pokud
+  se d��ve nenajde zapln�n� valen�n� r�mec.
+  - T�m se tak� br�n�m "zacyklen�" v p��pad�, �e v�ta ve skute�nosti nem� dost
+    materi�lu do r�mc�, ale na�e primitivn� metoda to nezjistila, nap�. kdy� je
+    ve v�t� jeden akuzativ, ale 2 slovesa, kter� by ho cht�la. Ze zacyklen� by se
+    sice teoreticky vyklouzlo vyzkou�en�m v�ech mo�n�ch stav�, ale jejich po�et
+    je v praxi nutn� pova�ovat za bl�zk� nekone�nu.
+- Pokud i po "valen�n�m backtrackingu" z�stane n�kter� r�mec nenapln�n, m�li bychom
+  se vr�tit k v�sledku, kter� jsme navrhovali jako prvn�, proto�e pozd�j��mi �pravami
+  jsme pravd�podobn� pokazili dal�� v�ci.
+  - Lep�� v�ak bude otestovat, jak to dopad� v praxi, zda t�eba jeden n�vrat v pr�m�ru
+    nep�inese n�jak� u�itek.
+
+
+
+4.6.2004
+
+Upravuji rozebrat.pm tak, aby se standardn� pracovalo bez ukl�d�n� z�lo�n�ch stav�,
+ale v moment�, kdy se na konci najde nenapln�n� (a naplniteln�) slovesn� r�mec,
+se cel� rozbor zopakuje s ukl�d�n�m stav�. Zat�m se s nimi nic ned�l�. Ov�em pozor,
+nejsp�� se ned�l� v�bec nic nav�c, proto�e jsem zapomn�l vynulovat v�choz� stav,
+tak�e strom je ihned hotov�.
+
+G 93717 - B 32313 - P 74,4 - T 22:01 - belzebub 285
+
+Oprava. U� resetuju stav p�ed novou anal�zou.
+
+G 93717 - B 32313 - P 74,4 - T 22:31 - belzebub 286
+
+
+
+7.6.2004
+
+Opravil jsem funkci subkat::najit_nenaplnene_ramce(), nyn� snad vrac� to, co m�.
+
+G 93719 - B 32311 - P 74,4 - T 1:51:54 - anette 305
+
+Byla tam chyba. Po nalezen� prvn� v�ty s nenapln�n�m r�mcem se u� p�epo��t�valy
+v�echny.
+
+G 93718 - B 32312 - P 74,4 - T 1:28:15 - anette 307 :-(
+
+
+
+10.6.2004
+
+Poprv� prob�hla cel� anal�za se zapnut�m vracen�m se pro valen�n� dopln�n�. Neo�ek�val
+jsem nijak p�evratn� v�sledky, ale zat�m se v�sledek zcela shoduje s v�sledkem
+anal�zy, p�i n�� byla doty�n� vlastnost vypnuta, co� je podez�el�.
+
+G 93718 - B 32312 - P 74,4 - T 1:31:59 - freki 312
+
+Pou�t�m to cel� je�t� jednou, ale p�id�v�m statistiku, v kolika v�t�ch k n�vratu
+do�lo, p��padn� ke kolika n�vrat�m do�lo a kolikr�t to v�bec vedlo k n�jak� zm�n�
+(zat�m zjevn� nikdy).
+
+Opraveno n�kolik chyb, te� u�, zd� se, backtracking funguje, akor�t v n�m je�t�
+chyb� restrikce na po�et stav�, tak�e hroz�, �e bu� "nikdy" neskon��, nebo skon��
+chybou pro nedostatek pam�ti. Pokusn� b�h na v�t� 6 nasb�ral 42000 stav�, pak jsem
+ho utnul, proto�e byl pu�t�n interaktivn� do more a nem�l jsem na n�j �as. Cht�lo
+by to p�i vyb�r�n� n�vratov�ho stavu posoudit, zda v tomto stavu je�t� je �ance
+zaplnit n�jakou nezapln�nou valenci. Jinak ho rovnou ozna�it za zpracovan�.
+
+freki 335 ... Podle o�ek�v�n� hned prvn� backtracking vyho�el na nedostatku pam�ti
+(nageneroval p�es 59000 stav�, zpracoval jich asi 4000 a spot�eboval p�es 2 GB).
+
+
+
+11.6.2004
+
+Pot�ebujeme seznam slov, kter� ve v�t� p�edstavuj� rezervu pro napl�ov�n� r�mc�.
+Jsou to slova, kter� spl�uj� valen�n� podm�nky toho kter�ho slovesa, ale tak� je
+je�t� ��dn� sloveso neanga�ovalo (valen�n�; mohou v�ak t�eba nepr�vem viset na
+mod�ln�m slovesu). Abychom takov� seznam z�skali, mus�me upravit funkci, kter�
+zat�m pouze zji��uje, zda lze uspokojit neuspokojen� po�adavky, ale m� na v�c.
+
+
+
+14.-18.6.2004
+
+Pracuju na modulu subkat.pm, aby dok�zal ��ct, kter� vazby v navrhovan� anal�ze
+chyb� a kter� pro jejich napln�n� nelze vyu��t. Vytvo�il jsem funkci obohatit_pole_deti(),
+kter� mi umo�n� se�adit d�ti slovesa podle pravd�podobnosti, �e jde o argumenty.
+V p�tek 18.6.2004 v 18:29 jsem to kone�n� dopsal, te� p�ijde lad�n�.
+
+
+
+7.7.2004
+
+Po dovolen� pou�t�m parse.pl. Neza�al se vracet u� u v�ty 6, ale a� u v�ty 17.
+Ani tady se ale nezd�, �e by to m�lo n�kdy skon�it. Oprava: Stav, ve kter�m nen�
+voln� n�jak� nad�jn� uzel (tj. takov�, kter� by mohl zaplnit valenci), se rovnou
+ozna�� za zpracovan�. V�po�et konverguje sice o n�co rychleji, doopravdy zpracovan�ch
+je te� asi 16000 uzl�, ale stejn� je to ne�nosn� dlouh� a stejn� to nakonec skon��
+na nedostatku pam�ti. P�jdeme tedy je�t� o krok d�l. Budeme hledat stavy, kde je
+nad�jn� uzel u� rovnou p�ipojen ke slovesu, kter� jeho pomoc pot�ebuje. Budeme
+ignorovat fakt, �e n�kter� pr�chody odepisujeme d��ve, ne� mohlo b�t p�ipojen�
+v�bec povoleno. Jestli�e u n�kter�ho nad�jn�ho uzlu vyzkou��me v�echna jeho p�ipojen�
+ke v�em hledaj�c�m sloves�m a nepom��e to, p�estaneme dan� uzel pova�ovat za nad�ji.
+Pot�ebujeme v�d�t, pro kter� sloveso je kter� uzel nad�j�.
+
+Zm�na. Nebudeme si komplikovat evidenci t�m, pro jak� sloveso je jak� uzel nad�j�.
+Prost� dovol�me pokra�ov�n� jen ze stav� t�sn� po zav�en� n�kter�ho nad�jn�ho
+uzlu. Prvn� �sp�ch: v�ta 17 je prvn�, kterou backtracking pro�el �sp�n� (tj.
+poda�ilo se mu valence zaplnit)! Bylo nasb�r�no 11295 stav�, z toho jen 407 bylo
+na konci ve front� nezpracovan�ch.
+
+I te� bohu�el hroz� krach v�po�tu z d�vodu nedostatku pam�ti. Zpracovan� stavy
+by se m�ly ihned po zpracov�n� (nebo zavr�en�) vyprazd�ovat a� na p��znak {zpracovano}.
+Byla by s t�m ale spojena dal�� �asov� re�ie a nav�c se ob�v�m, zda je to bezpe�n�,
+tj. zda opravdu nikde nesah�m na jin� polo�ky zpracovan�ch stav�.
+
+Zat�m se zd�, �e v�po�et by mohl m�t �anci na dob�hnut�, i kdy� i tak bude trvat
+��dov� d�le ne� norm�ln� v�po�ty.
+
+geri 362
+V�po�et um�le zastaven na v�t�, kde nejsp�� neexistuje optim�ln� zapln�n� r�mc�.
+V okam�iku zastaven� m�l proces alokov�no 2,3 GB pam�ti, nageneroval 101193 stav�,
+z toho 4017 zb�valo zpracovat (av�ak po�et nezpracovan�ch st�le pomalu rostl).
+
+Krom� vyprazd�ov�n� stav� bych asi m�l omezit celkov� po�et generovan�ch stav� (t�eba
+na 50000?) a celkov� po�et n�vrat� (500?). Zat�m zav�d�m vyprazd�ov�n� stav� a
+omezen� po�tu n�vrat� na 500.
+
+geri 363 - Nakonec tak� Segmentation fault.
+
+Omezuji po�et n�vrat� na 100.
+
+geri 364
+
+
+
+13.7.2004, Kolna
+
+P�i psan� disertace nar��m na probl�m vzta�n�ch v�t a toho, pro� se pravidlo
+pro n� ur�en� uplatn� tak m�lokr�t.
+
+Kolikr�t se zkoum�, zda jde o spr�vnou z�vislost typu "kter�"? 1160-kr�t.
+Ve v�ech t�chto p��padech u� je skute�n� p��tomno z�jmeno "kter�", ale je�t�
+nen� ov��ena shoda. P�es n�kter� z�jmena se tak� zkou�� natahovat cel� �ada
+z�vislost�. M�la by se chytat i z�jmena vis�c� p�es p�edlo�ku, ale nem�m ov��eno,
+�e to funguje, b�hem v�po�tu jsem nic takov�ho nevid�l.
+
+Na konci v�po�tu u� se p�ekvapiv� neobjevuje statistika �sp�nosti tohoto pravidla,
+tak�e nem�m podle �eho ov��it, jak to je. V testovac�ch datech je celkem 801 v�skyt�
+tvar� z�jmena "kter�". 48 z nich vis� p�es p�edlo�ku.
+
+Ve 483 p��padech se skute�n� pravidlo chytlo. Z toho 389-kr�t pravidlo zabralo
+spr�vn�, �sp�nost je tedy 80,5 %.
+
+
+
+16.7.2004
+
+Kapitola o plodnosti uzl�. P�etr�novat a znova pustit parser, jednak jako kontrolu,
+�e v�e �ije, jednak p�i tr�nov�n� p�idat ud�lost ZPL - zna�kov� plodnost. Nap�.
+"ZPL N7 2 10" znamen�, �e byl desetkr�t zaznamen�n p��pad, kdy uzel se zna�kou
+N7 m�l dv� d�ti.
+
+geri 367 - 3 448 405 ud�lost� - 76 MB - T 11:08
+geri 369 - parse.pl nad 367.stat, je to podez�el�, asi nebude �sp�nost takov�,
+jak� m� b�t. Tak� se mi v�po�et zd� pomal�. Skon�ilo to po 767 v�t�ch!
+G 15500 - B 5391 - P 74,2 - T 6:22
+Aha! Z�stal zapnut� filtr, kter� propustil pouze v�ty obsahuj�c� z�jmeno "kter�"!
+Vyp�n�m, pou�t�m znova.
+
+G 93785 - B 32245 - P 74,4 - T 22:12 - geri 370
+
+P�ekvapen�. Po vypnut� valence1 se �sp�nost ne�ekan� zlep�ila o 67 z�vislost�
+oproti nejlep��mu zaznamenan�mu stavu p�ed jej�m zapnut�m. Potvrzuji do CVS (kam
+sou�asn� p�id�v�m modul plodnost.pm).
+
+Zkou��m "typickou plodnost" (TFM). Pravd�podobnost i �etnost z�vislosti se n�sob�
+pravd�podobnost�, �e uzel bude m�t dal�� d�t�. Tato pravd�podobnost m� ov�em pouze
+t�i hodnoty. 0, pokud kv�ta d�t� u� byla napln�na �i p�ekro�ena. 1, pokud je�t�
+nebyla dosa�ena. A 0,5, pokud uzel neup�ednost�uje jednozna�n� konkr�tn� po�et
+d�t� (tj. nen� pravda, �e doty�n� m-zna�ka byla vid�t alespo� 100�, a z toho alespo�
+v 80 % s dan�m po�tem d�t�).
+
+G 93039 - P 73,8 % (geri 375)
+
+Zkou��m "hl�d�n� kv�ty d�t�" (QFM). Plodnostn� pravd�podobnost nyn� nab�v� pouze
+hodnot 0 a 1. Nula je pro uzly, kter� jednozna�n� preferuj� ur�itou kv�tu, a t�
+u� dos�hly nebo ji dokonce p�ekro�ily. Pro v�echny ostatn� je jedni�ka.
+
+G 93113 - P 73,9 % (geri 377)
+
+
+
+17.7.2004
+
+Implementuji �plnou plodnost (FFM). Dv� varianty: 3 a v�ce d�t� se bu� pova�uje
+za jedin� stav, nebo se pro ka�dou zna�ku zohled�uj� v�echny po�ty d�t�, se kter�mi
+byla vid�na. Pokud se 3 a v�ce d�t� eviduje najednou, dostane uzel, kter� u� m�
+3 d�ti, automaticky 0.5. Pozor, opraven� po��t�n� pravd�podobnosti oproti Modelu Jedna: kdy�
+chce uzel bu� 0 nebo 2 d�ti, ale rozhodn� ne 1, a u� jedno dostal, m� velmi vysokou
+pravd�podobnost, �e dostane i druh�!
+
+G 93677 - P 74,3 % (geri 378)
+
+Je�t� druh� varianta - i velk� po�ty d�t� se po��taj� samostatn�.
+
+G 90640 - P 71,9 % (geri 380)
+
+
+
+Vzd�lenost. Krom� standardn�ho zohled�ov�n� sousedstv� a p��padn�ho po�tu intervenuj�c�ch
+��rek se je�t� pravd�podobnost a �etnost z�vislosti d�l� vzd�lenost� obou uzl�.
+�in�m tak na radu Tom�e Holana, kter�mu to pomohlo.
+
+G 93845 - P 74,5 % - T 22:34 (geri 381)
+
+Nov� rekord! CVS commit.
+
+
+
+19.7.2004
+
+V�era jsem zkoumal v�skyt neprojektivity (pomoc� ../neproj/neproj.pl) ve v�stupech
+jednotliv�ch parser�. Zjistil jsem, �e u mne se vyskytly v�eho v�udy dv� (kv�li
+modelu n-tic, jinak by nebyly ��dn�), u Tomov�ch parser� kolem 200 (u jednoho a�
+1500) a u Zde�kova p�es 2000 (to u� odpov�d� jejich skute�n�mu po�tu v testovac�ch
+datech).
+
+Sou�asn� m� zasko�ilo zji�t�n�, �e jak Tom�, tak Zden�k si ned�laj� hlavu s t�m,
+zda jimi zplozen� struktura je strom!
+
+Dnes budu p�id�vat neprojektivity do sv�ho parseru. Za��n�m sb�rem rematiz�tor�
+pro typ RHEM-PREP-cokoli. Kv�li zachov�n� statistick�ho p��stupu se chci mno�inu
+rematiz�tor� nau�it z tr�novac�ch dat, nep�d�m se proto po seznamu, kter� ur�it�
+maj� anot�to�i treebanku.
+
+Budu tak� muset zjistit, zda se n�kter� rematiz�tory vyskytuj� v datech v podobn�
+konstelaci, ani� by byly zav�eny neprojektivn� na uzel za p�edlo�kou.
+
+Bohu�el se to st�v� pom�rn� �asto. 48 rematiz�tor� se vyskytlo aspo� jednou jako
+rematiz�tor a aspo� v 50% p�eva�uje jejich zav�en� na uzel za p�edlo�kou nad jin�mi
+zav�en�mi; obvykl� pod�l je v�ak jen mezi 60 a 70%.
+
+Dv� mo�nosti: 1) natvrdo p�ipojovat rematiz�tory za p�edlo�ky. Vzhledem k v��e
+uveden� statistice by to nem�lo m�t moc velk� �sp�ch. 2) p�i zmer�en� rematiz�toru
+pouze ud�lit v�jimku ze z�kazu neprojektivn�ch hran. Model rozhodne, zda bude v�jimka
+vyu�ita.
+
+geri 383: pouze povolit, ale nevnucovat
+G 94054 - P 74,6 - T 23:19 - Nov� rekord!
+
+Cht�lo by to zefektivnit a l�pe spravovat (voliteln� zap�n�n� v konfiguraci), ale
+to te� odkl�d�m. Tak, jak to je, p�id�v�m neproj.pm do cvs + commit.
+
+Infinitivy: jestli�e infinitiv vis� na sv�m lev�m sousedovi, v�em uzl�m, kter�
+maj� povoleno zleva viset na tomto sousedovi, povolit tak� viset na infinitivu.
+
+geri 384
+G 94074 - P 74,6 - T 23:17 - Nov� rekord!
+
+Li a v�ak: pouze povol�me jejich neprojektivn� p�eskakov�n�, zbytek a� u� si vy�e��
+statistika.
+
+geri 392
+G 94080 - P 74,6 - T 23:57 - Nov� rekord, i kdy� u� pom�rn� zanedbateln�. cvs commit
+
+
+
+20.7.2004
+
+Za��n� masivn� testov�n� za ��elem z�sk�n� z�v�re�n�ch ��sel do disertace.
+Vyp�n�m podm�n�nou pravd�podobnost, m�sto n� absolutn� �etnost z�vislosti.
+
+geri 394
+G 90684 - P 72,0 - T 23:11
+
+P�id�v�m alternativn� verzi funkce zjistit_povol(), kter� vedle komponentov�ho
+budov�n� stromu umo�n� tak� budov�n� shora dol�. Pozor, zat�m je d�sledkem vypnut�
+kontroly projektivity, tak�e v�sledek bude asi stra�n�.
+geri 395
+Zd� se, �e se v�po�et zacyklil u v�ty 14. Parser asi bohu�el po��t� s t�m, �e z�vislosti
+jsou povolov�ny ur�it�m zp�sobem, a te� nem�m �as ho u�it n�co jin�ho. Zkus�m je�t�
+funkci obohatit o kontrolu projektivity a kdy� to nepom��e, tak to zabal�m. Ne,
+bal�m to hned. Kontrola, �e funguje p�vodn� nastaven� (abscetnost=0, komponentove=1).
+geri 400
+G 93845 - P 74,5 - T 23:30
+Je�t� z�staly vypnut� neprojektivity. P�i t�to p��le�itosti je trochu umravn�m
+a jejich zap�n�n� p�esunu do parser.ini (zat�m bylo nutn� ho zakomentovat v genstav.pm).
+Zru��m model neproj.pm (i z CVS) a v�e p�esunu do povol.pm.
+geri 407
+G 94080 - P 74,6 - T 25:39 OK.
+
+Redukce zna�ek. Natr�novat model neredukovan�ch zna�ek. Tak� se pokusit o redukci
+zp�sobem pou��van�m v Modelu Jedna - n�kde m�m p�ibli�n� p�eklad v�ech zna�ek.
+freki 401 - tr�nuje s vypnutou redukc� zna�ek
+3 970 666 ud�lost� - T 11:40
+freki 408 - parse.pl nad 401 (i te� je pochopiteln� vypnut� redukce)
+G 88351 - P 70,1 - T 26:37
+
+Natr�novat model zna�ek redukovan�ch baltimorskou metodou.
+freki 410 - tr�nuje s baltimorskou redukc�
+3 659 134 ud�lost� - T 11:13
+freki 411 - parse.pl nad 410 (zapnuta baltimorsk� redukce)
+G 89535 - P 71,0 - T 26:02
+
+R�zn� m�ra lexikalizace (ne t� selektivn�, ale lambda).
+Op�t zapnout sou�asnou redukci zna�ek a pou��t statistiku 374.stat.
+geri 412 - parse.pl: ls = 0.734375
+G 94080 - P 74,6 - T 25:45
+freki 413 - parse.pl: ls = 0
+G 93090 - P 73,9 - T 40:21
+freki 414 - parse.pl: ls = 1
+G 69142 - P 54,9 - T 39:27
+
+Selektivn� lexikalizace.
+geri 416 - train.pl: vypnut� selektivn� lexikalizace
+3 061 758 ud�lost� - T 10:34
+geri 418 - parse.pl nad 416.stat
+G 91038 - P 72,2 - T 24:14
+
+Je�t� pot�ebujeme vyp�nat selektivn� lexikalizaci jednotliv�ch slovn�ch druh�
+zvlṻ.
+train geri 420 - bez p�edlo�ek - T 11:40
+  parse geri 426
+  G 93904 - P 74,5 - T 31:33
+train geri 421 - bez pod�ad�c�ch spojek - T 18:47
+  parse geri 427
+  G 93604 - P 74,3 - T 31:38
+train geri 422 - bez z�jmen - T 18:32
+  parse freki 428
+  G 93668 - P 74,3 - T 35:07
+train freki 423 - bez vybran�ch p��slovc� - T 17:17
+  parse freki 429
+  G 93487 - P 74,2 - T 34:42
+train geri 432 - bez slovesa b�t - 3365461 ud�lost� - T 11:01
+  parse geri 433
+  G 92235 - P 73,2 - T 24:40
+train freki 425 - bez pseudovalence (tj. selektivn� lexikalizace sloves) - T 17:12
+  parse drak 431
+  G 93987 - P 74,6 - T 24:05
+
+
+
+21.7.2004
+
+Dal�� probl�m s pseudovalenc� je na stran� 52. Jsou tam �sp�nosti m��en� nejen
+d�vno, ale hlavn� jen na z�vislostech na slovesech (Sb|Obj|AuxT|Pnom|Adv). V�era
+jsem zjistil, �e na celkov� �sp�nosti se vypnut� pseudovalence na prvn�m desetinn�m
+m�st� v�bec neprojev� (by� mal� rozd�l v po�tu spr�vn�ch z�vislost� existuje).
+
+S vypnutou pseudovalenc� (431.vysledky) to bylo 84,6 %.
+Se zapnutou pseudovalenc� (412.vysledky) to bylo 84,9 %.
+
+Op�t po��t�m norm�ln� �sp�nost na v�ech uzlech. Vyhodnocen� pseudovalence u� m�me
+ov���me ji ale i v kombinaci s valenc�0. Valenci0 tak� vyhodnot�me samostatn�.
+Valenci1 u� kv�li �asov�m n�rok�m nebudeme znova testovat a zve�ejn�me ��slo zji�t�n�
+posledn�m pokusem. Stejn� nebylo na cel�ch datech.
+
+Pro pseudoval=0 pou��t statistiku 425, pro pseudoval=1 pou��t 374.
+
+pseudoval=0, valence=0 ... u� m�me (b�h 431 v�era): G 93987 - P 74,6 - T 24:05 freki
+pseudoval=0, valence=1 ... geri 434:                G 91866 - P 72,9 - T 24:51 geri
+pseudoval=1, valence=0 ... freki 435:               G 91882 - P 72,9 - T 25:11 freki
+pseudoval=1, valence=1 ... drak 436:                G 91882 - P 72,9 - T 24:46 drak
+Toto�n� v�sledek na posledn�ch dvou ��dc�ch mi byl podez�el�, n�kolikr�t jsem kontroloval
+z�znam nastaven�, ale opravdu to bylo pu�t�no spr�vn�. A� NA TO, �E BYLO VYPNUTO SELEX B�T
+OPRAVA:
+pseudoval=0, valence=1 ... geri  437:               G 93987 - P 74,6 - T 24:21 geri
+pseudoval=1, valence=0 ... freki 439:               G 94080 - P 74,6 - T 24:37 freki
+pseudoval=1, valence=1 ... drak  438:               G 94080 - P 74,6 - T 25:17 drak
+Te� u� v�sledky nekoliduj� s d��v�j��mi zji�t�n�mi, ale je podez�el�, �e parametr
+$konfig{valence} nem� na v�sledky ��dn� vliv. Ukazuje se, �e p�i p�estavb� genstav.pm
+se �pln� vytratila podm�nka, kter� se na tento parametr d�v�. Podm�nku vrac�m a
+��dky s valence=0 testuju znova, mo�n� se budeme divit.
+pseudoval=0, valence=0 ... te� u� nemus� odpov�dat v�erej��mu 431; geri 440: G 93987 P 74,6
+pseudoval=1, valence=0 ... freki                                        441: G 94080 P 74,6
+Inu, valence z�ejm� trv� na sv�m, �e celkov� v�sledek nijak ovliv�ovat nebude.
+
+��rlivost. Pou�t�m tr�nink, kter� si u OZZ (a u ni�eho jin�ho!) v��m�, zda na dan�m
+rodi�i vis� je�t� jin� uzel se stejnou zna�kou jako posuzovan� d�t�.
+train geri 442 - 3449293 ud�lost� - T 11:29
+parse geri 444 - G 81075 - P 64,3 - T 24:57
+
+��rlivost op�t vypnuta, pro jistotu pou�t�m kontroln� b�h, kter� m� zjistit, zda
+op�t dosahujeme maxim�ln� zn�m� �sp�nosti G 94080 - P 74,6.
+geri 445 - G 94080 - P 74,6 - T 24:21
+Potvrzeno.
+
+Z�kaz p�eskakov�n� sloves (definovan� souborem zakazy_preskoceni.txt). Vyp�n�m ho
+p��znakem nepreskocv=0. P�etr�nov�n� nen� nutn�.
+freki 446 - G 93914 - P 74,5 - T 22:27
+
+Plodnost se zat�m zap�nala a vyp�nala natvrdo v k�du. P�ed�l�v�m ji tak, aby se
+dala zapnout v konfigura�n�m souboru a nav�c aby se dalo vybrat ze t�� p��stup�
+popsan�ch v disertaci (FFM, TFM a QFM). Statistika plodnosti nen� p��mou sou��st�
+hlavn� statistiky, ale �te se ze zvl�tn�ho souboru plodnost.txt. Proto p�ep�na�
+umis�uju mezi parametry, jejich� zm�na nevy�aduje p�etr�nov�n�.
+
+ffm - geri 447   - G 93852 - P 74,5 - T 25:26
+tfm - freki 448  - G 93292 - P 74,0 - T 24:27
+qfm - drak 449   - G 93315 - P 74,0 - T 24:22
+nic - sakura 450 - G 94080 - P 74,6 - T 31:27
+
+Experimenty se vzd�lenost�.
+1: Vzd�lenost v ��dn� podob� nen� parametrem pro v�hu z�vislosti.
+2: Parametrem je, zda ��d�c� a z�visl� spolu soused� (standard Modelu Jedna).
+3: T�et� stav - v�skyt ��rky mezi ��d�c�m a z�visl�m. Nyn� je parametrem B/D/,.
+4: Jako 3, ale v�ha z�vislosti se nav�c d�l� vzd�lenost� mezi ob�ma uzly.
+Nejd��ve je t�eba natr�novat modely pro 1 a 2. Pro 3 u� natr�nov�no m�me a 4 tr�nov�n� nevy�aduje.
+
+1: train geri 451  - 3283615 ud�lost� - T 10:42
+   parse geri 456  - G 91200 - P 72,4 - T 24:08
+2: train freki 452 - 3418129 ud�lost� - T 10:41
+   parse freki 457 - G 91926 - P 72,9 - T 24:32
+3: 374.stat
+   parse drak 453  - G 94032 - P 74,6 - T 23:38
+4: 374.stat
+   zn�m� v�sledek  - G 94080 - P 74,6
+
+Koordinace. Nejd��ve kontroln� b�h, �e je op�t �sp�nost na maximu.
+parse geri 458  - G 94080 - P 74,6 - T 24:34
+Te� prost� zkus�m koordinace=0 v parser.ini. Je tam naps�no, �e se mus� p�etr�novat,
+to� p�etr�nujem.
+train freki 459 - 3390516 ud�lost� - T 23:02
+parse freki 460 - G 92267 - P 73,2 - T 22:35
+
+
+
+22.7.2004
+
+Kr�tk� v�ty. Zat�m se nedaj� vyp�nat a zap�nat. Za�ad�m p�ep�na� do sekce nevy�aduj�c�
+p�etr�nov�n�, proto�e p�i p�etr�nov�n� se pot�ebn� statistiky sb�raj� ka�dop�dn�.
+geri 461 - G 93838 - P 74,5
+
+N-tice. Podobn� jako kr�tk� v�ty dosud nebyly voliteln�, te� budou.
+geri 462 - G 92556 - P 73,4
+Chyba, sou�asn� z�staly vypnut� i kr�tk� v�ty! Znova!
+geri 463 - G 93054 - P 73,8
+
+Pevn� omezen�.
+
+P�ipojov�n� koncov� interpunkce ke ko�eni.
+freki 464 - G 91339 - 72,5
+
+Z�vislosti na ko�eni nerozli�uj� sm�r, ale zato kontroluj� p��tomnost slovesa ve
+v�t�. Pozor, p�i zm�n� tohoto p�ep�na�e se mus� p�etr�novat!
+train geri 465 - 3445058 ud�lost�
+parse geri 466 - G 94027 - P 74,6
+
+
+
+23.7.2004
+
+Plodnost ko�enu nesm� b�t v�t�� ne� 2.
+parse geri 468 - G 93725 - P 74,4
+
+Pr�v� jedna vn�j�� z�vislost do �seku mezi dv�ma ��rkami.
+parse geri 469 - G 93545 - P 74,2
+
+Na ��rce nesm� viset nic.
+parse geri 470 - G 93923 - P 74,5
+
+Z�kaz p�eskakov�n� bezd�tn�ch p�edlo�ek.
+parse geri 471 - G 94024 - P 74,6
+
+Z�kaz p�eskakov�n� podstatn�ch jmen v genitivu.
+parse geri 472 - G 94112 - P 74,7
+Wow! Tak�e p�esto�e to kdysi pom�halo, te� je naopak lep�� to vypnout!
+cvs commit
+P�edch�zej�c� pokusy u� p�epo��t�vat nebudu, akor�t v�ude, kde v disertaci mluv�m
+o z�v�re�n� �sp�nosti, zm�n�m 74,6 na 74,7.
+
+Zvl�tn� zpracov�n� vzta�n�ch v�t se z�jmenem "kter�".
+parse geri 473 - G 93967 - P 74,6
+V d-test datech se 801-kr�t vyskytuje tvar z�jmena "kter�".
+1160-kr�t se parser ptal na n�kterou z�vislost, kter� p�es "kter�" m�la v�st (na n�kter�
+se mohl pt�t opakovan� a p�es n�kter� v�skyty "kter�" mohlo v�st n�kolik potenci�ln�ch
+z�vislost�, zejm�na proto�e p�ed z�jmenem le�elo n�kolik podstatn�ch jmen. 483-kr�t
+se nakonec pravidlo aplikovalo a z�vislost byla p�ijata; z toho 389x spr�vn�. To
+d�v� �sp�nost pravidla 80,5 %.
+
+Vypnut� v�ech vyp�nateln�ch vlastnost� Modelu Dva najednou:
+vztaz = 0
+nepreskocg = 0 (m� b�t nyn� vypnuto i ve fin�ln� verzi)
+predlozky = 0
+carka_je_list = 0
+mezicarkove_useky = 0
+koren_2_deti = 0
+pod_korenem_sloveso_misto_smeru = 0
+koncint = 0
+----- tady kon�� pevn� omezen�
+ntice = 0
+krvety = 0
+koordinace = 0
+vzdalenost = 0
+vzdalenost_delitel = 0
+... plodnost z�st�v� vypnut� stejn� jako ve fin�ln� verzi
+nepreskocv = 0
+selex = 0
+pseudoval = 0
+upravovat_mzn = 0 (m�sto 2)
+abscetnost = 1 (m�sto 0)
+neselektivn� lexikalizace z�stala na lambda = 0.734375
+
+Mus�me p�etr�novat, pak teprv testy!
+train geri 474 - 3459989 ud�lost� - T 9:10
+parse geri 475 - G 71160 - P 56,5 - T 13:29 (!)
+
+Te� zase v�e zapnout, a� na pevn� omezen�.
+I tak se to mus� p�etr�novat a nem��e se pou��t 374.stat, proto�e za pevn� omezen�
+pova�uju i to, �e se p�i tr�nov�n� pod ko�enem m�sto sm�ru kouk� na p��tomnost slovesa.
+train geri 477 - 3445058 ud�lost� - T 11:03
+parse geri 478 - G 91177 - P 72,3 - T 21:57
+
+
+
+Rychle ov��it, �e po op�tovn�m zapnut� v�ech �sp�n�ch vylep�en� a p�epnut� na 374.stat
+se �sp�nost vr�t� k rekordn� hodnot�.
+parse geri 479
+
+dtest data 0.5 (bez p�etr�nov�n� na 0.5!)
+parse geri 484 - G 46505 - B 17213 - P 73,0
+etest data 0.5 (bez p�etr�nov�n� na 0.5!)
+parse geri 485 - G 47653 - B 17737 - P 72,9
+
+P�etr�nov�v�m podle tr�novac�ch dat z Baltimoru.
+train geri 486 - 1218787 ud�lost� - T 2:45
+parse geri 488 dtest - G 45299 - P 71,1
+parse geri 487 etest - G 46504 - P 71,1
+
+ETEST 1.0 (s maxim�ln�m v�konem a 374.stat)!!!
+A 125713 - G 94121 - B 31592 - P 74,9
+
+
+
+24.7.2004
+
+Natr�novat na r�zn�ch zdroj�ch morfologie. Bohu�el se to nebude t�kat vedlej��ch
+statistik, jako jsou n-tice, kr�tk� v�ty �i z�kazy p�eskakov�n� sloves. Nem�m u�
+�as, abych to dot�hl do konce. Pokud se ale potvrd�, �e nejl�pe to funguje na
+statistice z taggeru, nebude ��dn� dotahov�n� do konce nutn�.
+
+human
+  train geri 491  - 3397730 ud�lost� - T 10:56
+tagger a
+  u� hotovo (374) - 3448365 ud�lost�
+tagger b
+  train geri 492  - 5238005 ud�lost� - T 11:27
+dictionary
+  train freki 493 - 6394663 ud�lost� - T 27:12
+
+Je docela divn�, o kolik v�ce ud�lost� se objev� p�i pou�it� taggeru b oproti taggeru
+a. Te� prob�hne parsing. Nejd��v ka�d� na sv�m, "human" vynech�v�me, proto�e bychom
+ho museli testovat na jin�ch datech.
+
+tagger a - tagger a (374.stat)
+  u� hotovo (472): G 94112 - P 74,7
+tagger b - tagger b (492.stat)
+  geri 495
+dictionary - dictionary (493.stat)
+  freki 496
+
+human    - tagger a
+human    - tagger b
+
+Parsing nad 493.stat (nezjednozna�n�n� morfologie) spadl na nedostatku pam�ti.
+Nejd��v ze statistiky vyh�z�m v�ci, kter� se u� l�ta tr�nuj� jen ze zv�davosti,
+konkr�tn� ud�losti typu RAM, OSZ, OZS, ZZZ, ZSZ, ZZS, ZSS. T�m se statistika zmen��,
+potom se ale asi stejn� bude muset zkoumat, co je p�i v�m�n� morfologick�ho zdroje
+�patn�.
+
+MM ad train geri 497.stat - 2875424 ud�lost� (97 MB) - T 20:14
+MD a  parse geri 505 - G 91949 - P 73,0
+
+MM ad parse geri
+N�kde se ztr�c� pam�! Po na�ten� statistiky do parseru m� proces jen 400 MB,
+ale pak se klidn� vy�plh� na 2 GB a spadne!
+
+
+
+1.8.2004
+
+P�eprogramoval jsem rozepisov�n� alternativ jin�m zp�sobem a p�estala se ztr�cet
+pam�.
+
+MM ad train i parse - G 85754 - P 68,0 - T 47:22 - geri 524
+
+Probl�m je, �e p�i tr�nov�n� se z�ejm� alternativy rozepisovaly �patn�. Proto uprav�m
+train.pl, aby pou��val tut� funkci, a pust�m tr�nink je�t� jednou.
+
+train geri 526 - 2872481 ud�lost� (96 MB) - T 33:20
+parse geri 527 - G 85460 - P 67,8 - T 47:29
+
+Druh� verze: nejednozna�n� morfologie, ale bez rozepisov�n� alternativ (tj. �et�zec
+zna�ek se pova�uje za jedinou zna�ku).
+
+train geri 528 - 1774510 ud�lost� (55 MB) - T 9:09
+parse geri 529 - G 89553 - P 71,1 - T 21:23
+
+DOSUD ZJI�T�NO:
+526+527: G 85460 - P 67,8 - T 47:29 - oba MM ad rozepsan�
+528+529: G 89553 - P 71,1 - T 21:23 - oba MM ad nerozepsan�
+374+472: G 94112 - P 74,7 - T 24:21 - oba MD a
+
+Te� znova natr�nujeme podle MD b.
+
+train geri 530 - 2379504 ud�lost� (56 MB) - T 7:41
+parse geri 531
+
+Pr�b�n� �sp�nost je op�t d�siv� n�zk�, jak to?
+Regul�rn� v�raz pro <MDt src="b"> chytal �pln� nesmysly. Je nutn� p�etr�novat.
+
+train geri 534 - 1381009 ud�lost� (34 MB) - T 7:30
+parse geri 535 - G 93920 - P 74,5 - T 23:46
+
+Nov� nastudov�n� MD a:
+
+train geri 536 - 1379879 ud�lost� (33 MB) - T 7:44
+parse geri 537 - G 93840 - P 74,5 - T 22:35
+GRRR!!!
+Jak to, �e to nen� toto�n� s 374+472?
+Zap�n�m rozepisov�n� alternativ (mo�n� se stopov� vyskytlo i u MD?), pou��v�m 374.stat.
+parse geri 538 - G 93721 - P 74,4 - T 40:47
+
+
+
+2.8.2004
+
+Tak�e znova. Zru��me sou�asn� zp�sob rozepisov�n�, zapneme ten p�vodn� (i kdy�
+si mysl�m, �e je chybn�). A pou�ijeme 374.stat a MD a.
+
+parse geri 539 - G 93721 - P 74,4 :-(( - T 26:11
+
+Bez ohledu na v�sledek p�tr�n� po p�vodn�m optimu budu vypl�ovat ostatn� bu�ky
+tabulky. Jejich odchylky od hodnot, kter� bych dostal, kdybych znal a odstranil
+p���inu probl�mu s optimem, by pravd�podobn� byly zanedbateln�.
+
+MM ad + MD a, tj. nastavit zdroj na MD a a statistiku na 526.stat. Rozepisov�n�
+alternativ op�t vypnout kv�li �asov�m n�rok�m.
+
+parse freki 541 - G 91866 - P 72,9 - T 26:43
+
+MM ad + MD b, tj. nastavit zdroj na MD b a statistiku na 526.stat. Rozepisov�n�
+alternativ vypnout kv�li �asov�m n�rok�m.
+
+parse geri 542 - G 91964 - P 73,0 - T 29:42
+
+MD a + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
+na statistiku 536.stat.
+
+parse freki 543 - G 87236 - P 69,2 - T 48:52
+
+MD a + MD b, tj. nastavit zdroj na MD b, vypnout rozepisov�n� alternativ, p�epnout
+na statistiku 536.stat.
+
+parse belzebub 544 - G 93900 - P 74,5 - T 24:45
+
+MD b + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
+na statistiku 534.stat.
+
+parse drak 545 - G 87237 - P 69,2 - T 46:50
+
+MD b + MD a, tj. nastavit zdroj na MD a, vypnout rozepisov�n� alternativ, p�epnout
+na statistiku 534.stat.
+
+parse geri 546 - G 93743 - 74,4 - T 29:04
+
+human: Nejd��ve je pot�eba natr�novat statistiku.
+
+train loki 547 - 1354520 ud�lost� (33 MB) - T 13:31
+
+human + MM ad, tj. nastavit zdroj na MM ad, zapnout rozepisov�n� alternativ, p�epnout
+na statistiku 547.stat.
+
+parse geri 548 - G 87239 - P 69,2 - T 46:39
+
+human + MD a, tj. nastavit zdroj na MD a, vypnout rozepisov�n� alternativ, p�epnout
+na statistiku 547.stat.
+
+parse geri 549 - G 93188 - P 73,9 - T 23:41
+
+human + MD b, tj. nastavit zdroj na MD b, vypnout rozepisov�n� alternativ, p�epnout
+na statistiku 547.stat.
+
+parse freki 550 - G 93296 - P 74,0 - T 23:12
+
+DOSUD ZJI�T�NO:
+
+MM ne + MM ne = 528+529: G 89553 - P 71,1 - T 21:23 (ne znamen� nerozepsan�)
+MM ad + MM ad = 526+527: G 85460 - P 67,8 - T 47:29
+MM ad + MD a  = 526+541: G 91866 - P 72,9 - T 26:43
+MM ad + MD b  = 526+542: G 91964 - P 73,0 - T 29:42
+MD a  + MM ad = 536+543: G 87236 - P 69,2 - T 48:52
+MD a  + MD a  = 374+472: G 94112 - P 74,7 - T 24:21 (m�lo by b�t tot� jako 536+537, ale nen�, chybu nezn�m)
+MD a  + MD b  = 536+544: G 93900 - P 74,5 - T 24:45
+MD b  + MM ad = 534+545: G 87237 - P 69,2 - T 46:50
+MD b  + MD a  = 534+546: G 93743 - P 74,4 - T 29:04
+MD b  + MD b  = 534+535: G 93920 - P 74,5 - T 23:46
+human + MM ad = 547+548: G 87239 - P 69,2 - T 46:39
+human + MD a  = 547+549: G 93188 - P 73,9 - T 23:41
+human + MD b  = 547+550: G 93296 - P 74,0 - T 23:12
+
+
+
+3.8.2004
+
+cvs tag rel-3-4, aby se dala snadno rozbalit dosud nejlep�� verze parseru. Sou�asn�
+verze sice na rozd�l od n� um� l�pe rozepisovat alternativy, ale zat�m je to za
+cenu poklesu �sp�nosti. Na hled�n� chyby te� nem�m �as, mus�m ho odlo�it.
+
+Sou�asnou verzi kop�ruju do z�lo�n� slo�ky a p�es ni rozbaluju rel-3-4. Pou�t�m
+pokusn� b�h, kter� m� ov��it, �e jsme se opravdu vr�tili k �sp�nosti 74,7 % (G 94112).
+
+parse geri 551 - G 94112 - P 74,7 - T 24:53
+
+Pro jistotu do CVS ukl�d�m i nov�j�� verzi (spr�vn� rozepisov�n�, ni��� �sp�nost).
+Ihned ji tak� taguji, aby se dala samostatn� rozbalit.
+cvs commit
+cvs tag rel-3-4b
+
+cvs commit, aby se uchovala verze, kter� um� spr�vn� rozepisovat alternativy. Pak
+se v�ak mus�m vr�tit k optim�ln� verzi co do �sp�nosti, abych mohl pokra�ovat
+v pokusech pro disertaci.
+
+Zjistit �sp�nost na v�t�ch, a to jak celkovou, tak na v�t�ch jednotliv�ch d�lek.
+Upravuju parse.pl. P�id�v�m do n�j taky jedinou zm�nu, kterou m�la jeho rel-3-4b
+oproti rel-3-4 - v tomto p��pad� by toti� nem�la m�t opravdu ��dn� vliv na �sp�nost.
+
+parse geri 552 - G 94112 - P 74,7
+7319 v�t, z toho 1539 stoprocentn�ch, tj. v�tn� �sp�nost 21,0 %.
+126030 slov, z toho 10716 ve stoprocentn�ch v�t�ch, tj. v�en� v�tn� �sp�nost 32,1 %.
+Podle d�lky v�t:
+d�lka - v�t - spr�vn�ch - �sp�nost
+ 1  55  55 100,0
+ 2 199 198  99,5
+ 3 151 122  80,8
+ 4 209 148  70,8
+ 5 274 196  71,5
+ 6 220 118  53,6
+ 7 276 128  46,4
+ 8 248  93  37,5
+ 9 267  98  36,7
+10 313  85  27,2
+11 282  64  22,7
+12 289  50  17,3
+13 289  48  16,6
+14 297  29   9,8
+15 280  31  11,1
+16 262  16   6,1
+17 273  11   4,0
+18 275  14   5,1
+19 249  10   4,0
+20 231   6   2,6
+21 218   6   2,8
+22 198   4   2,0
+23 193   3   1,6
+24 183   2   1,1
+25 162   2   1,2
+30 101   1   1,0
+32  70   1   1,4
+
+Je�t� zji��uju aktu�ln� SLOVN� �sp�nost na r�zn� dlouh�ch v�t�ch.
+
+parse geri 557
+
+�sp�nost v�en� obt��nost� (op�t celkov� i na v�t�ch ur�it� d�lky).
+
+parse geri 559
+VAZENO OBTIZNOSTI: A 118711 - G 88372.7251405133 - P 0.744435858012427
+D   2 - N   99 - A    199 - G    198 - P  99.5
+D   3 - N  100 - A    302 - G    275 - P  91.2
+D   4 - N  156 - A    627 - G    553 - P  88.3
+D   5 - N  219 - A   1096 - G    978 - P  89.3
+D   6 - N  183 - A   1100 - G    926 - P  84.2
+D   7 - N  236 - A   1656 - G   1381 - P  83.4
+D   8 - N  217 - A   1736 - G   1444 - P  83.2
+D   9 - N  237 - A   2136 - G   1757 - P  82.3
+D  10 - N  281 - A   2817 - G   2276 - P  80.8
+D  11 - N  256 - A   2820 - G   2244 - P  79.6
+D  12 - N  264 - A   3179 - G   2536 - P  79.8
+D  13 - N  266 - A   3468 - G   2772 - P  79.9
+D  14 - N  275 - A   3861 - G   2993 - P  77.5
+D  15 - N  261 - A   3920 - G   3056 - P  78.0
+D  16 - N  245 - A   3930 - G   2955 - P  75.2
+D  17 - N  256 - A   4368 - G   3314 - P  75.9
+D  18 - N  259 - A   4675 - G   3573 - P  76.4
+D  19 - N  235 - A   4482 - G   3378 - P  75.4
+D  20 - N  219 - A   4389 - G   3286 - P  74.9
+D  21 - N  207 - A   4360 - G   3277 - P  75.2
+D  22 - N  189 - A   4158 - G   3000 - P  72.2
+D  23 - N  184 - A   4246 - G   3149 - P  74.2
+D  24 - N  175 - A   4209 - G   3146 - P  74.7
+D  25 - N  155 - A   3888 - G   2872 - P  73.9
+D  26 - N  147 - A   3825 - G   2769 - P  72.4
+D  27 - N  149 - A   4030 - G   2880 - P  71.5
+D  28 - N  117 - A   3294 - G   2464 - P  74.8
+D  29 - N  115 - A   3360 - G   2448 - P  72.9
+D  30 - N   97 - A   2929 - G   2100 - P  71.7
+D  31 - N   69 - A   2160 - G   1536 - P  71.1
+D  32 - N   67 - A   2170 - G   1546 - P  71.2
+D  33 - N   70 - A   2336 - G   1699 - P  72.8
+D  34 - N   57 - A   1947 - G   1345 - P  69.1
+D  35 - N   49 - A   1734 - G   1195 - P  69.0
+D  36 - N   43 - A   1575 - G   1085 - P  68.9
+D  37 - N   37 - A   1404 - G    962 - P  68.5
+D  38 - N   34 - A   1295 - G    913 - P  70.5
+D  39 - N   38 - A   1482 - G   1045 - P  70.5
+D  40 - N   36 - A   1443 - G    991 - P  68.7
+D  41 - N   24 - A   1000 - G    713 - P  71.3
+D  42 - N   23 - A    984 - G    647 - P  65.8
+D  43 - N   24 - A   1050 - G    726 - P  69.2
+D  44 - N   17 - A    774 - G    522 - P  67.6
+D  45 - N   19 - A    880 - G    606 - P  68.9
+D  46 - N   15 - A    720 - G    483 - P  67.1
+D  47 - N   12 - A    598 - G    422 - P  70.7
+D  48 - N   16 - A    799 - G    558 - P  69.9
+D  49 - N   12 - A    624 - G    429 - P  68.8
+D  50 - N   13 - A    686 - G    457 - P  66.7
+D  51 - N    9 - A    500 - G    332 - P  66.5
+D  52 - N    5 - A    306 - G    206 - P  67.6
+D  53 - N    8 - A    468 - G    301 - P  64.4
+D  54 - N    4 - A    265 - G    184 - P  69.6
+D  55 - N    2 - A    162 - G    118 - P  73.3
+D  56 - N    5 - A    330 - G    231 - P  70.2
+D  57 - N    4 - A    280 - G    125 - P  44.9
+D  58 - N    2 - A    171 - G     89 - P  52.3
+D  59 - N    0 - A     58 - G     35 - P  61.0
+D  60 - N    3 - A    236 - G    157 - P  66.7
+D  61 - N    1 - A    120 - G     67 - P  56.6
+D  62 - N    0 - A     61 - G     30 - P  50.0
+D  63 - N    2 - A    186 - G    101 - P  54.5
+D  64 - N    1 - A    126 - G     84 - P  67.2
+D  65 - N    0 - A     64 - G     29 - P  46.2
+D  66 - N    0 - A     65 - G     40 - P  62.1
+D  68 - N    1 - A    134 - G     76 - P  57.4
+D  70 - N    0 - A     69 - G     45 - P  65.7
+D  72 - N    0 - A     71 - G     41 - P  58.3
+D  73 - N    0 - A     72 - G     39 - P  54.8
+D  74 - N    0 - A     73 - G     51 - P  70.3
+D  75 - N    0 - A     74 - G     30 - P  41.3
+D 100 - N    0 - A     99 - G     49 - P  50.0
+V�po�et skon�il v 17:03:52.
+Program b�el 00:24:22 hodin.
+
+
+
+4.8.2004
+
+Zji��uju, jak� bude �sp�nost, kdy� vynech�m z�vislosti, kter� byly vid�t m�n�
+ne� p�tkr�t (tzv. experiment 1 v disertaci). A jak� bude p�esnost a �plnost.
+
+parse geri 562
+
+Nav�c p�id�v�m jako alternativn� z�vislosti, kter� dosahuj� alespo� 90% v�hy v�t�zn�
+z�vislosti. Proto�e to vy�aduje generovat v�echny stavy a bude to trvat mnohem d�le,
+pou�t�m to ihned. Je�t� bych m�l vymyslet, jak se zjist� P+R obou pokus� najednou.
+Z �asov�ch d�vod� se na to ale asi vyka�lu �pln�.
+
+parse geri 563 - AA 126030 - A 133500 - G 95622 - P 71,6 - R 75,9 - F 73,7
+
+Pou�t�m test, kter� dod� �sp�nost rozd�lenou podle vzorov�ch s-zna�ek (afun�).
+
+parse freki 564; v�sledky viz disertace, ��st 13.5.
+
+Chyst�m tr�nink na men��ch datech.
+
+1000 v�t: train geri 566
+  parse freki 570 - A 126030 - G 84202 - B 41828 - P 0.668110767277632 - T 33:13
+10000:    train freki 567
+  parse freki 571 - A 126030 - G 90130 - B 35900 - P 0.715147187177656 - T 33:05
+25000:    train freki 568
+  parse geri 572  - A 126030 - G 92499 - B 33531 - P 0.733944298976434 - T 38:08
+50000:    train geri 569
+  parse geri 573  - A 126030 - G 93623 - B 32407 - P 0.742862810441958 - T 38:35
+
+
+
+Nyn� parsing na um�le zmen�en�m modelu (tj. pou�ijeme 374.stat, ale vyh�z�me z n�j
+v�echny ud�losti vid�n� N-kr�t).
+
+N<1:  3351830 ud, 574.stat, 73 MB, parse freki 579 - G 94112 - P 74,7 - T 24:42
+N<=1:  944195 ud, 575.stat, 20 MB, parse freki 580 - G 93802 - P 74,4 - T 24:19
+N<=2:  538557 ud, 576.stat, 11 MB, parse geri 581  - G 93638 - P 74,3 - T 24:27
+N<=5:  238984 ud, 577.stat,  5 MB, parse geri 582  - G 93159 - P 73,9 - T 24:14
+N<=10: 123386 ud, 578.stat,  2 MB, parse drak 583  - G 92595 - P 73,5 - T 23:19
+
+Tr�nuju v�hradn� na Lidov�ch novin�ch. 865 soubor�.
+train geri 584, 698671 slov, p�es 39900 v�t, NEVYPSALA SE ��DN� STATISTIKA!
+train geri 600, 865 soubor�, 39978 v�t, 698671 slov, 2187990 ud�lost�, 48 MB, T 6:00
+parse geri 601 - G 93534 - P 74.2 - T 24:30
+
+Pro srovn�n� pot�ebujeme tr�novac� sadu, ve kter� bude stejn� nebo t�m�� stejn�
+po�et v�t, ale ze v�ech zdroj�, pokud mo�no ve stejn�m pom�ru, v jak�m se pod�lej�
+na cel�ch tr�novac�ch datech. Celkem m�me 73088 v�t, chceme vybrat 39978 v�t.
+Vezmeme tedy ka�d� (73088/39978)-t�, tj. ka�d� 1,83-t� soubor.
+
+train freki 602, 864 soubor�, 39687 v�t, 679665 slov, 2171319 ud�lost�, 48 MB, T 5:55
+parse geri 603 - G 93392 - P 74,1 - T 24:43
+
+Zjistit, jak se od sebe li�� �sp�nost jednotliv�ch blok� testovac�ch dat o 100
+v�t�ch. Pou�t�m zase klasick� parsing se 374.stat, akor�t na konci se vyp��e zvlṻ
+�sp�nost blok�.
+
+parse geri 605
+
+V�sledky:
+minimum 67,7 %
+maximum 82,2 %
+Pr�b�n� stav 77 % po 1000 testovac�ch v�t�ch!
+P�i spr�vn�m se�azen� se d� naj�t 12 blok�, jejich� celkov� �sp�nost je 80,1 %.
+Obdobn� nejhor��ch 12 blok� m� dohromady 69,8 %.
+
+Tak je�t� posledn� sada test�. Tr�nuju s vynech�n�m v�t obsahuj�c�ch ExD.
+train geri 610 - 53594 v�t - 974838 slov - ALE KURVA NEN� TAM POSLEDN� V�TA!!! - T 8:17
+train geri 613 - 53595 v�t - 974841 slov - 2837809 ud�lost� - 63 MB - T 12:41
+parse geri 621 - A 99094 - G 75418 - P 76.1 - T 18:07
+
+Tr�nuju s vynech�n�m v�t obsahuj�c�ch Coord nebo Apos.
+train freki 612 - T 5:56
+train geri 614 - 36261 v�t - 422292 slov - 1507160 ud�lost� - 32 MB - T 9:29
+parse geri 618 - A 41598 - G 34456 - P 82,8
+
+Tr�nuju s vynech�n�m v�t obsahuj�c�ch ExD, Coord nebo Apos.
+train freki 611 - T 5:43
+train freki 615 - 25970 v�t - 354784 slov - 1323832 ud�lost� - 28 MB - T 5:29
+parse freki 622 - A 36116 - G 29959 - P 83,0 - T 6:07
+
+
+
+6.8.2004
+
+Pot�ebuju nov� srovn�n� 7 parser�, kde bude za m�j parser pou�ita jeho nejnov�j��
+verze (G 94112 P 74,7). Nap�. 552.csts.
+
+We cannot use standard test data because we need held-out data to learn which parser specializes in what. PDT 1.0 d-test data contain 153 files. We keep the first 76 files for testing. The remaining 77 files will be used as held-out data. lv28.csts is the 76th file. The first sentence of lv29.csts is labeled ln94207:76-p3s14 but there are no labels in vse1.csts. The sentence begins with: Celn�k mi �ekl: A� v�m ty kv�tiny nikdy nezvadnou� a opice a� se u v�s furt usm�v� Here begins vseb.csts (held-out data). The first part is vsea.csts (new test data).
+New tests: vsea.csts contains 62677 words
+ec on vsea.csts: G 53275 - P 85.0 %
+mc on vsea.csts: G 52233 - P 83.3 %
+z� on vsea.csts: G 47729 - P 76.2 %
+dz on vsea.csts: G 47335 - P 75.5 %
+th(r2l) on vsea.csts: G 45331 - P 72.3 %
+th(l2r) on vsea.csts: G 44063 - P 70.3 %
+th(pshrt) on vsea.csts: G 39806 - P 63.5 %
+all parsers: G 27817 - P 44.4 %
+at least one parser: G 60255 - P 96.1 %
+absolute majority or ec: G 53761 - P 85.8 %
+absolute majority P+R: G 49277 - left-out 8352 - P 90.7 - R 78.6 - F 84.2
+tips: - for all parsers number of times they contribute whenever ec is wrong; - voting where ec has 3 votes, mc 2 votes, others 1 vote each.
+Now the same for three parsers (ec, mc, dz).
+All parsers: G 42090 - P 67.2 %
+At least one parser: G 58126 - P 92.7 %
+Absolute majority P+R: G 52627 - O 3890 - P 89.5 - R 84.0 - F 86.7 J
+Absolute majority or ec: G 54044 - P 86.2 %
+
+A te� vezmeme vseb.csts a zjist�me trojice mzn-z�v/mzn-���-ec/mzn-���-mc+dz, p�i
+nich� m� pravdu �ast�ji mc+dz ne� ec (>50%).
+
+A 62669 (JAK TO?) - G 53821 - P 85,9
+
+Dal�� mo�nosti:
+1. Po�adovat vy��� �sp�nost jednotliv�ch trojic (75%, 90%...)
+2. Zkusit jen dvojice mzn-z�v/mzn-���-ec.
+3. Zkusit jen dvojice mzn-z�v/mzn-���-mc+dz.
+4. Zkusit znova trojice i dvojice, ale jen slovn� druhy bez p�d�.
+5. Naopak zkusit kompletn� �pravu zna�ek, nejen tu zjednodu�enou popsanou v��e.
+
+Na cel�ch upraven�ch zna�k�ch, mc+dz proti ec.
+A 62677 - G 53561 - P 85,5
+
+Zv��en po�adavek na alespo� 2 v�skyty, p�es 50%.
+A 62677 - G 53458 - P 85,3
+
+Zv��en po�adavek na alespo� 2 v�skyty, p�es 75% (90% ani nem� smysl, to se skoro nevyskytuje).
+A 62677 - G 53392 - P 85,2
+V�tah z p�edn�ch m�st seznamu:
+N1#Z,        9       9  1.000000
+PseJ^Vp      8       8  1.000000
+NY2N2N2      6       6  1.000000
+A6Rv-1N6         6       6  1.000000
+...
+N6Rs-1Rv-1       6       7  0.857143
+VBZ,J�e      6       7  0.857143
+N4VBVf       6       7  0.857143
+N1J^Vp      32      39  0.820513
+A1VpN1       8      10  0.800000
+N6VBRv-1         4       5  0.800000
+A4J^N4      11      14  0.785714
+
+Op�t uvoln�no na aspo� 1 v�skyt, p�es 50 %. M�sto trojic se uva�uj� dvojice (��d�c� od Charniaka).
+A 62677 - G 53768 - P 85,8
+
+M�sto trojic dvojice jako u p�edch�zej�c�ho pokusu, ale m�sto od Charniaka se ��d�c� bere od MC+DZ.
+A 62677 - G 53853 - P 85,9 !!!
+
+M�sto �pln�ch upraven�ch zna�ek br�t jen slovn� druh a p�d.
+A 62677 - G 53963 - P 86,1 !!!
+
+Tot�, ale nyn� nesout�� MC+DZ proti EC, n�br� DZ proti EC i MC (ti se nemusej� shodovat).
+A 62677 - G 53271 - P 85,0 (dokonce o 4 z�vislosti hor�� ne� EC s�m)
+
+Tot�, ale nyn� se EC mus� shodovat s MC.
+A 62677 - G 53268 - P 85,0 (je�t� o dal�� 3 z�vislosti hor��)
+
+Vr�tit se k tomu, �e sout�� MC+DZ proti EC. Zkusit je�t� samotn� slovn� druhy bez
+p�d�.
+A 62677 - G 53999 - P 86,2 !!! to u� se kone�n� bl��� k tomu, co dok�zalo bezkontextov� hlasov�n� :-(
+
+Bezkontextov� hlasov�n� (MC+DZ m��e p�ehlasovat EC v�dycky, EC m� p�ednost pouze
+kdy� m� ka�d� parser vlastn� n�zor).
+A 62677 - G 54044 - P 86,2 !!!
+
+Je�t� zkus�me popis souboje obr�tit, ale m�lo by to snad b�t tot� co p�edt�m.
+Tedy: u��me se, kdy m��e EC zv�t�zit, i kdy� je ve sporu s MC a DZ, kte�� se shoduj�.
+Rodi�e zji��ujeme podle n�zoru EC. ��d�c� zna�ka je �pln� upraven�, z�visl� jen
+slovn� druh.
+A 62677 - G 54058 - P 86,2 !!!
+
+Tot�, ale ob� zna�ky jsou jen slovn� druh.
+A 62677 - G 54078 - P 86,3 !!!
+
+Tot�, ale ob� zna�ky jsou �pln� upraven�.
+A 62677 - G 54090 - P 86,3 !!!
+
+
+
+Je�t� by st�lo za to v�d�t, kdy m� vyhrat Collins m�sto Charniaka, kdy� v�ichni
+3 m�me sv�j vlastn� n�zor. Ale te� u� to nest�h�m vyzkou�et.
+tips: - for all parsers number of times they contribute whenever ec is wrong;
+ - voting where ec has 3 votes, mc 2 votes, others 1 vote each.
+Use weights produced by some parsers (dz, th). Look at z� if it used the "last rule" for that constituent.
+Ze sekce 13.5 jasn� vypl�v�, �e neum�m koordinace a apozice. Schv�ln�, jestli mi model n�kdy dovol� p�ehlasovat Charniaka v z�vislosti �ehokoli na J^ nebo Z,.
+
+Roz���it zkoum�n� kontextu tak, �e pro libovolnou kombinaci n�zor� a zna�ek budeme
+schopni ��ct, v kolika procentech se stalo, �e n�kter� skupina parser� m�la pravdu.
+Stihnout to je�t� p�idat do kone�n� verze disertace!
+
+
+
+Ud�lat cvs commit kv�li p�idan�mu vyhodnoceni.pm! Nebude to takov� sranda, ono
+se to toti� br�n�, �e pr� sou�asn� verze nen� up-to-date!
+
+
+
+Urgentn� po dops�n� disertace: Ulo�it do CVS nov�j�� verzi parseru (zejm�na
+train.pl a model.pm), kter� um� spr�vn� rozepisovat varianty. Vyvolat z CVS
+star�� verzi, kter� um�la dos�hnout maxima 74,7 % na MDa+MDa. Odladit, naj�t
+chybu a slou�it ob� verze.
+
+
+
+###############################################################################
+N�pady:
+- Do zpracov�n� neprojektivit p�idat neprojektivity koncov� interpunkce
+  v uz�vorkovan�ch v�t�ch.
+- jin� p��stup k z�kazu p�eskok�: p�i tr�nov�n� si u ka�d� z�vislosti pamatovat,
+  zda p�esko�ila sloveso
+- 25.5.2004: train.pl: Ve funkci spocitat_lokalni_konflikty() se pou��v� pole
+  @rodic, kter� ale p�i tr�ninku v�bec neexistuje! Asi je to omyl, je tam toti�
+  v�tev if a else, v jedn� z nich je pou�it @rodic a ve druh� $anot->[]{rodic_vzor}.
+  Bohu�el to nem��u te� hned opravit a pod�vat se, co to ud�l� s �sp�nost�, proto�e
+  moment�ln� krok za krokem upravuju train.pl, aby mohl pou��vat nov� knihovny
+  a p�itom produkoval po��d TUTɮ statistiku.
+- 14.5.2004: genstav.pm: Dokon�ov�n� koordinac� by se m�lo ��dit syst�mem z�kaz�.
+- 26.3.2004: DTEST: 16329 sloves v 7319 v�t�ch, tedy 2,23 slovesa na
+  v�tu (v�etn� tvar� pomocn�ho slovesa b�t).
+  OSNOVA KAPITOLY O SUBKATEGORIZACI
+  - Vysv�tlit subkategorizaci.
+  - Vysv�tlit, pro� m��e pomoci p�i parsingu.
+    - SL�BIL JSEM, �E V KAPITOLE 9 UK��U, JAK Z�SKAT SEZNAM.
+  - Tabulka typick�ch argument� (> 50 % v�skyt�)
+    POZOR, ASI �PLN� IGNORUJU V�SKYTY, KDY DAN� �LEN VIS� NA N��EM
+    JIN�M NE� NA SLOVESE.
+  - ��rliv� slova, tabulky.
+    CHT�LO BY TO PLYNULEJ�� P�ECHOD K ��RLIVOSTI. VYSV�TLIT, PRO� SE
+    T�M ZAB�V�M.
+  - Odhalen�, �e je vlastn� dost m�lo chyb, s jejich� odstran�n�m to
+    m��e pomoci, by m�lo p�ij�t a� na konec, sp�� jako v�sledek
+    p�tr�n�, pro� subkategorizace nenese velk� ovoce. Aby bylo do t�
+    doby o �em ps�t.
+  ---
+  - Jak �asto slovesu n�co chyb�? 8583 (6,8 %).
+  - Jak �asto slovesu n�co p�eb�v�?
+  - Jak �asto jsou na slovese zav�eny vz�jemn� nekompatibiln� v�ci?
+  ---
+  Vf ... infinitiv
+  VB ... p��tomn� �as
+  Vp ... p���est� minul�
+  Vs ... p���est� trpn�
+  Nej�ast�j�� p��pad: N4 m� viset na Vf, ale bylo zav�eno na VB.
+  P = m�li viset a pov�sil jsem / pov�sil jsem
+  R = m�li viset a pov�sil jsem / m�li viset
+  29829 v�c� m�lo viset pod slovesem a z�rove� jsem je pod to
+  spr�vn� sloveso i pov�sil. 38412 m�lo b�t. 45255 bylo.
+  P = 29829 / 45255 = 65,9 %
+  R = 29829 / 38412 = 77,7 %
+  F = 2PR/(P+R) = 71,3 %
+- 8.4.2004: Koordinace: Ka�d� "a" mus� m�t pod sebou koordinaci!
+  Pokud t�sn� za "a" le�� sloveso, mus� to b�t koordinace sloves!
+- 8.4.2004: 592 p��pad� (0,47 %), kdy vis� Z: na VB, kdy� m�lo viset
+  na J^. 535 p��pad�, kdy ve stejn� situaci figurovalo Vp m�sto VB.
+- 8.4.2004: Do z�v�ru disertace: Named entities by pomohly.
+- 8.4.2004: KOPR: Jak se pozn� typick� z�vislost, kterou n�jak�
+  parser um� l�pe ne� jin� parsery?
+- 8.4.2004: Tomovy rady:
+  - selektivn� lexikalizace v�ech nej�ast�j��ch slov bez ohledu na
+    slovn� druh
+  - v�ha vzd�lenosti ��d�c�ho a z�visl�ho uzlu a� do vzd�lenosti 15
+    (ale je to v�ha, kterou se p�en�sob� cel� pravd�podobnost,
+    neuchov�vaj� se tedy samostatn� �etnosti ud�lost� o jednotliv�ch
+    vzd�lenostech)
+- 8.4.2004: V�en� v�skyty u sloves. Zat�m jsme po��tali slovesa, se
+  kter�mi bylo dan� dopln�n� vid�t. Te� budeme tak� po��tat,
+  kolikr�t bylo dopln�n� se kter�m slovesem vid�t.
+  nd = po�et v�skyt� dopln�n�
+  ns = po�et sloves celkem
+  � = nd / ns
+  J� si do po�tu sloves nezapamatuji toto sloveso 1�, ale...???
+  Normalizovat na nej�ast�j�� sloveso?
+  To taky nejde, n�kter� slovesa jsou extr�mn� �ast�!
+  � je n�co jako �ance dopln�n� trefit co nejv�c sloves.
+  Probl�m: � nen� pravd�podobnost. M��e nab�vat neomezen� vysok�ch
+  hodnot. Jen�e jen m�lo dopln�n� se vyskytlo v�ckr�t, ne� jak� je
+  po�et sloves:
+  N3 6943
+  VINF 15263
+  N7 10770
+  J 10613
+  PR4(se) 17253
+  R6(v) 16186
+  S 22934
+  Z 31708
+  N4 39375
+  DB 38834
+  N1 77233
+  �(N4) = 7,1. Interpretace: Kolikr�t se mohlo vyskytnout s ka�d�m
+  slovesem? T�m vyd�lit jeho v�skyty - normalizace na �etnost - ale
+  ne, to bychom dostali v�dy po�et sloves!
+- 8.4.2004: Pro ka�d� heslo a ka�dou vazbu si pamatovat pom�r:
+  (kolikr�t pod sebou m� tuto vazbu) / (kolikr�t se heslo vyskytlo)
+  Pokud se heslo vyskytlo alespo� 5�, zapamatovat si vazbu. Pokud
+  pak takov� vazba ve v�t� je a dostane ji jin� heslo, kter� po n�
+  netou�� stejn� siln�, pokusit se p�ehodnotit.
+- 8.4.2004: Kter� valen�n� dopln�n� maj� nejhor�� �sp�nost?
+- 8.4.2004: Pokud existuje n�co jako typick� chyba, je to z�vislost
+  na koordinac�ch.
+- 8.4.2004: Rozt��dit chyby do skupin podle:
+  - valen�n� zna�ky z�visl�ho uzlu
+  - lemmatu chybn� navr�en�ho ��d�c�ho uzlu
+  - lemmatu spr�vn�ho ��d�c�ho uzlu
+- Zkontrolovat, zda m�m nejlep�� a nejnov�j�� seznam valenc�.
+- Valence p�edem: pouze p�idat do zna�ek heslo tam, kde jde o sloveso.
+- Valence EX POST: budovat z�sobn�k strom� a na konci stromy se�adit
+  podle m�ry, do jak� uspokojuj� valen�n� po�adavky sv�ch uzl�.
+- Vylep�en� p�edlo�ek: do zna�ek strkat heslo, ne tvar!
+- Neodvozen� p��slovce zkop�rovat do zna�ek.
+- Podm�nit lambdy konkr�tn�mi slovy (nap�. u slova b�t pot�ebujeme v�d�t, �e
+  �lo o slovo b�t, i kdyby o druh�m �lenu z�vislosti m�ly rozhodovat jen
+  zna�ky).
+- Mo�n� konkr�tn� u slova b�t by st�lo za to p�idat slovn� tvar do zna�ky.
+- D�ti - na konci proj�t z�sobn�k a p�ehodnotit stromy podle toho,
+  kolik d�t� m� kter� uzel.
+- Podm�n�n� pravd�podobnosti: nejd��ve vybrat ��d�c� uzel (nap�. podle
+  vzd�lenosti od optim�ln�ho po�tu d�t�), potom vyb�rat mezi jeho
+  kandid�ty na z�visl� uzel, pravd�podobnosti jsou podm�n�n�.
+- Je�t� vylep�it koordinace. A nezapom�nat na apozice.
+- Valence: Je-li napln�n podm�t, u� nep�ipojovat dal��. Obdobn� u ko�ene
+  napln�no sloveso, u p�edlo�ky jmenn� fr�ze.
+- Valence: negativn� pravd�podobnosti: v�em z�vislostem, kter� nevedou
+  k uspokojen� n�jak�ho valen�n�ho po�adavku, adekv�tn� sn��it pravd�podobnost.
+- Valence: Nelze p�esko�it neuspokojen�ho z�jemce.
+- P�i stejn� pravd�podobnosti dvou z�vislost� d�t p�ednost z�vislosti
+  mezi slovy, kter� k sob� maj� ve v�t� bl��.
+- Dal�� zp�sob, jak �elit Honzov�m chyb�m v p�dech: pou��t morfologickou
+  anal�zu (pop�. s preferenc� p�du, kter� vybral Honza). Pozn�mka: Ob�as nejde
+  jen o p�dy, nap��klad infinitiv "pomoci" myln� ozna�en� jako podstatn� jm�no
+  dok�e taky po��dn� nabourat syntaxi.
+- Vypo��tan� lambdy (zkombinovat tolik rozm�r�, kolik to ut�hne).
+- Dal�� ot�zka krom� plodnosti: je u� valen�n� m�sto zapln�no? Pokud
+  ano, pravd�podobnost je bl�zk� nule.
+- Obt��n�j�� �kol: rozpoznat okam�ik, kdy se posledn�ho kandid�ta na
+  zapln�n� valen�n�ho m�sta chyst�m pov�sit jinam.
+- Rozli�ovat taggery A a B.
+- Dovolit si n�kter� z�vislosti nerozhodnout.
+- Dovolit si n�kde d�t na v�b�r s vahami.
+- Vylep�it plodnost. Nap�. ��rka m� bu� 0, nebo 2, ale nikdy 1. Kdy�
+  u� dvojka p�ev�� nulu, je nutn� to dot�hnout do konce a neskejsnout
+  na jedni�ce.
+- Nesnesiteln� magnetick� sou�ad�c� spojky. P�itom:
+    - Spojka mus� spojovat v�ci stejn�ho druhu.
+    - V�ci, kter� nejsou z r�zn�ch stran spojky, mus� b�t odd�leny
+    ��rkou.
+    - Alespo� 2 v�ci jsou v�t�inou spojeny, ale nen� to absolutn�
+    platn� pravidlo, spojky jako "v�ak" se n�kdy spokoj� s jedin�m
+    �lenem.
+
+- Distinguish the a tagger from the b tagger. Try the morphological analysis weighed using the taggers (both).
+- Pomoc� anal�zy, co bylo kdy kam zav�eno, zjistit, jakto�e lok�ln� konflikty v souhrnu pom�haj�, a�koli jejich vlastn�
+  vyhodnocen� ��k�, �e to, co maj� d�lat, d�laj� blb�?
+
+###############################################################################
+�koly od Honzy:
+1. N�co ud�lat s neprojektivitami (a zjistit, co s nimi d�lal Mike).
+2. P��padn� okolo parsingu: p�ev�st neprojektivity na projektivity a
+zp�t (=> �l�nek?).
+3. Eugene Charniak: ME inspired parser - prozkoumat, jak to funguje.
+###############################################################################
+Moje vlastn� �koly:
+- P�e��st n�sleduj�c� �l�nky:
+  M. Volk, G. Schneider: Comparing a Statistical and a Rule-Based
+  Tagger for German (http://xxx.lanl.gov:80/ps/cs/9811002).
+  Anoop Sarkar: Incremental Parser Generation for Tree Adjoining
+  Grammar. Proceedings of 34th ACL, Student Session, Santa Cruz, 1996.
+
+
+
+-------------
+Zaj�mav� v�ty
+-------------
+"Kolik m� vlastn� pen�z, Michaeli?" pt� se sn�d� novin�� s br�lemi
+nejslavn�j��ho zp�v�ka planety.