Kontrukcja słownika polszczyzny dawnej dla wybranego zbioru tekstów

W ramach projektu SYNAT zaproponowano metodę budowy słownika języka polskiego zawierającego formy dawne. Proces tworzenia słownika rozpoczyna sie od przetworzenia juz istniejacego słownika papierowego, który nastepnie jest rozszerzany informacjami uzyskanymi bezposrednio z tekstów i odbywa sie w nastepujacy sposób:

Zasoby:

Raport Przeczytaj...
Moduł transkrypcji tekstów pochodzących z danych IMPACT
svn://chopin.ipipan.waw.pl/synat/tools/impact-tokenizer/
SVN
Moduł transliteracji
svn://chopin.ipipan.waw.pl/synat/tools/transcription/
SVN
Zestaw reguł transliteracji dla danych IMPACT
svn://chopin.ipipan.waw.pl/synat/tools/transcription/Text/Transcript/Impact.hs
SVN
Moduł wyszukujący formy podobne Przejdź do...
Implementacja metody uzupełniania słownika o nowe formy wyrazowe
svn://chopin.ipipan.waw.pl/synat/tools/gather/GatherSimple.hs
Przejdź do...
Słownik form współczesnych PoliMorf Przejdź do...
LMFEditor - Program do edycji słownika Pobierz...
Dokumentacja programu LMFEditor Przeczytaj...
Biblioteka basex
svn://chopin.ipipan. waw.pl/synat/haskell-libs/basex/
Przejdź do...
Biblioteka basex-lmf
svn://chopin.ipipan. waw.pl/synat/haskell-libs/basex-lmf/
Przejdź do...
Biblioteka kombinatorów ułatwiających parsowanie plików XML Przejdź do...
Parser słownika LMF
svn://chopin.ipipan.waw.pl/synat/tools/gather/Lmf2Trie.hs
Przejdź do...

Słownik polszczyzny dawnej nie może być w chwili obecnej udostępniony z powodu nieroztrzygniętych kwestii związanych z prawem autorskim.

Porównywanie tekstów

Jednym z zadań realizowanych w ramach projektu SYNAT było opracowanie demonstracyjnej wersji programu pozwalającego na dokonanie porównania dwóch dokumentów tekstowych. W ramach tej funkcjonalności możliwe jest uliniowienie (zrównoleglenie) potencjalnie identycznych zdań w dwóch wersjach tego samego tekstu. Funkcjonalność taka może być przydatna przy prowadzeniu badań nad dawnymi tekstami, które często dostępne są obecnie w wielu, częściowo zmienionych lub uwspółcześnionych wersjach. Dla użytkowników platformy Infona mogłaby ona stać się przydatna po uzupełnieniu zawartości platformy o teksty dostępne w zasobach bibliotecznych.

Dla określenia liczby zmian w tekście i przeprowadzenia wstępnej weryfikacji, czy porównywane teksty nie są zbyt od siebie odległe, udostępniono program FileStat pozwalający na porównanie ilościowe zawartości leksykalnej dwóch (lub większej liczby) plików tekstowych. O ile zrównoleglanie wersji tekstu na poziomie zdań i słów mońe zostać wykonane tylko dla plików, które zawierają różne, ale niezbyt od siebie odległe wersje tego samego tekstu, porównanie ilościowe może zostać dokonane na parze dwóch dowolnych plików.

Zasoby:

Raport Przeczytaj...
Dopasowywacz tekstów - program dopasowujący dwie wersje tego samego tekstu Przejdź do...
FileStat - program porównujący pliki tekstowe Pobierz...
Dokumentacja programu FileStat Przeczytaj...

Wyszukiwanie nazw własnych w tekście

Kolejnym zadaniem realizowanym w ramach projektu było zaimplementowanie demonstracyjnej wersji programu pozwalającego na rozpoznawanie w tekście nazw własnych (osób, nazw geograficznych i nazw organizacji). Funkcjonalność taka może być przydatna przy ustaleniu jakich osób czy rejonów dotycza konkretne teksty bądź przy wyszukiwaniu wszystkich dokumentów, które dotyczą wybranych osób. W wersji demonstracyjnej narzędzie funkcjonujące jako service internetowy zaznacza w podanym tekście nazwy określonych typów.

Zasoby:

Raport Przeczytaj...
Program do wyszukiwania nazw własnych w tekście Przejdź do...