SYNAT IPI PAN

Kontrukcja słownika polszczyzny dawnej dla wybranego zbioru tekstów

W ramach projektu SYNAT zaproponowano metodę budowy słownika języka polskiego zawierającego formy dawne. Proces tworzenia słownika rozpoczyna sie od przetworzenia juz istniejacego słownika papierowego, który nastepnie jest rozszerzany informacjami uzyskanymi bezposrednio z tekstów i odbywa sie w nastepujacy sposób:

skanowanie papierowej wersji słownika,
zamiana wyników skanowania oprogramowaniem OCR na formę tekstową,
porawienie ewentualnych błedów w pliku tekstowym,
zdefiniowanie struktury wewnętrznej słownika w formacie LMF,
konwersja pliku tekstowego na zdefiniowaną strukturę,
uzupełnienie zawartości słownika o oznaczenia części mowy,
wzbogacenie słownika o nowe formy z wybranych źródeł,
przygotowanie programu do edycji słownika,
poprawienie struktur LMF przez lingwistę,
przygotowanie narzędzi do obsługi powstałego słownika.

Zasoby:

Raport
Moduł transkrypcji tekstów pochodzących z danych IMPACT svn://chopin.ipipan.waw.pl/synat/tools/impact-tokenizer/
Moduł transliteracji svn://chopin.ipipan.waw.pl/synat/tools/transcription/
Zestaw reguł transliteracji dla danych IMPACT svn://chopin.ipipan.waw.pl/synat/tools/transcription/Text/Transcript/Impact.hs
Moduł wyszukujący formy podobne
Implementacja metody uzupełniania słownika o nowe formy wyrazowe svn://chopin.ipipan.waw.pl/synat/tools/gather/GatherSimple.hs
Słownik form współczesnych PoliMorf
LMFEditor - Program do edycji słownika
Dokumentacja programu LMFEditor
Biblioteka basex svn://chopin.ipipan. waw.pl/synat/haskell-libs/basex/
Biblioteka basex-lmf svn://chopin.ipipan. waw.pl/synat/haskell-libs/basex-lmf/
Biblioteka kombinatorów ułatwiających parsowanie plików XML
Parser słownika LMF svn://chopin.ipipan.waw.pl/synat/tools/gather/Lmf2Trie.hs

Słownik polszczyzny dawnej nie może być w chwili obecnej udostępniony z powodu nieroztrzygniętych kwestii związanych z prawem autorskim.

Porównywanie tekstów

Jednym z zadań realizowanych w ramach projektu SYNAT było opracowanie demonstracyjnej wersji programu pozwalającego na dokonanie porównania dwóch dokumentów tekstowych. W ramach tej funkcjonalności możliwe jest uliniowienie (zrównoleglenie) potencjalnie identycznych zdań w dwóch wersjach tego samego tekstu. Funkcjonalność taka może być przydatna przy prowadzeniu badań nad dawnymi tekstami, które często dostępne są obecnie w wielu, częściowo zmienionych lub uwspółcześnionych wersjach. Dla użytkowników platformy Infona mogłaby ona stać się przydatna po uzupełnieniu zawartości platformy o teksty dostępne w zasobach bibliotecznych.

Dla określenia liczby zmian w tekście i przeprowadzenia wstępnej weryfikacji, czy porównywane teksty nie są zbyt od siebie odległe, udostępniono program FileStat pozwalający na porównanie ilościowe zawartości leksykalnej dwóch (lub większej liczby) plików tekstowych. O ile zrównoleglanie wersji tekstu na poziomie zdań i słów mońe zostać wykonane tylko dla plików, które zawierają różne, ale niezbyt od siebie odległe wersje tego samego tekstu, porównanie ilościowe może zostać dokonane na parze dwóch dowolnych plików.

Zasoby:

Raport
Dopasowywacz tekstów - program dopasowujący dwie wersje tego samego tekstu
FileStat - program porównujący pliki tekstowe
Dokumentacja programu FileStat

Wyszukiwanie nazw własnych w tekście

Kolejnym zadaniem realizowanym w ramach projektu było zaimplementowanie demonstracyjnej wersji programu pozwalającego na rozpoznawanie w tekście nazw własnych (osób, nazw geograficznych i nazw organizacji). Funkcjonalność taka może być przydatna przy ustaleniu jakich osób czy rejonów dotycza konkretne teksty bądź przy wyszukiwaniu wszystkich dokumentów, które dotyczą wybranych osób. W wersji demonstracyjnej narzędzie funkcjonujące jako service internetowy zaznacza w podanym tekście nazwy określonych typów.

Zasoby:

Raport
Program do wyszukiwania nazw własnych w tekście