Kontrukcja słownika polszczyzny dawnej dla wybranego zbioru tekstów
W ramach projektu SYNAT zaproponowano metodę budowy słownika języka polskiego zawierającego formy dawne. Proces tworzenia słownika rozpoczyna sie od przetworzenia juz istniejacego słownika papierowego, który nastepnie jest rozszerzany informacjami uzyskanymi bezposrednio z tekstów i odbywa sie w nastepujacy sposób:
- skanowanie papierowej wersji słownika,
- zamiana wyników skanowania oprogramowaniem OCR na formę tekstową,
- porawienie ewentualnych błedów w pliku tekstowym,
- zdefiniowanie struktury wewnętrznej słownika w formacie LMF,
- konwersja pliku tekstowego na zdefiniowaną strukturę,
- uzupełnienie zawartości słownika o oznaczenia części mowy,
- wzbogacenie słownika o nowe formy z wybranych źródeł,
- przygotowanie programu do edycji słownika,
- poprawienie struktur LMF przez lingwistę,
- przygotowanie narzędzi do obsługi powstałego słownika.
Zasoby:
Słownik polszczyzny dawnej nie może być w chwili obecnej udostępniony z powodu nieroztrzygniętych kwestii związanych z prawem autorskim.
Porównywanie tekstów
Jednym z zadań realizowanych w ramach projektu SYNAT było opracowanie demonstracyjnej wersji programu pozwalającego na dokonanie porównania dwóch dokumentów tekstowych. W ramach tej funkcjonalności możliwe jest uliniowienie (zrównoleglenie) potencjalnie identycznych zdań w dwóch wersjach tego samego tekstu. Funkcjonalność taka może być przydatna przy prowadzeniu badań nad dawnymi tekstami, które często dostępne są obecnie w wielu, częściowo zmienionych lub uwspółcześnionych wersjach. Dla użytkowników platformy Infona mogłaby ona stać się przydatna po uzupełnieniu zawartości platformy o teksty dostępne w zasobach bibliotecznych.
Dla określenia liczby zmian w tekście i przeprowadzenia wstępnej weryfikacji, czy porównywane teksty nie są zbyt od siebie odległe, udostępniono program FileStat pozwalający na porównanie ilościowe zawartości leksykalnej dwóch (lub większej liczby) plików tekstowych. O ile zrównoleglanie wersji tekstu na poziomie zdań i słów mońe zostać wykonane tylko dla plików, które zawierają różne, ale niezbyt od siebie odległe wersje tego samego tekstu, porównanie ilościowe może zostać dokonane na parze dwóch dowolnych plików.
Zasoby:
Raport | |
Dopasowywacz tekstów - program dopasowujący dwie wersje tego samego tekstu | |
FileStat - program porównujący pliki tekstowe | |
Dokumentacja programu FileStat |
Wyszukiwanie nazw własnych w tekście
Kolejnym zadaniem realizowanym w ramach projektu było zaimplementowanie demonstracyjnej wersji programu pozwalającego na rozpoznawanie w tekście nazw własnych (osób, nazw geograficznych i nazw organizacji). Funkcjonalność taka może być przydatna przy ustaleniu jakich osób czy rejonów dotycza konkretne teksty bądź przy wyszukiwaniu wszystkich dokumentów, które dotyczą wybranych osób. W wersji demonstracyjnej narzędzie funkcjonujące jako service internetowy zaznacza w podanym tekście nazwy określonych typów.
Zasoby:
Raport | |
Program do wyszukiwania nazw własnych w tekście |