nathell/clj-nkjp


Clojure tools for processing the National Corpus of Polish

License: WTFPL

Language: Clojure


clj-nkjp

English: Clojure utilities to process the National Corpus of Polish (NKJP) data.

Polish: Narzędzia w Clojure do przetwarzania danych Narodowego Korpusu Języka Polskiego.

Na ten projekt składają się następujące przestrzenie nazw:

  • clj-nkjp.tei: Konwertuje anotację morfoskładniową milionowego podkorpusu NKJP (pliki ann_morphosyntax.xml) na s-wyrażenia clojurowe.

    Wyniki konwersji (3889 plików .clj skompresowanych programem 7zip; 10 MB) można pobrać stąd.

  • clj-nkjp.disamb: Generuje z plików .clj mapę przyporządkowującą każdemu typowi leksemu w milionowym podkorpusie NKJP jego najczęstszą formę podstawową (dane do lematyzatora unigramowego; por. projekt Polelum).

License / Licencja

WTFPL (zob. plik LICENSE).

Project Statistics

Sourcerank 2
Repository Size 2.17 MB
Stars 1
Forks 0
Watchers 2
Open issues 0
Dependencies 5
Contributors 1
Tags 0
Created
Last updated
Last pushed

Top Contributors See all

Daniel Janus

Something wrong with this page? Make a suggestion

Login to resync this repository