Mit Morphy
gibt es schon seit langem eine Software zur morphologischen Analyse von deutschen Texten. Leider läuft
Morphy nur unter Windows. Die Wort-Daten selber lassen sich aber als Textdateien exportieren
und ich stelle sie hier zum Download bereit:
Vollformenlexikon 2011-07-22 (25MB, Encoding: UTF-8) ( Original-Version ohne Erweiterungen): der Text-Export aller Wörter aus Morphy, die dann
anschließend mit Morphy analysiert wurden, als XML. Format-Beispiel:
<item>
<form>Aal</form>
<lemma wkl="SUB" kas="NOM" num="SIN" gen="MAS">Aal</lemma>
<lemma wkl="SUB" kas="DAT" num="SIN" gen="MAS">Aal</lemma>
<lemma wkl="SUB" kas="AKK" num="SIN" gen="MAS">Aal</lemma>
<lemma wkl="VER" form="IMP" num="SIN" konj="SFT">*aalen</lemma>
</item>
Die Dokumentation der Tags befindet sich auf der
Morphy-Homepage im Bereich Download. Mit den Versionen seit dem 2011-07-02 wurde das Vollformenlexikon so
erweitert, dass es jetzt auch die neue Rechtschreibung umfasst.
Lemmatizer-Daten als CSV-Datei (1,2MB): eine Liste aller Wortformen aus Morphy und ihre Grundformen.
Beispiele:
Aals -> Aal, absahnte -> absahnen, minutiösem -> minutiös
So kann man die Daten in eine MySQL-Tabelle 'word_mapping' mit zwei VARCHAR-Spalten importieren:
LOAD DATA LOCAL INFILE '/pfad/zu/morphy-mapping-20110717.latin1'
REPLACE INTO TABLE word_mapping
FIELDS TERMINATED BY '\t';
Beide Dateien umfassen je ca. 90.000 Grundformen und 431.000 Vollformen.
Eine bisher kleine Erweiterung der Daten wird
im Rahmen von LanguageTool gepflegt. Ein paar kleine Programme zum Erweitern der Daten finden sich auf
auf github.
Die Dateien unterliegen einer Creative-Commons-Lizenz ( Attribution-Share Alike 3.0).
Links zu verwandten Daten und Programmen:
|