|
German | English
Mit Morphy
gibt es schon seit den 1990ern eine Software zur morphologischen Analyse von deutschen Texten. Da
Morphy aber nur unter Windows läuft, stelle ich das zugrunde liegende Vollformen-Wörterbuch
hier zum Download bereit:
Vollformenlexikon 2011-07-22 (25MB, Encoding: UTF-8) ( Original-Version ohne Erweiterungen): der Text-Export aller Wörter aus Morphy, die dann
anschließend mit Morphy analysiert wurden, als XML. Format-Beispiel:
<item>
<form>Autos</form>
<lemma wkl="SUB" kas="GEN" num="SIN" gen="NEU">Auto</lemma>
<lemma wkl="SUB" kas="NOM" num="PLU" gen="NEU">Auto</lemma>
<lemma wkl="SUB" kas="GEN" num="PLU" gen="NEU">Auto</lemma>
<lemma wkl="SUB" kas="DAT" num="PLU" gen="NEU">Auto</lemma>
<lemma wkl="SUB" kas="AKK" num="PLU" gen="NEU">Auto</lemma>
</item>
Der Eintrag bedeutet, dass es sich bei "Autos" um ein Neutrum-Substantiv/Nomen (gen="NEU", wkl="SUB")
handelt, das fünf Lesarten hat: Singular Genitiv und Plural Nominativ, Genitiv, Dativ, Akkusativ (kas="NOM" usw.).
Alle Lesarten haben die Grundform (Lemma) "Auto".
Die genauere Dokumentation der Tags befindet sich auf der
Morphy-Homepage im Bereich Download.
Mit den Versionen seit dem 2011-07-02 wurde das Vollformenlexikon so
erweitert, dass es jetzt auch die neue Rechtschreibung umfasst.
Lemmatizer-Daten als CSV-Datei (1,2MB): eine Liste aller Wortformen aus Morphy und ihre Grundformen.
Beispiele:
Autos -> Auto, absahnte -> absahnen, minutiösem -> minutiös
So kann man die Daten in eine MySQL-Tabelle 'word_mapping' mit zwei VARCHAR-Spalten importieren:
LOAD DATA LOCAL INFILE '/pfad/zu/morphy-mapping-20110717.latin1'
REPLACE INTO TABLE word_mapping
FIELDS TERMINATED BY '\t';
Für Fragen bin ich unter naber(at)danielnaber.de
erreichbar.
Beide Dateien umfassen je ca. 90.000 Grundformen und 431.000 Vollformen.
Eine bisher kleine Erweiterung der Daten wird
im Rahmen von LanguageTool gepflegt. Ein paar kleine Programme zum Erweitern der Daten finden sich auf
auf github.
Links zu verwandten Daten und Programmen:
|