>> danielnaber.de 

 

 

Deutsches Morphologie-Lexikon

   
 

German | English

Mit Morphy gibt es schon seit den 1990ern eine Software zur morphologischen Analyse von deutschen Texten. Da Morphy aber nur unter Windows läuft, stelle ich das zugrunde liegende Vollformen-Wörterbuch hier zum Download bereit:

  • Vollformenlexikon 2011-07-22 (25MB, Encoding: UTF-8) (Original-Version ohne Erweiterungen): der Text-Export aller Wörter aus Morphy, die dann anschließend mit Morphy analysiert wurden, als XML. Format-Beispiel:
    <item>
      <form>Autos</form>
      <lemma wkl="SUB" kas="GEN" num="SIN" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="NOM" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="GEN" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="DAT" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="AKK" num="PLU" gen="NEU">Auto</lemma>
    </item>

    Der Eintrag bedeutet, dass es sich bei "Autos" um ein Neutrum-Substantiv/Nomen (gen="NEU", wkl="SUB") handelt, das fünf Lesarten hat: Singular Genitiv und Plural Nominativ, Genitiv, Dativ, Akkusativ (kas="NOM" usw.). Alle Lesarten haben die Grundform (Lemma) "Auto". Die genauere Dokumentation der Tags befindet sich auf der Morphy-Homepage im Bereich Download.

    Mit den Versionen seit dem 2011-07-02 wurde das Vollformenlexikon so erweitert, dass es jetzt auch die neue Rechtschreibung umfasst.

  • Lemmatizer-Daten als CSV-Datei (1,2MB): eine Liste aller Wortformen aus Morphy und ihre Grundformen. Beispiele: Autos -> Auto, absahnte -> absahnen, minutiösem -> minutiös
    So kann man die Daten in eine MySQL-Tabelle 'word_mapping' mit zwei VARCHAR-Spalten importieren:
    LOAD DATA LOCAL INFILE '/pfad/zu/morphy-mapping-20110717.latin1'
    REPLACE INTO TABLE word_mapping
    FIELDS TERMINATED BY '\t';
            

Für Fragen bin ich unter naber(at)danielnaber.de erreichbar.

Beide Dateien umfassen je ca. 90.000 Grundformen und 431.000 Vollformen. Eine bisher kleine Erweiterung der Daten wird im Rahmen von LanguageTool gepflegt. Im LanguageTool-Wiki steht, wie man die binäre LanguageTool *.dict-Datei exportiert, die einige Wörter mehr enthält als obige XML-Datei.

Creative Commons Lizenzvertrag Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 Unported Lizenz.

Links zu verwandten Daten und Programmen:

 
 
naber (at) danielnaber de, Last updated: 2014-12-20