>> danielnaber.de 

 

 

Deutsches Morphologie-Lexikon

   
 

German | English

Mit external link to MorphyMorphy gibt es schon seit den 1990ern eine Software zur morphologischen Analyse von deutschen Texten. Da Morphy aber nur unter Windows läuft, stelle ich das zugrunde liegende Vollformen-Wörterbuch hier zum Download bereit:

  • internal link to Vollformenlexikon 2011-07-22 (25MB, Encoding: UTF-8)Vollformenlexikon 2011-07-22 (25MB, Encoding: UTF-8) (internal link to Original-Version ohne ErweiterungenOriginal-Version ohne Erweiterungen): der Text-Export aller Wörter aus Morphy, die dann anschließend mit Morphy analysiert wurden, als XML. Format-Beispiel:
    <item>
      <form>Autos</form>
      <lemma wkl="SUB" kas="GEN" num="SIN" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="NOM" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="GEN" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="DAT" num="PLU" gen="NEU">Auto</lemma>
      <lemma wkl="SUB" kas="AKK" num="PLU" gen="NEU">Auto</lemma>
    </item>

    Der Eintrag bedeutet, dass es sich bei "Autos" um ein Neutrum-Substantiv/Nomen (gen="NEU", wkl="SUB") handelt, das fünf Lesarten hat: Singular Genitiv und Plural Nominativ, Genitiv, Dativ, Akkusativ (kas="NOM" usw.). Alle Lesarten haben die Grundform (Lemma) "Auto". Die genauere Dokumentation der Tags befindet sich auf der external link to Morphy-Homepage im Bereich <em>Download</em>Morphy-Homepage im Bereich Download.

    Mit den Versionen seit dem 2011-07-02 wurde das Vollformenlexikon so erweitert, dass es jetzt auch die neue Rechtschreibung umfasst.

  • internal link to Lemmatizer-Daten als CSV-Datei (1,2MB)Lemmatizer-Daten als CSV-Datei (1,2MB): eine Liste aller Wortformen aus Morphy und ihre Grundformen. Beispiele: Autos -> Auto, absahnte -> absahnen, minutiösem -> minutiös
    So kann man die Daten in eine MySQL-Tabelle 'word_mapping' mit zwei VARCHAR-Spalten importieren:
    LOAD DATA LOCAL INFILE '/pfad/zu/morphy-mapping-20110717.latin1'
    REPLACE INTO TABLE word_mapping
    FIELDS TERMINATED BY '\t';
            

Für Fragen bin ich unter naber(at)danielnaber.de erreichbar.

Beide Dateien umfassen je ca. 90.000 Grundformen und 431.000 Vollformen. Eine bisher kleine Erweiterung der Daten wird im Rahmen von LanguageTool gepflegt. Ein paar kleine Programme zum Erweitern der Daten finden sich auf auf github.

Creative Commons Lizenzvertrag Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.

Links zu verwandten Daten und Programmen:

 
 
naber (at) danielnaber de, Last updated: 2012-07-21