Deutsche Wiktionary als sauberes JSON-File

Heute stellen wir Euch das deutsche „Wiktionary“ als sauberes JSON-File zur Verfügung…

„Was ist denn das besondere daran?“ mögt Ihr fragen. Jeder kann es einfach downloaden, oder?

Ja – und nein! Das Wiktionary-Format ist so konfus, dass man es zwar downloaden aber nicht wirklich nutzen kann.

Wir haben ein Tool entwickelt, mit dem wir die wichtigsten Daten aus der Wiktionary in ein sauberes JSON-Format übertragen, so dass es einfach von anderen Programmen weiterverwendet werden kann.

Das war ziemlich viel Arbeit, da es mit viel manueller Analyse verbunden war. Wir stellen Euch diese Daten zum Download zur Verfügung.

Die Datenstruktur sieht wie folgt aus:

{
   'word': {
      'is_verb': [true | false],
      'is_toponym': [true | false],
      'word_type': {
         'lang': 'Deutsch',
         'type': '...', # e.g. "Deklinierte Form" or "Konjugierte Form" or [Substantiv, Nominativ, ...]
         'gender': [m | f]
      },
      'base_form': <base-string>
      'parents': [...],
      'definitions': [...],
      'sub_terms': [...],
      'grammar_attributes': [...] OR "...",
      'declinations': [
        {
           'genus': [m | f | n]
        },
        {
           'case': [Stamm | Nominativ ...],
           'sing_plur': [singular | plural],
           'decl': <decl of this case>
         },
         ...
      ]
      'synonyms': [...],
      'antonyms': [...],
      'word_connections': [...],
      'similars': [...],
      'examples': [...],
   },
   ...
}

Bitte lest unsere LICENSE-Datei durch. Wie üblich ist es kostenlos und kann auch kostenlos kommerziell genutzt werden – ausser durch Universitäten, Hochschulen, und Fachhochschulen sowie Instituten wie dem Fraunhofer-Institut in Deutschland, Schweiz und Österreich.

Die Dateigrösse (entpackt) ist 465MB. GZIP-gepackt sind es 49MB. Viel Spass beim Download und der Nutzung.

Die Datei beinhaltet über 600.000 Einträge (Wörter).

PS: Wir werden in regelmässigen Abständen neue Snapshots der Wiktionary bereitstellen und untersuchen, ob wir noch mehr Daten extrahieren können.