Wortliste für Wörterlexikon

  • Hallo miteinander,

    ich habe mich jetzt für eine deutsche Wortliste für das Wörterlexion entschieden. Sie enthält ca 150 000 Einträge (die englische enthält 12 000). Davon sind ca 1000 länger als 20 Buchstaben und daher nicht geeignet. Bei der Liste mit 250 000 Einträgen habe ich Bauchschmerzen wegen der Performance. Außerdem enthält sie viele Dopplungen (röntgen / Röntgen) und Fremdworte (Root, Room, Roof ..).

    Naturgemäß enthält die Liste nicht alle Worte. Ein paar Sachen habe ich schon ergänzt, wie KI, GEOS, Pauli, Lorentz, Fraktal, Gray, Sievert - eben was mir so aus meine Fachgebiet wichtig erscheint. Da die Liste nicht sortiert sein muss, kann man problemlos Ergänzungen vornehmen. Wenn ihr also etwas habt, lasst es mich wissen. Ich checke dann, ob es das Wort schon gibt.

    Rainer

    Es gibt 10 Arten von Menschen - die einen wissen was binär ist, die anderen nicht.

  • Zwischenstand: Meine deutsche Wortliste hat jetzt 149650 Worte. Hinzu kommen ca 12000 Worte, weil die Umlaute extra behandelt sind, also Ärger wird als ÄRGER und AERGER abgespeichert. Die Datei ist damit 2,03 MB groß. Das ist der Punkt, der mich etwas stört, die Performance ist (sehr) gut, bei 50000 Cycles in der Dosbox muss ich gefühlt gar nicht warten.

    Wenn ihr noch wünsche für irgendwelche Worte habt (ein spezielle Fachgebiet z.B.), schickt mir ne zeitnah Liste. Auf 100 Worte mehr oder weniger kommt es nicht an. Eventuelle Dopplungen filtert mein R-BASIC Programm selbständig heraus.

    Rainer

    P.S. meine Zielgröße waren so 50000 Worte, aber ich habe keine Liste in dieser Größenordnung gefunden. Derzeit sind halt viele 'Varianten' dabei, z.B ABLEHNEN, ABLEHNEND, ABLEHNENDE, ABLEHNENDEN, ABLEHNENDER, ABLEHNENDES

    Es gibt 10 Arten von Menschen - die einen wissen was binär ist, die anderen nicht.