Ggf. Konvertierung utf-8 | iso: iconv -t utf-8 -f iso-8859-1 infile > outfile Aus einer Textdatei Wortlisten erstellen: tr ' ' '\012' < infile > outfile tr -s '[[:punct:][:space:]]' '\012' < outfile > wl "tr" ersetzt Zeichen. Hier werden in einem ersten Schritt alle Leerzeichen durch Zeilenschaltungen (umschrieben mit \012) ersetzt. Dann wird die Interpunktion ebenfalls durch Zeilenschaltungen ersetzt und mehrere Leerzeichen gelöscht. Am Schluss haben wir eine Wortliste "wl". Es gibt hier teilweise Schwierigkeiten mit Umlauten oder mit dem Wunsch, Zeichen nicht einfach nur zu ersetzen, sondern zu ergänzen (z.B. die Interpunktion von den Wörtern zu trennen). Unter Mac OS X ist es deshalb oft einfacher, mit einem Texteditor wie BBEdit zu arbeiten und dort eine Wortliste mit Hilfe der Grep-Suche mit Regular Expressions zu machen. Sortieren und zählen: sort -d wl | uniq -c > outfile Klein-Großschreibung nicht unterscheiden: sort -f Die Kombination von sort und uniq ermöglicht das Zählen von Wörtervorkommen, wenn pro Zeile ein Wort steht (wie das mit dem oben vorgestellten Befehlskonstrukt machbar ist). Hier wird also zuerst eine Datei alphabetisch sortiert. Dann mit "uniq" werden die gleichen Zeilen gezählt. Anschliessend kann man natürlich mit "sort -dr infile > outfile" die Datei nach Wortfrequenzen (absteigend) sortieren. N-Gramme erstellen: tail +2 wl > nextwords paste wl nextwords > bigrams tail +3 wl > nextnextwords paste wl nextwords nextnextwords > trigrams ...etc. Hier eine elegante Methode, um N-Gramme, also Wortgruppen, aus 2 oder mehr Wörtern bestehend, zu berechnen. Mit "tail" werden neue Dateien erstellt, denen die erste, bzw. die ersten zwei Zeilen fehlen. Mit "paste" werden jeweils die Originaldatei mit den anderen Dateien zusammengefügt, so dass man auf jeder Zeile jeweils die zwei oder drei aufeinanderfolgenden Wörter hat. Jetzt haben wir Dateien "bigrams" und "trigrams", die alle möglichen Kombinationen von Wörtern enthalten. Dann kann man mit "sort" und "uniq", wie oben beschrieben, sortieren und Frequenzen der Wortgruppen zählen. Texte konvertieren und zusammenfügen mit textutil (mit Mac OS X): Seit der Version 10.4 von Mac OS X gibt es ein tolles Programm "textutil", mit dem man einfach Texte konvertieren und zusammenfügen kann. Man kann damit folgende Textformate je ineinander konvertieren: txt, html, rtf, rtfd, doc, wordml, webarchive Am einfachsten lässt sich eine Datei so in ein anderes Format konvertieren: textutil -convert doc inputdatei outputdatei Damit wird die Inputdatei in das doc-Format konvertiert. Statt "doc" kann an der entsprechenden Stelle auch eines der oben erwähnten Formate genannt werden. Man kann aber mit dem Argument -cat mehrere Dateien gleichzeitig konvertieren und in eine einzige Datei zusammenfügen. Das funktioniert z.B. so: textutil -cat txt -output outputdatei.txt daten/*.html Damit werden alle Dateien, die sich im Verzeichnis "daten" befinden und die Endung ".html" haben, ins Format txt konvertiert und in eine Datei namens "outputdatei.txt" zusammengefügt. Weitere Hilfe kann mit "man textutil" aufgerufen werden.