Computerlinguistik und Sprachtechnologie PDF

Zur Navigation springen Zur Suche springen Computerlinguistik und Sprachtechnologie PDF-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. Bigramm-Häufigkeitsgebirge: Verteilung der Bigramme in einem deutschen Text.


Författare: Kai-Uwe Carstensen.

Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme.

Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung.

 

Trigramm-Häufigkeitsgebirge: Verteilung der Trigramme in einem deutschen Text. Das Monogramm besteht aus einem Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, das Bigramm aus zwei und das Trigramm aus drei Zeichen. Die Vorsilben wissenschaftlicher Bezeichnungen werden häufig unter Zuhilfenahme griechischer Zahlwörter gebildet. Die N-Gramm-Analyse wird verwendet, um die Frage zu beantworten, wie wahrscheinlich auf eine bestimmte Buchstaben- oder Wortfolge ein bestimmter Buchstabe oder ein bestimmtes Wort folgen wird. Die verwendete Sprache ist für die Analyse nicht von Bedeutung, wohl aber ihre Statistik: Die N-Gramm-Analyse funktioniert in jeder Sprache und jedem Alphabet.

Besondere Bedeutung kommt der N-Gramm-Analyse dann zu, wenn große Datenmengen, beispielsweise E-Mails, auf ein bestimmtes Themengebiet hin untersucht werden sollen. Kommerziell verfügbare Programme, die diese fehlertolerante und äußerst schnelle Methode ausnutzen, sind Rechtschreibprüfungen und Forensik-Werkzeuge. Die Firma Google veröffentlichte im Jahr 2006 sechs DVDs mit englischsprachigen N-Grammen von ein bis fünf Wörtern, die bei der Indexierung des Webs entstanden. Die Häufigkeit des Vorkommens der einzelnen Bigramme wird bestimmt. Ein Datenset aus Google Books mit Stichtag Juli 2009 wurde mit einer Weboberfläche und grafischer Auswertung in Form von Diagrammen versehen und unter dem Namen Google Books Ngram Viewer ins Netz gestellt. Ein neues Korpus mit Stichtag Juli 2012 wurde Ende des Jahres zugänglich gemacht.

Als neue Sprache kam Italienisch hinzu, English One Million wurde nicht wieder gebildet. Grundlegend basiert er auf einer größeren Anzahl von Büchern, verbesserter OCR-Technik und verbesserten Metadaten. Der Dice-Koeffizient gibt an, wie ähnlich zwei Terme sind. Er ermittelt dazu den Anteil der N-Gramme, die in beiden Termen vorhanden sind. Als N-Gramm-Statistik bezeichnet man eine Statistik über die Häufigkeit von N-Grammen, manchmal auch von Wortkombinationen aus N Wörtern. Spezialfälle sind die Bigrammstatistik und die Trigrammstatistik.