Natural Language Processing and Large Language Models
Programm
Data Science
Abschluss
Einzelzertifikat
Modulnummer
30300
Themenbereich
Data Analytics, Vertiefungsstudium
Leistungpunkte
6
Sprache
deutsch/englisch
Dozent
Prof. Dr. Thomas Eppler
Gebühren
1215 €
Dauer
6 Wochen
Onlineanteil
85%-100%
Inhalte des Moduls Text Mining
Einführung in Natural Language Processing (NLP)
- o NLP-Anwendungen
- o Problemstellungen bei der maschinellen Verarbeitung von Sprache
Word Representation
- o Repräsentation von Wörtern und deren Bedeutung
- o Wort-Vektoren (Word Embeddings wie z.B. Word2Vec)
- o Analyse und Vorhersage des Kontextes eines Wortes (z.B. Skip-gram, Co-occurence matrix)
- o Evaluierung der Qualität von Wort-Vektoren (intrinsisch und extrinsisch)
Rekurrente Neuronale Netzwerke (RNNs)
- o Modellierung von Sprache (z.B. n-gram)
- o Grundlagen, Aufbau und Training von RNNs
- o Anwendungsbeispiele
- o Probleme mit einfachen RNNs und Long Short-Term Memory (LSTM) als Verbesserung
Sequenz zu Sequenz (Seq2Seq)
- o Grundlagen von Maschinellen Übersetzungen (Statistischer Ansatz)
- o End-to-end Ansatz mit Neuronalen Netzen bestehend aus 2 RNNs (Encoder/Decoder)
- o Evaluierung von Übersetzungen und Beispiele von Implementierungen
Attention und Transformer Architektur
- o Grundsätzliche Problematik mit Rekurrenten Netzen und Anwendung von Self-Attention
- o Einführung in die Architektur eines Transformer Modells
- o Anwendung von Multi-headed Attention, Residual Connections und Layer Normalization
Vortrainierte Modelle
- o BERT – Bidirectional Encoder Representations from Tranformers (Encoder)
- o GPT – Generative Pretrained Transformer (Decoder)
- o T5 (Encoder-Decoder)
Large Language Modelle (LLMs)
- o Beispiele zur Anwendung auf die Menschliche Sprache, aber auch kritische Betrachtungen
- o Wie funktioniert GPT
- o Prompt-Engineering
- o Retrieval Augmented Generation (RAG)
Hands-On Large Language Models
- o Implementierung einer kompletten RAG Pipeline
- o Indexierung von Dokumenten mit Chroma Vektordatenbank
- o Retrieval mit Langchain
- o Generation mit Gradio Chat-Bot
Lernergebnisse, Kompetenzen
Successful participants will be able to understand fundamental methods for Natural Language Processing, as well as being able to select, apply and evaluate the most appropriate techniques for a variety of different practical and application-oriented scenarios.
Die Studierenden erarbeiten sich den Inhalt selbständig anhand von Studienbriefen.
Teilnahmevoraussetzung
Für die Teilnahme an unseren Zertifikatsmodulen bestehen keine verpflichtenden Teilnahmevoraussetzungen.
Prüfungsform
Hausarbeit




