Userlike Chat Button
Data Science Hochschulzertifikat

Natural Language Processing and Large Language Models

Programm
Data Science

Abschluss
Einzelzertifikat

Modulnummer
30300

Themenbereich
Data Analytics, Vertiefungsstudium

Leistungpunkte
6

Sprache
deutsch/englisch

Dozent
Prof. Dr. Thomas Eppler

Gebühren
1215 €

Dauer
6 Wochen

Onlineanteil
85%-100%

Inhalte des Moduls Text Mining

Einführung in Natural Language Processing (NLP)

  • o NLP-Anwendungen
  • o Problemstellungen bei der maschinellen Verarbeitung von Sprache

Word Representation

  • o Repräsentation von Wörtern und deren Bedeutung
  • o Wort-Vektoren (Word Embeddings wie z.B. Word2Vec)
  • o Analyse und Vorhersage des Kontextes eines Wortes (z.B. Skip-gram, Co-occurence matrix)
  • o Evaluierung der Qualität von Wort-Vektoren (intrinsisch und extrinsisch)

Rekurrente Neuronale Netzwerke (RNNs)

  • o Modellierung von Sprache (z.B. n-gram)
  • o Grundlagen, Aufbau und Training von RNNs
  • o Anwendungsbeispiele
  • o Probleme mit einfachen RNNs und Long Short-Term Memory (LSTM) als Verbesserung

Sequenz zu Sequenz (Seq2Seq)

  • o Grundlagen von Maschinellen Übersetzungen (Statistischer Ansatz)
  • o End-to-end Ansatz mit Neuronalen Netzen bestehend aus 2 RNNs (Encoder/Decoder)
  • o Evaluierung von Übersetzungen und Beispiele von Implementierungen

Attention und Transformer Architektur

  • o Grundsätzliche Problematik mit Rekurrenten Netzen und Anwendung von Self-Attention
  • o Einführung in die Architektur eines Transformer Modells
  • o Anwendung von Multi-headed Attention, Residual Connections und Layer Normalization

Vortrainierte Modelle

  • o BERT – Bidirectional Encoder Representations from Tranformers (Encoder)
  • o GPT – Generative Pretrained Transformer (Decoder)
  • o T5 (Encoder-Decoder)

Large Language Modelle (LLMs)

  • o Beispiele zur Anwendung auf die Menschliche Sprache, aber auch kritische Betrachtungen
  • o Wie funktioniert GPT
  • o Prompt-Engineering
  • o Retrieval Augmented Generation (RAG)

Hands-On Large Language Models

  • o Implementierung einer kompletten RAG Pipeline
  • o Indexierung von Dokumenten mit Chroma Vektordatenbank
  • o Retrieval mit Langchain
  • o Generation mit Gradio Chat-Bot

Lernergebnisse, Kompetenzen

Wissen

Successful participants will be able to understand fundamental methods for Natural Language Processing, as well as being able to select, apply and evaluate the most appropriate techniques for a variety of different practical and application-oriented scenarios.

Fertigkeiten
Sozialkompetenz
Selbstständigkeit

Die Studierenden erarbeiten sich den Inhalt selbständig anhand von Studienbriefen.

Teilnahmevoraussetzung

Für die Teilnahme an unseren Zertifikatsmodulen bestehen keine verpflichtenden Teilnahmevoraussetzungen.

Prüfungsform

Hausarbeit

Jetzt anmelden