Workshop 2: Text als Daten – Computergestützte Methoden der Datensammlung und Textanalyse

Zielgruppe: Einsteiger*innen
Sprache: Deutsch
Verfügbare Plätze: 12

Workshop-Beschreibung:
Die Analyse von strukturierten und unstrukturierten Textdaten hat nicht erst seit ChatGPT an gesellschaftlicher und wissenschaftlicher Relevanz gewonnen. Textdaten stellen eine reichhaltige Informationsquelle dar und es ist von entscheidender Bedeutung zu verstehen, wie aus ihnen Erkenntnisse gewonnen werden können. Dieser Workshop bietet eine angewandte Einführung in die computergestützte Textanalyse: Sie lernen,wie computergestützte Techniken eingesetzt werden, um Textdaten erfolgreich zu analysieren. Wir werden uns sowohl mit der Sammlung und Aufbereitung von Texten, mit klassischen maschinellen Lernverfahren, mit der Extraktion von Themen als auch mit der Anwendung von großen Sprachmodellen, wie z.B. ChatGPT, befassen. Ein wesentliches Ziel des Workshops ist es, praktische Erfahrungen im Umgang mit dem Softwarepaket R zu sammeln, um Textdaten einzulesen, aufzubereiten, zu analysieren und zu visualisieren.


Software und Pakete:
Zur Teilnahme am Workshop werden grundlegende Kenntnisse von R benötigt. Damit wir bereits am ersten Tag inhaltlich starten können, werde ich Ihnen vor dem Workshop eine allgemeine Einführung in die Infrastruktur und Programmiersprache R zuschicken. Bitte stellen Sie sicher, dass Sie R und RStudio Desktop vor Beginn des Workshops auf Ihrem Notebook installiert haben. Die angewandten Skripte basieren hauptsächlich auf der R tidyverse syntax; viele der Anwendungen greifen auf das quanteda R Paket zurück. Sie können gerne eigene Textdaten und Anwendungsideen zum Workshop mitbringen.

Literatur:



Voraussetzungen für den Erhalt eines Leistungsnachweises:

  • Vor dem Workshop: Recherche und Vorbereitung einer kurzen Präsentation eines Forschungsartikels aus der eigenen Disziplin, der Texte als Datenquelle nutzt
  • Nach dem Workshop: Eigene Anwendung und/oder kritische Reflektion eines der diskutierten angewandten Verfahren



Referent: Dr. Valentin Gold

Gold_klein
Valentin Gold ist Akademischer Rat (a.Zt.) am Institut für Methoden und methodologische Grundlagen der Sozialwissenschaften an der Universität Göttingen. Er koordiniert das Deliberation Laboratory ( https://delab.uni-goettingen.de/) – ein interdisziplinäres Projekt finanziert durch die VolkswagenStiftung. Seine Lehr- und Forschungsschwerpunkte liegen in der Anwendung und Entwicklung von computergestützten Verfahren zur Analyse von Textdaten.

Ausgewählte Publikationen von Dr. Valentin Gold:

  • Annette Hautli-Janisz, Katarzyna Budzynska, Conor McKillop, Brian Plüss, Valentin Gold, and Chris Reed. Questions in argumentative dialogue. Journal of Pragmatics, 188:56– 79, 2022. ISSN 0378-2166. doi: https://doi.org/10.1016/j.pragma.2021.10.029
  • Brian Plüss, Fabian Sperrle, Valentin Gold, Mennatallah El-Assady, Annette Hautli, Katarzyna Budzynska, and Chris Reed. Augmenting Public Deliberations through Stream Argument Analytics and Visualisations. In Stefan Jänicke, Ingrid Hotz, and Shixia Liu (editors), LEVIA’18: Leipzig Symposium on Visualization in Applications, 2018.
  • Valentin Gold, Mennatallah El-Assady, Annette Hautli-Janisz, Tina B ̈ogel, Christian Rohrdantz, Miriam Butt, Katharina Holzinger, and Daniel Keim. Visual linguistic analysis of political discussions: Measuring deliberative quality. Digital Scholarship in the Humanities, 32(1):141–158, 2017. doi: 10.1093/llc/fqv033.
  • Mennatallah El-Assady, Valentin Gold, Carmela Acevedo, Christopher Collins, and Daniel Keim. ConToVi: Multi-Party Conversation Exploration using Topic-Space Views. Computer Graphics Forum, 35(3):431–440, 2016. ISSN 1467-8659. doi: 10.1111/cgf.12919.