Posted on

Digital Humanities als Denkstil

Dieser Beitrag entstand im Rahmen einer kleinen Reihe zu «Digital Humanities an der Philosophischen Fakultät». Lehrende und Forschende der PhF geben uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus. Heute stellt uns Noah Bubenhofer, Professor am Deutschen Seminar, eine digitale Korpuslinguistik vor.

Herr Bubenhofer, vielen Dank, dass Sie bei dieser Reihe mitmachen – bitte stellen Sie sich kurz vor!

Ich bin germanistischer Linguist, seit September 2019 Professor am Deutschen Seminar der UZH. Ich interessiere mich für eine kultur- und sozialwissenschaftlich orientierte Linguistik, die davon ausgeht, dass Sprache und gesellschaftliches Handeln in einem engen Verhältnis stehen und dass man deshalb über linguistische Analysen etwas darüber lernen kann, wie eine Gesellschaft oder eine Kultur funktioniert.

Ich arbeite sehr stark korpuslinguistisch – ein Korpus ist letztlich eine Sammlung von Textdaten, die meist linguistisch aufbereitet sind und linguistisch analysiert werden. In der Korpuslinguistik verbinde ich quantitative mit qualitativen Methoden, um grössere Textdatenmengen auf Musterhaftigkeit hin analysieren zu können – hier verwende ich natürlich digitale Methoden. Korpuslinguistik gibt es schon sehr lange; mit der Digitalisierung hat sie einen neuen Drive erhalten, weil es sehr viel einfacher geworden ist, sehr grosse Textdatenmengen zu verarbeiten.

Was verstehen Sie unter «Digital Humanities», auch in Bezug zu Ihrem Forschungsgebiet?

Ich erlebe «Digital Humanities» als extrem heterogen, und manchmal ist es gar nicht so klar, ob ich das, was ich mache, auch dazu zählen kann – gerade weil die Korpuslinguistik eigentlich schon eine sehr lange Tradition in der Linguistik hat.

Einerseits bedeutet «Digital Humanities» für mich, digitale Methoden auf digitalen Daten anzuwenden und letztlich geisteswissenschaftliche Fragestellungen zu verfolgen. Andererseits reflektiert man «Digitalität per se» mit geisteswissenschaftlichen Theorien: Was macht «Verdatung» mit Informationen, was ist eigentlich ein Algorithmus, und so weiter.

Die Kombination dieser beider Aspekte macht das Alleinstellungsmerkmal von «Digital Humanities» im Vergleich zu anderen Disziplinen aus, die auch mit digitalen Daten und Methoden arbeiten, wie z.B. Informatik, Data Mining o.ä.

Sie sagten «Disziplin» im Zusammenhang mit Digital Humanities …

[lacht] Dieselbe Debatte gibt es auch in der Korpuslinguistik – ist sie eine Subdisziplin der Linguistik oder ist sie eher ein Denkstil? Ich argumentiere immer für Letzteres, da es eine bestimmte Art und Weise ist, Sprache anzusehen.

Ferdinand de Saussure führte die Unterscheidung von «langue» und «parole» ein, dabei ist «langue» sozusagen das Sprachsystem und «parole» die tatsächlich geäusserte Sprache. Lange interessierte sich die Linguistik hauptsächlich für die «langue». Die Korpuslinguistik machte erst den Fokus auf die «parole» stark, indem die Musterhaftigkeit in der gesprochenen und geschriebenen Sprache untersucht wurde.

Diese Verschiebung der Perspektive findet man in den Digital Humanities teilweise wieder. Man ist an anderen Aspekten der Daten interessiert und hat dadurch auch ein anderes theoretisches Modell im Hintergrund. Deshalb sind die Digital Humanities für mich auch eine Denkrichtung, die versucht, mit spezifischen Methoden einen neuen Blick auf die vorhandenen Daten zu erhalten.

Können Sie uns ein Beispiel geben, vielleicht an einem Ihrer Forschungsprojekte?

In einem Projekt habe ich Alltagserzählungen, genauer Geburtsberichte gesammelt. In diesen schrieben Mütter nieder, wie sie die Geburt ihres Kindes erlebt hatten. Die Berichte stammen aus Threads in Online-Foren, die genau für dieses Genre vorgesehen sind. Ich habe nun 14’000 Berichte aus sechs unterschiedlichen deutschsprachigen Foren gesammelt, analysiert und dabei eine Diskrepanz zwischen diesem sehr individuellen Erlebnis und der Erzählung darüber aufgezeigt: In der Erzählung konnte eine extreme Musterhaftigkeit mit einem bestimmten erzähltypischen Ablauf festgestellt werden, mit bestimmten Themen und Motiven, die sich wiederholten. Die Musterhaftigkeit dieser Erzählungen konnte mit Hilfe digitaler Methoden freigelegt werden.

Genau hier kommt auch wieder der Unterschied z.B. zu reinem Data Mining ins Spiel, wo Fragen wie Narrativität und Sequenzialität zu kurz kommen. In den Geisteswissenschaften ist es uns dagegen klar, dass diese Aspekte eine Rolle spielen: Man kann einen Text nicht einfach als «Sack von Wörtern» (bag of words) auffassen, sondern es spielt eine Rolle, in welcher Sequenz diese Wörter vorkommen.

Es ging in diesem Projekt also auch darum, die Methodik so anzupassen, dass man diese narrativen Strukturen identifizieren kann.

Wie gehen Sie (technisch) vor, um eine solche Analyse durchzuführen?

Zunächst müssen die Daten «gecrawlt», d.h. automatisiert vom Web heruntergeladen werden. In einem aktuellen Projekt zu COVID19 News-Kommentaren haben wir z.B. mit Python und Selenium gearbeitet. Dabei übernimmt Selenium die «Benutzerinteraktion» auf einer dynamischen Webseite – diese sind heute ja nicht mehr einfach statisches HTML.

Diese Daten werden nun linguistisch, d.h. mit Wortarten-Tagging, syntaktischem Parsing, semantischen Annotationen etc. versehen. Dafür verwenden wir an unserem Lehrstuhl das UIMA-Framework, das mit Modulen oder eigenen Python-Skripts erweitert werden kann, die das Tagging oder andere Verarbeitungsschritte auf diesen Textdaten durchführen.

Im nächsten Schritt gehen diese verarbeiteten Daten in die Corpus Workbench, eine Datenbank, die spezialisiert ist, korpuslinguistisch annotierte Daten zu verwalten und zu analysieren. Für die Analyse wichtig sind in unserem Gebiet die n-Gramme – Gruppen von n Wörtern, sprachliche Muster –, die wir mit unserer selbst entwickelten Software cwb-n-grams berechnen können. Wie diese n-Gramme berechnet werden, kann dabei ganz unterschiedlich sein: Nimmt man als Basis die Grundformen der Wörter, reduziert man Redundanzen, behält man «Füllwörter» oder nicht, wie lange soll das n-Gramm sein, etc. Wir haben die Methodik zudem so erweitert, dass wir zusätzlich auch die erstellten Annotationen mit einbeziehen.

Die (statistische) Analyse selber kann man schliesslich z.B. mit R und plotly durchführen, für das ein Paket existiert, das direkt auf die Corpus Workbench zugreifen kann. Hier vergleichen wir die Häufigkeiten jeweils mit einem Referenzkorpus, um statistisch signifikante n-Gramme finden zu können. Signifikant heisst in dem Zusammenhang: Welche n-Gramme sind typisch für Geburtsberichte und nicht aus anderen Gründen häufig vorgekommen.

Der Output kann z.B. eine interaktive Grafik sein – hier das Beispiel zum Projekt «Geburtsgeschichten», das typische Positionen der n-Gramme im Verlauf der Erzählung darstellt. Man sieht an den n-Grammen, dass diese sprachlichen Muster über die 14’000 Texte hinweg immer wieder gleich und an ähnlichen Positionen in der Erzählung vorkommen. Die y-Achse zeigt die Standardabweichung bezüglich Position in der Geschichte: Je weiter oben ein n-Gramm erscheint, desto variabler war die Position im Verlauf. Auf der Grafik sind bestimmte Cluster von n-Grammen sichtbar, die aber weniger variabel waren, gegen Ende der Erzählung z.B. das n-Gramm «gleich auf den Bauch gelegt».

Eine rhetorische Frage: Was ist der Mehrwert gegenüber analogen Methoden?

[lacht] … Genau, was bringt’s wirklich? Zum einen, 14’000 Geschichten kann ich nicht einfach durchlesen. Aber im Ernst: Es zeigt sich eine Musterhaftigkeit in der Sprache, die nicht auffallen kann, wenn man nur Einzeltexte vor sich hat. Ich finde dieses datengeleitete Paradigma wichtig: Welche Strukturen ergeben sich eigentlich datengeleitet und nicht theoriegeleitet? Sehr wichtig ist dabei, dass wir im Anschluss eine geisteswissenschaftliche Interpretation davon machen. Man hat nicht zuerst eine theoriegeleitete Hypothese, die man stützen oder verwerfen kann, sondern generiert die Hypothese vielleicht erst durch diese Interpretation. Natürlich muss man dann wieder zurück in die Daten und prüfen, ob diese Hypothese wirklich stimmt – und man darf nicht vergessen, dass man trotz des induktiven Vorgehens noch Prämissen gesetzt hat: Allein die Definition, was als Wort aufgefasst wird, welche Daten wähle ich aus, etc.

Eine Challenge in der Linguistik ist heute, dass die Informatik uns neuronale Lernmethoden gibt, die statistische Modelle aus den praktisch unverarbeiteten Daten lernen. Der Algorithmus muss gar nicht mehr wissen, was ein Wort oder eine Wortart ist. Die Idee ist dann, dass sich die Musterhaftigkeit und allenfalls Kategorien wie Wortarten aus den Daten ergeben. Dies stellt natürlich die klassische Linguistik in Frage – wir experimentieren aber damit und fragen uns, inwiefern linguistische Theorien helfen zu verstehen, warum solche Methoden überhaupt funktionieren und wie sie verbessert werden können. Und doch ist es auch hier wichtig zu sehen, dass neuronale Lernmethoden keinesfalls objektive, neutrale Modellierungen von Sprache darstellen, sondern mit der Datenauswahl und den gewählten Parametern eben spezifischen Sprachgebrauch abbilden. Die Modelle sind genauso voller Verzerrungen – wir würden sagen: diskursiv geprägt – wie ihre Datengrundlage, was z.B. bei AI-Anwendungen problematische Folgen haben kann.

Für die Bearbeitung dieser Fragestellungen werden sehr viele verschiedene Technologiekenntnisse, aber auch sehr viel theoretisches Wissen vorausgesetzt – wie kann man die Studierenden da heranführen?

Man kann heute nicht Linguistik studieren, ohne eine Vorstellung zu haben, was algorithmisch möglich ist. Sie müssen verstehen, was ein Skript machen kann, wie HTML, XML und Datenbanken funktionieren, oder auch, was Machine Learning ist.

Als ich noch in Dresden war, haben wir eine Einführung in die Programmierung für Germanistinnen und Germanisten gegeben, die sich sehr bewährt hat. Der Kurs war sehr niederschwellig, die Studierenden sollten ein kleines Skript zu einem linguistischen Projekt schreiben. Einige Studierende vertiefen diese Kenntnisse weiter, andere nicht – doch zumindest können sie auf Augenhöhe mit Personen sprechen, die sie vielleicht in weiteren Projekten unterstützen.

Hier an der UZH plane ich gerade, hoffentlich mit einem Lehrkredit, ein E-Learning Modul zu Programmierkompetenzen für Geisteswissenschaftlerinnen und Geisteswissenschaftler. Das Modul soll aus Bausteinen bestehen, die man auch gut in andere, bereits bestehende Module einbinden kann und die teilweise auch curricular verpflichtend sind.

Heisst das, dass die Programmierkenntnisse disziplinär gebunden unterrichtet werden sollen? Oder lernt man besser Python in einem Pythonkurs, SQL in einem SQL-Kurs etc.?

Es gibt natürlich unterschiedliche Lerntypen, doch m.E. ist eine disziplinäre Verortung für die Mehrheit der Studierenden in den Geisteswissenschaften wichtig, weil man an den geisteswissenschaftlichen Fragen interessiert ist. Sonst hätte man vielleicht Informatik studiert. Es ist viel einfacher, wenn man eine konkrete Forschungsfrage hat, der man nachgehen kann und entlang derer man die nötigen Kenntnisse erwirbt. Man ist so einfach viel motivierter.

Hier schliesst sich auch der Bogen zur Frage, was «Digital Humanities» sein könnten…

Ja, denn für uns Geisteswissenschaftlerinnen und Geisteswissenschaftler ist eine Methode dann interessant, wenn sie «nahrhaft» für Interpretation ist, d.h. wenn ich daraus etwas machen kann, das mir in meinen Fragen weiterhilft. Es ist eine andere Art von Nützlichkeit als eine rein technologische für eine Anwendung, aber natürlich benötigen wir die Hilfe von anderen Disziplinen, wir haben das Know-How nicht, z.B. einen Part-of-speech-Tagger oder statistische Methoden zu verbessern.

Haben wir ein wichtiges Thema in der Diskussion ausgelassen, haben Sie eine Ergänzung oder einen Ausblick?

In meiner Habilitationsschrift, die demnächst erscheint, geht es um die «Diagrammatik», nämlich wie Darstellungen und Visualisierungen helfen, Daten anders zu verstehen. Es geht hier nicht nur um quantitative Aspekte, sondern darum, wie verschiedene Darstellungsformen neue Sichtweisen auf Daten ermöglichen.

Ein Beispiel ist die «Konkordanzliste»: Man hat hier einen Suchausdruck und sieht dessen unmittelbaren Kontext in verschiedenen Texten. Die Konkordanzdarstellung gibt es schon seit dem Mittelalter, er bricht die Einheit des Textes auf und versucht, einen Blick auf Fundstellen listenförmig darzustellen. Dadurch wird der Text «zerstört», aber gleichzeitig gewinnt man ganz viel, weil man eine neue Sicht erhält.

Für mich ist auch das auch eine Frage für die Digital Humanities, weil wir eigentlich ständig versuchen, unsere Daten in andere Ansichten zu transformieren, um etwas Neues daraus zu gewinnen. Viele dieser Visualisierungen sind erst mit den digitalen Mitteln möglich geworden.

In diesem Beispiel werden Gesprächstranskripte visualisiert: Die drei Gesprächsteilnehmerinnen und Gesprächsteilnehmer sind als Kreiszentren dargestellt. Die Jahresringe stellen einzelne Beiträge der Teilnehmenden dar. Je mehr Ringe, desto mehr sogenannte “turns” wurden von dieser Person beigetragen. Die verschiedenen Durchmesser der Jahresringe ergeben sich aus den Beitragslängen. Einige Beispiele können auf Noah Bubenhofers Seite gleich ausprobiert werden.

Herr Bubenhofer, ich danke Ihnen für dieses Gespräch!

 

Im Beitrag erwähnte Technologien und Seiten:

https://www.python.org/

https://www.selenium.dev/projects/

https://uima.apache.org/

http://cwb.sourceforge.net/

https://plotly.com/r/

http://www.bubenhofer.com/jahresringe/index.html

Posted on

Relaunch von “Psychopathology Taught Online (PTO)”

Relaunch PTO

Mit Beginn des Herbstsemesters 2019 ist eine neue Version des deutschsprachigen E-Learning-Kurses zur Psychopathologie released worden. Das neue Release dieses Kurses (PTO 3.0) orientiert sich zur Einteilung der psychischen Störungen am Kapitel 6 der ICD-11 (Internationale Klassifikation der Krankheiten der Weltgesundheitsorganisation WHO) und bietet strukturierte Lerninhalte, Videos, Übungen und Selbsttest unter anderem zu Entwicklungs-, Persönlichkeits- und Zwangsstörungen, sowie zu Affektiven und Dissoziativen Störungen. Neben der vollständigen inhaltlichen Neugestaltung ist PTO 3.0 auch technisch komplett überarbeitet worden und kann nun – aufgrund seiner responsiven Oberfläche – auch sehr gut auf mobilen Endgeräten genutzt werden. PTO 3.0 steht aktuell den Studierenden der Psychologie an den Universitäten Zürich und Bern auf der Lernplattform OLAT zur Verfügung und soll mittelfristig weiteren Personen zugänglich gemacht werden. Die Umsetzung des vom Lehrstuhls für Psychopathologie und Klinische Intervention (Prof. Dr. Dr. Andreas Maercker) initiierten Projektes wurde technisch durch DLF realisiert.

Relaunch PTO
Screenshot PTO 3.0-Relaunch
Posted on

Frohe Festtage

Weihnachtspyramide aus Mohrenköpfen
Pyramide aus Mohrenköpfen zum Jahresende

Das Team Digitale Lehre und Forschung bedankt sich bei allen, die 2019 mit uns in Kontakt waren und mit ihren Ideen und ihrem Engagement viel zu einer guten Lehre beigetragen haben.
Wir wünschen allen erholsame Festtage und ein erfolgreiches neues Jahr!
Am 6. Januar sind wir wieder zurück an der Arbeit und freuen uns mit Ihnen neue digitale Vorhaben zu realisieren.

Posted on

Über antike Stätte fliegen mit Google Earth Studio

Was Google Earth für das Entdeckerherz von Stubenhockern, ist Google Earth Studio für Filmemacher mit hochfliegenden Ideen: Eine bequeme, billige und ökologisch sinnvolle Alternative zum Reisen und Herumfliegen.
Mit Google Earth Studio können Flugaufnahmen auf der ganzen Welt als Animationen erstellt werden. Der Slogan heisst dann auch: “Ihre Welt als Animation”. Die Distanz spielt keine Rolle, die Erreichbarkeit auch nicht. Städte in Asien bieten sich genauso an wie Landschaften in Afrika und Berge in Südamerika. Jeder Ort, so abgelegen und unerreichbar er auch sein mag, kann überflogen, herangezoomt oder umkreist werden, so als würde man selber in einem Helikopter sitzen. Mit etwas Übung oder mit Hilfe von Vorlagen lassen sich mit Google Earth Studio mit wenig Aufwand und fast CO2-neutral spektakuläre Luftaufnahmen erstellen. Continue reading Über antike Stätte fliegen mit Google Earth Studio

Posted on

Stop this madness, Buddy Bot!

Am 30. Oktober findet an der Universität Zürich unter dem Motto “Kluge Köpfe” der Tag der Lehre statt. Das Team Digitale Lehre und Forschung organisiert dazu eine öffentliche Veranstaltung zu einem ihrer laufenden Projekte, einer Chat-App mit Bot, die sie in zwei grossen und einer kleinen Lehrveranstaltung an der Philosophischen Fakultät testet. Continue reading Stop this madness, Buddy Bot!

Posted on

Relaunch von Ad Fontes

Seit dem Projektstart im Jahr 2002 haben mehrere 1000 Studierende, Dozierende und Interessierte das preisgekrönte E-Learning-Angebot Ad Fontes genutzt und den Umgang mit historischen Archivquellen und generell mit den sogenannten Historischen Hilfswissenschaften erlernt und trainiert. Die inzwischen über 15jährige Ad Fontes-Plattform wurde in den letzten rund zweieinhalb Jahren in intensiver Arbeit komplett überarbeitet und an die neusten Technologien und Nutzeranforderungen angepasst. Dank der Rundumerneuerung bietet Ad Fontes nicht nur ein völlig neues Erlebnis, sondern ist auch fit für eine nachhaltige Zukunft. Continue reading Relaunch von Ad Fontes

Posted on

Weiterbildungsangebot für die digitale Fitness

Die digitale Fitness der Mitarbeitenden ist für Unternehmen einer der entscheidenden Erfolgsfaktoren bei der digitalen Transformation. Je höher die digitalen Kompetenzen der Mitarbeitenden sind, desto wahrscheinlicher ist es, dass innovative Ideen entstehen und die Transformation einer Organisation gelingt. Dies ist auch an einer Universität nicht anders, die genauso wie andere Bereiche und Branchen durch neue Geschäftsmodelle herausgefordert ist und sich in einer Transitionsphase befindet, in der von veralteten analogen Modellen und Prozessen Abschied genommen wird.

Um einen Beitrag an die digitale Fitness der Mitarbeitenden zu leisten, gibt es an der Universität Zürich seit Jahren ein reichhaltiges, kostenloses Weiterbildungsangebot: Continue reading Weiterbildungsangebot für die digitale Fitness

Posted on

Mixed Reality durch die HoloLens-Brille

Anlässlich des Tags der Lehre setzen wir uns die Brille auf und blicken in eine Welt, die unsere Wahrnehmung von Raum und Zeit etwas durcheinanderbringen wird. Das Objekt, das wie eine von Karl Lagerfeld designte Skibrille aussieht, ist mit einem Betriebssystem und genug Rechenleistung ausgestattet, um den Wahrnehmungs- und Interaktionsraum seiner TrägerInnen zu erweitern.


Continue reading Mixed Reality durch die HoloLens-Brille

Posted on

Geobrowser im Vergleich – vier webbasierte Tools zur Visualisierung geographischer Informationen

Geobrowser sind Visualisierungstools zur Darstellung von geographischen Punkten oder Routen. In den Geisteswissenschaften können sie unter anderem gewinnbringend für Forschungsfragen eingesetzt werden. Durch die umfassende geographische Visualisierung erschliessen sich oftmals neue Zusammenhänge oder Fragestellungen. So kann man beispielsweise mithilfe eines Textkorpus evaluieren, welche Adjektive gehäuft bei der Beschreibung einer bestimmten Ortschaft vorkommen, oder an welchen Orten die meisten Handschriften gefunden wurden.

Im Folgenden sollen vier webbasierte Tools zur geographischen Visualisierung kurz mit ihren Vor- und Nachteilen vorgestellt werden: DARIAH DE Geobrowser, Palladio, Nodegoat, sowie Google My Maps.

Continue reading Geobrowser im Vergleich – vier webbasierte Tools zur Visualisierung geographischer Informationen

Posted on

„Mein Name ist Pepper, ich grüsse Sie!“ – Sprechstunde bei Roboter-Professor Pepper

Roboter Pepper von SoftBank (Foto)

Prof. Dr. Jürgen Handke ist Universitätsprofessor an der Philipps-Universität Marburg für “Fremdsprachliche Philologien” am Institut für Anglistik und Amerikanistik. Über seine Keynote an den Eduhub-Days in Lugano diesen Jahres wurde auf diesem Blog bereits berichtet. Mit diesem Beitrag soll auf sein neuestes Projekt aufmerksam gemacht werden.

Handke erhielt 2015 den Ars legendi-Preis für Digitales Lehren und Lernen – in der Laudatio des deutschen Stifterverbandes und der Hochschulrektorenkonferenz hiess es: „Der Anglistikprofessor Jürgen Handke […] gilt als einer der Vorreiter der digitalen Lehre in den Geisteswissenschaften. Jürgen Handke gelingt […] eine umfangreiche Digitalisierung der Hochschullehre bei gleichzeitiger sehr guter Nutzung der Möglichkeiten der Präsenzlehre.“ Auch bei seinem neuen Vorhaben ist Handke Vorreiter in den GSW: Ein Roboter soll für Studierendensprechstunden eingesetzt werden. „Pepper“ hilft den Marburger Student/-innen, sich im Studium zurecht zu finden, indem er ihre Fragen zu Studium und Lehre beantwortet.

Continue reading „Mein Name ist Pepper, ich grüsse Sie!“ – Sprechstunde bei Roboter-Professor Pepper