Topic Modeling – Digitale Lehre und Forschung

Posted on 25. January 2021 by Leyla Ciragan

Data Crunching für Texte aller Art – eine neue Dienstleistung an der Philosophischen Fakultät

Das neue Text Crunching Center (TCC) hilft bei Textanalysen und bei Fragen wie: Wie komme ich zu meinen Daten? Wie muss ich sie für meine Forschungsfrage aufbereiten, oder – welche Fragen kann ich an meine Daten stellen? Angesiedelt am Institut für Computerlinguistik und konzipiert als Dienstleistungszentrum – wir hören in diesem Beitrag, für wen das TCC gedacht ist und welche Dienstleistungen angeboten werden.

Bitte stellen Sie sich vor!

[Tilia Ellendorff, TE]: Mein Name ist Tilia Ellendorff. Ursprünglich habe ich Grundschullehramt mit den Fächern Englisch und Deutsch studiert an der Universität Paderborn. Anschliessend habe ich mich aber entschlossen, mich auf Linguistik und Computerlinguistik zu konzentrieren – zunächst mit einem Bachelor in Linguistik, dann mit einem Internationalen Masterstudium in Computerlinguistik in Wolverhampton (GB) und Faro (P), über Erasmus Mundus. Schliesslich bin ich für das Doktorat in Computerlinguistik nach Zürich gekommen. Mein Thema war Biomedical Text Mining – in meinem Projekt ging es darum, in medizinischen Publikationen die Beziehung zwischen ätiologischen, also auslösenden, Faktoren von psychiatrischen Erkrankungen zu extrahieren. Hier besteht nämlich das Problem, dass es unmöglich ist, die gesamte Literatur auf diesem Gebiet zu lesen. Es ist schwierig, so einen Überblick über alle Faktoren zu gewinnen. Ich habe dazu ein System gebaut, das dies unterstützt und automatisch aus den Texten extrahiert.

[Gerold Schneider, GS]: Ich habe Englische Literatur- und Sprachwissenschaft und Computerlinguistik an der Universität Zürich studiert. Während des Doktorats habe ich einen syntaktischen Parser für Englisch entwickelt. Es ist ein System, das eine syntaktische Analyse eines Texts liefert: Was ist das Subjekt, was das Objekt, welches die untergeordneten Sätze, etc. Mit der Anwendung dieses Tools bin ich schliesslich in das Gebiet des Text Minings gelangt. Zunächst habe ich das auch zu Fachliteratur im biomedizinischen Bereich angewendet. Die gleichen Methoden konnte ich später in weiteren Disziplinen verwenden, z.B. in Projekten mit dem Institut für Politikwissenschaft im NCCR Democracy zu Demokratieforschung, oder auch in einem Projekt zu Protestforschung. Dabei geht es ja nicht nur um eine Faktensammlung, sondern meist um Meinungen, Stimmungen oder Assoziationen, die aus den Medien extrahiert werden müssen: Gerade da braucht man statistische Methoden, mit logikbasierten stösst man nur auf Widersprüche. Somit sind auch die Methoden des maschinellen Lernens unerlässlich. Die Daten und Ergebnisse müssen zum Schluss aber auch interpretiert werden können – sonst nützt die Datensammlung nicht viel. Mein breiter Hintergrund ist hier sicher von Vorteil – ich sehe mich auch als Brückenbauer zwischen Disziplinen.

Vielen Dank für die Vorstellung – wie ist denn nun das Text Crunching Center entstanden?

[GS] Entstanden ist das Text Crunching Center dadurch, dass das Institut für Computerlinguistik bzw. Martin Volk inzwischen so viele Anfragen im Gebiet Text Mining und Textanalyse erhält, dass es nicht mehr länger möglich ist, diese alle selbst zu bearbeiten.
Das Text Crunching Center bietet in diesem Gebiet Dienstleistungen an: Bei allem, was mit Text Mining, Sentimentanalyse, Textanalyse im Allgemeinen – generell mit Methoden der Digital Humanities oder Machine Translation – zu tun hat, können wir Projekte unterstützen. Auch allgemeine Unterstützung für Digitalisierungsprozesse oder Textverarbeitung wie OCR, aber auch Beratung zu Tools, Software oder Best Practices bieten wir an. Wir helfen ebenfalls gerne beim Schreiben von Projektanträgen, geben Coaching und Unterricht in der Textanalyse, oder können fertige (Software-)Lösungen anbieten.
[TE] Wir sind die Ansprechpartner für alle, die in ihren Projekten mit viel Text umgehen müssen, das technische Knowhow aber nicht haben und nicht genau wissen, wo sie anfangen sollen. Man kann z.B. zu uns kommen, wenn man einfach Text vor sich hat und eine Idee braucht, was man damit mit der Maschine alles anfangen könnte.

Könnten Sie mir ein konkretes Beispiel einer Anfrage geben – wie muss man sich den Ablauf vorstellen, wenn man auf Sie zukommt?

[TE] Wenn z.B. jemand aus einem bestimmten Forschungsgebiet untersuchen möchte, was der öffentliche Diskurs zu einem Thema ist – nehmen wir mal das Thema «Ernährung». Dazu möchten sie dann gerne Social Media Daten auswerten, die technische Umsetzung ist gehört aber nicht zu ihrem Fachgebiet. In dem Fall kann man zu uns gelangen und wir beraten in einem ersten Schritt: Wir klären die Fragen, wie man überhaupt an Daten gelangen kann, was man mit den Daten machen könnte. Es kann so weit gehen, dass wir einen Prototypen erstellen, mit dem sie dann direkt ihre Daten auswerten und Forschungsergebnisse erhalten können.

Welche konkreten Möglichkeiten würden Sie in den Personen in diesem Beispiel vorschlagen und wie würden sie es umsetzen?

[GS] In diesem konkreten Beispiel haben wir Twitter-Daten mit Hilfe von Text Mining gesammelt und ein Coaching angeboten. Die R Skripts haben wir ebenfalls geschrieben, die Personen aber zusätzlich so weit gecoacht, dass sie diese schliesslich selbst anwenden konnten. Die über das Text Mining erhaltenen Daten werden mit den Skripts exploriert und verschiedene Outputs generiert. Dabei haben wir «klassische» Digital Humanities Methoden angewendet wie z.B. Distributionelle Semantik, Topic Modeling, oder auch analysiert, wie in den Tweets bestimmte linguistische Merkmale gebraucht werden.
[TE] Es kommt immer auf die Kunden darauf an: In diesem Beispiel wollten die Kunden die Anwendung gerne selber lernen. Wenn sie dafür aber keine Zeit oder kein Interesse daran gehabt hätten, hätten wir auch alles selbst implementieren können: Also das fertige System oder die aufbereiteten Daten.
[GS] Ein Produkt, das dabei entstanden ist, ist eine «konzeptuelle Karte» von Bier, Cidre und Wein. Es ist eine semantische Karte, in der ähnliche Konzepte näher beieinander liegen als Konzepte, die inhaltlich weiter voneinander entfernt sind. Rund um den Cidre liegen beispielsweise die Begriffe «Äpfel», «Jahreszeit», «Wärme» usw. Man sieht auch, dass die Essenskultur mit «dinner», «cooking», etc. viel näher am Konzept «Wein» liegt als bei «Bier» oder «Cidre». Solche automatisch erstellten Karten vereinfachen stark, sind aber anschaulich und gut interpretierbar, deshalb zeigen wir sie als ein Beispiel unter vielen.

Eine ähnliche Karte etwa entstand in einem anderen Projekt aufgrund von Daten ausgewählter Reden von Barack Obama und Donald Trump. Barack Obama spricht etwa mehr von «opportunity» oder «education», während Donald Trump davon eher weiter weg ist und eher über China und Deals spricht, und wer ihm alle angerufen haben. «Peace and Prosperity» als Vision versprechen natürlich beide.

Nun rein technisch gefragt – wie entsteht so eine konzeptuelle Karte? Die Verbindungen stellen die Distanzen zwischen den Konzepten dar, nehme ich an – mit welcher Methode bestimmen Sie denn die Ähnlichkeiten?

[GS] Es handelt sich um eine Methode der distributionellen Semantik: Man lernt aus dem Kontext. D.h. dass Wörter, die einen ähnlichen Kontext haben, auch semantisch ähnlich sind. Gerade bei grossen Textmengen führt so ein Ansatz zu guten Ergebnissen. Es gibt da verschiedene Methoden, um dies zu bestimmen – gemeinsam ist ihnen jedoch der kontextuelle Ansatz.
In diesem konkreten Beispiel wurde mit Kernel Density Estimation gearbeitet. Man zerlegt dafür den Korpus zunächst in kleine Teile – hier waren es etwas 2000. Für jedes Wort prüft man dann, wie das gemeinsame Auftreten in den 2000 «Teilen» ist. Wörter, die sehr häufig miteinander auftreten, kommen dann das Modell. Dabei werden nicht die absoluten Zahlen verwendet, sondern Kernel-Funktionen gleichen die Zahlen etwas aus. Daraus kann schliesslich die Distanz zwischen den einzelnen Konzepten berechnet werden. In diesem Prozess entsteht ein sehr hochdimensionales Gebäude, das für die Visualisierung auf 2D reduziert werden muss, um es plotten zu können. Da dies immer eine Vereinfachung und Approximierung ist, braucht es immer die Interpretation.

Wie wichtig ist es für Ihre Aufgabe, dass Sie einen breiten disziplinären Hintergrund haben?

[TE] Man darf nicht denken, dass die Texttechnologie das «Wunderheilmittel» für alle Probleme ist. In einer Beratung geben wir immer eine realistische Einschätzung darüber ab, was möglich ist und was nicht.
Daher ist die Frage sehr relevant. Man muss einen gemeinsamen Weg zwischen der computerlinguistischen und der inhaltlichen Seite finden. Es ist wichtig, dass wir beide durch unseren Werdegang viele Disziplinen abdecken und schon in vielen verschiedenen Bereichen mitgearbeitet haben.
Gerade in einem Projekt aus der Biomedizin, in dem es darum ging, welche Auswirkungen bestimmte Chemikalien auf gewisse Proteine haben, hat mein biologisches Wissen aus dem Biologie-Leistungskurs und einem Semester Studium sehr geholfen. Als Laie würde man diese Texte überhaupt nicht verstehen, deshalb könnte man auch keine geeignete Analyse entwerfen. Insbesondere auch auf der Ebene der Fehleranalyse ist das Disziplinen-Wissen wichtig: Möchte man herausfinden, warum das entwickelte System in manchen Fällen nicht funktioniert hat, hat man ohne disziplinäres Wissen wenig Chancen.
Deshalb ist es wichtig, dass wir realistische Einschätzungen darüber abgeben können, was umsetzbar ist – manche Fragen sind aus computerlinguistischer Sicht schlicht nicht auf die Schnelle implementierbar.
[GS] Dennoch können oft neue Einsichten generiert werden, oder auch nur die Bestätigung der eigenen Hypothesen aus einer neuen Perspektive… Die datengetriebenen Ansätze ermöglichen auch eine neue Art der Exploration: Man überprüft nicht nur eine gegebene Hypothese, sondern kann aus der Datenanalyse neue Hypothesen generieren, indem man Strukturen und Muster in den Daten erkennt.
Hier hat sich bei mir ein Kreis geschlossen: Aus der Literaturwissenschaft kenne ich das explorative Vorgehen sehr gut. Dagegen ist ein rein computerlinguistisches Vorgehen schon sehr anders. Mit Ansätzen der Digital Humanities kommt nun wieder etwas Spielerisches in die Technologie zurück. Die Verbindung von beidem erlaubt einen holistischeren Blick auf die Daten.

Wie würden Sie denn Digital Humanities beschreiben?

[GS] Es ist wirklich die Kombination der beiden Ansätze: «Humanities» kann man durchaus wortwörtlich nehmen. Gerade in der Linguistik ist damit auch ein Traum wahr geworden, wenn man an Ferdinand de Saussures Definition von Bedeutung denkt. «La différence», die Bedeutung, ergibt sich nicht daraus, was etwas «ist», sondern was es im Zusammenhang, im Ähnlich-Sein, im «Nicht-genau-gleich-sein» mit anderen Dingen ist. In der Literaturwissenschaft wird dieser Umstand in der Dekonstruktion mit der «différance» von Jacques Derrida wieder aufgenommen. Die distributionale Semantik hat genau das berechenbar gemacht. Es ist zwar einerseits sehr mathematisch, andererseits ist für mich dieser spielerische Zugang sehr wichtig.
Die genaue philosophische Definition von Digital Humanities ist für mich dagegen nicht so wichtig: Doch die Möglichkeiten, die sich mit den digitalen Methoden ergeben – die sind toll und so viel besser geworden.
[TE] Die Humanities, die bisher vielleicht noch nicht so digital unterwegs waren, geraten momentan auch etwas unter Druck, etwas Digitales zu benutzen…

Mein Eindruck war bisher nicht nur der eines «Müssens», sondern auch eines «Wollens» – doch der Einstieg in die Methodik ist einfach sehr schwierig, die Schwelle sehr hoch.

[TE] … und gerade hier können wir einen sehr sanften Einstieg mit unseren Beratungen bieten: Wenn jemand noch gar keine Erfahrung hat, aber ein gewisses Interesse vorhanden ist. So muss niemand Angst vor der Technologie haben – wir begleiten das Projekt und machen es für die Kunden verständlich.
[GS] Aber auch Kunden, die schon ein Vorwissen haben und bereits etwas programmieren können, können wir immer weiterhelfen…

Gilt Ihr Angebot nur für Lehrende und Forschende oder auch für Studierende?

[TE] Das Angebot gilt für alle, auch für externe Firmen. Für wissenschaftliche Projekte haben wir aber natürlich andere, günstigere Tarife.
[GS] Die Services werden zum Selbstkostenpreis angeboten. Ein Brainstorming, d.h. ein Einstiegsgespräch können wir sogar kostenlos anbieten. Auch für die anschliessende Beratungs- oder Entwicklungsarbeit verlangen wir keine überteuerten Preise. Für unser Weiterbestehen müssen wir allerdings eine gewisse Eigenfinanzierung erreichen.

Wo soll das Text Crunching Center in einigen Jahren stehen?

[TE] Natürlich möchten wir personell noch wachsen können… Wir bilden uns dauernd weiter, um state-of-the-art-Technologien anbieten zu können. Die Qualität der Beratung soll sehr hoch sein – das wünschen wir uns.
[GS] … und wir wollen die digitale Revolution unterstützen, Workshops anbieten, das Zusammenarbeiten mit dem LiRI oder mit Einzeldisziplinen verstärken. Letztlich können alle von der Zusammenarbeit profitieren, indem man voneinander lernt und Best Practices und Standardabläufe für gewisse Fragestellungen entwickelt. Auch die Vernetzung ist ein wichtiger Aspekt – wir können helfen, für ein bestimmtes Thema die richtigen Experten hier an der UZH zu finden.

Ich drücke Ihnen die Daumen! Vielen Dank für Ihr Gespräch!

Links:

Text Crunching Center: https://www.cl.uzh.ch/en/TCC.html
Ein Anwendungsbeispiel aus Projekten des TCC: https://www.cl.uzh.ch/en/TCC/Teasers.html
Openbook zu Statistik für Linguisten (Gerold Schneider und Max Lauber): https://dlftest.uzh.ch/openbooks/statisticsforlinguists/
Ferdinand de Saussure: https://de.wikipedia.org/wiki/Ferdinand_de_Saussure
Jacques Derrida: https://de.wikipedia.org/wiki/Jacques_Derrida
Kernel Density Estimation: https://de.wikipedia.org/wiki/Kerndichteschätzer
NCCR Democracy: http://pwinfsdw.uzh.ch/
LiRi: https://www.liri.uzh.ch/en.html

Off Topic:

Ein eigenes Openbook bei Digitale Lehre und Forschung publizieren: https://dlftest.uzh.ch/openbooks/erste-schritte/

Posted on 27. July 202012. January 2022 by Leyla Ciragan

«Der Bedarf der Studierenden an digitalen Methoden ist gross»

In diesem Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät» hören wir von Christine Grundig, wissenschaftlicher Mitarbeiterin am Kunsthistorischen Institut, über ihre Lehrerfahrungen beim Unterricht von digitalen Methoden. In der Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen.

Wer sind Sie – bitte stellen Sie sich vor!

Mein Name ist Christine Grundig, ich habe Staatsexamen für Deutsch, Englisch und Erziehungswissenschaften für das Lehramt an Gymnasien studiert und den Magister Artium an der Universität Würzburg gemacht. Nun schliesse ich gerade meine germanistische Promotion ab. Ich arbeitete v.a. in Projekten, die sich mit digitalen Editionen beschäftigten und habe so Kompetenzen im Bereich der Digital Humanities erworben. Seit Oktober 2017 bin ich als «Digital Humanities Spezialistin» am Kunsthistorischen Institut der Universität Zürich tätig [lacht] – bitte lassen Sie mich diesen Begriff jetzt nicht definieren! Als wissenschaftliche Mitarbeiterin arbeite ich im SNF-Projekt zu Heinrich Wölfflin am Lehrstuhl von Prof. Dr. Tristan Weddigen. Als Dozentin unterrichte ich in meinem Lehrprojekt «Digitale Bildwissenschaften/Digital Visual Studies» bzw. «Digital Skills», das von swissuniversities im Rahmen des Projekts «P8-Stärkung von Digital Skills in der Lehre» 2019-2020 gefördert wird.

Könnten Sie uns diese beiden Projekte kurz vorstellen?

Gegenstand unseres Editionsprojekts ist eine kritisch-kommentierte Edition sämtlicher Publikationen Heinrich Wölfflins – er ist für Kunsthistorikerinnen und Kunsthistoriker eine der zentralen Figuren. Wir haben das grosse Glück, dass wir in der Nähe seiner Wirkungsorte tätig sind – einen Teil seines Nachlasses (Foto- und Diasammlung, Bibliothek, Möbel) hat er dem Kunsthistorischen Institut vermacht. Durch die Nähe zur Universität Basel, in der ein Grossteil des archivalischen Nachlasses liegt (Notizhefte, Manuskripte, Korrespondenz), ist es uns möglich, mit bisher unveröffentlichtem Archivmaterial zu arbeiten. Dies war anderen Editionen bisher nicht oder nicht in diesem Masse möglich.

Es entsteht eine klassische Printedition (die ersten Bände sind bereits publiziert), daneben aber auch eine digitale Edition, die sich an aktuellen Technologien und Standards der Digital Humanities orientiert. Das Material wird in der digitalen Edition im Rahmen eines eigenen Wölfflin-Portals nachhaltig erschlossen, einer Forschungsplattform, die Kontextualisierungen möglich macht und v.a. auch Schnittstellen zu anderen Projekten bietet. Dazu werden die Bände, die bereits im Print erschienen sind in XML/TEI konvertiert, um sie «für das Internet fähig zu machen». Das Versehen mit Referenz- bzw. Normdaten für Werke, Personen, Objekte, Orte, historische Termini und bibliographische Angaben ist ein zentrales Anliegen. Das Portal wird auch Bildmaterial mit hochauflösenden Scans nach IIIF-Standard zugänglich machen, zudem Archivmaterial, das zum Teil mit Tools wie Transkribus oder OCR4all erarbeitet wird.

Wir werden eine semantisch angereicherte Edition bereitstellen, die aus Linked Open Data (LOD) besteht. So können wir einen möglichst grossen Nutzen für die Forschungsgemeinschaft erzielen, weil die Daten dadurch nachhaltig sind und Interoperabilität gewährleistet ist.

Und was beinhaltet das Projekt zu «Digital Skills»?

Wir schlugen im Rahmen von «P8» eine «Einführung in digitale Methoden in der Kunstgeschichte» für Bachelor- und Masterstudierende vor. Ursprünglich war der Fokus eher auf den Bildwissenschaften, doch ich merkte in den ersten Sitzungen, dass ich «ganz vorne anfangen» und den Fokus auf «digital skills» im Allgemeinen legen muss. Es mangelt an Grundkompetenzen der Studierenden im Umgang mit digitalen Methoden.

Konkret besprechen wir im Kurs zunächst, was Digital Humanities überhaupt sind, und ganz wichtig, was die Studierenden eigentlich darunter verstehen. Ich möchte wissen, in welchen Bereichen sie schon mit Tools oder digitalen Methoden gearbeitet haben. Jede/Jeder hat z.B. Datenbanken genutzt oder in Katalogen recherchiert, aber meist wissen sie gar nicht, dass das Datenbanken sind oder was genau dahintersteckt.

Man muss auf einer ganz grundlegenden Ebene aufklären und zeigen, welche Möglichkeiten es in einer Disziplin gibt, mit digitalen Methoden zu arbeiten. Wir behandeln Datenbanken, digitale Editionen, Bilderkennung und Bildannotation, IIIF-Formate oder auch Texterkennung mit OCR.

Wichtig ist mir dabei, praxis- bzw. berufsorientiert vorzugehen, wenn wir digitale Werkzeuge ausprobieren: Die Studierenden sollen ganz konkret mit Tools wie z.B. Transkribus arbeiten, weil sie nur dann die Hemmschwelle überwinden, die Angst davor verlieren. Viele denken sich nämlich, «Ich bin keine Informatikerin, kein Informatiker, ich kann das nicht». Wenn man diese Barriere überwindet, kann es durchaus vorkommen, dass Studierende sich vielleicht sogar an eigenen kleinen (Python-)Skripts versuchen, vielleicht mit etwas Unterstützung aus der Informatik oder Computerlinguistik, aber alleine die Tatsache, dass sie sich damit auseinandersetzen – das ist ganz zentral und erfreulich für mich.

Was kann man mit Transkribus oder OCR4all denn konkret machen?

Wenn wir mit Handschriften oder historischen Drucken arbeiten, liegen uns Scans davon vor. Wir schauen dann, wie man diese digital aufbereiten kann: Zeilen segmentieren, einzelne Text- und Bildbereiche voneinander trennen usw. Dafür haben wir z.B. das Segmentierungstool Larex, das zu OCR4all gehört, und das das Layout analysiert: Dies bedeutet, Seiten zu segmentieren, die wir danach transkribieren können. Über die Textdaten, die wir durch die Transkription erhalten, lassen wir «Trainings», also Machine Learning-Algorithmen laufen. Der Output ist zunächst noch fehlerhaft; er wird von Hand korrigiert, um diese optimierten Daten wieder «durch die Maschine laufen zu lassen», sie so weiter anzulernen und dadurch das Ergebnis zu verbessern. Auf diese Weise können selbst Kurrent-Handschriften wie die von Heinrich Wölfflin automatisch erkannt werden, aber auch z.B. Drucke mit Fraktur- oder Antiqua-Schrift, für die es bereits sehr gute Modelle gibt. Diese kommen meist aus dem germanistischen Bereich, stehen aber allen zur Verfügung. So können wir interdisziplinär arbeiten, auf den Modellen aufbauen und die Daten austauschen, sie weiter trainieren.

Beispiel einer Layout Segmentierung mit Larex

Ein Ausschnitt aus der Arbeit mit Transkribus

Wenn Sie sagen, die Hemmschwelle muss überwunden werden – wie gehen Sie da im Unterricht vor, wenn Sie z.B. Daten vor sich haben?

In der Einführung haben wir uns zunächst mit Datenbanken beschäftigt, z.B. was unterscheidet eine Graphdatenbank von einer relationalen Datenbank, welche Datenmodelle stecken dahinter?

In der Hoffnung, dass das Lehrprojekt weitergeführt werden kann, möchte ich unbedingt mehr Seminare anbieten, die auf dieser Einführung aufbauen und konkrete Themen vertiefen. In diesen Seminaren könnte man dann z.B. Daten modellieren oder eigene Daten erheben. Zu jedem der erwähnten Themenbereiche und Tools könnte man eigene Seminare anbieten, die in die Tiefe gehen.

Dennoch bleibt es wichtig, vorher die Grundlagen zu klären: Was ist eine Auszeichnungssprache wie HTML? Was ist XML? Was ist eine Programmiersprache? Die wenigsten wissen, was eigentlich hinter einer Webseite steckt, die sie im Internet aufrufen.

Würden Sie sagen, dass diese Skills innerhalb der eigenen Disziplin unterrichtet werden sollten oder eher fachübergreifend?

Ich denke, es ist wichtig, zunächst im Kleinen anzufangen und am eigenen Institut zu sehen, wie dort das Gefühl, der Bedarf und das Interesse für digitale Methoden sind. Wollen die Studierenden aus den Kunstwissenschaften so ein Angebot überhaupt besuchen? Ich kann Ihnen sagen: Ja. Ich habe nicht damit gerechnet, so viele Anmeldungen zu bekommen, ich musste jedes Mal einen grösseren Raum buchen.

Da ich selbst keine Kunsthistorikerin bin, sondern Germanistin, steht das Thema Interdisziplinarität sowieso im Fokus des Projekts. Die Methoden kann ich genauso gut in der Kunstgeschichte unterrichten wie in der Germanistik oder sie Historikern, Rechtswissenschaftlern oder Theologen anbieten.

Es ist mir ganz wichtig, dass sich hier ein interdisziplinäres, reziprokes Verhältnis, zunächst an der Philosophischen Fakultät, aber auch darüber hinaus entwickelt. In meiner Zusammenarbeit mit der Digital Society Initiative (DSI), die ein «Studium Digitale» vorbereitet, wird mein Einführungskurs im Herbstsemester als einer von drei Kursen pilotiert. Wir möchten sehen, wie so ein fakultätsübergreifendes Angebot mit einem eher fachorientierten Kurs, der an einem Institut angesiedelt ist, harmoniert. Zusätzlich wird der Kurs auch in der Computerlinguistik oder im Minor «Digital Humanities und Text Mining» crossgelistet.

Für den Kurs ist es sehr effizient, ein ganz heterogenes Studierendenfeld zu haben, weil die Teilnehmenden sich gegenseitig inspirieren, voneinander lernen. Einige Studierende kommen von klassischen geisteswissenschaftlichen Methoden, während andere mehr von den Daten her denken. Da verschiedene Perspektiven zusammenkommen, können ganz neue Fragestellungen entstehen.

Was verstehen Sie unter Digital Humanities?

Ich habe Ihnen dazu etwas vorbereitet: Auf der Seite whatisdigitalhumanities.com wird bei jedem Refresh ein neues Zitat zum Thema angezeigt. Mit diesen Zitaten habe ich auch versucht, meine Studierenden an das Thema heranzuführen und so die Vielseitigkeit und Divergenz deutlich zu machen. Ein gutes Beispiel dafür:

«Using digital tools to research the Humanities or using Humanities methods to research the digital.”

Das ist natürlich sehr pauschal, aber ich glaube, man muss offen sein im Umgang mit digitalen Methoden. Lässt man z.B. über fünf Romane ein Tool laufen, das Named Entity Recognition oder Topic Modeling kann (noch, bevor ich meine Fragestellung habe), dann ergeben sich mit Sicherheit Sachverhalte, mit denen man zu Beginn seiner Recherche nicht gerechnet hat. Letztlich sind das ebenso geisteswissenschaftliche Methoden, nur die Quantität ist anders, die Korpora werden grösser.

Ich denke, die digitalen Methoden unterscheiden sich letztlich gar nicht so sehr von den analogen, meine Arbeit wird durch die Hilfsmittel aber einfacher, schneller, interessanter. Das ist für mich auch der Mehrwert – dass ich grosse Mengen an Texten, Bildern und Daten untersuchen kann.

Was für ein Lehrangebot würden Sie sich wünschen?

Für mich ist es entscheidend ist, dass es auch Kurse im Bereich Digital Humanities gibt, für die keine technischen Voraussetzungen nötig sind, sonst würde man einen sehr grossen Teil der Studierenden verlieren. Deshalb wünsche ich mir ein Lehrangebot, das einerseits Grundbausteine bietet, für die keine technologischen Vorkenntnisse relevant sind. Andererseits braucht es aber auch aufbauende Module, die Themen vertiefen. Z.B. eine Übung zu digitalen Editionen, in der die Studierenden einen Text selbst in TEI konvertieren, ein XML Dokument erstellen, vielleicht sogar eine kleine Visualisierung auf einer Webseite erzeugen. Man muss die Studierenden sukzessive heranführen.

Damit Studierende lernen können, mit Daten umzugehen, bräuchte es eigentlich auch ein wenig Infrastruktur, z.B. Webserver oder Datenbanken, die über Server zugänglich sind, nicht?

Ja, das fehlt auf jeden Fall noch. Ich hoffe, dass sich so etwas in einigen Semestern etablieren lässt. Ursprünglich war auch meine Idee für den Kurs, zusammen mit den Studierenden z.B. die EasyDB des Kunsthistorischen Instituts zu nutzen und dort selbst Bilder einzuspeisen, mit Metadaten zu versehen usw. Oder wenn Studierende in einer Arbeit eine kleine Applikation entwickeln – da muss man sich überlegen, wo man diese Daten langfristig ablegt, veröffentlicht und somit nachnutzbar macht.

Möchten Sie noch etwas ansprechen, haben wir ein Thema nicht erwähnt?

Die Evaluationen der Lehrveranstaltung haben deutlich gemacht, dass es den dringenden Bedarf und den Wunsch seitens der Studierenden gibt, dieses Angebot wahrzunehmen und auszubauen.

Die Corona-Krise zeigte, wie wichtig es ist, dass man sein Lehrangebot flexibel anpassen kann. Natürlich fällt das einem Kurs wie meinem, der auf digitale Methoden abzielt wesentlich leichter, die Inhalte auch digital zu vermitteln. Viel Arbeit im laufenden Betrieb war es dennoch – das habe ich aber sehr gern in Kauf genommen.

Es geht nicht nur um digitale Forschungsmethoden, sondern eben auch um digitale Lehrformen. Es ist nicht nur die Frage, welches Konferenztool sich besser eignet, sondern auch, wo ich meine Studierenden «abhole», wie ich sie motivieren kann, zu Hause digital zu arbeiten und sie jede Woche trotzdem das Seminar online besuchen. Ich war begeistert von meinem «Corona-Kurs» und dem Ablauf im letzten Semester – das hat so gut funktioniert, es ging nichts verloren.

Man muss die Krise jetzt als Chance sehen, dieses Angebot zu erweitern. Im Herbstsemester werde ich, wenn möglich, eine Blended Learning Form wählen. Das war ursprünglich gar nicht so angedacht. Doch wir haben im Frühjahrssemester so viel Material produziert – die Studierenden haben selbst Videos erstellt und auf Switch Tube hochgeladen, in denen sie sich z.B. mit bestimmten Datenbanken beschäftigen oder digitale Editionen kritisch besprechen. Dieses riesige Potpourri an digitalem Datenmaterial muss ich jetzt einfach integrieren.

Die Dozierenden brauchen wahrscheinlich auch noch Vorbilder, Modelle, Ideen für den Unterricht…

Richtig, es braucht Hilfestellung und Support; auch auf Dozierendenseite muss die Hemmschwelle überwunden werden. Wenn es ein fakultatives Angebot bleibt, digital zu lehren (als z.B. Blended Learning oder Online-Kurs), dann, so mutmasse ich, entscheiden sich viele dagegen.

Es hat ja vielleicht damit zu tun, dass solche Hilfestellung institutionell verankert sein müsste, nicht nur didaktisch, aber auch Arbeitskraft für die technische Umsetzung – weil die einfach immer viel Zeit braucht…

Genau, und als Ergänzung dazu noch der Hinweis: Die Studierenden empfanden es als sehr problematisch, dass in jedem Kurs mit unterschiedlichen Konferenztools gearbeitet wurde. Da es schnell gehen musste, hat jeder das genutzt, was schon bekannt oder vorhanden war. Auch die Materialien waren sehr verstreut – OLAT, E-Mail, MS Teams… es ist herausfordernd für die Studierenden (aber auch uns Dozierenden), das zu kanalisieren und den Überblick zu behalten – sie haben ja nicht nur einen Kurs. Ich kenne aus einem anderen Kontext z.B. das open source Tool Big Blue Button, das sich gerade auch für Gruppenarbeiten sehr eignet, weil es eine Konferenzsoftware mit einem LMS verbindet.

Im Beitrag erwähnte Tools und Links:

https://www.swissuniversities.ch/themen/digitalisierung/digital-skills

https://iiif.io/

https://transkribus.eu/Transkribus/

https://github.com/OCR4all

https://github.com/OCR4all/LAREX

https://de.wikipedia.org/wiki/Text_Encoding_Initiative

https://de.wikipedia.org/wiki/Linked_Open_Data

https://de.wikipedia.org/wiki/Easydb

http://whatisdigitalhumanities.com/

https://en.wikipedia.org/wiki/Topic_model

https://en.wikipedia.org/wiki/Named-entity_recognition