Posted on

Was ist IIIF?

Das International Image Interoperability Framework wurde von einem Konsortium entwickelt, um hochauflösenden und zoombaren Digitalisate mit einheitlichen Metadaten zu versehen und so frei zugänglich zu machen. Über die offene API werden Digitalisate nicht mehr in lokalen Applikationen gezeigt, sondern «barrierefrei» geteilt.

Wie funktioniert das genau? Wird ein Digitalisat von einer Institution kuratiert, d.h. zunächst hochauflösend digitalisiert, im Internet auf speziellen Bildservern bereitgestellt und mit den korrekten Metadaten erfasst, bekommt dieses Digitalisat (ein sogenanntes IIIF Manifest) eine URI (Unified Resource Identifier), die immer mit einer JSON Datei endet, dem manifest.json dieses spezifischen Digitalisats.

{scheme}://{server}{/prefix}/{identifier}/info.json

http://www.example.org/image-service/abcd1234/info.json

Diese URL kann nun mit einem IIIF Viewer auf dem eigenen Computer aufgerufen werden, und schon kann man sich ein hochaufgelöstes Dokument ansehen oder auch annotieren.

Das besondere dieser Bildserver ist, dass nicht mehr – wie sonst üblich – das ganze Bild auf einmal heruntergeladen wird, sondern immer nur der Ausschnitt, den die User sich gerade ansehen. Bei jeder Aktivität der User wird ein Teil des Bildes aufgerufen und mit der URL wird gleich der Ort des Ausschnitts, die Rotation und die Qualität des Bildausschnitts mitgegeben:

{scheme}://{server}{/prefix}/{identifier}/{region}/{size}/{rotation}/{quality}.{format}

http://www.example.org/image-service/abcd1234/full/full/0/default.jpg

Figure 1: Verschiedene Bildausschnitte und dazugehörige Parameter in der URL. Quelle: https://iiif.io/api/image/3.0/

Figure 2: In der Request URL sieht man die Quelle und alle oben erwähnten Parameter – ich habe lediglich im Mirador Viewer in das Bild hineingezoomt.

DLF bietet in AdFontes sogar einen eigenen IIIF Viewer als Baustein an, um Digitalisate in die eigenen Kurse einbinden zu können – dies allerdings in der API Version 2.

Figure 3: Ausschnitt aus einem Baustein in AdFontes, https://www.adfontes.uzh.ch/382110/training/old-maps/map-pictures

Lust auf mehr bekommen? In diesem Blogbeitrag wurde nur sehr wenig angeschnitten und technische Aspekte weitgehend ausgelassen. Die ZB bietet dafür im ZB-Lab sehr anschauliche Video-Tutorials für den Einstieg an: https://www.zb.uzh.ch/de/ueber-uns/zb-lab oder direkt in YouTube https://www.youtube.com/playlist?list=PLxDekeBVQtVJeRqoTgsif7fJki2X96O-1

Ein tolles ausführliches Tutorial mit Übungsmaterial findet man hier: https://pieckh.github.io/IIIF-Crashkurs/IIIF-Crashkurs/ und direkt bei IIIF: https://iiif.io/get-started/#end-users

Mehr über die URI Syntax der Bilder oder die Struktur der JSON Dateien hier:

https://iiif.io/api/image/3.0/

https://iiif.io/api/presentation/3.0/

Ein einfach zu benutzender Online-Viewer («Try A Live Demo»): https://projectmirador.org/

Posted on

Gamification, Game Design und Serious Game Design

„Gamification“, „Game Design“ – was ist der Unterschied? Und wie kann ich vorgehen, wenn ich ein Serious Game entwickeln will? Dieser Beitrag erklärt die aktuellen Begriffe und zeigt an der Methode des Triadic Game Design, wie leicht und schnell sich auch in der Lehre ein Serious Game entwickeln lässt. Es muss ja nicht gleich programmiert werden – Papier und Bleistift tun es auch.

Gamification

Gamification wurde längere Zeit gleichbedeutend neben Game Design verwendet, bedeutet aber eigentlich lediglich, dass „spieltypische Elemente“ in andere Kontexte, z.B. in das Lernen von Fachinhalten übertragen werden. Häufig geht es dabei darum, verschiedene kompetitive Elemente einzuführen – Leaderbords, Minigames, etc.

Gerade der kompetitive Aspekt funktioniert jedoch nicht für alle Leute gleichermassen. Sollen Spiele uns beim Lernen helfen, müssen sie uns engagieren – etwas dadurch, dass sie unsere Neugier oder bestimmte Emotionen wecken.

(Serious) Game Design

Wie kann man nun die Neugier oder eine positive Emotion im Bereich Serious Game wecken? Lernen ruft nicht für alle Personen die Assoziation von „Spass“, „Fun“ hervor. Hier kommt nun das „Game Design“ als Begriff ins Spiel. Game Design heisst dann, dass wir von Grund auf konstruieren, welche Inhalte in welcher Form vermittelt werden können.

Statt also dem klassischen Lerninhalt einige wenige spielerische Elemente aufzubürden, sollte er also ganz neu konzipiert werden, um als Game funktionieren zu können. Mit dem richtigen Storytelling wird es möglich, die Spielenden mit dem Inhalt emotional zu verbinden – erst jetzt bekommt das Hirn auch eine Chance, das Gelernte im Langzeitgedächtnis zu behalten (Krickel 2021).

Erinnert ein wenig an neuere Erkenntnisse aus dem Blended Learning und der Hochschuldidaktik, nicht?

Triadic Game Design

Eine aktuelle Methodik, wie sich leicht, verständlich und auch sehr schnell Prototypen für Serious Games entwickeln lassen, ist das Triadic Game Design, entwickelt von Casper Harteveld (Harteveld 2011).

Der Autor stellt Arbeitsblätter für einen halbtägigen Workshop zur Verfügung, mit denen man sich verschiedenen Leitfragen in den drei Bereichen Reality, Meaning und Play entlang hangelt. Daraus entsteht zum Schluss ein erster Prototyp für ein Spiel – das kann ganz Old School auf Papier sein, oder gebastelt mit allem, was gerade herumliegt. Eine spätere Programmierung des Prototyps ist in keiner Weise ausgeschlossen – das schnelle Prototyping (fast prototyping) hilft jedoch, sehr früh Mängel und Logikfehler zu entdecken und auszubessern.

Abbildung 1: Design Space des Triadic Game Design (Hartefeld 2011).

World of Reality

In der Welt der Realität wird der Frage nachgegangen, welches konkrete Problem aus der realen Welt im Game behandelt werden soll. Eine Situation ist in einem konkreten Zustand und soll von diesem in einen anderen Zustand übergehen – es könnte z.B. sein: „Werther ist unglücklich verliebt, was soll er tun?“.

Das Problem soll möglichst präzise formuliert und eingegrenzt werden. Ebenso sollte man sich überlegen, zu welcher „Domain“ das Problem gehört – geht es in der obigen Frage darum, etwas über Literatur zu lernen oder ist es ein Problem der Gesundheitsvorsorge? Daraus ergeben sich gänzlich unterschiedliche Möglichkeiten.

Ist das Problem genauer umrissen, listet man alle Faktoren auf, die dabei eine Rolle spielen: Wer oder was ist involviert, was sind kritische Faktoren, was eher „Beigemüse“? Die Faktoren haben schliesslich auch Beziehungen zueinander – es lohnt sich, eine Mind Map oder einen Graphen zu zeichnen, um zu sehen, wer oder was wen oder was beeinflusst. Zuletzt muss sich eine Game Entwicklerin überlegen, wie und aus welchen Gründen von einem Zustand in einen anderen gewechselt wird – ein Modell ist nie nur statisch, sondern veränderlich. Ziel jedes Spiels ist es ja, von Zug zu Zug in andere Zustände zu gelangen. Deshalb muss man sich hier die Prozesse überlegen: Wie verändern sich die Faktoren über die Zeit hinweg und was passiert überhaupt wann?

SeriousGames_Harteveld_reality_worksheet

World of Meaning

Die Welt der Bedeutung behandelt nun den Zweck des Games (liebe Semiotiker:innen: ich weiss…): Worum geht es überhaupt im Game? Soll man ein Thema explorieren, wird Kenntnis überprüft, sollen die Spieler:innen ihre Haltung verändern oder werden Daten gesammelt? All diese verschiedenen Zwecke führen in der Welt des Spiels dann zu anderen Spielentscheidungen. Hier wird definiert, welche Strategie verfolgt werden muss, um das Ziel zu erreichen und welche konkreten Handlungen vorgenommen werden müssen.

SeriousGames_Harteveld_meaning_worksheet

World of Play

Erst in diesem dritten und letzten Schritt wird entschieden, was die eigentlichen Ziele im Spiel sind. D.h. geht es darum, Werther zu retten oder geht es darum, das Buch kennenzulernen? Wie wissen die Spieler:innen, dass das Ziel erreicht ist und das Spiel beendet ist? Nun wird auch ein Genre gewählt, die Spielregeln entwickelt. Ein Core Game Loop zeigt auf, wie ein Zug initiiert wird und wann er beendet ist: z.B. würfeln, Figur ziehen, Aufgabe lösen, Punkte eintragen – > neuer Zug. Welche Challenges sollen Spieler:innen überhaupt überwinden. Wie soll das Spiel aussehen, was ist die Story.

In diesem Schritt kommen alle Element aus den vergangenen beiden Welten zusammen, das konkrete Spiel wird entwickelt.

SeriousGames_Harteveld_play_worksheet

Und nun?

Es lohnt sich, das mal in der eigenen Lehre auszuprobieren – es ist überraschend einfach! Bleibt nur, viel Spass zu wünschen!

Links

Posted on

Archäologie blickt auch in die Zukunft

Einen prähistorischen Verhüttungsofen 3D drucken, Gelände abtasten und rekonstruieren – die prähistorische Archäologie arbeitet mit einer Vielzahl an digitalen Methoden. Philippe Della Casa – Professor an der Philosophischen Fakultät gibt uns einen Einblick.

Ich freue mich, dass wir heute über ein ganz spezielles Fachgebiet an der Philosophischen Fakultät sprechen können – Herr Della Casa, bitte stellen Sie sich kurz vor!

Mein Name ist Philippe Della Casa, ich bin Professor für Prähistorische Archäologie an der Philosophischen Fakultät der UZH – ehemals wurde das Fach Ur- und Frühgeschichte genannt. Meine Interessensgebiete liegen in erster Linie in der Vorgeschichte Europas, aber auch im interkontinentalen komparativen Bereich, wenn es z.B. um den Vergleich prähistorischer Gesellschaften geht, die in ähnlichen Rahmenbedingen in unterschiedlichen Gebieten lebten. Speziell interessieren mich hier als Schwerpunkt Berggesellschaften – in Englisch Mountain Archeology -; bei uns sind das spezifisch die Berggesellschaften in den Alpen. Wir haben aber auch Kooperationen und Projekte in anderen Bergregionen, z.B. in Bhutan, im Himalaya, auch viele Kontakte in die Pyrenäen, Karpaten oder in die Rocky Mountains und nach Feuerland.

Daneben definiere ich mich in erster Linie als Wirtschafts- und Gesellschaftsarchäologe, dabei liegt mein Schwerpunkt in der Siedlungs- und Landschaftsforschung und in der Art, wie Menschen mit ihrer Umwelt interagieren, welche gesellschaftliche Konstrukte vorhanden sind.

Könnten Sie für uns Laien kurz den Zeithorizont umreissen, in dem sich diese Forschung bewegt?

Meine Schwerpunktgebiete in Europa sind die sogenannten Metallzeiten, das ist ungefähr das 4. bis 1. Jahrtausend vor Christus – man könnte es auch so sagen: «Ötzi»-Zeit bis zum Ende der Eisenzeit, der keltischen Periode, d.h. bis zur Eroberung Galliens durch die Julius Caesar ca. 50 v.Chr.

Was für Berggesellschaften hat es in dieser Zeit in den Alpen? Ich kann mir gar nicht vorstellen, dass man da überleben konnte…

Das sind frühe alpine Bevölkerungen, die sich speziell auf die alpinen Rahmenbedingungen «eingelassen» haben und in diesem Umfeld auch wirtschaftlich interagierten. Diese Rahmenbedingungen sind z.B. die Steilheit des Geländes, eine starke Höhengliederung, klimatische Exposition, beschränkte Ressourcen, insgesamt Unsicherheiten und lange dauernde Winter.

Rahmenbedingungen wie für die heutigen Bergbauern…

Genau, in jener Zeit fing es etwa an, dass es erste dauerhafte Siedlungen in den Berggebieten gab. In den «Alpenfeldzügen» wurden dann die letzten aufmüpfigen Bergvölker durch Augustus besiegt und ins römische Reich integriert.

Welche digitale Methoden setzen Sie in der Prähistorischen Archäologie ein?

Es gibt ganz viele Anwendungsgebiete – ich werde heute drei Gebiete vorstellen:

Ein klassisches Anwendungsgebiet mit digitalen Methoden sind die «nicht-invasiven Prospektionen». Das können geophysikalische Prospektionen sein, die auf der Bodenoberfläche stattfinden. Dabei werden mit speziellen Geräten Widerstände gemessen, die ein Abbild unter dem Boden ergeben. Es können Strukturen erkannt, Dichteunterschiede gemessen werden uvm.

Es gibt aber auch luftbild- oder sogar satellitengestützte Prospektionen – hier ist man dann im Bereich des «Remote Sensing». Das bedeutet konkret, aus der Entfernung Oberflächen abzutasten: Das Erdinnere wird dabei nicht untersucht. Über die Oberflächenzeichnung kann man z.B. Grabhügel oder alte Wallanlagen entdecken. Häufig manifestieren sich über die Oberflächen jedoch auch Strukturen darunter. Ein gutes Beispiel sind Luftbilder von Kornfeldern: Hier kann man Strukturen erkennen, wie z.B. eine Mauer unter dem Boden, die bedingen, dass das Korn unterschiedlich wächst. Bildgebende Verfahren können diese Strukturen dann darstellen.

Digitales Geländemodell von Ramosch-Motta GR nach Drohnenflug (T. Sonnemann, U-Bamberg).

Was für Daten bekommt man aus diesen Methoden zurück, Zahlen, oder andere Formate?

Ganz unterschiedlich natürlich, je nach Methoden. In unserem zweiten grossen Anwendungsgebiet, GIS (Geographic Information System), arbeiten wir mit herkömmlichen Datenformaten für Geodaten, die wir dann in ein GIS importieren können. So können wir die erhaltenen Daten als zusätzliche Layers auf Karten darstellen und analysieren.

Wir verwenden hier am Institut eine kostenpflichtige Software eines bekannten Herstellers, vermehrt und insbesondere die Studierenden aber auch Open Source Software – GRASS GIS und QGIS.

Teilweise importieren wir die eigenen Daten in das GIS und erstellen neue Karten, manchmal haben wir auch nur eine «physische» Karte und georeferenzieren diese dann im GIS manuell.

In der Disziplin gab es einen fliessenden Übergang, was den Einsatz digitaler Methoden angeht – in meinen ersten landschaftsarchäologischen Arbeiten habe ich Fundpunkte noch von Hand in physische Karten eingetragen, mittlerweile macht man das automatisiert vor Ort. Man sieht hier schön den Übergang von analogen zu digitalen Humanities.

Umlandmodellierung in GIS mit 15-/60-/180-Minuten-Gehdistanz um Airolo-Madrano TI (M. Sauerbier ETHZ, Ph. Della Casa UZH).

Für QGIS gibt es auch eine mobile App, mit der man Standorte georeferenzieren kann – wird diese auch eingesetzt?

Genau, das hat in den letzten Jahren angefangen und wird die Zukunft sein: Im Feld wird nicht mehr mit Papierdokumentation gearbeitet, sondern direkt mit dem Tablet. Die erfassten Daten können sofort im GIS integriert werden. Dies ist vielleicht nicht wahnsinnig spektakulär, erspart aber sehr viele Zwischenschritte.

Was ist das dritte Anwendungsgebiet?

Ein drittes grosses Anwendungsgebiet sind 3D-Graphikrekonstruktionen: Modellierungen im 3D-Raum. Wir arbeiten z.B. mit Structure from Motion (SfM), einer photogrammetrischen Dokumentationstechnik. Man macht viele Fotografien einer archäologischen Fundstelle. Die Fotografien enthalten referenzierte Punkte, was erlaubt, mit einer speziellen Software ein 3D-Modell zu erstellen. Dieses Modell kann man entweder auf dem Bildschirm darstellen und manipulieren (drehen, zoomen, etc.), oder man kann es sogar mit dem 3D Drucker ausdrucken.

Für die Scientifica 2017 haben wir beispielsweise ein 3D Modell eines prähistorischen Ofens aus Daten eines Fundortes erstellt. Es handelte sich um einen Kupferverhüttungsofen aus dem 1. Jahrtausend im Bündner Alpenraum. Diesen haben wir ausgegraben, dokumentiert und mit SfM photogrammetrisch modelliert. Aus dem photogrammetrischen Modell konnten wir anschliessend mit dem 3D Drucker einen Miniatur-Verhüttungsofen drucken, mit dem man den Besuchern der Scientifica die Verwendung demonstrieren konnte.

DfM-Modell eines Verhüttungsofens aus dem 3D-Drucker (Ph. Della Casa UZH).

Wie steigt man als Anfänger*in in diese Methoden ein – gerade bei der Bildverarbeitung passiert mathematisch ja einiges…

Die Archäologie ist ein gutes Beispiel für diese Problematik. Wir sind traditionell ein geisteswissenschaftliches Fach und bringen wenig mathematische Kenntnisse mit. Wir zeigen in einführenden Modulen Beispiele dieser Methoden, Anwendungen, gehen aber noch nicht auf den mathematischen Hintergrund ein. Dann bieten wir ganz vereinzelt Module wie «Computer Applications in Archeology» an, in dem dann tatsächlich die Aufgabenstellung und die instrumentellen Methoden angeschaut werden, bis zu einem gewissen Punkt auch die Algorithmen.

Aber: Die wenigsten schaffen dann den Schritt dazu, Algorithmen selber zu entwerfen, sondern bleiben Anwender z.B. der SfM-Software. Wir brauchen dann Partner an anderen Instituten, z.B. beim Institut für Geodäsie und Photogrammetrie an der ETH, die uns im konkreten Fall mit der Mathematik helfen können.

Selbst wenn wir digitale Grundlagen im Fach unterrichten wollten, könnten wir gar nicht, weil die Ressourcen für das Lehrpersonal nicht da sind. Wir ziehen manchmal ExpertInnen im Bereich «Digital Archeology» bei, doch das ist ja nur ein Beispiel von sehr vielen interdisziplinären Methoden. Gerade für aDNA- und Isotopenanalyse, Materialanalytik und sehr vielen weiteren Methoden, die in den letzten 20 Jahren entstanden sind, müssten wir SpezialistInnen haben. Die Methoden finden allenfalls Eingang in die disziplinären Projekte – bei der Lehre stehen wir vor der grossen Herausforderung, was davon aufgenommen werden soll und kann.

Beim Thema GIS wären Spezialistinnen und GIS-Module am Geographischen Institut vorhanden – doch diese sind oft komplett (aus)gebucht, so dass unsere Studierenden dort nicht andocken können. Dazu kommt, dass sie in der Anwendung in eine andere Richtung gehen, als wir in unserem geisteswissenschaftlichen Fach benötigen.

Wie haben Sie sich die digitalen Methoden erarbeitet, wie sind Sie dazu gekommen?

Ganz klar aus meinem Interesse auch für die Naturwissenschaften, der Science Archeology und natürlich durch die Entwicklung der letzten Jahre. Es ergeben sich Möglichkeiten, die man vorher mit den analogen Methoden nicht hatte.

In den Bereich Prospektion sind wir notgedrungen geraten: Grabungen auf dem Feld sind sehr aufwendig und ressourcenintensiv. Man produziert sehr viel Material, das gelagert, dokumentiert und konserviert werden muss, es ist auch administrativ sehr aufwendig, wenn es z.B. um Bewilligungen geht. Die Prospektion dagegen liefert sehr viele Resultate, ist aber viel weniger ressourcenintensiv. Man erhält zwar auch viele Daten, kontrolliert vor Ort aber nur noch fallweise, nicht mehr auf grösseren Flächen.

Mit dem Kanton Graubünden haben wir eine sehr gute Kooperation – doch dort können wir z.Z. keine Siedlungsgrabungen, d.h. Forschungsgrabungen in Siedlungen machen. Aufgrund der Bauaktivitäten gibt es bereits sehr viele Notgrabungen, ausserdem noch sehr viel unbearbeitetes Altmaterial. Prospektionen dagegen dürfen wir machen, die Funddaten liefern wir in die Fundstellendatenbanken des Kantons. Dies ist gut für den Kanton, weil sie dann wiederum ihre archäologischen Zonenkarten präzisieren können, um Verdachtsflächen zu ermitteln. Dadurch ist der Kanton im Idealfall bereits gut vorbereitet, wenn Bauprojekte beantragt werden. Von Gesetzes wegen müssen sie zwar dann Notgrabungen durchführen, doch es beschränkt sich auf die Verdachtsflächen und ist dadurch  fokussierter und zielgerichteter.

Sie hatten einmal erwähnt, dass Sie auch predictive modeling machen – wie funktioniert das genau?

Das ist eine typische GIS Anwendung – wir kartieren und analysieren bekannte Fundstellen vor einem geoinformatischen Hintergrund: Das sind verschiedene Kartenlayer, z.B. Nähe zu Wasser, Bodenqualität, Hangneigung. Aus dieser Analyse leiten wir Principal Components, d.h. Hauptkomponenten von Siedlungssituationen ab (Principal Component Analysis). Wir finden dann vielleicht für typische bronzezeitliche Siedlungen heraus, dass diese auf Hügelkuppen, am Talrand, innerhalb dieser oder jener Vegetationsstufe etc. liegen. Mit einem Vergleich von ähnlichen Merkmalgruppen wird es nun möglich, mögliche Fundstellen vorherzusagen.

Dies ist eigentlich eine spannende Sache – ein grosser Nachteil ist aber, dass man immer nur erfasst, was man bereits kennt. Dagegen kann man aus ergebnisoffenen Prospektionen Fundstellenkategorien erfassen, die man vorher noch nicht kannte. Man muss also die Methoden gut kombinieren. Auch diese offenen Verfahren brauchen aber immer eine Überprüfung vor Ort, man nennt das «ground truthing».

Was müsste es bei uns an der UZH noch geben, damit die Archäologie all diese Methoden in die Lehre oder auch Forschung bringen könnte?

Es fängt bei einfachen Sachen an: Für einen geplanten GIS-Kurs suchten wir vor einigen Jahren einen entsprechend ausgerüsteten Schulungsraum, d.h. Computer mit installierter GIS Software. Die vorhandenen Räume an der MNF waren durchgehend ausgebucht…

Weiter fehlt eine geisteswissenschaftliche Grundausbildung für GIS. Die vorhandenen Module, abgesehen davon, dass sie überbucht sind, gehen immer in andere fachwissenschaftliche Richtungen. Um das zu erreichen, müssten sich an der Philosophischen Fakultät vielleicht verschiedene Institutionen zusammenschliessen – Historiker*innen, Archäolog*innen, Linguist*innen usw.

Ein anderes Thema, das eine grosse Rolle spielt, sind natürlich die Ressourcen: Die Archäologien sind sowieso schon recht teuer. Wir haben teure Feldmodule, wir haben teure Apparaturen, usw. Je mehr Spezialisierungen wir anbieten möchten, desto teuer werden unsere Module im Vergleich zu anderen Modulen der Fakultät.

Doch unser Problem ist, dass wir auf Feldforschung, Geräte oder Software einfach nicht verzichten können, wenn wir bei den «Digital Archaeologies» mithalten können wollen. Ein Beispiel: Für einen Arbeitsablauf in der Digital Archeology benötigt man vielleicht zehn Komponenten, Geräte oder Software, die im Zusammenspiel einen Workflow ergeben: Aufnahme im Feld mit Drohnen o.ä., Datenverarbeitung, Visualisierung etc. Gerade für solche scheinbar unzusammenhängenden Komponenten ist es schwierig, an Finanzierungen zu kommen, weil das Verständnis für die spezifischen Prozesse manchmal nicht da ist.

Ohne die Komponenten ist aber ein Einstieg in die digitalen Methoden gar nicht möglich – so wird man technisch abgehängt, nicht?

Gerade wenn man Digital Humanities fördern möchte, brauchen sie einen Stellenwert im Studienprogramm, etwa indem fachübergreifenden Strukturen geschaffen werden oder in der Fakultät Cluster gebildet und mit Ressourcen ausstattet werden. Ich denke da auch an Lehrpersonal – ich würde natürlich morgen eine Dozent*in mit Spezialgebiet «Digital Archeology» anstellen, wenn ich könnte.

Man darf nicht vergessen, dass die Archäologie ein konkretes Anwendungsfeld hat. Wir bedienen Kantonsarchäologien, die einen Öffentlichkeitsauftrag haben, mit fachwissenschaftlichem Nachwuchs. Es ist nicht nur eine geisteswissenschaftliche Disziplin, sondern gewissermassen auch eine Berufs(aus)bildung. Deshalb müssen wir sicherstellen, dass wir methodisch und technisch nicht hinterherhinken. Auch wenn wir nur 24 Kantone und sogar etwas weniger Kantonsarchäologien haben, und wir nicht hunderte von Studierenden für diesen Markt ausbilden können, benötigen wir dennoch Ressourcen, um eine angemessene Ausbildung bieten zu können.

Wir haben eine Verpflichtung gegenüber dem kulturellen Erbe der Schweiz, wenn nicht gegenüber der Menschheit, dass wir Leute ausbilden, die in der Lage sind, das Management dieses kulturellen Erbes auf allen Stufen wahrzunehmen, vom Boden bis zur Rekonstruktion.

Vielen Dank für das Gespräch!

 

Links:

Wikipedia: Prospektion

Wikipedia: Remote Sensing

GRASS GIS

QGIS

Wikipedia: Structure From Motion

Scientifica 2017: Verhüttungsofen

Wikipedia: Principal Component Analysis

Geodatencloud geodata2use

GIS Browser Kanton Zürich

Posted on

Data Crunching für Texte aller Art – eine neue Dienstleistung an der Philosophischen Fakultät

Das neue Text Crunching Center (TCC) hilft bei Textanalysen und bei Fragen wie: Wie komme ich zu meinen Daten? Wie muss ich sie für meine Forschungsfrage aufbereiten, oder – welche Fragen kann ich an meine Daten stellen? Angesiedelt am Institut für Computerlinguistik und konzipiert als Dienstleistungszentrum – wir hören in diesem Beitrag, für wen das TCC gedacht ist und welche Dienstleistungen angeboten werden.

Bitte stellen Sie sich vor!

[Tilia Ellendorff, TE]: Mein Name ist Tilia Ellendorff. Ursprünglich habe ich Grundschullehramt mit den Fächern Englisch und Deutsch studiert an der Universität Paderborn. Anschliessend habe ich mich aber entschlossen, mich auf Linguistik und Computerlinguistik zu konzentrieren – zunächst mit einem Bachelor in Linguistik, dann mit einem Internationalen Masterstudium in Computerlinguistik in Wolverhampton (GB) und Faro (P), über Erasmus Mundus. Schliesslich bin ich für das Doktorat in Computerlinguistik nach Zürich gekommen. Mein Thema war Biomedical Text Mining – in meinem Projekt ging es darum, in medizinischen Publikationen die Beziehung zwischen ätiologischen, also auslösenden, Faktoren von psychiatrischen Erkrankungen zu extrahieren. Hier besteht nämlich das Problem, dass es unmöglich ist, die gesamte Literatur auf diesem Gebiet zu lesen. Es ist schwierig, so einen Überblick über alle Faktoren zu gewinnen. Ich habe dazu ein System gebaut, das dies unterstützt und automatisch aus den Texten extrahiert.

[Gerold Schneider, GS]: Ich habe Englische Literatur- und Sprachwissenschaft und Computerlinguistik an der Universität Zürich studiert. Während des Doktorats habe ich einen syntaktischen Parser für Englisch entwickelt. Es ist ein System, das eine syntaktische Analyse eines Texts liefert: Was ist das Subjekt, was das Objekt, welches die untergeordneten Sätze, etc. Mit der Anwendung dieses Tools bin ich schliesslich in das Gebiet des Text Minings gelangt. Zunächst habe ich das auch zu Fachliteratur im biomedizinischen Bereich angewendet. Die gleichen Methoden konnte ich später in weiteren Disziplinen verwenden, z.B. in Projekten mit dem Institut für Politikwissenschaft im NCCR Democracy zu Demokratieforschung, oder auch in einem Projekt zu Protestforschung. Dabei geht es ja nicht nur um eine Faktensammlung, sondern meist um Meinungen, Stimmungen oder Assoziationen, die aus den Medien extrahiert werden müssen: Gerade da braucht man statistische Methoden, mit logikbasierten stösst man nur auf Widersprüche. Somit sind auch die Methoden des maschinellen Lernens unerlässlich. Die Daten und Ergebnisse müssen zum Schluss aber auch interpretiert werden können – sonst nützt die Datensammlung nicht viel. Mein breiter Hintergrund ist hier sicher von Vorteil – ich sehe mich auch als Brückenbauer zwischen Disziplinen.

Vielen Dank für die Vorstellung – wie ist denn nun das Text Crunching Center entstanden?

[GS] Entstanden ist das Text Crunching Center dadurch, dass das Institut für Computerlinguistik bzw. Martin Volk inzwischen so viele Anfragen im Gebiet Text Mining und Textanalyse erhält, dass es nicht mehr länger möglich ist, diese alle selbst zu bearbeiten.
Das Text Crunching Center bietet in diesem Gebiet Dienstleistungen an: Bei allem, was mit Text Mining, Sentimentanalyse, Textanalyse im Allgemeinen – generell mit Methoden der Digital Humanities oder Machine Translation – zu tun hat, können wir Projekte unterstützen. Auch allgemeine Unterstützung für Digitalisierungsprozesse oder Textverarbeitung wie OCR, aber auch Beratung zu Tools, Software oder Best Practices bieten wir an. Wir helfen ebenfalls gerne beim Schreiben von Projektanträgen, geben Coaching und Unterricht in der Textanalyse, oder können fertige (Software-)Lösungen anbieten.
[TE] Wir sind die Ansprechpartner für alle, die in ihren Projekten mit viel Text umgehen müssen, das technische Knowhow aber nicht haben und nicht genau wissen, wo sie anfangen sollen. Man kann z.B. zu uns kommen, wenn man einfach Text vor sich hat und eine Idee braucht, was man damit mit der Maschine alles anfangen könnte.

Könnten Sie mir ein konkretes Beispiel einer Anfrage geben – wie muss man sich den Ablauf vorstellen, wenn man auf Sie zukommt?

[TE] Wenn z.B. jemand aus einem bestimmten Forschungsgebiet untersuchen möchte, was der öffentliche Diskurs zu einem Thema ist – nehmen wir mal das Thema «Ernährung». Dazu möchten sie dann gerne Social Media Daten auswerten, die technische Umsetzung ist gehört aber nicht zu ihrem Fachgebiet. In dem Fall kann man zu uns gelangen und wir beraten in einem ersten Schritt: Wir klären die Fragen, wie man überhaupt an Daten gelangen kann, was man mit den Daten machen könnte. Es kann so weit gehen, dass wir einen Prototypen erstellen, mit dem sie dann direkt ihre Daten auswerten und Forschungsergebnisse erhalten können.

Welche konkreten Möglichkeiten würden Sie in den Personen in diesem Beispiel vorschlagen und wie würden sie es umsetzen?

[GS] In diesem konkreten Beispiel haben wir Twitter-Daten mit Hilfe von Text Mining gesammelt und ein Coaching angeboten. Die R Skripts haben wir ebenfalls geschrieben, die Personen aber zusätzlich so weit gecoacht, dass sie diese schliesslich selbst anwenden konnten. Die über das Text Mining erhaltenen Daten werden mit den Skripts exploriert und verschiedene Outputs generiert. Dabei haben wir «klassische» Digital Humanities Methoden angewendet wie z.B. Distributionelle Semantik, Topic Modeling, oder auch analysiert, wie in den Tweets bestimmte linguistische Merkmale gebraucht werden.
[TE] Es kommt immer auf die Kunden darauf an: In diesem Beispiel wollten die Kunden die Anwendung gerne selber lernen. Wenn sie dafür aber keine Zeit oder kein Interesse daran gehabt hätten, hätten wir auch alles selbst implementieren können: Also das fertige System oder die aufbereiteten Daten.
[GS] Ein Produkt, das dabei entstanden ist, ist eine «konzeptuelle Karte» von Bier, Cidre und Wein. Es ist eine semantische Karte, in der ähnliche Konzepte näher beieinander liegen als Konzepte, die inhaltlich weiter voneinander entfernt sind. Rund um den Cidre liegen beispielsweise die Begriffe «Äpfel», «Jahreszeit», «Wärme» usw. Man sieht auch, dass die Essenskultur mit «dinner», «cooking», etc. viel näher am Konzept «Wein» liegt als bei «Bier» oder «Cidre». Solche automatisch erstellten Karten vereinfachen stark, sind aber anschaulich und gut interpretierbar, deshalb zeigen wir sie als ein Beispiel unter vielen.

Eine ähnliche Karte etwa entstand in einem anderen Projekt aufgrund von Daten ausgewählter Reden von Barack Obama und Donald Trump. Barack Obama spricht etwa mehr von «opportunity» oder «education», während Donald Trump davon eher weiter weg ist und eher über China und Deals spricht, und wer ihm alle angerufen haben. «Peace and Prosperity» als Vision versprechen natürlich beide.

Nun rein technisch gefragt – wie entsteht so eine konzeptuelle Karte? Die Verbindungen stellen die Distanzen zwischen den Konzepten dar, nehme ich an – mit welcher Methode bestimmen Sie denn die Ähnlichkeiten?

[GS] Es handelt sich um eine Methode der distributionellen Semantik: Man lernt aus dem Kontext. D.h. dass Wörter, die einen ähnlichen Kontext haben, auch semantisch ähnlich sind. Gerade bei grossen Textmengen führt so ein Ansatz zu guten Ergebnissen. Es gibt da verschiedene Methoden, um dies zu bestimmen – gemeinsam ist ihnen jedoch der kontextuelle Ansatz.
In diesem konkreten Beispiel wurde mit Kernel Density Estimation gearbeitet. Man zerlegt dafür den Korpus zunächst in kleine Teile – hier waren es etwas 2000. Für jedes Wort prüft man dann, wie das gemeinsame Auftreten in den 2000 «Teilen» ist. Wörter, die sehr häufig miteinander auftreten, kommen dann das Modell. Dabei werden nicht die absoluten Zahlen verwendet, sondern Kernel-Funktionen gleichen die Zahlen etwas aus. Daraus kann schliesslich die Distanz zwischen den einzelnen Konzepten berechnet werden. In diesem Prozess entsteht ein sehr hochdimensionales Gebäude, das für die Visualisierung auf 2D reduziert werden muss, um es plotten zu können. Da dies immer eine Vereinfachung und Approximierung ist, braucht es immer die Interpretation.

Wie wichtig ist es für Ihre Aufgabe, dass Sie einen breiten disziplinären Hintergrund haben?

[TE] Man darf nicht denken, dass die Texttechnologie das «Wunderheilmittel» für alle Probleme ist. In einer Beratung geben wir immer eine realistische Einschätzung darüber ab, was möglich ist und was nicht.
Daher ist die Frage sehr relevant. Man muss einen gemeinsamen Weg zwischen der computerlinguistischen und der inhaltlichen Seite finden. Es ist wichtig, dass wir beide durch unseren Werdegang viele Disziplinen abdecken und schon in vielen verschiedenen Bereichen mitgearbeitet haben.
Gerade in einem Projekt aus der Biomedizin, in dem es darum ging, welche Auswirkungen bestimmte Chemikalien auf gewisse Proteine haben, hat mein biologisches Wissen aus dem Biologie-Leistungskurs und einem Semester Studium sehr geholfen. Als Laie würde man diese Texte überhaupt nicht verstehen, deshalb könnte man auch keine geeignete Analyse entwerfen. Insbesondere auch auf der Ebene der Fehleranalyse ist das Disziplinen-Wissen wichtig: Möchte man herausfinden, warum das entwickelte System in manchen Fällen nicht funktioniert hat, hat man ohne disziplinäres Wissen wenig Chancen.
Deshalb ist es wichtig, dass wir realistische Einschätzungen darüber abgeben können, was umsetzbar ist – manche Fragen sind aus computerlinguistischer Sicht schlicht nicht auf die Schnelle implementierbar.
[GS] Dennoch können oft neue Einsichten generiert werden, oder auch nur die Bestätigung der eigenen Hypothesen aus einer neuen Perspektive… Die datengetriebenen Ansätze ermöglichen auch eine neue Art der Exploration: Man überprüft nicht nur eine gegebene Hypothese, sondern kann aus der Datenanalyse neue Hypothesen generieren, indem man Strukturen und Muster in den Daten erkennt.
Hier hat sich bei mir ein Kreis geschlossen: Aus der Literaturwissenschaft kenne ich das explorative Vorgehen sehr gut. Dagegen ist ein rein computerlinguistisches Vorgehen schon sehr anders. Mit Ansätzen der Digital Humanities kommt nun wieder etwas Spielerisches in die Technologie zurück. Die Verbindung von beidem erlaubt einen holistischeren Blick auf die Daten.

Wie würden Sie denn Digital Humanities beschreiben?

[GS] Es ist wirklich die Kombination der beiden Ansätze: «Humanities» kann man durchaus wortwörtlich nehmen. Gerade in der Linguistik ist damit auch ein Traum wahr geworden, wenn man an Ferdinand de Saussures Definition von Bedeutung denkt. «La différence», die Bedeutung, ergibt sich nicht daraus, was etwas «ist», sondern was es im Zusammenhang, im Ähnlich-Sein, im «Nicht-genau-gleich-sein» mit anderen Dingen ist. In der Literaturwissenschaft wird dieser Umstand in der Dekonstruktion mit der «différance» von Jacques Derrida wieder aufgenommen. Die distributionale Semantik hat genau das berechenbar gemacht. Es ist zwar einerseits sehr mathematisch, andererseits ist für mich dieser spielerische Zugang sehr wichtig.
Die genaue philosophische Definition von Digital Humanities ist für mich dagegen nicht so wichtig: Doch die Möglichkeiten, die sich mit den digitalen Methoden ergeben – die sind toll und so viel besser geworden.
[TE] Die Humanities, die bisher vielleicht noch nicht so digital unterwegs waren, geraten momentan auch etwas unter Druck, etwas Digitales zu benutzen…

Mein Eindruck war bisher nicht nur der eines «Müssens», sondern auch eines «Wollens» – doch der Einstieg in die Methodik ist einfach sehr schwierig, die Schwelle sehr hoch.

[TE] … und gerade hier können wir einen sehr sanften Einstieg mit unseren Beratungen bieten: Wenn jemand noch gar keine Erfahrung hat, aber ein gewisses Interesse vorhanden ist. So muss niemand Angst vor der Technologie haben – wir begleiten das Projekt und machen es für die Kunden verständlich.
[GS] Aber auch Kunden, die schon ein Vorwissen haben und bereits etwas programmieren können, können wir immer weiterhelfen…

Gilt Ihr Angebot nur für Lehrende und Forschende oder auch für Studierende?

[TE] Das Angebot gilt für alle, auch für externe Firmen. Für wissenschaftliche Projekte haben wir aber natürlich andere, günstigere Tarife.
[GS] Die Services werden zum Selbstkostenpreis angeboten. Ein Brainstorming, d.h. ein Einstiegsgespräch können wir sogar kostenlos anbieten. Auch für die anschliessende Beratungs- oder Entwicklungsarbeit verlangen wir keine überteuerten Preise. Für unser Weiterbestehen müssen wir allerdings eine gewisse Eigenfinanzierung erreichen.

Wo soll das Text Crunching Center in einigen Jahren stehen?

[TE] Natürlich möchten wir personell noch wachsen können… Wir bilden uns dauernd weiter, um state-of-the-art-Technologien anbieten zu können. Die Qualität der Beratung soll sehr hoch sein – das wünschen wir uns.
[GS] … und wir wollen die digitale Revolution unterstützen, Workshops anbieten, das Zusammenarbeiten mit dem LiRI oder mit Einzeldisziplinen verstärken. Letztlich können alle von der Zusammenarbeit profitieren, indem man voneinander lernt und Best Practices und Standardabläufe für gewisse Fragestellungen entwickelt. Auch die Vernetzung ist ein wichtiger Aspekt – wir können helfen, für ein bestimmtes Thema die richtigen Experten hier an der UZH zu finden.

Ich drücke Ihnen die Daumen! Vielen Dank für Ihr Gespräch!

Links:

Text Crunching Center: https://www.cl.uzh.ch/en/TCC.html
Ein Anwendungsbeispiel aus Projekten des TCC: https://www.cl.uzh.ch/en/TCC/Teasers.html
Openbook zu Statistik für Linguisten (Gerold Schneider und Max Lauber): https://dlftest.uzh.ch/openbooks/statisticsforlinguists/
Ferdinand de Saussure: https://de.wikipedia.org/wiki/Ferdinand_de_Saussure
Jacques Derrida: https://de.wikipedia.org/wiki/Jacques_Derrida
Kernel Density Estimation: https://de.wikipedia.org/wiki/Kerndichteschätzer
NCCR Democracy: http://pwinfsdw.uzh.ch/
LiRi: https://www.liri.uzh.ch/en.html

Off Topic:

Ein eigenes Openbook bei Digitale Lehre und Forschung publizieren: https://dlftest.uzh.ch/openbooks/erste-schritte/

Posted on

«Doing New Things with Old Texts» oder Digital Humanities aus Sicht der Computerlinguistik

Was haben Vektoren mit Sprache zu tun? Martin Volk, Rico Sennrich und Simon Clematide sprechen mit mir über Methoden der Computerlinguistik. In dieser Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus.

Wir sprechen heute zu viert über Computerlinguistik und Digital Humanities – können Sie sich alle kurz vorstellen?

[Martin Volk, MV]: Starten wir in alphabetischer Reihenfolge…

[Simon Clematide, SC]: Ich bin wissenschaftlicher Mitarbeiter am Institut für Computerlinguistik, ursprünglich studierte ich Germanistik, Informatik und Philosophie. Ich habe also humanistisch angefangen und wurde immer technischer – mein Doktorat machte ich dann in der Computerlinguistik. Ich habe den Wandel der Computerlinguistik mitgemacht von eher wissensbasierten Systemen, in denen man linguistische Kenntnisse brauchte, zu eher statistischen und maschinellen Lernverfahren. Ich sehe mich als Brückenbauer zwischen den geisteswissenschaftlichen und den eher technischen Ansätzen.

Aktuell arbeiten Martin Volk und ich zusammen mit Forschenden aus den digitalen Geschichtswissenschaften am Projekt Impresso, einem vom SNF unterstütztes Sinergia Projekt, in dem Techniken der Textanalyse, die v.a. für zeitgenössische Dokumente entwickelt wurden, in grossem Stil auf schweizerische und luxemburgische Zeitungen aus den letzten 250 Jahren angewendet werden. Dabei werden die mehrsprachigen Inhalte der Zeitungen möglichst gut indiziert, damit interessierte Personen diese effizient durchsuchen können.

Media Monitoring of the Past: Ausschnitt aus dem Impresso-Projekt

Media Monitoring of the Past: Über 5 Mio. Seiten wurden gescannt, fast 50 Mio. Items identifiziert.

Ein weiteres laufendes Projekt ist der Stellenmarkt-Monitor Schweiz  zusammen mit Prof. Marlis Buchmann vom Soziologischen Institut im Rahmen des (Nationalen Forschungsprogramms 77 “Digitale Transformation”): Hier analysieren wir Stellenanzeigen inhaltlich – welche Fähigkeiten werden verlangt, welche Aufgaben werden beschrieben, wie widerspiegelt sich die Technologieentwicklung der letzten Jahre, wie haben sich die Berufe verändert?

Beiden Projekten ist gemeinsam, dass sie eine Textanalyse brauchen und der Text für die Maschine lesbar und interpretierbar gemacht werden muss: Dieses Fachwissen bringen wir mit.

Rico Sennrich

[Rico Sennrich, RS]: Ich bin SNF-Förderprofessor am Institut für Computerlinguistik – meine Forschungsinteressen sind die Anwendung und Entwicklung maschineller Lernverfahren für die Sprachverarbeitung, insbesondere im Bereich Multilingualität. Einerseits geht es hier um die maschinelle Übersetzung, andererseits aber darum, Modelle zu entwickeln, die multilingual funktionieren: Konkret wird ein Modell auf mehreren Sprachen trainiert, so dass es schliesslich besser funktioniert, als wenn man separate Modelle für jede Sprachen trainieren würde. Sogar der Transfer zu Sprachen, für die keine oder nur wenige Texte für eine Anwendung vorhanden sind, ist möglich.

Ich bearbeite nicht direkt geisteswissenschaftliche Fragestellungen, aber die Methoden, an denen ich arbeite, können durchaus auch in den Geisteswissenschaften Anwendung finden. Im Projekt x-stance mit dem Doktoranden Jannis Vamvas ging es dieses Jahr z.B. darum, zunächst Datensätze zu generieren und Modelle zu entwickeln, die multilingual sind. Die Datensätze bestanden aus Kommentaren von Politiker/-innen, die mit Annotationen «positiv/negativ» in Bezug auf bestimmte Fragestellungen versehen wurden. Wir konnten dann zeigen, dass das Modell auf verschiedene Fragestellungen und verschiedene Sprachen trainiert werden kann: D.h. wurde es auf deutsche und französische Kommentare trainiert, hat die Analyse danach auch für die italienischen gut funktioniert.

Gerade solche Methoden können z.B. auch für die Politikwissenschaften interessant sein: Mit wenig Annotationsaufwand können dann Analysen über mehrere Sprachen hinweg betrieben werden.

Martin Volk

[Martin Volk, MV]: Ich studierte in den 80er Jahren Informatik und Computerlinguistik, war in den 90er Jahren Postdoc an der UZH und konnte in dieser Zeit schon mit Simon Clematide zusammenarbeiten. Später war ich einige Jahre als Professor in Stockholm, seit 2008 bin ich als Professor und Institutsleiter am Institut für Computerlinguistik wieder an der UZH. Rico Sennrich war bei uns am Institut Doktorand – wir drei kennen uns also schon einige Jahre.

Meine Forschungsschwerpunkte haben sich über die Jahre etwas verschoben. In den 90er Jahren hatten wir wissens- und regelbasierte Systeme und versuchten, Grammatiken zu schreiben, um die grammatische Struktur von Sätzen z.B. automatisch zu bestimmen: Wo ist ein Prädikat, wo ist ein Subjekt, ein Objekt? Als später die statistischen Verfahren kamen, merkten wir, dass es mit diesen Verfahren viel besser funktioniert.

Eine der Ideen, mit denen ich 2008 aus Schweden zurückgekommen bin, war, die Arbeit an der maschinellen Übersetzung zu intensivieren. Früher war der Aufwand dafür schlicht zu gross: Man musste zehntausende von Wörtern in ein Lexikon eintragen, um Sätze analysieren zu können. Nun können wir Systeme für die Analyse selbst bauen.

Ob dies zum Bereich der Digital Humanities gehört, ist die Frage. Und wenn es schon um Definitionen geht – in Diskussionen über Digital Humanities habe ich einmal gesagt, es sei «doing new things with old texts». Eine Person meldete sich und fragte, was denn mit neuen Texten sei? Meine Antwort war: «Doing new things with new texts» – das ist Computerlinguistik! Das ist aber natürlich meine ganz eigene Sicht auf die Welt…

Ein konkretes Projekt im Bereich Digital Humanities, an dem ich gerade arbeite, ist die Digitalisierung des Bullinger-Briefwechsels: Von Heinrich Bullinger sind ca. 12’000 Briefe erhalten, von denen einige Tausend von der Theologischen Fakultät bereits ediert worden sind – wir versuchen nun, den Rest auch noch zu digitalisieren. Dies geschieht mit automatischer Handschriftenerkennung und maschineller Übersetzung der frühneuhochdeutschen und lateinischen Texte in modernes Deutsch.

Der Übergang von wissensbasierten Systemen zu statistischen – ist dies genau der Wandel von den Lexika mit zehntausenden Einträgen zu maschinellen Methoden, auch Machine Learning Methoden?

[MV]: Genau, und dies kann man gerade am Beispiel der maschinellen Übersetzung gut sehen. In den wissensbasierten, d.h. regelbasierten Systemen musste man diese grossen Lexika, Wörterbücher haben, um überhaupt analysieren zu können, wie ein Eingabesatz aufgebaut ist. Im nächsten Schritt wurde er dann erst in die Zielsprache transferiert, um dann schliesslich einen «gültigen» Satz daraus zu generieren. Da war unglaublich viel Handarbeit involviert, um die Wörterbücher und die Entsprechungsregeln zu erstellen.

Heute braucht man dagegen eigentlich «nur» grosse Mengen an bereits erfolgten Übersetzungen, z.B. zehn Millionen Sätze, die in einer hohen Qualität bereits übersetzt wurden. Daraus kann der Computer dann lernen, wie Übersetzungen zu machen sind.

Entwickeln Sie in der Computerlinguistik diese Modelle für das Maschinelle Lernen selbst?

[RS]: Das ist eine Gemeinschaftsarbeit der Community, und es freut mich sehr, wie offen das Wissen geteilt wird. Es werden stetig kleine Verbesserungen am Werkzeugkasten des Maschinellen Lernens vorgenommen – auch das Institut für Computerlinguistik hat schon Teile dazu beigetragen, die nun auch von anderen Gruppen verwendet werden. Umgekehrt verwenden wir Sachen, die andere beigetragen haben.

Welches «Werkzeug» haben Sie da konkret entwickelt?

[RS]: Bei unserem Beitrag ging es darum, wie Texte für die maschinellen Lernverfahren repräsentiert werden. Intern werden die Texte als Vektoren, also als Zahlen repräsentiert. Aus technischen Gründen muss man dann mit relativ kleinen Vokabularen, d.h. ca. 10’000 Wörtern arbeiten – für die Sprachverarbeitung reicht das nirgends hin, weil wir bei Sprachen mit hunderttausenden oder gar Millionen unterschiedlichen Wörtern arbeiten möchten. Wir haben dann einen Algorithmus entwickelt, um Wörter in kleinere Stücke aufzuteilen, sogenannte «Subworteinheiten», mit denen man später alle Wörter im Vokabular repräsentieren kann. Dieses Tool wird nun fast überall in der Community eingesetzt, wenn es um die Verarbeitung von Sprachen in neuronalen Netzen geht.

[MV]: Dieses Verfahren des «Byte Pair Encoding» wurde am Institut für Computerlinguistik und der Universität in Edinburgh entwickelt – das Paper von Rico Sennrich ist derzeit übrigens eines der meistzitierten Papers in der Computerlinguistik.

[RS]: Das Paper heisst Neural Machine Translation of Rare Words with Subword Units, das tönt vielleicht etwas spezifisch, doch das Verfahren wird auch ausserhalb der maschinellen Übersetzung verwendet, oder auch, wenn es nicht speziell um seltene Wörter geht. Es geht darum, ein offenes Vokabular haben zu können, d.h. alle Wörter repräsentieren zu können, und das mit einem beschränkten Vokabular von Symbolen.

Herr Clematide – verwenden Sie ähnliche Methoden in Ihren Projekten?

[SC]: Nicht konkret dieses Verfahren… Was uns aber verbindet, sind die Vektorrepräsentationen der Wörter, die es nicht einfach gibt, sondern aus grossen Textsammlungen «gelernt» werden müssen. Dies ist sicher die grosse Erfindung der Sprachtechnologie und war ein grosser Treiber des Fortschritts. Es ist ein grosser Bruch in der Art und Weise, wie wir mit Sprache umgehen – mathematische Modelle haben «Überhand» gewonnen.

[MV]: Dazu möchte ich ein Beispiel geben. Auch vor 20 Jahren wurde ein Wort numerisch im Computer repräsentiert. Nimmt man z.B. die Wörter «Haus» und «Gebäude», wurden diese mit einer Bytesequenz repräsentiert – heute haben wir aber eine numerische Repräsentation, mit der man automatisch berechnen kann, dass «Haus» und «Gebäude» bedeutungsmässig sehr eng beieinander liegen, während «Haus» und «Fussball» sehr viel weiter auseinander liegen. Das Neue ist also eine numerische Repräsentation, die die Bedeutungsähnlichkeit repräsentiert – und dies nicht manuell zu machen, sondern aus grossen Textmengen automatisch zu erschliessen.

Was ist eigentlich der Unterschied zwischen Supervised und Unsupervised Learning? Können Sie das für Laien erklären?

[RS]: Der Hauptunterschied ist der, ob man dem Modell schon vorgibt, was es zu suchen hat, oder ob das Modell dies selbst herausfindet. Konkret heisst das: Beim Supervised Learning gebe ich dem Modell ein Set von Annotationen – nur dieses Set kann es als Output produzieren. Beim Unsupervised Learning wird eine Datenmenge eingegeben, das Modell findet dann vorhandene Strukturen selbst, nimmt also ein Clustering ähnlicher Wörter vor.

[MV]: Wenn der Computer lernen soll, wo im Text ein Personenname steht, kann man entweder hingehen und in einigen Texten manuell sagen: Das ist ein Personenname, das ist einer, etc., markiert also um die 10’000 Personennamen. Dies ist dann ein supervisiertes Datenset. Der Computer kann daraus dann lernen, was Personennamen sind und in welchen Kontexten sie vorkommen. Dadurch kann er schliesslich Namen erkennen, die so noch nie vorgekommen sind – weil sie in ähnlichen Kontexten vorgekommen sind.

Was ist die spezielle Schwierigkeit bei einer multilingualen Analyse, oder besser gesagt: Was ist anders als bei einsprachigen Modellen?

[RS] Es geht um die Frage, wie man zu den Annotationen kommt. Wir haben gehört, dass hier oft die Arbeit von Menschen dahintersteckt, das macht es manchmal etwas unausgewogen: Bei gewissen Sprachen gibt es annotierte Daten für verschiedenste Fragestellungen, bei anderen wiederum fast gar nichts. Im Projekt x-stance, von dem wir bereits gehört haben, haben wir die Annotationen bestehender Datensätze extrahiert: In der smartvote-Plattform, von der die politischen Kommentare stammen, gibt es eine numerische Klasse für die Aussagen «Ja, ich stimme zu», «Nein, ich stimme nicht zu». Für Deutsch konnten wir 50’000 Kommentare extrahieren, für Französisch 15’000, bei Italienisch waren es dann nur noch 1000. Mengenmässig gibt es also einen grossen Unterschied. Maschinelle Lernverfahren sind recht datenhungrig – wenn wir uns nur auf Italienisch stützen würden, hätten wir Schwierigkeiten. Was Martin Volk mit «Haus» und «Gebäude» zuvor angesprochen hat, kann man auch mehrsprachig machen: So sind «Haus» und «casa» inhaltlich ebenfalls sehr nahe beieinander. Wenn man die Ähnlichkeiten einmal hat, kann man das Modell auf den deutschen und französischen Daten trainieren und bekommt recht gute Ergebnisse auch für die italienischen Datensätze. Im Moment sind die Ergebnisse für Italienisch 70% korrekt, das ist wahrscheinlich für Politikwissenschaftler/-innen noch nicht gut genug – aber wir machen Fortschritte.

Können diese Modelle für die geistes- oder sozialwissenschaftlichen Disziplinen ohne Anpassungen weiterverwendet werden oder muss da jede Disziplin ein spezifisches Modell entwickeln?

[SC] Die Geisteswissenschaften gehen häufig mit traditionellen intellektuellen Methoden an ein Thema heran, manchmal denken sie dann, man könne mit den Methoden der Sprachtechnologie «die mühsamen Arbeiten» effizienter erledigen. Wir wissen, dass die Methoden aber immer auch Fehler produzieren – die Sprache ist einfach zu kompliziert. Deshalb ist das Stichwort «Co-Design» in diesem Zusammenhang wichtig: Wir, die «Technologen», müssen die Methoden auf die echten Probleme und Fragestellungen der Geisteswissenschaftler/-innen hin anpassen. Sie müssen im Gegenzug sehen, dass man ihre Forschungstradition nicht immer «tel quel» automatisieren kann.

[MV] Wir können natürlich nicht über geisteswissenschaftliche Fragestellungen entscheiden, doch dazu einladen, die Chancen zu sehen, wenn wir ihnen helfen, z.B. nicht nur 100 Bullinger-Briefe zu analysieren, sondern 12’000.

Würden Sie denn auch sagen, dass der Mehrwert für die Geistes- und Sozialwissenschaften dann ist, dass man einerseits diese riesige Menge verarbeiten kann, aber auch ganz neue Cluster erkennt, die man mit einer kleinen Auswahl nicht erkannt hätte?

[MV] «Menge» klingt immer ein wenig nach quantitativ statt qualitativ… Ich würde eher argumentieren, dass die grosse Menge besser empirisch abgestützte Ergebnisse ermöglicht. Bei 100 Briefen kann man sicher eine sehr genaue Aussage über diese 100 Briefe machen, aber über die Gesamtheit der Briefe kann man gar keine Aussage machen, höchstens spekulieren. Durch die Verfahren, die wir einbringen, wird das Ergebnis fundierter, weil man die Hypothesen über die Gesamtheit prüfen kann.

Wie kommen die Kollaborationen mit den anderen Instituten überhaupt zustande – funktioniert das über einzelne Forschungsprojekte oder gibt es eine Plattform, wo man sich vernetzen kann?

[MV] Ich bekomme ungefähr jede zweite Woche eine Anfrage für Kollaborationen innerhalb und ausserhalb der UZH. Viele Anfragen müssen wir ablehnen – allein aus Ressourcengründen. Glücklicherweise hat uns die Universitätsleitung eine Förderung für eine Sprachtechnologie-Beratungsstelle zugestanden. Diese hat am 1. September ihre Arbeit aufgenommen, das Text Crunching Center unter der Leitung von Gerold Schneider. Diese Stelle ist dafür da, andere Institute und Seminare der UZH, aber auch Partner von ausserhalb zu unterstützen, Dienstleistungen anzubieten, Projekte aufzugleisen…

Sehr schön, darüber werden wir sicher in einem späteren Beitrag noch berichten! Wie sieht es denn mit der Infrastruktur aus, gibt es eine Zusammenarbeit mit S3IT, die an der UZH «Rechenpower» anbietet?

[MV] Ja, Rico Sennrich ist dort im Aufsichtsrat mit dabei… S3IT kann Hardware zur Verfügung stellen oder eine Software-Empfehlung geben, doch die Art von Knowhow, die wir in der Sprachtechnologie anbieten können, wird nicht von S3IT abgedeckt. Diese Lücke wollten wir mit dem Text Crunching Center füllen. Dabei soll erwähnt werden, dass auch LiRI, die Linguistic Research Infrastructure, ähnliche Dienstleistungen und Beratung anbietet.

In der Computerlinguistik werden Programmierkenntnisse schon auf Bachelorstufe unterrichtet – natürlich. Denken Sie, dass dies auch für andere Disziplinen wichtig wäre?

[MV] Wir beobachten hier schon einen Wandel an der UZH. Alle Studierenden, die den Monomaster Linguistik absolvieren – selbst, wenn sie sich z.B. eher für Historische Sprachwissenschaften interessieren – müssen jetzt neu Programmieren lernen. Auch in der Weiterbildung, z.B. im Studiengang Bibliotheks- und Informationswissenschaft, den die Zentralbibliothek Zürich durchführt, wird ab dem nächsten Durchgang Programmieren gelernt: Von der Einführung in Python bis hin zu Datenstrukturen, etc. Die Anzahl der Personen, die zumindest ein technisches Grundwissen haben werden, wird sich vergrössern.

Wie grenzen Sie sich von der Linguistik ab, wenn dort nun auch programmieren gelernt wird?

[MV] Unsere Fragestellungen sind sehr ingenieurwissenschaftlich ausgerichtet: Wie kann ich einen Algorithmus effizienter machen, wie kann ich eine Repräsentation mächtiger machen, etc.? Das interessiert die Linguisten nicht unbedingt, wenn die Fragestellung ist, ob Sprache X in Indonesien mit Sprache Y in Indien verwandt ist. Das heisst, dass die grundlegenden Fragestellungen andere sind. Uns geht es um die Werkzeugentwicklung und die Effizienz der Werkzeuge. In der Anwendung dieser Werkzeuge in den unterschiedlichen Szenarien, die wir eben vorgestellt haben, gibt es dann Bereiche, die sich überschneiden.

Wir haben zu Beginn schon eine Definition von Digital Humanities von Martin Volk gehört – wie sehen Sie das, Simon Clematide und Rico Sennrich? Was ist das für Sie und «machen» Sie überhaupt Digital Humanities?

[RS] Für mich sind Digital Humanities geisteswissenschaftliche Fragestellungen mit digitalen Methoden, vielleicht mit der Ausnahme der Linguistik. Wenn es linguistische Fragestellungen mit digitalen Methoden sind, passt das auch in die Computerlinguistik. Die Fragestellungen, mit denen ich mich beschäftige, gehören nicht direkt zu den Digital Humanities, da ich eher an den Werkzeugen arbeite.

[MV] Die Arbeiten zur maschinellen Übersetzung, die wir in den letzten 15 Jahren gemacht haben, kann man nicht zu den Digital Humanities im engeren Sinne rechnen, das sind z.T. sehr anwendungsbezogene Fragestellungen, teilweise haben wir auch Grundlagenforschung gemacht. Wird die maschinelle Übersetzung aber angewendet, um die Bullinger-Briefe zu übersetzen, würde ich sagen, dass dies eine Fragestellung der Digital Humanities ist. Für mich ist es immer am Nützlichsten, mir die historische Dimension vorzustellen: Dort sind wir im Bereich der DH, während wir eher im Bereich Computerlinguistik sind, wenn wir an kontemporären Materialien arbeiten. Doch ich weiss, dass viele gerne das Label «Digital Humanities» auch für aktuelle Fragestellungen bzw. Fragestellungen zu aktuellen Texten verwenden – da will ich mich nicht streiten.

Ich habe ursprünglich Germanistik, Neuere Literatur studiert. Gehören dann z.B. textanalytische Fragen im Bereich der Neueren Literatur für Sie auch nicht zu den Digital Humanities?

[MV] Die Arbeiten, die wir Computerlinguisten für die Fragestellung machen würden, sicher nicht, dies wäre eine sprachtechnologische Fragestellung. Was aber für Sie als Germanistin interessant ist, das kann dann durchaus Digital Humanities sein, weil das vielleicht ganz neue Zugänge in Ihrem Feld sind…

Herr Clematide, möchten Sie dazu auch etwas ergänzen?

[SC] Wenn wir Methodenentwicklung machen, ist das Interesse, welche konkrete Fragestellung damit gelöst wird, nicht ganz so wichtig für uns. Man zeigt mit einem Datenset, dass die Methode z.B. 2% besser funktioniert als die andere – das Forschungsinteresse ist ein anderes.

Zum Glück ist «Digital Humanities» ein Kaugummi-Begriff, es gibt eine Community, die sich an Digital Humanities Konferenzen trifft. Die Richtung wird eher sein – denke ich -, dass es in Richtung «Digital Scholarship» geht und jedes Fach ein digitales Toolset aufbauen und in ihre Grundlagenmethoden einbauen wird.

Auch wenn wir eher Methodenentwickler sind, sind wir doch transdisziplinär interessiert – unsere Forschung soll ja nicht für die Schublade sein, sondern auf die Bedürfnisse unseres Gegenübers angepasst werden. Was den Prozess des «Co-Designs» betrifft, sehen wir im Moment sicher eine Professionalisierung und Institutionalisierung an der UZH: Mit dem Institut für Computerlinguistik für die Methodenentwicklung, dem Text Crunching Center für Beratungen, S3IT für die Hardware – die ganze Landschaft hat sich wirklich professionalisiert, und es wird spannend sein zu sehen, wie das Früchte trägt.

Haben wir etwas noch nicht besprochen?

[MV] Ja, eine Sache möchte ich noch unterbringen. Es ist ein Projekt, das uns im Bereich Digital Humanities ein wenig bekannt gemacht hat: Text+Berg digital. Dabei handelt es sich um ein Digitalisierungsprojekt, das wir 2008 gestartet haben. Wir haben die Jahrbücher des Schweizer Alpen-Clubs SAC digitalisiert und aufbereitet. Es entstanden daraus schöne Kooperationen, einerseits mit dem SAC, aber auch mit dem Geographischen Institut, die vor allem an den geographischen Referenzen in den Texten interessiert waren: Gletschernamen, Bergnamen usw.

Aus dem Text+Berg-Projekt entstanden: Die Crowdsourcing-Applikation GeoKokos mit den Texten der Jahrbücher, in der Toponyme annotiert und mit geographischen Referenzen verknüpft werden können.

Patricia Scheurer hat dazu in der Germanistik eine schöne Dissertation verfasst, in der sie sich mit den Metaphern rund um den Begriff «Berg» beschäftigt hat. Ebenso gab es eine Reihe schöner Arbeiten in der Computerlinguistik selbst. Für mich ist es ein schönes Beispiel, wie die Ressourcenerstellung durch uns (die Aufbereitung der Texte) zu einer unglaublichen Menge von Kollaborationen in verschiedenen Disziplinen geführt hat.

Vielen Dank für das Gespräch!

Im Text erwähnte Projekte und Technologien:

https://impresso-project.ch/

https://www.stellenmarktmonitor.uzh.ch/de/research/projects/digital-transformation-nrp77.html

https://github.com/ZurichNLP/xstance

http://bullinger-digital.ch/

https://www.aclweb.org/anthology/P16-1162/

https://github.com/rsennrich/subword-nmt

https://www.cl.uzh.ch/en/TCC.html

https://textberg.ch/site/de/willkommen/

https://geokokos.ch

Posted on

Freier Zugang zu Wissen – durch Digitalisate

Digitalisierte Karten mit Ad Fontes und Digital Mappa – Karten und Lernwege für die Lehre. In diesem Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät» stellen uns Judith Vitale, Privatdozentin am Historischen Seminar, und Nobutake Kamiya, wissenschaftlicher Bibliothekar am Asien-Orient-Institut, ihr Lehrprojekt mit Ad Fontes und Digital Mappa vor. In der Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus.

Bitte stellt Euch vor, Judith Vitale und Nobutake Kamiya!

[Judith Vitale, im Folgenden JV] Ich bin Privatdozentin am Historischen Seminar und unterrichte Geschichte der Neuzeit. Da ich zu japanischer Geschichte forsche, habe ich Nobutake Kamiya von der Japanischen Bibliothek des Asien-Orient-Instituts kennen gelernt – er ist immer sehr hilfsbereit, wenn es um japanische Bücher geht. Aus dieser Bekanntschaft hat sich ein gemeinsames E-Learning Projekt entwickelt, das wir später noch vorstellen werden.
[Nobutake Kamiya, im Folgenden NK] Ich bin wissenschaftlicher Bibliothekar in der Bibliothek des Asien-Orient-Instituts und habe Judith – wie schon gesagt – durch ihr Forschungsgebiet kennengelernt. Ich interessiere mich sehr für Digitales – die Bibliothek bekommt auch zunehmend digitale Materialien.

Was für digitale Materialien habt Ihr in der Bibliothek?

[NK] Wir haben z.B. Karten aus der Edo- und Meiji-Zeit, Flyers aus dem 2. Weltkrieg und weitere alte Materialien, die wir in der Bibliothek lange behalten möchten. Ein Teil dieser Materialien, Karten und Flyer, sind zuerst zum Zweck der Langzeitarchivierung digitalisiert. Die digitalisierten Flyers sind über den Bibliothekskatalog zugänglich. Die digitalisierten Karten habe ich mit IIIF Standard online zur Verfügung gestellt. Wir haben aber nicht nur eigenen Bestand, sondern geben auch Zugriff auf Digitalisiertes im Internet, vieles stammt aus Japan. Einige Bibliotheken bieten digitalisierte Bilder oder Karten frei an – so werden diese Materialien ganz einfach zu benutzen.

Ein Digitalisat mit IIF Viewer der National Diet Library in Japan.

 

Was ist denn ein gemeinsames Projekt, wie seid Ihr auf die Idee gekommen, zusammen zu arbeiten?

[JV] Wie ich mich erinnere, erwähnte Nobutake, dass die Bibliothek alte japanische Karten besitze, die er in der Zentralbibliothek Zürich digitalisieren lassen hat. Dabei ging es darum, die Karten zu schützen und zu erhalten. Da der Bibliothekskatalog NEBIS aber nicht darauf ausgerichtet ist, Digitalisate im Internet zur Verfügung zu stellen, habe ich vorgeschlagen, diese Digitalisate in Ad Fontes als E-Learning Modul zu verwerten.

Ein Digitalisat, mit einem IIF Viewer publiziert von Nobutake Kamiya. Mit dem Viewer lässt sich weit in die Karte hineinzoomen.

 

Was ist Ad Fontes – kannst Du das den Leserinnen und Lesern vorstellen?

[JV] Ad Fontes wurde am Historischen Seminar entwickelt, mit Hilfe und Finanzierung von Digitale Lehre und Forschung (DLF). Man findet darauf Einführungen und Übungen zu europäischen Manuskripten, die als «Lernprogramm», Lernpfad durchgearbeitet werden können. Es geht darum, diese alten Urkunden oder Briefe lesen zu lernen, auch die Schriften.

Die digitalisierten Karten wollten wir nun auch auf Ad Fontes zur Verfügung stellen, so dass sie einerseits nicht nur Wissenschaftlerinnen und Wissenschaftlern zugänglich sind, sondern auch mehr Aufmerksamkeit erhalten. Wir haben die Karten in Leseübungen integriert, so dass auch Studierende damit in Berührung kommen können.

[NK] Andere Bibliotheken besitzen vielleicht die gleichen Drucke, diese sind aber noch nicht digitalisiert. In dem Sinne bieten wir hier eine seltene Dienstleistung, auch für die Öffentlichkeit, an. Es wäre schön gewesen, diese Digitalisate z.B. über e-rara, einer an der ETH Bibliothek angesiedelten Plattform, anzubieten, doch dazu wäre es nötig gewesen, dass die gesamte Institutsbibliothek des Asien-Orient-Instituts eine Mitgliedschaft beantragt, nicht nur eine einzelne Abteilung. Dies ist schliesslich, auch aus finanziellen Gründen, leider nicht zustande gekommen.

[JV] Ad Fontes ist nun ganz frei der Öffentlichkeit zugänglich, nicht an eine Immatrikulation an einer Universität gebunden. Man kann sich neben einem AAI Login auch als «einfache» Benutzerin registrieren und darauf zugreifen.

Eine Übung zur Datierung von Karten in Ad Fontes …

 

… mit der Lösung.

Ad Fontes wurde ja 2018 mit Hilfe von DLF Fördermitteln komplett neu programmiert und bietet erst seither die Möglichkeit, hochauflösendes Bildmaterial mit aufzunehmen. Ist auch die Integration des Kartenmaterials erst seither möglich?

[JV] Genau, wir haben gleich Ende 2018 auch bei Digitale Lehre und Forschung einen Förderantrag für die Umsetzung dieser Lerneinheit eingereicht und sie dann 2019 umgesetzt. Generell ist durch die Neuprogrammierung die Usability viel besser geworden, auch im Admin-Bereich, wo wir die Lerneinheiten zusammenstellen. Der zweite grosse Vorteil ist, dass man seither IIIF Bilder einbinden kann. [Anm. LC: IIIF Bilder sind Bilder, die nach Standards des International Image Interoperability Frameworks im Internet publiziert sind. Der IIIF Viewer macht es erst möglich, sehr hoch aufgelöste Bilder einzubinden und v.a. darzustellen. Mit diesem Viewer kann man sehr weit hinein zoomen und das Material in einem grossen Detaillierungsgrad betrachten.

Was machen die Studierenden nun konkret mit diesem Kartenmaterial, welche geisteswissenschaftlichen Methoden sollen sie anwenden?

[JV] Bei Ad Fontes geht es darum, eine Einführung in das Arbeiten mit historischen Quellen zu geben. Unsere Übung ist in gewisser Hinsicht einmalig, weil wir darauf aufmerksam machen, dass Quellen nicht nur in Archiven aufbewahrt werden, sondern häufig auch in Bibliotheken, häufig sogar als Leihmaterial. Natürlich geht es v.a. auch darum, den Umgang mit Karten als historischen Quellen zu lernen. Die Benutzer/-innen sollen lernen, diese zu betrachten, sie als Text-Bild-Symbol-Systeme zu erkennen: Einerseits kann man alte Schriftzeichen lesen lernen, andererseits auch eine kunsthistorische Perspektive kennenlernen. Welche Funktion haben ausserdem ornamentale Bilder in Karten? Auf der Ebene der Symbole soll man ein bisschen «historische/-r Geograph/-in» sein, indem man z.B. Schraffierungen oder Schifffahrtswege erkennen lernt.

In dieser Übung müssen z.B. Schiffe erkannt und markiert werden.

 

Die eigenen Markierungen werden angezeigt – ermöglicht wird dies durch das Tool Digital Mappa, das hier in Ad Fontes integriert ist.

 

[NK] Heute kann man schon vieles Kartenmaterial digitalisiert im Internet finden, es ist aber sehr zerstreut. Deshalb finde ich es gut, dass wir in Ad Fontes eine Quellensammlung erstellen konnten. Natürlich bringt das ein Copyright-Problem mit sich: Ich finde es wichtig, dass man lernt, Quellen zu finden, aber auch mit der Wiederverwendung der digitalen Medien richtig umzugehen. Das wird sicher in Zukunft noch wichtiger, und deshalb zeigen wir das auch in unserem Modul.

Ein Beispiel eines Tutoriums, das in ein Thema einführt.

 

Brauchen die Studierenden für diese Lerneinheit andere als «nur analoge» Kenntnisse, um sie nutzen zu können?

[JV] Wir sind dem klassischen Aufbau von Ad Fontes gefolgt, dieser enthält verschiedene Einheiten: Tutorials, die in die Geschichte der Karten einführen, dann die Ressourcen, d.h. eine Zusammenstellung einer Bibliographie und wichtigen Datenbanken. Ausserdem einen Übungsteil, in dem Fragen zu den Karten gestellt werden. In diesen Teilen benötigen die Studierenden keine speziellen technischen Kenntnisse. Ein Alleinstellungsmerkmal ist aber, dass wir Digital Mappa integrieren möchten: Das ist ein Quelleneditionstool, entwickelt von der University of Wisconsin, mit dem man alte Karten oder Manuskripte edieren kann.

[LC] Genau, ein Prototyp wurde bereits durch Digitale Lehre und Forschung auf einem eigenen Webserver für Digital Humanities Tools in Betrieb genommen, eine definitive Inbetriebnahme ist per Herbst 2020 geplant. Ein grosser Vorteil dieses Tools ist auch, dass man die Quellen annotieren und auch kollaborativ in Teams arbeiten kann.

Wie würdet ihr denn den Mehrwert beschreiben, den ihr durch die Digitalisierung erhaltet?

[NK] Zunächst einmal ist es schlicht möglich, das Material auch anzusehen – ortsunabhängig. Ausserdem schützt die Digitalisierung das Material, das sonst durch die Verwendung abgenutzt würde. Wenn man in den vorhandenen Tools gewandt ist, kann man die Quellen viel besser präsentieren, annotieren usw., d.h. die eigenen Forschungsergebnisse sehr attraktiv darstellen. Das Wissen wird so kostenlos und frei ins Allgemeinwissen eingeschlossen. Das sind für mich die grossen positiven Punkte. Man weiss dann, dass das Internet zum gemeinsamen Wissen beiträgt.

Wenn man das Kartenmaterial darüber hinaus auch noch mit Geodaten versehen kann, kann man die historischen Quellen zusammen mit anderem Kartenmaterial verknüpfen und darstellen. So gibt es auch viele neue Erkenntnisse.

[JV] Ich schliesse mich Nobutake an – noch vor wenigen Jahren wurde ich eher zufällig von Kolleginnen oder Kollegen über Quellen informiert, die z.B. in der British Library oder der Waseda Bibliothek in Tokyo vorhanden waren. Alle diese Quellen sind mittlerweile digitalisiert online verfügbar. Das Modul in Ad Fontes hätten wir noch vor wenigen Jahren nie so schnell zusammenstellen können, weil man früher tagelang vor Ort in die Bibliotheken gehen musste. Gerade in Japan sind sie mit Digitalisaten schon sehr weit und sehr grosszügig – sie sind meist frei zugänglich. Für mich ist das einer der grossen Vorteile der Digital Humanities.

Wie würdet ihr denn diesen Begriff beschreiben – Digital Humanities?

[NK] Das ist ein sehr breiter Begriff, muss ich sagen… Was die digitalen Karten angeht – die digitalen Karten wegen einer historischen Forschung zu bearbeiten, ist für mich schon ein Teil der Digital Humanities, weil man Digitalisate im Rahmen der Geisteswissenschaften verarbeitet. Karteninformationen verarbeitet man aber auch in den Naturwissenschaften, z.B. der Biologie… [lacht]  Die Be/Verarbeitung der digitalen Karten  gehört also nicht nur zu Digital Humanities, sondern sie gilt einfach als eine von vielen digitalen Kompetenzen, die auch für Geisteswissenschaft eingesetzt werden können.

[JV] Humanities sind Geisteswissenschaften und Digital heisst digital – für mich ist es also die Entwicklung der Geisteswissenschaften unter der digitalen Wende. Darunter fällt natürlich auch die Aufbereitung von Materialien als Digitalisate, so, dass sie aufbewahrt und zugänglich gemacht werden können. Ich persönlich gehe auch nicht weiter.

Aktuell werden viele neue Professuren für Digital Humanities geschaffen, mit der Hoffnung, dass man über den Schritt der Aufbewahrung hinausgehen kann. Auch die Georeferenzierung, die Nobutake angesprochen hat, ist ja bereits eine Art Interpretation bzw. eine neue Art, Karten zu analysieren, die man früher nicht hätte anwenden können. Oder auch «Thick Mapping», also der Versuch, historische Daten auf Karten einzuzeichnen, ebenso wenn man Netzwerke geografisch referenziert und darstellt. Ein anderes Beispiel ist die virtuelle Rekonstruktion von alten Stätten.

Die Frage ist dann, ist das wirklich eine neue Methode, führt das zu neuen Perspektiven und Fragestellungen?

Nobutake Kamiya und ich haben zusammen mit Tobias Hodel, der an der Universität Bern eine Professur für Digital Humanities innehat, ein neues Projekt zu Schweizer Geschichte in der Antragsphase. Wir werden auch auf Ad Fontes ein Modul zu Schweizer Geschichte aufbereiten. Das Neuartige wird sein, dass es sich an Sekundarschülerinnen und -schüler richtet und sie die Möglichkeit haben werden, dort eigene Projekte zu erarbeiten. Es soll eine Art «Bürgerwissen», Citizen Science, sein – die Schülerinnen und Schüler sollen vor Ort gehen und z.B. historische Namen mit den aktuellen vergleichen und auf Karten darstellen. Die andersartige Darstellung als in der klassischen Buchform soll hier zu neuen Perspektiven führen.

Ich bin da manchmal etwas skeptisch – gerade z.B. Big Data mag in gewissen Bereichen wie in den Naturwissenschaften funktionieren. Aber die Geschichtswissenschaft ist kein quantitatives Fach; es ist auch kein Fach, das auf ein Buch verzichten kann, es bleibt bei der Narration.

Es muss auch kein Entweder-Oder sein – es ist doch immer die Frage, was Digital Humanities sein sollen? Das Fachwissenschaftliche entfällt doch eigentlich nie …

Möchtet Ihr noch etwas ergänzen?

[NK]: Durch die Digitalisierung der Gesellschaft erhält man sehr viele Information im Internet. Wenn die Geisteswissenschaft ihre Erkenntnisse für die Gesellschaft öffnet, leistet sie schon einen Beitrag für die Gesellschaft. Aber abgesehen von dieser Bereicherung des frei zugänglichen Wissens werden die geisteswissenschaftlichen Fähigkeiten, z.B. strenger und kritischer Umgang mit Quellenmaterial, als Teil des Informationskompetenz immer wichtiger, mit Hilfe dessen man mit der Informationsüberflut umgeht.

 

Im Beitrag erwähnte Technologien und Links:

https://www.adfontes.uzh.ch/

https://www.e-rara.ch/

https://dlftest.uzh.ch/2018/09/19/relaunch-ad-fontes/

https://iiif.io/

https://www.digitalmappa.org/

Zu Thick Mapping z.B.: http://pennyjohnston.org/blog/digital-humanities-2/thick-mapping/ oder https://www.hypercities.com/

Posted on

«Der Bedarf der Studierenden an digitalen Methoden ist gross»

In diesem Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät» hören wir von Christine Grundig, wissenschaftlicher Mitarbeiterin am Kunsthistorischen Institut, über ihre Lehrerfahrungen beim Unterricht von digitalen Methoden. In der Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen.

Wer sind Sie – bitte stellen Sie sich vor!

Mein Name ist Christine Grundig, ich habe Staatsexamen für Deutsch, Englisch und Erziehungswissenschaften für das Lehramt an Gymnasien studiert und den Magister Artium an der Universität Würzburg gemacht. Nun schliesse ich gerade meine germanistische Promotion ab. Ich arbeitete v.a. in Projekten, die sich mit digitalen Editionen beschäftigten und habe so Kompetenzen im Bereich der Digital Humanities erworben. Seit Oktober 2017 bin ich als «Digital Humanities Spezialistin» am Kunsthistorischen Institut der Universität Zürich tätig [lacht] – bitte lassen Sie mich diesen Begriff jetzt nicht definieren! Als wissenschaftliche Mitarbeiterin arbeite ich im SNF-Projekt zu Heinrich Wölfflin am Lehrstuhl von Prof. Dr. Tristan Weddigen. Als Dozentin unterrichte ich in meinem Lehrprojekt «Digitale Bildwissenschaften/Digital Visual Studies» bzw. «Digital Skills», das von swissuniversities im Rahmen des Projekts «P8-Stärkung von Digital Skills in der Lehre» 2019-2020 gefördert wird.

Könnten Sie uns diese beiden Projekte kurz vorstellen?

Gegenstand unseres Editionsprojekts ist eine kritisch-kommentierte Edition sämtlicher Publikationen Heinrich Wölfflins – er ist für Kunsthistorikerinnen und Kunsthistoriker eine der zentralen Figuren. Wir haben das grosse Glück, dass wir in der Nähe seiner Wirkungsorte tätig sind – einen Teil seines Nachlasses (Foto- und Diasammlung, Bibliothek, Möbel) hat er dem Kunsthistorischen Institut vermacht. Durch die Nähe zur Universität Basel, in der ein Grossteil des archivalischen Nachlasses liegt (Notizhefte, Manuskripte, Korrespondenz), ist es uns möglich, mit bisher unveröffentlichtem Archivmaterial zu arbeiten. Dies war anderen Editionen bisher nicht oder nicht in diesem Masse möglich.

Es entsteht eine klassische Printedition (die ersten Bände sind bereits publiziert), daneben aber auch eine digitale Edition, die sich an aktuellen Technologien und Standards der Digital Humanities orientiert. Das Material wird in der digitalen Edition im Rahmen eines eigenen Wölfflin-Portals nachhaltig erschlossen, einer Forschungsplattform, die Kontextualisierungen möglich macht und v.a. auch Schnittstellen zu anderen Projekten bietet. Dazu werden die Bände, die bereits im Print erschienen sind in XML/TEI konvertiert, um sie «für das Internet fähig zu machen». Das Versehen mit Referenz- bzw. Normdaten für Werke, Personen, Objekte, Orte, historische Termini und bibliographische Angaben ist ein zentrales Anliegen. Das Portal wird auch Bildmaterial mit hochauflösenden Scans nach IIIF-Standard zugänglich machen, zudem Archivmaterial, das zum Teil mit Tools wie Transkribus oder OCR4all erarbeitet wird.

Wir werden eine semantisch angereicherte Edition bereitstellen, die aus Linked Open Data (LOD) besteht. So können wir einen möglichst grossen Nutzen für die Forschungsgemeinschaft erzielen, weil die Daten dadurch nachhaltig sind und Interoperabilität gewährleistet ist.

Und was beinhaltet das Projekt zu «Digital Skills»?

Wir schlugen im Rahmen von «P8» eine «Einführung in digitale Methoden in der Kunstgeschichte» für Bachelor- und Masterstudierende vor. Ursprünglich war der Fokus eher auf den Bildwissenschaften, doch ich merkte in den ersten Sitzungen, dass ich «ganz vorne anfangen» und den Fokus auf «digital skills» im Allgemeinen legen muss. Es mangelt an Grundkompetenzen der Studierenden im Umgang mit digitalen Methoden.

Konkret besprechen wir im Kurs zunächst, was Digital Humanities überhaupt sind, und ganz wichtig, was die Studierenden eigentlich darunter verstehen. Ich möchte wissen, in welchen Bereichen sie schon mit Tools oder digitalen Methoden gearbeitet haben. Jede/Jeder hat z.B. Datenbanken genutzt oder in Katalogen recherchiert, aber meist wissen sie gar nicht, dass das Datenbanken sind oder was genau dahintersteckt.

Man muss auf einer ganz grundlegenden Ebene aufklären und zeigen, welche Möglichkeiten es in einer Disziplin gibt, mit digitalen Methoden zu arbeiten. Wir behandeln Datenbanken, digitale Editionen, Bilderkennung und Bildannotation, IIIF-Formate oder auch Texterkennung mit OCR.

Wichtig ist mir dabei, praxis- bzw. berufsorientiert vorzugehen, wenn wir digitale Werkzeuge ausprobieren: Die Studierenden sollen ganz konkret mit Tools wie z.B. Transkribus arbeiten, weil sie nur dann die Hemmschwelle überwinden, die Angst davor verlieren. Viele denken sich nämlich, «Ich bin keine Informatikerin, kein Informatiker, ich kann das nicht». Wenn man diese Barriere überwindet, kann es durchaus vorkommen, dass Studierende sich vielleicht sogar an eigenen kleinen (Python-)Skripts versuchen, vielleicht mit etwas Unterstützung aus der Informatik oder Computerlinguistik, aber alleine die Tatsache, dass sie sich damit auseinandersetzen – das ist ganz zentral und erfreulich für mich.

Was kann man mit Transkribus oder OCR4all denn konkret machen?

Wenn wir mit Handschriften oder historischen Drucken arbeiten, liegen uns Scans davon vor. Wir schauen dann, wie man diese digital aufbereiten kann: Zeilen segmentieren, einzelne Text- und Bildbereiche voneinander trennen usw. Dafür haben wir z.B. das Segmentierungstool Larex, das zu OCR4all gehört, und das das Layout analysiert: Dies bedeutet, Seiten zu segmentieren, die wir danach transkribieren können. Über die Textdaten, die wir durch die Transkription erhalten, lassen wir «Trainings», also Machine Learning-Algorithmen laufen. Der Output ist zunächst noch fehlerhaft; er wird von Hand korrigiert, um diese optimierten Daten wieder «durch die Maschine laufen zu lassen», sie so weiter anzulernen und dadurch das Ergebnis zu verbessern. Auf diese Weise können selbst Kurrent-Handschriften wie die von Heinrich Wölfflin automatisch erkannt werden, aber auch z.B. Drucke mit Fraktur- oder Antiqua-Schrift, für die es bereits sehr gute Modelle gibt. Diese kommen meist aus dem germanistischen Bereich, stehen aber allen zur Verfügung. So können wir interdisziplinär arbeiten, auf den Modellen aufbauen und die Daten austauschen, sie weiter trainieren.

Beispiel einer Layout Segmentierung mit Larex

 

Ein Ausschnitt aus der Arbeit mit Transkribus

Wenn Sie sagen, die Hemmschwelle muss überwunden werden – wie gehen Sie da im Unterricht vor, wenn Sie z.B. Daten vor sich haben?

In der Einführung haben wir uns zunächst mit Datenbanken beschäftigt, z.B. was unterscheidet eine Graphdatenbank von einer relationalen Datenbank, welche Datenmodelle stecken dahinter?

In der Hoffnung, dass das Lehrprojekt weitergeführt werden kann, möchte ich unbedingt mehr Seminare anbieten, die auf dieser Einführung aufbauen und konkrete Themen vertiefen. In diesen Seminaren könnte man dann z.B. Daten modellieren oder eigene Daten erheben. Zu jedem der erwähnten Themenbereiche und Tools könnte man eigene Seminare anbieten, die in die Tiefe gehen.

Dennoch bleibt es wichtig, vorher die Grundlagen zu klären: Was ist eine Auszeichnungssprache wie HTML? Was ist XML? Was ist eine Programmiersprache? Die wenigsten wissen, was eigentlich hinter einer Webseite steckt, die sie im Internet aufrufen.

Würden Sie sagen, dass diese Skills innerhalb der eigenen Disziplin unterrichtet werden sollten oder eher fachübergreifend?

Ich denke, es ist wichtig, zunächst im Kleinen anzufangen und am eigenen Institut zu sehen, wie dort das Gefühl, der Bedarf und das Interesse für digitale Methoden sind. Wollen die Studierenden aus den Kunstwissenschaften so ein Angebot überhaupt besuchen? Ich kann Ihnen sagen: Ja. Ich habe nicht damit gerechnet, so viele Anmeldungen zu bekommen, ich musste jedes Mal einen grösseren Raum buchen.

Da ich selbst keine Kunsthistorikerin bin, sondern Germanistin, steht das Thema Interdisziplinarität sowieso im Fokus des Projekts. Die Methoden kann ich genauso gut in der Kunstgeschichte unterrichten wie in der Germanistik oder sie Historikern, Rechtswissenschaftlern oder Theologen anbieten.

Es ist mir ganz wichtig, dass sich hier ein interdisziplinäres, reziprokes Verhältnis, zunächst an der Philosophischen Fakultät, aber auch darüber hinaus entwickelt. In meiner Zusammenarbeit mit der Digital Society Initiative (DSI), die ein «Studium Digitale» vorbereitet, wird mein Einführungskurs im Herbstsemester als einer von drei Kursen pilotiert. Wir möchten sehen, wie so ein fakultätsübergreifendes Angebot mit einem eher fachorientierten Kurs, der an einem Institut angesiedelt ist, harmoniert. Zusätzlich wird der Kurs auch in der Computerlinguistik oder im Minor «Digital Humanities und Text Mining» crossgelistet.

Für den Kurs ist es sehr effizient, ein ganz heterogenes Studierendenfeld zu haben, weil die Teilnehmenden sich gegenseitig inspirieren, voneinander lernen. Einige Studierende kommen von klassischen geisteswissenschaftlichen Methoden, während andere mehr von den Daten her denken. Da verschiedene Perspektiven zusammenkommen, können ganz neue Fragestellungen entstehen.

Was verstehen Sie unter Digital Humanities?

Ich habe Ihnen dazu etwas vorbereitet: Auf der Seite whatisdigitalhumanities.com wird bei jedem Refresh ein neues Zitat zum Thema angezeigt. Mit diesen Zitaten habe ich auch versucht, meine Studierenden an das Thema heranzuführen und so die Vielseitigkeit und Divergenz deutlich zu machen. Ein gutes Beispiel dafür:

«Using digital tools to research the Humanities or using Humanities methods to research the digital.”

Das ist natürlich sehr pauschal, aber ich glaube, man muss offen sein im Umgang mit digitalen Methoden. Lässt man z.B. über fünf Romane ein Tool laufen, das Named Entity Recognition oder Topic Modeling kann (noch, bevor ich meine Fragestellung habe), dann ergeben sich mit Sicherheit Sachverhalte, mit denen man zu Beginn seiner Recherche nicht gerechnet hat. Letztlich sind das ebenso geisteswissenschaftliche Methoden, nur die Quantität ist anders, die Korpora werden grösser.

Ich denke, die digitalen Methoden unterscheiden sich letztlich gar nicht so sehr von den analogen, meine Arbeit wird durch die Hilfsmittel aber einfacher, schneller, interessanter. Das ist für mich auch der Mehrwert – dass ich grosse Mengen an Texten, Bildern und Daten untersuchen kann.

Was für ein Lehrangebot würden Sie sich wünschen?

Für mich ist es entscheidend ist, dass es auch Kurse im Bereich Digital Humanities gibt, für die keine technischen Voraussetzungen nötig sind, sonst würde man einen sehr grossen Teil der Studierenden verlieren. Deshalb wünsche ich mir ein Lehrangebot, das einerseits Grundbausteine bietet, für die keine technologischen Vorkenntnisse relevant sind. Andererseits braucht es aber auch aufbauende Module, die Themen vertiefen. Z.B. eine Übung zu digitalen Editionen, in der die Studierenden einen Text selbst in TEI konvertieren, ein XML Dokument erstellen, vielleicht sogar eine kleine Visualisierung auf einer Webseite erzeugen. Man muss die Studierenden sukzessive heranführen.

Damit Studierende lernen können, mit Daten umzugehen, bräuchte es eigentlich auch ein wenig Infrastruktur, z.B. Webserver oder Datenbanken, die über Server zugänglich sind, nicht?

Ja, das fehlt auf jeden Fall noch. Ich hoffe, dass sich so etwas in einigen Semestern etablieren lässt. Ursprünglich war auch meine Idee für den Kurs, zusammen mit den Studierenden z.B. die EasyDB des Kunsthistorischen Instituts zu nutzen und dort selbst Bilder einzuspeisen, mit Metadaten zu versehen usw. Oder wenn Studierende in einer Arbeit eine kleine Applikation entwickeln – da muss man sich überlegen, wo man diese Daten langfristig ablegt, veröffentlicht und somit nachnutzbar macht.

Möchten Sie noch etwas ansprechen, haben wir ein Thema nicht erwähnt?

Die Evaluationen der Lehrveranstaltung haben deutlich gemacht, dass es den dringenden Bedarf und den Wunsch seitens der Studierenden gibt, dieses Angebot wahrzunehmen und auszubauen.

Die Corona-Krise zeigte, wie wichtig es ist, dass man sein Lehrangebot flexibel anpassen kann. Natürlich fällt das einem Kurs wie meinem, der auf digitale Methoden abzielt wesentlich leichter, die Inhalte auch digital zu vermitteln. Viel Arbeit im laufenden Betrieb war es dennoch – das habe ich aber sehr gern in Kauf genommen.

Es geht nicht nur um digitale Forschungsmethoden, sondern eben auch um digitale Lehrformen. Es ist nicht nur die Frage, welches Konferenztool sich besser eignet, sondern auch, wo ich meine Studierenden «abhole», wie ich sie motivieren kann, zu Hause digital zu arbeiten und sie jede Woche trotzdem das Seminar online besuchen. Ich war begeistert von meinem «Corona-Kurs» und dem Ablauf im letzten Semester – das hat so gut funktioniert, es ging nichts verloren.

Man muss die Krise jetzt als Chance sehen, dieses Angebot zu erweitern. Im Herbstsemester werde ich, wenn möglich, eine Blended Learning Form wählen. Das war ursprünglich gar nicht so angedacht. Doch wir haben im Frühjahrssemester so viel Material produziert – die Studierenden haben selbst Videos erstellt und auf Switch Tube hochgeladen, in denen sie sich z.B. mit bestimmten Datenbanken beschäftigen oder digitale Editionen kritisch besprechen. Dieses riesige Potpourri an digitalem Datenmaterial muss ich jetzt einfach integrieren.

Die Dozierenden brauchen wahrscheinlich auch noch Vorbilder, Modelle, Ideen für den Unterricht…

Richtig, es braucht Hilfestellung und Support; auch auf Dozierendenseite muss die Hemmschwelle überwunden werden. Wenn es ein fakultatives Angebot bleibt, digital zu lehren (als z.B. Blended Learning oder Online-Kurs), dann, so mutmasse ich, entscheiden sich viele dagegen.

Es hat ja vielleicht damit zu tun, dass solche Hilfestellung institutionell verankert sein müsste, nicht nur didaktisch, aber auch Arbeitskraft für die technische Umsetzung – weil die einfach immer viel Zeit braucht…

Genau, und als Ergänzung dazu noch der Hinweis: Die Studierenden empfanden es als sehr problematisch, dass in jedem Kurs mit unterschiedlichen Konferenztools gearbeitet wurde. Da es schnell gehen musste, hat jeder das genutzt, was schon bekannt oder vorhanden war. Auch die Materialien waren sehr verstreut – OLAT, E-Mail, MS Teams… es ist herausfordernd für die Studierenden (aber auch uns Dozierenden), das zu kanalisieren und den Überblick zu behalten – sie haben ja nicht nur einen Kurs. Ich kenne aus einem anderen Kontext z.B. das open source Tool Big Blue Button, das sich gerade auch für Gruppenarbeiten sehr eignet, weil es eine Konferenzsoftware mit einem LMS verbindet.

Im Beitrag erwähnte Tools und Links:

https://www.swissuniversities.ch/themen/digitalisierung/digital-skills

https://iiif.io/

https://transkribus.eu/Transkribus/

https://github.com/OCR4all

https://github.com/OCR4all/LAREX

https://de.wikipedia.org/wiki/Text_Encoding_Initiative

https://de.wikipedia.org/wiki/Linked_Open_Data

https://de.wikipedia.org/wiki/Easydb

http://whatisdigitalhumanities.com/

https://en.wikipedia.org/wiki/Topic_model

https://en.wikipedia.org/wiki/Named-entity_recognition

https://bigbluebutton.org/

Posted on

Deep Learning in der Filmanalyse

Ein Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät». In einem schriftlichen Interview mit Barbara Flückiger hören wir von den Möglichkeiten von Deep Learning in der Filmanalyse – und noch vieles mehr. In der Reihe geben Lehrende und Forschende der PhF einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen.

Frau Flückiger, bitte stellen Sie sich vor!

Mein Name ist Barbara Flückiger und ich bin Professorin für Filmwissenschaft. Vor meiner akademischen Karriere war ich international in der Filmproduktion tätig. Diesen beruflichen Hintergrund in Engineering und in der Filmpraxis bringe ich nun konsequent in meine filmwissenschaftliche Forschung und Lehre ein, in der ich mich schwerpunktmässig mit technologischer Innovation und ihren Konsequenzen für die Filmästhetik auseinandersetze. 2015 habe ich mit einem interdisziplinären Projekt einen Advanced Grant des European Research Council zur Untersuchung von historischen Filmfarben eingeworben. Ein komplementäres SNF-Projekt setzt sich mit kulturellen Faktoren der Technikgeschichte auseinander. Ausserdem nehmen wir physikalische und chemische Untersuchungen von Filmmaterialien vor.

Abb. 1 Multi-spektrale Scanner-Einheit für historische Farbfilme, entwickelt im ERC Proof-of-Concept VeCoScan, siehe Video https://vimeo.com/417111087

Obwohl meine Forschung grundlegende Fragen behandelt, sind die Ergebnisse auch für die Anwendung relevant. So entwickle ich mit meinem interdisziplinären Team wissenschaftlich fundierte Methoden für die Digitalisierung des Filmerbes, die sich in technisch avancierten Workflows umsetzen lassen. 2018 habe ich dafür einen Proof-of-Concept des European Research Council erhalten, um die wissenschaftlichen Erkenntnisse auf ihre praktische Umsetzung hin zu untersuchen. Und schliesslich präsentierten wir unsere Forschung mit einer Förderung durch SNF-Agora im letzten Herbst in einer Ausstellung im Fotomuseum Winterthur sowie mit verschiedenen Filmprogrammen einer breiteren Öffentlichkeit.

Abb. 2 Ausstellung Color Mania im Fotomuseum Winterthur

Was verstehen Sie unter «Digital Humanities»?

Ganz allgemein sind Digital Humanities Verfahren und Werkzeuge, die sich digitaler Methoden zur Bearbeitung geisteswissenschaftlicher Fragestellungen bedienen. Sie haben ihre Grundlagen in computergestützten Analysen, die zunächst in den Sprachwissenschaften für Korpusanalysen Verwendung fanden. Heute sind die Sprachwissenschaften nach wie vor sehr dominant. Ein weiteres relativ gut etabliertes Feld sind digitale Methoden in der Bildwissenschaft. Hingegen ist die Analyse von audio-visuellen Bewegtbildern – also Film und Video – noch wenig verbreitet, obwohl es seit rund 20 Jahren immer wieder Ansätze in diesem Bereich gegeben hat. Wegen des hohen Datenumfangs und des komplexen Zusammenspiels von Bild, Bewegung und Ton sind die Anforderungen in diesem Bereich sehr viel höher, sowohl was die Datenverarbeitung betrifft als auch hinsichtlich der Analyse-Instrumente. In den Digital Humanities kommen sowohl qualitative als auch quantitative Methoden zum Einsatz. Zunehmend basieren diese Werkzeuge auf Deep Learning mit neuronalen Netzen.

Abb. 3 Deep Learning Tool zur Gender-Erkennung in Farbfilmen, hier Une femme est une femme (FRA 1961, Jean-Luc Godard), entwickelt im Rahmen von ERC Advanced Grant FilmColors von Marius Högger and Mirko Serbak, Institut für Informatik, Universität Zürich

Könnten Sie uns eines Ihrer Forschungsprojekte im Bereich Digital Humanities vorstellen?

Derzeit untersuchen wir die Technologie und Ästhetik von historischen Filmfarben sowie die kulturelle Kontextualisierung dieser Entwicklungen mit einem interdisziplinären Ansatz. Im ERC Advanced Grant FilmColors haben wir ein Korpus von mehr als 400 Filmen von 1895 bis rund 1995 mit Ansätzen der Digital Humanities untersucht. In einem weiteren SNF-Projekt kommen nun Animationsfilme und neuere digitale Produktionen dazu, für die wir diese Methoden weiterentwickeln.

Abb. 4 Historische Filmfarben aus den ersten drei Dekaden der Filmgeschichte. Mehr als 200 historische Farbfilmverfahren sind systematisiert präsentiert auf der Online-Plattform Timeline of Historical Film Colors, illustriert mit mehr als 20’000 Fotografien von historischen Farbfilmen aus Archiven in Europa, den USA und Japan.

Was sind die spezifischen Methoden «der Digital Humanities», die Sie in diesem Projekt anwenden?

Das Fundament für die derzeitigen Projekte legte die Online-Plattform Timeline of Historical Film Colors zu historischen Farbfilmprozessen. Ab 2012 habe ich sie als umfassende interaktive Ressource für alle Aspekte der technischen Grundlagen, ästhetischen Erscheinungsbilder, Identifikation, Vermessung, Restaurierung und ästhetische Analyse aufgebaut, zunächst mit einer Crowd-Funding-Kampagne und eigenen finanziellen Mitteln. Sie umfasst heute mehrere Hundert Einzeleinträge zu den mannigfaltigen Farbfilmverfahren. Inzwischen haben mein Team und ich mit einem eigens dafür entwickelten Kamera-Set-up mehr als 20’000 Fotos von historischen Farbfilmen in Filmarchiven in Europa, den USA und Japan aufgenommen, die wir online in Galerien präsentieren. Diese Plattform ist Teil eines sich weiter ausdehnenden digitalen Ökosystems.

Abb. 5 Das digitale Ökosystem mit dem Offline-Analyse-Tool VIAN, der Online-Plattform VIAN WebApp zur Auswertung und Visualisierung auf Korpusebene, der Timeline of Historical Film Colors und der ColorMania-App für die Ausstellung im Fotomuseum Winterthur.

Im ERC Advanced Grant FilmColors entwickeln wir seit 2017 in Zusammenarbeit mit dem Visualization and MultiMedia Lab von Renato Pajarola (IFI UZH) nun das Digital-Humanities-Tool VIAN für die Film-Annotation und -Analyse auch mit Unterstützung durch Digitale Lehre und Forschung, der Digital Society Initiative und Citizen Science. Entwickler ist Gaudenz Halter, der ein fantastisches Werkzeug mit vielen auf die Bedürfnisse der filmästhetischen Forschung zugeschnittenen Features geschaffen hat.

Abb. 6 Analyse- und Annotationssystem VIAN, Interface mit Segmentierungsleiste und Screenshot-Manager. Film: South Pacific (USA 1958, Joshua Logan)

Dieses in Python programmierte Offline-Tool ist mit der Crowdsourcing-Plattform VIAN WebApp verknüpft, die ebenfalls hauptsächlich Gaudenz Halter entwickelt. Dort sind alle Filmanalysen des Korpus für die Auswertung und Visualisierung der Ergebnisse online verfügbar.

Abb. 7 Kolorimetrische Analyse und Extraktion von Farbpaletten in VIAN. Film: Sedmikrásky [Daisies] (CZE 1966, Vera Chytilová), siehe Tutorial zur Kolorimetrie https://vimeo.com/378587418
In VIAN kommen zusätzlich zu manuellen Methoden Deep Learning Tools zum Einsatz, welche unter anderem eine Figur/Grund-Trennung vornimmt oder Figuren und Gender automatisch erkennen kann. Nach und nach implementieren wir zudem automatische Analyse von Bildkompositionen, visueller Komplexität, Farbverteilungen, Mustern und Texturen. Die Filme werden automatisch segmentiert, Screenshots erstellt und gemanagt. Zur Auswertung gehört die Figur-/Grund-Trennung, die kolorimetrische Analyse und viele Visualisierungsmethoden. Diese Features sind in auch in die WebApp integriert, was es ermöglicht, das ganze Korpus oder bestimmte Subkorpora, aber auch einzelne Filme oder Segmente auszuwerten und zu visualisieren. Zu diesem Zweck haben wir im Projekt ERC Advanced Grant FilmColors ein kontrolliertes Vokabular von rund 1’200 analytischen und theoretischen Konzepten definiert. Jedes dieser Konzepte ist in einem Glossar mit exemplarischen Filmbildern dargestellt mit Auswertungen zur Häufigkeit in bestimmten Perioden, Farbprozessen oder Filmgenres.

Abb. 8 Definition und Illustration eines der theoretischen und analytischen Konzepte, die «erdrückende Dominanz der Objektwelt» in der FileMaker-Glossardatenbank. Dieses kontrollierte Vokabular ist nun in VIAN und in die VIAN WebApp integriert.

Für die manuelle Annotation haben wir zunächst ein Netzwerk von relationalen Datenbanken in FileMaker erstellt, das ich weitgehend selbst programmierte. So konnte ich sehr flexibel auf Desiderate aus dem Team reagieren. Aus diesen Analysen sind mehr als 170’000 Screenshots und mehr als eine halbe Million Aufsummierungen von Resultaten entstanden. Anschliessend hat Gaudenz Halter alle Resultate in die VIAN WebApp integriert; sowohl als von Menschen lesbare JSON-Dateien wie auch als numerische Werte in HDF5-Daten-Containern.

Abb. 9 Interaktive Visualisierung von Resultaten auf Korpus-Ebene in der VIAN WebApp, hier Abfrage monochrome Filter in Filmen von 1955–1995, siehe Video https://vimeo.com/402360042

Welchen Mehrwert bringen Ihnen diese Methoden in diesen Projekten, verglichen mit «analogen» Ansätzen?

Der Mehrwert ist enorm. Ohne solche Ansätze wäre die kollaborative Arbeit an so grossen Korpora gar nicht möglich. Um solche Tools zu entwickeln, ist jedoch eine vertiefte interdisziplinäre Zusammenarbeit zwischen den Geisteswissenschaften und der Informatik notwendig, denn alle Konzepte, alle Auswertungs- und Analysemethoden, alle Ansätze zur Visualisierung der Analysen müssen aus beiden Disziplinen theoretisiert und reflektiert werden.

Wenn diese Voraussetzungen gegeben sind, lassen sich über Visualisierungen als diagrammatische Methoden neue Einsichten gewinnen, die den sprachlichen Horizont überschreiten und unmittelbar der Anschauung zugänglich sind. Dies ist für das audio-visuelle Medium Film, aber auch für andere visuelle Gegenstandsbereiche von unschätzbarem Wert; ohne solche Methoden der systematischen Untersuchung bleiben Ergebnisse anekdotisch und abstrakt zugleich. Visualisierungen schaffen also neue Formen von Evidenz.

Allerdings fallen einem die Ergebnisse auch mit solchen hochausdifferenzierten Werkzeugen nicht in den Schoss. Sie bedürfen immer der Reflexion, der Kontextualisierung und der Interpretation. Oftmals sind die Ergebnisse weit weniger eindeutig, als man das gerne hätte, und weder eine reine Auswertung noch eine Visualisierung ist bereits ein Ergebnis, sondern die Resultate bedürfen immer der Interpretation. Als Forschende müssen wir daher Hypothesen bilden und mit neuen Abfragen oder Visualisierungen differenziertere Resultate erzeugen.

Deshalb ist es von entscheidendem Wert, dass wir mit VIAN Ergebnisse und Abfragen interaktiv, basierend auf dem individuellen Forschungsinteresse anpassen können. So erhalten wir nicht nur Übersichtsvisualisierungen, sondern wir können von der Korpusebene in die einzelnen Szenen und Bilder hineinzoomen und sie uns anzeigen lassen, um detailliertere Informationen zu bekommen.

Wären diese Ansätze auch für andere Disziplinen anwendbar?

Ja, wir arbeiten nun mit anderen Fachbereichen aus den Geisteswissenschaften zusammen, unter anderem mit der Kunstgeschichte SARI / Digital Visual Studies von Prof. Dr. Tristan Weddigen und mit der Sprachwissenschaft in LiRI von Prof. Dr. Elisabeth Stark. Diese Tools lassen sich grundsätzlich in allen Disziplinen anwenden, die mit Videos oder grossen Bildersammlungen / Visualisierungen arbeiten, so in der Psychologie / Verhaltensforschung, Ethnologie, Soziologie, Politologie, aber auch in naturwissenschaftlichen Fächern wie der Medizin und den Life Sciences, zum Beispiel der Neurowissenschaft. Es sind derzeit sehr viele solche Kooperationsprojekte national und international in der Pipeline. Da habe ich dieses Jahr eine Menge Arbeit vor mir.

Wie und wo bringen Sie diese Methoden in der Lehre ein?

Wir haben seit letztem Jahr zunehmend externe Nutzer als Betatester integriert. Dies sind Doktorand*innen, PostDocs, aber auch Professor*innen der UZH und ausländischer Universitäten. Die Herausforderung besteht im Support, denn wir müssen einerseits die Usability mit den Betatestern überprüfen, andererseits die Software fortlaufend anpassen. Dafür hat uns DLF eine 20%-Stelle finanziert. Es gibt eine umfassende Dokumentation und wir erstellen Video-Tutorials für die Einführung.

Ich habe soeben einen kompetitiven Lehrkredit beantragt, damit wir VIAN im kommenden Jahr auf Bachelor- und Masterstufe in der Lehre einsetzen können. Denn auch die Dozierenden müssen geschult werden und brauchen Unterstützung. Es ist ein Irrglaube, eine solch differenzierte Software sei selbsterklärend. Obwohl VIAN sehr flexibel und intuitiv ist, muss man den Umgang damit doch lernen, und es braucht etwas Übung, bis man effizient damit arbeiten kann.

Die Studierenden erhalten so Gelegenheit, sich mit digitalen Werkzeugen und Methoden auseinanderzusetzen, neue Kompetenzen in der Anwendung zu erwerben und gleichzeitig aktiv an der Weiterentwicklung mitzuarbeiten, indem sie Feedback geben und ihre Bedürfnisse artikulieren.

Welche technischen Kenntnisse sollten Studierende mitbringen?

Das Interface von VIAN verlangt keine besonderen technischen Kenntnisse, denn es ist spezifisch auf den Einsatz durch Geisteswissenschaftler und für die ästhetische bzw. narratologische Analyse entwickelt worden. Allerdings ist es von Vorteil, wenn man technikaffin ist und gerne am Computer arbeitet. Auch eine Vorstellung von Auswertungen und der Arbeit mit Datenbanken ist von Vorteil, lässt sich aber ohne spezifische Grundkenntnisse im Lauf der Anwendung erwerben.

An der Timeline of Historical Film Colors arbeiten Studierende im Datenmanagement mit und kodieren die Quellen in HTML, die sie danach in das Backend der Plattform einpflegen und mit einem Thesaurus annotieren.

Wo sehen Sie Bedarf an Infrastruktur, Informatik-Grundausbildung oder anderem an der Philosophischen Fakultät, um «Digital Humanities» in Ihrem Fachgebiet betreiben und in der Lehre einbringen zu können?

Die Philosophische Fakultät braucht dringend eine Digital-Humanities-Strategie, sie muss verstehen, dass sie es sich nicht leisten kann, auf diese digitalen Ansätze und Methoden in den Geisteswissenschaften zu verzichten. Diese Strategie muss von der Unileitung gestützt und eingefordert werden, denn die Universität Zürich muss sich im internationalen Feld positionieren. International findet zunehmend ein Wettbewerb um die besten Talente statt; die besten Universitäten der Welt bemühen sich sowohl um die begabtesten Studierenden als auch um herausragende Forschende. Mit der Digital Society Initiative haben wir bereits einen Verbund von exzellenten Professor*innen auf Universitätsebene, in dem ich seit der Gründung dabei bin.

Mit meinem Projekt, SARI / Digital Visual Studies sowie LiRI sind wir in einer guten Ausgangsposition, aber diese Einzelinitiativen müssen in einen übergeordneten institutionellen Rahmen eingebettet werden und vor allem müssen für diese Integration finanzielle Mittel gesprochen werden. Digitale Ansätze sind nicht selbsterhaltend, sie sind einem steten Wandel unterworfen und entwickeln sich dynamisch im Verbund mit Hardware und Trends in anderen Anwendungsbereichen. Um den Erhalt zu garantieren, brauchen wir spezialisierte technische Infrastruktur, wir brauchen Entwickler, die unsere Methoden und Werkzeuge verstehen und umsetzen, wir brauchen interdisziplinär denkende Doktorand*innen und PostDocs, wir brauchen Techniker*innen, die sich mit den Anforderungen der Forschung beschäftigen. Anders als in den Naturwissenschaften, in denen es selbstverständlich ist, dass ein Labor Mittel hat, um die technische Infrastruktur à jour zu halten, sind diese Anforderungen in den Geisteswissenschaften noch wenig präsent. Bei uns ist die Förderung in der Regel projektbasiert. In meinem Fall sind die Mittel aus dem ERC Advanced Grant mittlerweile erschöpft; das bedeutet, dass die Weiterentwicklung des gesamten Ökoystems, das wir um VIAN herum aufgebaut haben, akut gefährdet ist. Dies, obwohl das Interesse an den Werkzeugen – sowohl uniintern als auch international, fachbezogen und fachübergreifend – sehr gross ist. Der Ball liegt nun bei der Universität, die Grundsicherung und langfristige Perspektive für solche Methoden und Tools sicherzustellen. Dafür ist eine strukturierte Kommunikation aller Stufen und Einheiten der Universität notwendig sowie auch die Kommunikation nach aussen, denn dieses Feld ist sehr attraktiv.

Dank meiner Vorarbeiten kommen viele potenzielle nationale und internationale Partner aktiv auf mich zu. Sie wollen sich vernetzen und von den Entwicklungen profitieren. Das begrüsse ich sehr und pflege einen kooperativen und offenen Austausch. Mit dem Joint Digital Humanities Fund haben wir bereits eine etablierte Kooperation mit der FU Berlin sowie neu der Hebrew University in Jerusalem. Wir arbeiten mit einem internationalen Konsortium an Standardisierungen, welche die Interoperabilität der Ansätze und Tools sicherstellen soll und planen ein übergeordnetes Ökosystem, in das diese Werkzeuge integriert werden können.

Das vergangene Semester hat gezeigt, dass die digitale Lehre und Forschung ein unverzichtbarer Baustein für die Weiterentwicklung der Universitäten sind. Die UZH darf den Anschluss nicht verpassen.

Gibt es Fragen, die ich nicht gestellt habe, die für die Diskussion aber wichtig sind?

Ja, meine persönlichen Ressourcen. Ich habe eine Professur ad personam, ohne Stellen. Meine Arbeitsbelastung in den vergangenen Jahren war gigantisch, und es sieht nicht nach Besserung aus. Auch wenn ich über sehr viel Energie verfüge und überraschend zäh bin, muss ich zu viel leisten. Auf Dauer ist das nicht machbar.

Aber ich bin auch eine ziemlich unerschütterliche Optimistin und nehme an, dass sich die Dinge am Ende schon zum Positiven entfalten.

Blog-Post zu VIAN mit weiterführenden Links: https://blog.filmcolors.org/2018/03/08/vian/
VIAN Dokumentation: https://www.vian.app/static/manual/index.html
VIAN Tutorials: https://vimeo.com/user/70756694/folder/1220854
Screenvideos VIAN WebApp:
https://vimeo.com/396548709
https://vimeo.com/402360042
https://vimeo.com/404388151

Posted on

Alternative Leistungsnachweise mit digitalen Technologien

Im nächsten Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät» erzählt uns Daniel Ursprung, wissenschaftlicher Mitarbeiter am Historischen Seminar, von alternativen Leistungsnachweisen. In der Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus.

Können Sie sich kurz vorstellen, Herr Ursprung?

Mein Name ist Daniel Ursprung, ich bin wissenschaftlicher Mitarbeiter an der Abteilung für Osteuropäische Geschichte am Historischen Seminar. Dort bin ich in der Forschung und Lehre aktiv – in der letzten Zeit habe ich mich, v.a. im Bereich der Lehre, mit digitalen Technologien und deren Möglichkeiten auseinandergesetzt. Ich möchte den Studierenden einen niederschwelligen Einstieg in diese Technologien ermöglichen.

 

Können Sie uns ein Beispiel geben, was Sie in der Lehre anbieten?

Im Rahmen eines Lehrkredit-Projekts habe ich drei verschiedene Technologien ausprobiert, um damit alternative Formen von Leistungsnachweisen zu erstellen. Das ist einerseits der Einsatz von geospatial technologies, also die Arbeit mit geographischen Informationssystemen, die Raumanalysen und Kartenerstellung ermöglichen, etwa für historische Fragestellungen.

Wir haben andererseits auch Audiopodcasts erstellt – hier interviewten die Studierenden Forschende, die zum Thema der Lehrveranstaltung publiziert haben. Die Aufgabe für den Leistungsnachweis war es dann, aus den Interviews einzelne Sequenzen mit eigenem Input zu einem stimmigen Podcast zusammenzufügen.

In eine ähnliche Richtung gehen Videoessays. Dabei produzierten die Studierenden kurze Videofilme zu verschiedenen Themen der Lehrveranstaltung. Ausgangspunkt waren im Internet gefundene Videosequenzen, die mit zusätzlichen Materialien ergänzt wurden – z.B. Bilder, Statistiken, Karten oder sogar eigenem Videomaterial. Ziel war es, ein eigenes Storytelling zu entwickeln, um das Thema kurz und prägnant thesenartig zu vermitteln.

Belagerung von Sevastopol 1854/55 im Krimkrieg auf einer historischen Karte (Charles Alexandre Fay: Plan des Attaques. In: Ders.: Souvenirs de la guerre de Crimée, 1854-1856, no. 3. Paris 1867), ergänzt um topographische 3D-Angaben aus einem digitalen Höhenmodell

Haben Sie selber in diesen Bereichen gearbeitet – wie kamen Sie auf die Idee, diese Technologien in die Lehre zu bringen?

Das ist teilweise auch aus der Lehre heraus entstanden. In einer früheren Lehrveranstaltung zeigte ich als Auftakt zur Sitzung jeweils ein kurzes Video, quasi als Teaser zum Thema, ohne es aber weiter im Unterricht zu verwenden. Die Evaluation der Lehrveranstaltung zeigte dann, dass die Studierenden gerne mehr mit diesen Sequenzen gearbeitet hätten. So entstand die Idee, das Medium Video stärker und v.a. aktiver zu nutzen. Häufig ist es ja so, dass Videos zwar analysiert und als Quelle verwendet, sie aber in unseren geisteswissenschaftlichen Fächern selten selber produziert werden. Ich denke, es ist wichtig, die Medienkritik auch mal aus einer anderen Perspektive heraus zu stärken: wer selber ein Video produziert hat, sieht mit ganz anderen Augen und weiss aus Erfahrung, welche Grenzen das Medium für die Wissenschaftsvermittlung aufweist.

Bei den Podcasts war es so, dass ich selber gerne Wissenschaftspodcasts höre, zum Beispiel den Kanal New Books in History. Dort sind Interviews mit Autorinnen und Autoren wissenschaftlicher Werke zu finden, in denen man schnell viel darüber erfährt, was in der Forschung aktuell ist. Ich wollte so etwas Ähnliches auf einer niederschwelligen Ebene in der Lehre machen. Hier zeigte sich, dass diese Form ohne grosse technologische Voraussetzungen umsetzbar ist. Durch die Interviews konnten die Studierenden in Interaktion mit Wissenschaftlerinnen und Wissenschaftlern treten und so forschungsnahes Lernen erleben. Vor allem die Vorbereitung der Interviews erforderte eine intensive Beschäftigung mit dem Thema, war aber auch eine grosse Motivation.

Die Studierenden müssen dann auch wissenschaftliche Texte in eine ganz andere Form bringen können…

Genau – neben dem technologischen Aspekt gibt es immer den des Mediums: Was kann ein Medium leisten und wo sind seine Grenzen? Wie lassen sich wissenschaftliche Inhalte vermitteln und wo sind Vor- und Nachteile der einzelnen Kanäle? Hier geht es mir auch immer um eine kritische Haltung: Digitales soll kein Selbstzweck sein, sondern digitale Technologien sind Werkzeuge, bei denen immer zu überlegen ist, ob sie sich für die geplante Arbeit eignen oder ob analoge Methoden vorzuziehen sind.

So ist es etwa bei Podcasts schwierig, Schauplätze im Raum zu verorten: es gibt schlicht keine Möglichkeit, Visuelles wie eine Karte einzublenden. Genau umgekehrt ist es bei den Videos – hier muss der visuelle Raum ständig gefüllt werden, auch wenn kein passendes Bild- oder Videomaterial vorliegt. Das kann u.U. noch schwieriger sein als nichts zeigen zu können und zwingt zur Reflexion unserer Sehgewohnheiten. In der Praxis ist es nicht ganz einfach, all diese verschiedenen Medien wie Ton, Bild, Schrift sinnvoll zu kombinieren, ohne dass es langweilig oder umgekehrt überfordernd oder sogar manipulativ wird. Selber ein Video zu erstellen kann helfen, die Kritikfähigkeit zu schärfen, indem solche Probleme bewusst werden. Nicht so sehr ein professionelles Video ist Ziel dieser Art von Leistungsnachweis, sondern die kritische Reflexion darüber, welche Darstellungsformen in verschiedenen Medien funktionieren und welche Möglichkeiten für die Wissenschaftsvermittlung sich dabei eröffnen. Nicht zuletzt ist es auch eine Motivation für den Lernprozess.

Wissenschaft hat immer auch den Aspekt des Storytellings: Ob ich einen schriftlichen Text produziere oder einen Podcast macht dramaturgisch einen Unterschied. Und ein Storytelling hinzukriegen, das für das jeweilige Medium funktioniert, ist nicht ganz einfach. Die grundsätzlichen Überlegungen etwa zu den eingesetzten Stilmitteln sollen auch helfen, Erfahrungen zu sammeln, die dann auch wieder für das klassische Schreiben hilfreich sein können: welche Vorteile bietet mir der Text und wie gestalte ich ihn interessant, leicht verständlich und dennoch wissenschaftlich adäquat?

Interaktive Karte eines Cholera-Ausbruchs in Soho (London) 1854, Darstellung der Todesfälle mit Heatmap sowie nach Radius und Höhe skalierten räumlichen Säulendiagrammen: digitales Remake einer damals von Hand erstellten Karte von John Snow, ein Klassiker aus der Anfangszeit räumlicher Analysen. Deutlich ist zu erkennen, welche der Wasserpumpen für die Infektion verantwortlich war. Die Karte lässt sich per Mausklick drehen und vergrössern, einzelne Säulen können angewählt werden.

Mich würde auch das Kartenprojekt sehr interessieren – gerade räumliche Daten sind im technischen Umgang ja nicht einfach. Wie führen Sie Studierende an diese Themen heran?

In der Osteuropäischen Geschichte müssen wir fast immer mit Karten arbeiten, weil diese Räume vielen Leuten nicht auf Anhieb bekannt sind. Geschichtskarten aber werden kaum reflektiert und oft unkritisch genutzt: Wie und auf welcher Grundlage sie entstanden sind, ist meist intransparent. Seltsamerweise wird das fast nie thematisiert. Der Aufwand, eine gute Karte zu erstellen, ist mitunter ähnlich hoch wie für einen guten Aufsatz – bei der Karte aber fehlt der wissenschaftliche Apparat. Auch wird selten thematisiert, was eine Karte darstellen kann und was nicht. Wo führt eine kartographische Darstellung in die Irre? In Publikationsprojekten hatte ich schon die Gelegenheit, zu eigenen Texten Karten extern erstellen zu lassen. Damit gebe ich aber einen Teil der Kontrolle an eine/n Kartographin/en ab. Mit den heutigen technischen Möglichkeiten müsste es doch möglich sein, einfache Karten selber zu erstellen, dachte ich mir. In einer Lehrveranstaltung zur Geschichte der Kartographie habe ich dann erstmals digitale Technologien genutzt für die Arbeit mit Karten aus früheren Jahrhunderten. So bin ich dann auf QGIS gestossen, eine open source Software, mit der sich fast alles realisieren lässt, was im Bereich GIS möglich ist. Damit können zwar auch Karten erstellt werden, das Spektrum an Einsatzszenarien aber ist sehr viel breiter. In der Lehre einfache Karten zu erstellen ist ein guter Ausgangspunkt für einen intuitiven Einstieg in die wissenschaftliche Arbeit mit digitalen Technologien. Darauf aufbauend können dann schrittweise zentrale Fragen des Umgangs mit digitalen Technologien generell erarbeitet werden wie Modellierung, Management, Analyse und Visualisierung von Daten, Verständnis und Reflexion digitaler Verarbeitung bis hin zu Computational Thinking und Beurteilung der Folgen, die das dann letztlich wiederum für die eigene wissenschaftliche Arbeit hat.

Von den drei ausprobierten Formaten sehe ich im Bereich der spatial humanities das grösste Potential für die Lehre. Dies aus mehreren Gründen: Alle kennen Karten aus dem Alltag, sei es gedruckt oder auch als Navigation auf dem Handy. Mit einfachen Übungen, ohne grosse technische Kenntnisse, lässt sich mit QGIS bereits ein kleines Einstiegsprojekt erstellen, um die Schwellenangst vor dem Einsatz digitaler Methoden zu überwinden und den Bezug zum Fach aufzuzeigen. Davon ausgehend lässt sich die Komplexität dann steigern.

Wir haben zum Beispiel als Einstieg die Reiseroute einer Pilgerreise aus dem 15. Jahrhundert von Bayern nach Jerusalem auf einer Karte visualisiert. Die Frage war dann, welche Erkenntnisse sich aus einer solchen Visualisierung gewinnen lassen. Sie ermöglichen einen ganz anderen Zugang und machen auf Aspekte aufmerksam, die bei der reinen Textlektüre leicht übersehen werden. Ausserdem liegt eine Karte nicht einfach vor, sondern ist aufgrund eigener Entscheidungen entstanden und kann beliebig verändert werden.

Für die Schulung von digital skills in der akademischen Lehre haben geographische Informationssysteme (GIS) den Vorteil, dass damit fast alle digitalen Kernkompetenzen trainiert werden können: Wie werden z.B. aus historischen Quellen maschinenlesbare Daten für eine Datenbank, d.h. die Frage der Datenmodellierung. Welche Schritte sind hier auch aus methodischer und theoretischer Sicht notwendig? Hier kommt das digitale und fachwissenschaftliche zusammen. Manchmal können bestehende Daten übernommen werden. Da stellen sich Fragen zur Herkunft der Daten, wie vollständig, akkurat und präzise sie sind sowie danach, wer sie warum erstellt hat und was sie repräsentieren. Dann ist natürlich wichtig zu fragen, wie Algorithmen funktionieren – was machen sie mit den Daten, welches sind die einzelnen Schritte? Und wie ist der gesamte Verarbeitungsprozess zu gestalten und kritisch zu bewerten? Auch hinter der Software stehen ja letztlich immer bestimmte gesellschaftliche Interessen und Sichtweisen – welche Implikationen hat das für die wissenschaftliche Arbeit?

Stadtplan von Zürich von 1824 (Heinrich Keller: Grundriss der Stadt Zürich 1824. Zürich 1824), überlagert mit Polygonen der heute existierenden Gebäude sowie dem Verlauf der barocken Befestigungsanlage aus dem 17. Jh., die 1833/34 geschleift wurde.

Könnten Sie uns ein Beispiel geben, wie sie bei der Datenmodellierung konkret vorgegangen sind?

Für das Beispiel der Pilgerreise haben die Studierenden den Quellentext erst einmal ohne Vorgaben aufbereitet. Es handelt sich um kurze Tagebucheinträge, die beschreiben, an welchem Tag die Reisenden wo waren, wie weit sie gereist sind, wo sie übernachtet haben etc. Die Studierenden haben dann die Orte aufgeschrieben und zunächst auf Google Earth visualisiert. Interessant war dann zu sehen, wie unterschiedlich die Ergebnisse ausfallen. Sofort entstand etwa die Frage, wie sich Zeit modellieren lässt: Nehmen wir etwa Zeitpunkte oder Zeiträume? Wie gehe ich damit um, wenn unklar ist, was in der Zwischenzeit passiert ist? Die Frage, wie eine solche Reise visualisiert wird, ist nicht ganz so trivial wie es scheinen mag und öffnet den Blick für grundlegende methodische Fragen. Das ist ein guter Anlass, um über verschiedene Zeitkonzeptionen, ein Thema der Geschichtsphilosophie, zu sprechen. Digitale Arbeitsweisen können also auch Ausgangspunkt sein, sich durchaus auf klassisch-analoge Weise über grundlegende Konzepte des eigenen Fachs Gedanken zu machen.

Gerade bei historischen Fragestellungen existieren oft nur vage Angaben. Bei Reiseberichten sind vielfach nur Etappenorte bekannt, nicht aber der konkrete Verlauf der historischen Verkehrswege. Oder wenn in einer Quelle «hinter dem Hügel» oder «in der Nähe des Baches» steht, ist nicht einmal der Ort ganz klar. Auch hier ist dann zu überlegen, wie solche historische Unschärfe passend zu modellieren ist. Oft merkt man erst, wie viele Informationen eigentlich gar nicht vorhanden sind, wenn man versucht, diese Informationen in eine digitale Form zu bringen. So treten Inkonsistenzen zu Tage, die bei der reinen Lektüre nicht offensichtlich sind.

Die Frage ist immer, was sind die relevanten Informationen, und dies wiederum bedeutet stets: Was ist mein Erkenntnisinteresse? In Übungen mit den Studierenden sollen diese Informationen dann in strukturierter Form erfasst werden. Dabei lässt sich gut zeigen, wie wichtig es ist, die Daten möglichst kleinteilig auf verschiedene Felder aufzuteilen, damit sie in einer Datenbank gut verarbeitet werden können. Hier kann ich dann quasi durch die Hintertür ein wenig Datenbanktheorie einführen, nicht in einem grossen theoretischen Rahmen, sondern immer ausgehend von einem empirischen Fallbeispiel und einer Fragestellung. So lassen sich induktiv und vom fachwissenschaftlichen Kontext ausgehend digitale Themen anschaulich vermitteln.

Verzerrungsanalyse einer Altkarte (Guillaume Sanson, Vincenzo Coronelli: Le Cours Du Danube Depuis Sa Source Iusqu’a ses Embouchures. Paris 1693): das Verzerrungsgitter und die Verschiebungsvektoren geben nicht nur Hinweise darauf, wo die Karte stark verzerrt ist, sondern können auch Aufschlüsse darüber geben, aus welcher Quellen der Kartograph sich bedient hat, um die Karte zu zeichnen und welche Darstellungsabsicht verfolgt wurde: beruhen stark verzerrte Bereiche auf mangelndem Wissen oder stand etwas anderes im Vordergrund?

Denken Sie, dass geisteswissenschaftliche Studierende heute also mit Daten umgehen und algorithmisch denken können sollten?

Das hängt immer von der Fragestellung ab – es gibt nach wie vor viele Bereiche, in denen diese Technologien nicht zwingend notwendig sind. Analoge und digitale Methoden haben beide ihre Daseinsberechtigung. Digitale Technologien sind Werkzeuge, die in gewissen Fällen ganz neuartige Fragestellungen ermöglichen. Es ist zumindest gut zu wissen, was überhaupt möglich ist, welche zusätzlichen Arten des Umgangs mit den vorhandenen Quellen existieren und welches wissenschaftliche und didaktische Potenzial darin steckt. Dabei helfen wenigstens rudimentäre Kenntnisse über oder zumindest ein Verständnis für digitale Technologien und die Chancen, die sie eröffnen, um unser methodisches Repertoire zu erweitern.

Würden Sie auch in diese Richtung argumentieren, wenn Sie den Begriff «Digital Humanities» definieren müssten?

Ich weiss nicht, inwiefern eine Definition sinnvoll ist. Für mich ist es kein geschlossener Ansatz oder eine klare Disziplin, sondern ein kontextbezogener Einsatz von digitalen Technologien, der Hand in Hand geht mit den klassischen Methoden der Fachwissenschaft. In der Geschichtswissenschaft kennen wir die sogenannten Hilfswissenschaften (und das ist nicht despektierlich gemeint) wie Paläographie oder Diplomatik. Ich glaube, das Digitale hat, zumindest in der Geschichtswissenschaft, diese Funktion: Ich suche mir das passende Werkzeug für den jeweiligen wissenschaftlichen Kontext. Wichtig ist es, immer kritisch zu bleiben. Die Frage ist: kann ich die Fragestellung mit einer digitalen besser beantworten als mit einer analogen Methode? Oder kann ich andere Fragen beantworten, wenn ich digital arbeite – Fragen, die ich mit analogen Mitteln so nicht bearbeiten kann?

Um diese Entscheidung zwischen analogen und digitalen Methoden fällen zu können, muss man die Kompetenz aber schon haben…

Wie fast immer in der Wissenschaft ist hier Neugier und Offenheit entscheidend. Gerade in der Geschichtswissenschaft ist das Spektrum methodischer und theoretischer Arbeitsweisen enorm breit, niemand nutzt alle verfügbaren Ansätze. Und Historiker/innen sind in aller Regel keine Programmierer/innen. Aber natürlich ist es so: Je mehr Kompetenzen jemand mitbringt, desto eher können auch innovative Fragestellungen entwickelt werden. Ich vergleiche das in der Geschichtswissenschaft immer mit den Sprachkompetenzen – je mehr Sprachen ich spreche, desto mehr Quellen kann ich nutzen. Im Digitalen ist es genauso. Zumindest ist es hilfreich zu wissen, was mit digitalen Technologien überhaupt möglich ist, ohne das unbedingt selber umsetzten zu können. Gerade in Forschungsteams sind vielleicht Personen dabei, die programmieren können.

Stichwort Forschung: Hier ist es einfacher als in der Lehre, Leute mit Interesse an interdisziplinären Projekten zu finden, weil das Reputation gibt und finanziert wird. Ein gemeinsamer Antrag wird eingereicht und gemeinsame Publikationen verfasst. In der Lehre wird es schwieriger, wenn ich nur punktuell externe technologische Expertise einbeziehen möchte: Wer ist bereit, mir für eine Lehrveranstaltung z.B. eine Netzwerkanalyse zu programmieren? So etwas wird in der Wissenschaftslandschaft kaum honoriert. Und Dozierende können unmöglich neben ihrer eigenen Fachwissenschaft auch noch technologisch breit versiert sein.

Ich sehe das als Herausforderung für die Zukunft der digitalen Lehre – wie geht man auf institutioneller Ebene damit um? Gibt es Lösungen, bei Bedarf auch in der Lehre für spezifische technische Hilfestellung Kompetenzen anderer Fächer niederschwellig abrufen zu können? Denn digitale Methoden sollen in der Lehre nicht als separater Bereich parallel geführt werden, sondern auch punktuell in reguläre Lehrveranstaltungen eingebettet werden – embedded digital teaching sozusagen. Dazu braucht es aber halt oft externe Expertise.

Auf der Ebene der Infrastruktur werden zentrale Dienste wie S3IT langsam aufgebaut, auf die man als Forschende zugreifen kann. Aber Sie reden jetzt eigentlich eher von «Personellem», von Denk- und Arbeitskraft…

Für die Forschung ist das Angebot der S3IT sicher richtig, wenn es um Infrastruktur für Big Data und so weiter geht. Im Bereich Lehre sind es zum Teil andere Herausforderungen.

Ich wünsche mir für die meisten Bereiche eigentlich genau so ein Angebot, wie es das Team DLF anbietet – wo etwa kompetent Fragen beantwortet werden danach, welches Tool sich für Videoschnitt eignet, wie es funktioniert etc. Doch natürlich existieren immer auch spezifische Einsatzszenarien, die so eine Stelle gar nicht alle abdecken kann. Die Universität ist aber so vielfältig, dass bestimmt irgendwo jemand sitzt, die/der genau dabei helfen könnte – eben zum Beispiel, eine Netzwerkanalyse programmieren zu helfen. Die Schwierigkeit besteht darin, die entsprechende Person zu finden und sie dazu zu bringen, interdisziplinäre «Entwicklungshilfe» zu leisten, wenn dabei anders als in der Forschung wenig Aussicht auf Reputation besteht. Mir schwebt etwa vor, dass vielleicht Studierende der Computerwissenschaften in der Funktion «teach the teacher» hier Aufgaben übernehmen könnten und zum Beispiel niederschwellig während ein bis zwei Sitzungen im Semester bei der technischen Umsetzung helfen.

Hinzu kommt, dass ein Semester eigentlich zu kurz ist, um ein geisteswissenschaftliches Modul anzubieten, in dem neben den fachwissenschaftlichen Methoden und Inhalten auch noch substanzielle Software- oder Medien-Skills vermittelt werden müssen. Auch die Unterschiede der Voraussetzungen zwischen den Studierenden sind zum Teil enorm. Wo wäre der ideale Ort im Curriculum für die Vermittlung praktischer Software-Skills? In geisteswissenschaftlichen Fächern wird das ja kaum honoriert und basiert auf dem Engagement und Interessen der Einzelnen.

Die Kurse der Zentralen Informatik bieten hier ein gutes Angebot. Doch sind sie einerseits curricular nicht eingebunden. Andererseits besteht auch Bedarf an stärker fachwissenschaftlich ausgerichteten Angeboten, die spezifisch auf die Humanities und ihre Einsatzszenarien eingehen. Ein Beispiel wäre, die Datenbankprogrammierung ausgehend von Quellentexten zu lernen anstatt vom Klassiker «Adressdatenbank». Oder wieso soll ich als Geisteswissenschaftler Python programmieren lernen? Um diese Frage zu beantworten muss ich die Möglichkeiten kennen, die mir diese Programmiersprache in meinem Fachgebiet eröffnet. In einem traditionellen Python-Kurs erfahre ich dazu wenig. Wenn aber inspirierende Beispiele aus der Wissenschaft existieren, eröffnen sich neue Horizonte. Ein gutes online Selbstlernangebot ist etwa die Seite The Programming Historian – vergleichbare Übungen können auch in Lehrveranstaltungen ohne spezifischen digitalen Fokus eingebaut werden.

Es bräuchte «Forschungsgeschichten» als Vorbilder… und eine Vernetzung von ganz unterschiedlichen Disziplinen, die einander aushelfen können. Für die Lehre wäre auch ein Projektpool interessant, in dem Projekte mit Informatikbedarf und Studierende mit Informatikkenntnissen «gematcht» werden. Mit den Projekten könnten die Studierenden so eine Art «überfakultäre Projektcredits» erwerben. Oft ist es ja auch so, dass man im Rahmen eines Moduls ein Projekt nach technologischen Vorgaben programmieren muss, aber keine inhaltliche Idee hat.

Ich fürchte, dafür bräuchte es dann wohl wieder eine Studienreform… Es ist schon die Frage, ob dies curricular eingebettet werden oder eher über Tutorate und Geldwerte abgewickelt werden soll. Für Studierende ist interdisziplinäre Zusammenarbeit auf Einsteigerlevel in der Lehre vielleicht noch interessanter als für Forschende, die schon etabliert sind. Wichtig ist, dass Ideen entwickelt werden und auch zirkulieren.

Haben wir ein Thema vergessen oder möchten Sie etwas ergänzen?

Wichtig ist, dass gerade die Studierenden in den traditionell wenig technikaffinen Geisteswissenschaften möglichst früh (also bereits im Bachelor) die Gelegenheit erhalten, digitale Technologien im jeweiligen Fach anzuwenden. Mein Anliegen ist es immer, digitale Methoden möglichst niederschwellig einzubringen, um auch Leute anzusprechen, die keine Technikfreaks sind. Im weiteren Studienverlauf ist dann noch genügend Zeit, das bei Interesse selber zu vertiefen. Nach einer ersten Einführung ist die Schwellenangst hoffentlich überwunden.

Allerdings finde ich es auch ganz wichtig, dass kein Zugzwang entsteht: Der Einsatz digitaler Werkzeuge soll nicht überhöht oder gegen klassische Arbeitsweisen ausgespielt werden. Die akademische Lehrfreiheit muss unbedingt auch die Methodenfreiheit umfassen, stets das jeweils passende Instrument zu wählen.

 

Foto Titelbild (Portrait): Frank Brüderli

Im Beitrag erwähnte Links und Technologien:

https://newbooksnetwork.com/category/history/

https://www.qgis.org/de/site/

https://programminghistorian.org/

 

 

Posted on

Digital Humanities als Denkstil

Dieser Beitrag entstand im Rahmen einer kleinen Reihe zu «Digital Humanities an der Philosophischen Fakultät». Lehrende und Forschende der PhF geben uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus. Heute stellt uns Noah Bubenhofer, Professor am Deutschen Seminar, eine digitale Korpuslinguistik vor.

Herr Bubenhofer, vielen Dank, dass Sie bei dieser Reihe mitmachen – bitte stellen Sie sich kurz vor!

Ich bin germanistischer Linguist, seit September 2019 Professor am Deutschen Seminar der UZH. Ich interessiere mich für eine kultur- und sozialwissenschaftlich orientierte Linguistik, die davon ausgeht, dass Sprache und gesellschaftliches Handeln in einem engen Verhältnis stehen und dass man deshalb über linguistische Analysen etwas darüber lernen kann, wie eine Gesellschaft oder eine Kultur funktioniert.

Ich arbeite sehr stark korpuslinguistisch – ein Korpus ist letztlich eine Sammlung von Textdaten, die meist linguistisch aufbereitet sind und linguistisch analysiert werden. In der Korpuslinguistik verbinde ich quantitative mit qualitativen Methoden, um grössere Textdatenmengen auf Musterhaftigkeit hin analysieren zu können – hier verwende ich natürlich digitale Methoden. Korpuslinguistik gibt es schon sehr lange; mit der Digitalisierung hat sie einen neuen Drive erhalten, weil es sehr viel einfacher geworden ist, sehr grosse Textdatenmengen zu verarbeiten.

Was verstehen Sie unter «Digital Humanities», auch in Bezug zu Ihrem Forschungsgebiet?

Ich erlebe «Digital Humanities» als extrem heterogen, und manchmal ist es gar nicht so klar, ob ich das, was ich mache, auch dazu zählen kann – gerade weil die Korpuslinguistik eigentlich schon eine sehr lange Tradition in der Linguistik hat.

Einerseits bedeutet «Digital Humanities» für mich, digitale Methoden auf digitalen Daten anzuwenden und letztlich geisteswissenschaftliche Fragestellungen zu verfolgen. Andererseits reflektiert man «Digitalität per se» mit geisteswissenschaftlichen Theorien: Was macht «Verdatung» mit Informationen, was ist eigentlich ein Algorithmus, und so weiter.

Die Kombination dieser beider Aspekte macht das Alleinstellungsmerkmal von «Digital Humanities» im Vergleich zu anderen Disziplinen aus, die auch mit digitalen Daten und Methoden arbeiten, wie z.B. Informatik, Data Mining o.ä.

Sie sagten «Disziplin» im Zusammenhang mit Digital Humanities …

[lacht] Dieselbe Debatte gibt es auch in der Korpuslinguistik – ist sie eine Subdisziplin der Linguistik oder ist sie eher ein Denkstil? Ich argumentiere immer für Letzteres, da es eine bestimmte Art und Weise ist, Sprache anzusehen.

Ferdinand de Saussure führte die Unterscheidung von «langue» und «parole» ein, dabei ist «langue» sozusagen das Sprachsystem und «parole» die tatsächlich geäusserte Sprache. Lange interessierte sich die Linguistik hauptsächlich für die «langue». Die Korpuslinguistik machte erst den Fokus auf die «parole» stark, indem die Musterhaftigkeit in der gesprochenen und geschriebenen Sprache untersucht wurde.

Diese Verschiebung der Perspektive findet man in den Digital Humanities teilweise wieder. Man ist an anderen Aspekten der Daten interessiert und hat dadurch auch ein anderes theoretisches Modell im Hintergrund. Deshalb sind die Digital Humanities für mich auch eine Denkrichtung, die versucht, mit spezifischen Methoden einen neuen Blick auf die vorhandenen Daten zu erhalten.

Können Sie uns ein Beispiel geben, vielleicht an einem Ihrer Forschungsprojekte?

In einem Projekt habe ich Alltagserzählungen, genauer Geburtsberichte gesammelt. In diesen schrieben Mütter nieder, wie sie die Geburt ihres Kindes erlebt hatten. Die Berichte stammen aus Threads in Online-Foren, die genau für dieses Genre vorgesehen sind. Ich habe nun 14’000 Berichte aus sechs unterschiedlichen deutschsprachigen Foren gesammelt, analysiert und dabei eine Diskrepanz zwischen diesem sehr individuellen Erlebnis und der Erzählung darüber aufgezeigt: In der Erzählung konnte eine extreme Musterhaftigkeit mit einem bestimmten erzähltypischen Ablauf festgestellt werden, mit bestimmten Themen und Motiven, die sich wiederholten. Die Musterhaftigkeit dieser Erzählungen konnte mit Hilfe digitaler Methoden freigelegt werden.

Genau hier kommt auch wieder der Unterschied z.B. zu reinem Data Mining ins Spiel, wo Fragen wie Narrativität und Sequenzialität zu kurz kommen. In den Geisteswissenschaften ist es uns dagegen klar, dass diese Aspekte eine Rolle spielen: Man kann einen Text nicht einfach als «Sack von Wörtern» (bag of words) auffassen, sondern es spielt eine Rolle, in welcher Sequenz diese Wörter vorkommen.

Es ging in diesem Projekt also auch darum, die Methodik so anzupassen, dass man diese narrativen Strukturen identifizieren kann.

Wie gehen Sie (technisch) vor, um eine solche Analyse durchzuführen?

Zunächst müssen die Daten «gecrawlt», d.h. automatisiert vom Web heruntergeladen werden. In einem aktuellen Projekt zu COVID19 News-Kommentaren haben wir z.B. mit Python und Selenium gearbeitet. Dabei übernimmt Selenium die «Benutzerinteraktion» auf einer dynamischen Webseite – diese sind heute ja nicht mehr einfach statisches HTML.

Diese Daten werden nun linguistisch, d.h. mit Wortarten-Tagging, syntaktischem Parsing, semantischen Annotationen etc. versehen. Dafür verwenden wir an unserem Lehrstuhl das UIMA-Framework, das mit Modulen oder eigenen Python-Skripts erweitert werden kann, die das Tagging oder andere Verarbeitungsschritte auf diesen Textdaten durchführen.

Im nächsten Schritt gehen diese verarbeiteten Daten in die Corpus Workbench, eine Datenbank, die spezialisiert ist, korpuslinguistisch annotierte Daten zu verwalten und zu analysieren. Für die Analyse wichtig sind in unserem Gebiet die n-Gramme – Gruppen von n Wörtern, sprachliche Muster –, die wir mit unserer selbst entwickelten Software cwb-n-grams berechnen können. Wie diese n-Gramme berechnet werden, kann dabei ganz unterschiedlich sein: Nimmt man als Basis die Grundformen der Wörter, reduziert man Redundanzen, behält man «Füllwörter» oder nicht, wie lange soll das n-Gramm sein, etc. Wir haben die Methodik zudem so erweitert, dass wir zusätzlich auch die erstellten Annotationen mit einbeziehen.

Die (statistische) Analyse selber kann man schliesslich z.B. mit R und plotly durchführen, für das ein Paket existiert, das direkt auf die Corpus Workbench zugreifen kann. Hier vergleichen wir die Häufigkeiten jeweils mit einem Referenzkorpus, um statistisch signifikante n-Gramme finden zu können. Signifikant heisst in dem Zusammenhang: Welche n-Gramme sind typisch für Geburtsberichte und nicht aus anderen Gründen häufig vorgekommen.

Der Output kann z.B. eine interaktive Grafik sein – hier das Beispiel zum Projekt «Geburtsgeschichten», das typische Positionen der n-Gramme im Verlauf der Erzählung darstellt. Man sieht an den n-Grammen, dass diese sprachlichen Muster über die 14’000 Texte hinweg immer wieder gleich und an ähnlichen Positionen in der Erzählung vorkommen. Die y-Achse zeigt die Standardabweichung bezüglich Position in der Geschichte: Je weiter oben ein n-Gramm erscheint, desto variabler war die Position im Verlauf. Auf der Grafik sind bestimmte Cluster von n-Grammen sichtbar, die aber weniger variabel waren, gegen Ende der Erzählung z.B. das n-Gramm «gleich auf den Bauch gelegt».

Eine rhetorische Frage: Was ist der Mehrwert gegenüber analogen Methoden?

[lacht] … Genau, was bringt’s wirklich? Zum einen, 14’000 Geschichten kann ich nicht einfach durchlesen. Aber im Ernst: Es zeigt sich eine Musterhaftigkeit in der Sprache, die nicht auffallen kann, wenn man nur Einzeltexte vor sich hat. Ich finde dieses datengeleitete Paradigma wichtig: Welche Strukturen ergeben sich eigentlich datengeleitet und nicht theoriegeleitet? Sehr wichtig ist dabei, dass wir im Anschluss eine geisteswissenschaftliche Interpretation davon machen. Man hat nicht zuerst eine theoriegeleitete Hypothese, die man stützen oder verwerfen kann, sondern generiert die Hypothese vielleicht erst durch diese Interpretation. Natürlich muss man dann wieder zurück in die Daten und prüfen, ob diese Hypothese wirklich stimmt – und man darf nicht vergessen, dass man trotz des induktiven Vorgehens noch Prämissen gesetzt hat: Allein die Definition, was als Wort aufgefasst wird, welche Daten wähle ich aus, etc.

Eine Challenge in der Linguistik ist heute, dass die Informatik uns neuronale Lernmethoden gibt, die statistische Modelle aus den praktisch unverarbeiteten Daten lernen. Der Algorithmus muss gar nicht mehr wissen, was ein Wort oder eine Wortart ist. Die Idee ist dann, dass sich die Musterhaftigkeit und allenfalls Kategorien wie Wortarten aus den Daten ergeben. Dies stellt natürlich die klassische Linguistik in Frage – wir experimentieren aber damit und fragen uns, inwiefern linguistische Theorien helfen zu verstehen, warum solche Methoden überhaupt funktionieren und wie sie verbessert werden können. Und doch ist es auch hier wichtig zu sehen, dass neuronale Lernmethoden keinesfalls objektive, neutrale Modellierungen von Sprache darstellen, sondern mit der Datenauswahl und den gewählten Parametern eben spezifischen Sprachgebrauch abbilden. Die Modelle sind genauso voller Verzerrungen – wir würden sagen: diskursiv geprägt – wie ihre Datengrundlage, was z.B. bei AI-Anwendungen problematische Folgen haben kann.

Für die Bearbeitung dieser Fragestellungen werden sehr viele verschiedene Technologiekenntnisse, aber auch sehr viel theoretisches Wissen vorausgesetzt – wie kann man die Studierenden da heranführen?

Man kann heute nicht Linguistik studieren, ohne eine Vorstellung zu haben, was algorithmisch möglich ist. Sie müssen verstehen, was ein Skript machen kann, wie HTML, XML und Datenbanken funktionieren, oder auch, was Machine Learning ist.

Als ich noch in Dresden war, haben wir eine Einführung in die Programmierung für Germanistinnen und Germanisten gegeben, die sich sehr bewährt hat. Der Kurs war sehr niederschwellig, die Studierenden sollten ein kleines Skript zu einem linguistischen Projekt schreiben. Einige Studierende vertiefen diese Kenntnisse weiter, andere nicht – doch zumindest können sie auf Augenhöhe mit Personen sprechen, die sie vielleicht in weiteren Projekten unterstützen.

Hier an der UZH plane ich gerade, hoffentlich mit einem Lehrkredit, ein E-Learning Modul zu Programmierkompetenzen für Geisteswissenschaftlerinnen und Geisteswissenschaftler. Das Modul soll aus Bausteinen bestehen, die man auch gut in andere, bereits bestehende Module einbinden kann und die teilweise auch curricular verpflichtend sind.

Heisst das, dass die Programmierkenntnisse disziplinär gebunden unterrichtet werden sollen? Oder lernt man besser Python in einem Pythonkurs, SQL in einem SQL-Kurs etc.?

Es gibt natürlich unterschiedliche Lerntypen, doch m.E. ist eine disziplinäre Verortung für die Mehrheit der Studierenden in den Geisteswissenschaften wichtig, weil man an den geisteswissenschaftlichen Fragen interessiert ist. Sonst hätte man vielleicht Informatik studiert. Es ist viel einfacher, wenn man eine konkrete Forschungsfrage hat, der man nachgehen kann und entlang derer man die nötigen Kenntnisse erwirbt. Man ist so einfach viel motivierter.

Hier schliesst sich auch der Bogen zur Frage, was «Digital Humanities» sein könnten…

Ja, denn für uns Geisteswissenschaftlerinnen und Geisteswissenschaftler ist eine Methode dann interessant, wenn sie «nahrhaft» für Interpretation ist, d.h. wenn ich daraus etwas machen kann, das mir in meinen Fragen weiterhilft. Es ist eine andere Art von Nützlichkeit als eine rein technologische für eine Anwendung, aber natürlich benötigen wir die Hilfe von anderen Disziplinen, wir haben das Know-How nicht, z.B. einen Part-of-speech-Tagger oder statistische Methoden zu verbessern.

Haben wir ein wichtiges Thema in der Diskussion ausgelassen, haben Sie eine Ergänzung oder einen Ausblick?

In meiner Habilitationsschrift, die demnächst erscheint, geht es um die «Diagrammatik», nämlich wie Darstellungen und Visualisierungen helfen, Daten anders zu verstehen. Es geht hier nicht nur um quantitative Aspekte, sondern darum, wie verschiedene Darstellungsformen neue Sichtweisen auf Daten ermöglichen.

Ein Beispiel ist die «Konkordanzliste»: Man hat hier einen Suchausdruck und sieht dessen unmittelbaren Kontext in verschiedenen Texten. Die Konkordanzdarstellung gibt es schon seit dem Mittelalter, er bricht die Einheit des Textes auf und versucht, einen Blick auf Fundstellen listenförmig darzustellen. Dadurch wird der Text «zerstört», aber gleichzeitig gewinnt man ganz viel, weil man eine neue Sicht erhält.

Für mich ist auch das auch eine Frage für die Digital Humanities, weil wir eigentlich ständig versuchen, unsere Daten in andere Ansichten zu transformieren, um etwas Neues daraus zu gewinnen. Viele dieser Visualisierungen sind erst mit den digitalen Mitteln möglich geworden.

In diesem Beispiel werden Gesprächstranskripte visualisiert: Die drei Gesprächsteilnehmerinnen und Gesprächsteilnehmer sind als Kreiszentren dargestellt. Die Jahresringe stellen einzelne Beiträge der Teilnehmenden dar. Je mehr Ringe, desto mehr sogenannte “turns” wurden von dieser Person beigetragen. Die verschiedenen Durchmesser der Jahresringe ergeben sich aus den Beitragslängen. Einige Beispiele können auf Noah Bubenhofers Seite gleich ausprobiert werden.

Herr Bubenhofer, ich danke Ihnen für dieses Gespräch!

 

Im Beitrag erwähnte Technologien und Seiten:

https://www.python.org/

https://www.selenium.dev/projects/

https://uima.apache.org/

http://cwb.sourceforge.net/

https://plotly.com/r/

http://www.bubenhofer.com/jahresringe/index.html