World Instance

Eine interaktive Video-Installation von Christian Sievers, in der das Publikum mit einem vollautomatischen Objekterkennungs-System spielen kann, und durch es analysiert und kategorisiert wird.

Auf einer großen Projektion können sich die Besucher der Ausstellung live wie in einem Spiegel sehen. Zusätzlich wird in das Bild die Echtzeitanalyse einer sogenannten künstlichen Intelligenz eingeblendet, die auf maschinelles Sehen spezialisiert ist. Es entsteht eine spielerische Situation in der man seine Neugier befriedigen kann („also so sehen mich die selbstfahrenden Autos??“), und die zum experimentellen Handeln vor der Kamera einlädt.

Die Installation benutzt ein frei erhältliches neuronales Netzwerk. Das hier eingesetzte System wurde mit den in der Industrie üblichen Datensätzen trainiert, und kann mehr als 9000 verschiedene Dinge unterscheiden. Das macht die Live-Analyse unterhaltsam und anschaulich, es gibt z.B. allein für Menschen mehrere hundert Beschreibungen.

Zusätzlich zur Live-Analyse wurde das System so erweitert, dass es eine Bilddatenbank aus allen identifizierten Begriffen konstruiert. Es versucht, das ihm zugrunde liegende Modell der sichtbaren Welt wie in einer Enzyklopädie mit den Dingen zu bebildern, die ihm im Lauf seiner Exposition vor die Kamera kommen. Alle ersten Sichtungen werden dauerhaft als exemplarische Bestandteile dieser „geschlossenen Welt“ gespeichert. Weitere Vorkommnisse werden zwar noch im live-feed angezeigt, aber nicht mehr in der Datenbank festgehalten.

Wie jedes algorithmische System das auf einem (zwangsläufig unvollkommenen) Modell der dinghaften Welt basiert, macht auch dieses Fehler. Einige der Urteile über sein Publikum sind amüsant, andere sind beleidigend. Es ist trotzdem so programmiert worden, dass es augenblickliche Entscheidungen trifft. Einmal erfasst, bleibt ein Eintrag Teil der Datenbank, ohne dass eine Revision oder Einspruch möglich wäre.

Wenn das Publikum das Kunstwerk sehen möchte, muss es sich seinem Urteil aussetzen und die Kontrolle abgeben. Ein wohl bekannter Mechanismus, der heutzutage fast bei allen Internetdiensten so greift: Wenn man partizipieren will, muss man sich überwachen lassen und Handlungsmacht an Algorithmen und Scoring-Systeme abgeben.

Wie bei den Bewertungssystemen des Überwachungskapitalismus ist auch bei diesem neuronalen Netzwerk nicht nachvollziehbar, wie es zu seinen Entscheidungen kommt – die berühmt-berüchtigte Black Box der KI. Und doch ahnt man manchmal, wie es gelaufen sein könnte. Es sind die Fehlinterpretationen, in denen sich die Eigenheiten des Systems offenbaren. In den erkannten Objekten schwingt das Bildmaterial nach, das benutzt wurde, um das Netzwerk zu trainieren.

In diesem Fall ist es möglich und erhellend, die entsprechenden Trainingsbilder im ImageNet Datensatz nachzuschlagen, einer Sammlung von über 14 Millionen Bildern aus aller Welt, konzipiert in Kalifornien, handbeschriftet von Amazon Turkers, Niedigstlohnarbeitern aus Ländern rund um den Globus.

Wieder zeigt sich, dass Technologie nicht „neutral“ ist. Algorithmen sind ebenso wenig frei von Vorurteilen und Trugschlüssen, wie die Menschen, die sie entwickelt haben, und nur so fair, wie die Bedingungen, unter denen sie entstanden sind.

Ebenso wird klar, dass rechnergesteuerte Modelle der Welt unsere chaotische, schmutzige, vieldeutige Lebenswirklichkeit nicht angemessen abbilden können. Dass Ingenieure unwidersprochen die Idee formulieren können, es sei angemessen, die Welt in 9000 Begriffen zu beschreiben, ist nur eins von vielen Beispielen für die unzureichende Reflexion der digitalen Werkzeuge: Zuerst wird aus Machbarkeitsgründen grob vereinfacht, aber üblicherweise erweisen sich diese vorübergehenden Lösungen sehr bald als dauerhaft. Dann werden sie wirklichkeitsformend: Das Modell wird mit dem verwechselt, was es repräsentiert.

Nun haben die Beschreibungen, die wir von ihr anfertigen, wohl schon immer die Welt bestimmt, in der wir leben. "Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt", erkannte schon Wittgenstein. Neu ist, dass wir alle nur zu freiwillig und leichtgläubig dem Navi in eine an Erscheinungsformen, Bedeutung und schierem Leben deutlich ärmere Wirklichkeit zu folgen scheinen.


Bildmaterial:
Eine Auswahl der vom System erkannten Objekte
Das Diagramm ist eine Visualisierung des beim ersten Durchlauf entstandenen Wortbaums: Alle Begriffe in ihrer hierarchischen Abhängigkeit
Video auf Anfrage


World Instance

An interactive live video installation by Christian Sievers, in which the audience can play with a neural network-based object recognition system, and is subjected to its decisions.

A large video projection shows a live video feed of the exhibition space, mirroring the audience. The image is superimposed with the a real time analysis by a so-called Artificial Intelligence computer vision system. It's a playful situation that satisfies one's curiosity ("so this is how a self-driving car sees me??"), and invites exploration and experiment in front of the camera.

The installation uses a freely available neural network. This particular system has been pre-trained with a standard industry dataset to identify more than 9000 different objects, which makes for an entertaining and colourful experience. The underlying model has several hundred labels for humans alone.

In addition to providing a live feed, the system has been expanded to store the objects it has identified. It literally attempts to picture the entire visible world, by finding objects that correspond to its model of what the world is, with only the things that appear before its camera in the course of its exposition. All first sightings are permanently stored as exemplary components of this "closed world". Further occurrences are still displayed in the live feed, but don't find their way into the database any more.

Like any algorithmic system that is based on an (inevitably imperfect) model of the physical world, it makes mistakes. Some of the misclassifications of its audience are amusing, some are offensive. Still, it is programmed to make decisions on the spot. Once captured, one becomes part of the database, without a chance of revision or appeal.

If the audience wants to see the artwork, they have to expose themselves to its judgement and agree to give up control. It's a mechanism familiar from, well, almost anywhere on the Internet nowadays: If you want to participate, you have to agree to be surveilled and relinquish agency to algorithms and scoring systems.

Just as with the evaluation systems of Surveillance Capitalism, it is not comprehensible how this neural network comes to its decisions. It's the famous-infamous AI Black Box. And yet sometimes it seems possible to retrace its line of thinking. It is the misinterpretations that reveal its characteristics. The visual material used to train the network resonates in the recognized objects.

In this particular case it's possible (and illuminating) to look up the corresponding training images in the ImageNet dataset, a collection of over 14 million images from across the internet, conceived in California, and annotated by Amazon Turkers, low-wage workers from around the globe.

It shows again that technology is not „neutral“. Algorithms are no more free of prejudices and fallacies than the people who developed them, and only as fair as the conditions, under which they have been developed.

It also becomes clear that software-based models of the world cannot adequately represent our chaotic, dirty, ambiguous reality. The fact that engineers can freely assert the idea that it is appropriate to describe the world in 9000 terms is only one example of the inadequate scrutiny given to the digital tools that determine what choices we are given in our daily lives. Things are crudely simplified just to get things going, but usually these temporary solutions very soon turn out to be permanent. Then they form reality: The model is being confused with what it represents.

The descriptions that we make of it have probably always determined the world in which we live. "The limits of my language mean the limits of my world", Wittgenstein remarked. What’s new is that we all seem to be only too happy to follow the satnav to a significantly poorer reality in terms of diversity, meaning, and sheer life.


Images:
The photos show a selection of the system‘s findings
The diagram is a visualisation of the word tree established in the first run: All object labels in their hierarchical order
Video available on request

body part matter object structure food solid whole food living thing artifact produce organism instrumentality article sheet plaything fixture structure fabric vegetable person animal plant device implement container equipment conveyance furnishing medium tableware board teddy area root vegetable defender contestant bullfighter worker traveler creator newcomer consumer communicator unfortunate female entertainer thrower adult intellectual expert relative groom chordate carnivore vascularplant mechanism instrument ski electronicdevice machine electrical device brush wheeled vehicle bag cup glass dish game equipment photographicequipment electronicequipment furniture vehicle glass cutlery surfboard lawman athlete banderillero skilled worker employee rider commuter artist homeless woman performer professional authority offspring vertebrate herb rotatingmechanism mechanicaldevice control weapon display computer bicycle self-propelledvehicle shoulder bag wineglass ball camera television equipment seat table bedroom furniture fork policeman ballplayer gymnast official workman unicyclist baggage dancer juggler educator child bird mammal vegetable circle machine regulator gun digitalcomputer push-bike motorvehicle softball bocce ball racquetball chair toilet seat sofa bench dining table fielder ballet dancer gallinaceousbird passerine aquatic bird gamecock placental disk paintball gun personalcomputer car folding chair swivel chair barber chair straight chair wheelchair armchair park bench columbiformbird seabird waterfowl carnivore rodent pachyderm portable computer convertible camp chair deck chair pigeon anseriform bird canine feline mouse dog cat working dog hunting dog domestic cat