Regierungen und UN-Organisationen haben schon lange erkannt, dass das Einschalten von Radiosendern eine gute Möglichkeit ist, um über aufkommende Probleme auf dem Laufenden zu bleiben. Die Überwachung von etwa 250 Sendern würde jedoch eine engagierte Armee von Zuhörern erfordern, die zahlenmäßig weit über das vorhandene Personal und das Budget hinausgeht. Hinzu kommt, dass die Sendungen in regionalen Sprachen und Dialekten ausgestrahlt werden, die die meisten Nicht-Einheimischen nicht sprechen.
Aber was wäre, wenn Computer das Zuhören übernehmen und Agenturen mit kritischen Highlights aus der Flut der Radiogespräche versorgen könnten?
Warnende Worte
Niesler erfuhr von der Notwendigkeit, Radiosender zu überwachen, als er begann, mit dem von der UNO betriebenen „Pulse Lab“ in Uganda zusammenzuarbeiten, das sich auf Innovationen zur Unterstützung der Armen und Schwachen konzentriert. Gemeinsam mit zwei Postdoktoranden aus seinem Labor, Raghav Menon und Armin Saeb, machte er sich an die Arbeit, um ein Spracherkennungssystem für Talk-Radios zu entwickeln.
Es war eine viel schwierigere Herausforderung als normale Spracherkennungsprojekte, erklärt Niesler, denn normalerweise beginnen diese Projekte mit dem Zugriff auf eine enorme Menge an Analysen der gesprochenen Wörter einer Sprache. Für weit verbreitete Sprachen wurde ein Großteil dieser Analyse bereits im Laufe der Jahre von Hunderten von Forschern durchgeführt, die auf unbegrenzte Mengen von Audioaufnahmen und dazugehörigen Transkriptionen zugreifen – eine unverzichtbare Ressource.
Die Analyse ist entscheidend, denn ein Spracherkennungssystem kann nichts lernen, indem es sich einfach nur Sprachproben anhört; ihm muss gesagt werden, welche Laute für welche Wörter stehen, und da kommt die Analyse ins Spiel. Für die drei Dialekte, die das ländliche ugandische Talkradio dominierten – Luganda, Acholi und ugandisches Englisch –, existierten jedoch praktisch keine dieser Analysen oder Transkriptionen. Zudem verfügte Niesler nicht über Dutzende von Sprachexperten, die er auf die Aufgabe hätte ansetzen können, für die ein Experte 20 Stunden Arbeit für jede Stunde Sprache benötigt. Dies bedeutete im Umkehrschluss, dass er und sein Team eine neue Technologie entwickeln mussten, um die Spracherkennung auf der Grundlage eines winzigen Pools von transkribierten Proben aufzubauen. „Wir mussten mit so wenig Daten wie möglich auskommen“, sagt er.
Das Parlamentsgebäude in Kampala, Uganda (Source: Zach - stock.adobe.com)
Der erste Trick, auf den das Team kam, bestand darin, die Analyse, die für andere, breiter analysierte afrikanische Sprachen verfügbar ist, auf die lokalen ugandischen Sprachen anzuwenden. „Wir haben die Maschine darauf trainiert, nach Gemeinsamkeiten in den gesprochenen Sprachen zu suchen“, sagt Niesler. „Auf diese Weise konnten wir mit einem mehrsprachigen Modell beginnen, das eine Reihe von Wörtern in unserer Zielsprache erkannte und Vermutungen über andere anstellen konnte.“
Fischen nach Schlüsselwörtern
Um noch weiter zu gehen, arbeitete das Team mit dem Pulse Lab zusammen, um eine Liste von Wörtern zu erstellen, die im Falle einer Krise besonders nützlich sein könnten – Wörter wie „Überschwemmung“, „Cholera“ und „Flüchtlinge“. Das Team brachte Muttersprachler der drei Zielsprachen dazu, jedes Schlüsselwort zweimal zu sagen, um gute Klangbeispiele zu erhalten, die zum Trainieren des Systems verwendet werden konnten.
Dennoch musste das System in der Lage sein, beim Hören einer Radiosendung diese spezifischen Wörter aus einer riesigen Flut von Lauten herauszufischen. Mehr als sieben Millionen Wörter werden täglich auf den ugandischen Sendern gesprochen, alle von einer Vielzahl von Sprechern mit unterschiedlichen Akzenten, in unterschiedlichen Kontexten. Um mit der Ungewissheit klarzukommen, trainierte Nieslers Gruppe ihr System darauf, jeden Klangblock nach der Wahrscheinlichkeit zu bewerten, dass er eines der Schlüsselwörter darstellt. „So lernte das System, sich auf die wichtigsten Merkmale jedes Geräusches zu konzentrieren, um bestmöglich einschätzen zu können, ob es sich um ein Schlüsselwort handelt“, erklärt Niesler.
Um das System einzusetzen, entwickelte das Pulse Lab kleine, kostengünstige Funküberwachungsgeräte und montierte sie an verschiedenen Orten in den ländlichen Gebieten Ugandas, so dass die meisten Radiosender ein Gerät in ihrem Sendebereich haben. Diese Geräte leiten die Aufnahmen der Sendungen über WLAN an das Pulse Lab weiter, das die Aufnahmen kontinuierlich durch Nieslers Schlüsselwort-Erkennungssystem laufen lässt. Wenn das System gute Kandidaten für Schlüsselwörter in einem Segment findet, wird dieses Segment markiert und von einem Mitarbeiter abgehört. Zeigt das Segment eine sich abzeichnende Krise, ist die UNO in der Lage, innerhalb von zehn Minuten Hilfsmaßnahmen in Gang zu setzen. Wenn das markierte Segment Kommentare beinhaltet, die für Probleme in dem Gebiet relevant sind, aber nicht auf eine Krisensituation hindeuten, dann werden die Informationen in eine Datenbank eingegeben, die als Grundlage für Entscheidungen der UNO und der Regierung über künftige Hilfsmaßnahmen dient.
Aufbau des Pools
Das System war ein großer Erfolg und hat in den letzten zwei Jahren Frühwarnungen vor Hunderten von potenziell ernsten lokalen Krisen geliefert, die entlegene Teile des Landes betroffen haben. Politische Entscheidungsträger und Manager der Entwicklungshilfe nutzen die Datenbank der untersuchten Sendungen regelmäßig, um die Programme besser auf die Bedürfnisse abzustimmen und ineffektive Maßnahmen auszusortieren. Selbst das Ausbleiben von Treffern bei bestimmten Stichwörtern hat sich als nützlich erwiesen: Die Seltenheit, mit der das Stichwort „Malaria“ auftauchte, machte die Behörden zum Beispiel darauf aufmerksam, dass das Bewusstsein für die Krankheit in ländlichen Gebieten gering ist, was auf die Notwendigkeit verstärkter Bemühungen hindeutet, auf sie aufmerksam zu machen.
Nieslers Team hat das Spracherkennungssystem weiter verbessert, um die Trefferquote bei den Suchbegriffen zu erhöhen. Die Forscher haben auch daran gearbeitet, die Anzahl der Wörter, die es in den drei Zielsprachen erkennen kann, zu erhöhen, so dass das System vollständigere und genauere Transkriptionen erzeugen kann, was den Arbeitsaufwand für die menschlichen Zuhörer verringert. „Wir erweitern kontinuierlich den Pool an Sprachdaten, mit denen wir das System weiter trainieren können“, sagt Niesler. „Verglichen mit dem, was üblichen Spracherkennungsprojekten normalerweise zur Verfügung steht, arbeiten wir immer noch mit einem winzigen Datensatz. Aber wir sind gut darin geworden, mit wenig viel zu erreichen.“ 