Der Beginn mit einem Studium ist wie das Erklimmen eines Berges. Eine Berg- und Talfahrt der Motivation und der Gefühle. An seinem Tiefpunkt angelangt, gilt es seinen inneren Schweinehund zu überwinden, nicht aufzugeben und zu Ende bringen was man begonnen hat. Es zahlt sich aus. Das unbeschreibliche Gefühl es endlich geschafft zu haben. Alle Hürden und Hindernisse hinter sich zu lassen ist das Grösste. Endlich oben an der Spitze des Berges angelangt.

Herzlichen Glückwunsch an Nicole und Stefano, die den Berg bezwungen haben. Ihren Abschluss Bachelor of Science haben sie sich mehr als verdient und eine tolle Bachelorarbeit abgeliefert. Gratulation…

Am 9. Juni 2017 wurde ihre Arbeit an der SwissText 2017 präsentiert mit dem Thema „Named Entity Recognition mit Deep Learning mit wenig Daten“.

Es ist uns ausserdem eine grosse Ehre eine Zusammenfassung Ihrer Bachelorarbeit hier auf unserem Blog veröffentlichen zu dürfen.

Viel Spass beim Lesen und schaut in das Präsentationsvideo rein.

HERZLICHEN GLÜCKWUNSCH

Zusammenfassung Bachelorarbeit

Named Entity Recognition mit Deep Learning mit wenig Daten

In dieser Arbeit soll ein Named Entity Recognition Tool erstellt werden, welches anhand einer Liste von Entitätsnamen Dokumente automatisch annotiert und ein neuronales Netzwerk trainiert. Dazu werden verschiedenen Ansätze wie Transfer Learning, ein Netzwerk pro Entität zu trainieren und das Verwenden von teilannotierten Daten überprüft. Als Basis für diese ARbeit dient eine Kombination aus einem Bildrectional Long Short Term Memory Network und einem Convolutional Neural Network. Dabei wird das Long Short Term Memory Network für die Wort-Ebene und das Convolutional Neural Network für die Zeichen-Ebene verwendet

Ein weiterer Teil dieser Arbeit war die Teilnahme am CAp 2017 Wettbewerb für Named Entity Recognition auf französischen Tweets. Das finale System war für den Wettbewerb noch nicht verfügbar, aber mit dem Transfer-Learning-Ansatz wurde der 5. Platz erreicht mit einem F1-Score von 50.05. Transfer Learning kann das Resultat eines neuronalen Netzwerks verbessern und ist besonders in Kombination von teilannotierten Daten interessant. Auch das Trainieren eines eigenen Netzwerks pro Entität verbessert das Resultat. Eine Kombination mit Transfer Learning bildet die Basis für das vorgeschlagene Named Entity Recognition Tool. Dabei dienen teilannotierte Daten als Quelle für das Transfer Learning auf die eigentliche Zieldomäne, wobei jede Entität einzeln trainiert wird. Da aber auf jeden Fall annotierte Daten notwendig sind, bietet das Tool eine Oberfläche um die automatisch annotierten Daten zu korrigieren.

Das beste System basiert darauf, dass von mehreren Quellen in einer oder mehreren Sprachen ein Transfer Learning pro Entität angewandt wird. Um gute Resultate zu erhalten, wurden pro Datensatz insgesamt 3000 manuell annotierte Sequenzen verwendet. Auf den französischen CAp 2017 Daten wird mit Transfer Learning vom CoNLL-2013-Datensatz und teilannotierten französischen Tweets ein F1-Score von 60.78 auf den Entitäten „geoloc“, „person“ und „organisation“ erreicht. Auf englischen Newstexten mit Transfer Learning von teilannotierten englischen Newstexten wird für dieselben Entitäten ein F1-Score von 85.75 erreicht.

Abonniere unseren Newsletter

Stets auf dem aktuellen Stand über News und Events rund um das Thema Document Management.

Vielen Dank. Ihre Anmeldung war erfolgreich.