nw  

SEMANTIC SIMILARITY

Zusammenfassung

In dieser Arbeit wird sich mit dem Thema auseinandergesetzt, wie ein Computer die semantischen Ähnlichkeit zweier Wörter bewerten kann. Es wurde Recherchiert, welches der aktuelle Stand der Forschung ist und welche verschiedenen Vorgehensweisen es gibt, die semantische Ähnlichkeit zu messen. Eines der modernsten Verfahren wurde genauer betrachtet und implementiert.

Schlüsselbegriffe
Zielsetzung

Am Ende soll ein C#-Programm in einem NuGet-Package erstellt werden. Dieses soll aufgrund von Input Daten trainiert und danach auf die Ähnlichkeiten von zwei verschiedenen Wörtern numerisch wiedergabefähig sein. Nebst dem Programm und dessen Quellcode, wird eine wissenschaftliche Dokumentation über das Vorgehen des technischen Hintergrundes und des Ergebnisses aufgezeichnet.

Ausgangslage

Für viele Anwendungsfälle wäre es wünschenswert, man könnte die semantische Ähnlichkeit von zwei beliebigen Begriffen beurteilen. Eine solche Funktion müsste „Hund“ und „Katze“ als ähnlicher beurteilen, als „Hund“ und „Zeitgeist“, da erstere Begriffe ähnlichere Themen beschreiben. Mit einer solchen Funktion kann man beispielsweise auf einer Plattform anhand des Hobbies eines Benutzers den passenden Verein vorschlagen, auch wenn das Hobby nicht direkt im Vereinstitel erwähnt wird. Es liessen sich auch Dokumente kategorisieren oder automatisch Synonyme finden.

Ergebnisse

Es wurde ein Programm entwickelt, mit der die Ähnlichkeit von zwei Wörtern in einer numerischen Zahl ausgedrückt werden kann. Diese Zahl korreliert zu 15.93% mit den getesteten menschlichen Einschätzungen. Zufällige Werte korrelieren mit den selbigen zu 7.5%.

Projektdaten
Projektdauer: Februar 2014 bis August 2014
Aufwand in Personenstunden: 360
Teamgrösse: 1 Person
Projekttyp: Bachelor Thesis
Auftraggeber
Institut für 4D-Technologien
Bahnhofstrasse 6
CH-5210 Windisch
http://www.fhnw.ch/technik/i4ds/
FHNW
Projektteam

Jan Fässler

Kontakt
Prof. Dr. André Csillaghy andre.csillaghy@fhnw.ch
Simon Felix simon.felix@fhnw.ch
<< zurück