nw  

Crawlen, auswerten und visualisieren von Kompetenzen für die Technoparks Schweiz

Zusammenfassung

Für die Schweizer Technoparks soll ein Webportal entstehen, auf dem Besucherinnen und Besucher die Technopark-Unternehmen kennenlernen und durchsuchen können. Unsere Arbeit, eine Kompetenzlandkarte über die Unternehmen, wird ein Teil des Webportals sein. Nutzende können auf eine spielerische Art die Kompetenzen erforschen oder auch gezielt nach einem Unternehmen mit einer gewünschten Kompetenz suchen. Die Daten für die Visualisierung werden aus den deutschsprachigen Websites der Technopark Unternehmungen gecrawlt. Wir versuchen aus einer definierten Domäne Informationen aus unstrukturierten, maschinell gelesenen Daten zu gewinnen und diese als Kompetenz zu erkennen. Für die Erkennung der gecrawlten Informationen bilden wir die extrahierten Nomen in einem Kompetenz-Thesaurus ab. Bei der Extraktion der Nomen werden verschiedene openNLP Methoden wie Tokenization, Text Segmentation / Sentence Segmentation, Part of Speech Tagging (POS) eingesetzt. Die Indexierung der Nomen und Kompetenzen optimieren wir mit Wortstammbildung (Stemmer) und Stoppwortlisten.

Systemübersicht

1/2 Daten mit Nutch crawlen | 3 Daten sind in Solr gespeichert | 4 XML-Thesaurus in Solr speichern | 5 Nouns Extractions aus den Websites | 6 Thesaurus Term / Nouns Matching in Java | 7 Datenvisualisierung im Webbrowser mit D3, Javascript, HTML, CSS.

Schlüsselbegriffe

Apache Nutch 1.7, Solr 4.6.1, Java, D3, HTML5, CSS3, JavaScript, JSON, XML
Kompetenz-Thesaurus (DISCO)

Zielsetzung

Die Kompetenzen der Technopark Unternehmen werden aus deren Webseiten extrahiert, modelliert und visualisiert. Den Nutzenden soll eine interaktive und explorative Suche nach Firmen und Kompetenzen ermöglicht werden.

Ausgangslage

Contexity erarbeitet einen Showcase, mit dem sie Interessenten die aktuellen Möglichkeiten der Informationssuche und -visualisierung vorstellen können. Für den Showcase sollen Daten über die Unternehmen der Technoparks schweizweit gesammelt und in geeigneter Form für Nutzende zugänglich gemacht werden.

Ergebnisse

Die Daten sind aus den Websites der Technopark Unternehmungen gecrawlt. Daraus sind die Nomen extrahiert, gewichtet und in Solr indiziert und mit den Begriffen aus dem Kompetenz-Thesaurus (DISCO) ausgewertet. Die Unternehmungen sind in den Kompetenzen, die durch den DISCO-Thesaurus vordefiniert sind, abgebildet. Die Visualisierung zeigt die Kompetenzen mit ihren Firmen. In der Visualisierung kann zwischen Firmendaten und Kompetenzen interagiert werden, sodass die Firmen mit ihren Kompetenzen vergleichbar werden.


Visualisierung - Übersicht alle Kompetenzen
Visualisierung Kompetenz Firma
Projektdaten

Frühlingssemester 2014, 720 Stunden, 2 Personen, Bachelorthesis

Auftraggeber


Contexity AG, Technoparkstrasse 2, 8406 Winterthur
Doris Divotkey / Alexandros Paramythis

Projektteam

Ramseier Sibylle
Schnell Caroline

Kontakt

Dr. Doris Agotai, Institut für 4D-Technologien, FHNW
Prof. Dr. Manfred Vogel, Institut für 4D-Technologien, FHNW

<< zurück