Referenzen

Kundenprojekte des Datenlabors

CC-BY-SA Wikimedia Deutschland

Download, Datenaufbereitung: Unterstützung von Wikimedia Deutschland e.V. bei der Zusammenstellung und Aufbereitung eines Auszugs aus Wikipedia für das Projekt Wikipedia to the Moon mit dem Ziel: Im Rahmen des Google Lunar X Prize Ende 2017 mit dem Landemodul des Berliner Teams PTScientists eine Disc mit rd. 31.900 exzellenten Wikipedia-Artikeln und Listen zum Mond zu schicken.

Hierzu wurden die rd. 31.900 Artikel und Listen in 176 Sprachen heruntergeladen, die Seiten in sprach-spezifischen Verzeichnissen gespeichert organisiert und zusätzlich die 7-fache Seitenmenge mit den Versionsgeschichten der Artikel analysiert, um die Namen der Artikel-Autoren und die Anzahl ihrer Beiträge zum jeweiligen Artikel zu dokumentieren.

Datenanalyse, Data Mining: Identifikation von Fehlern und Problemen in Video-Annotationen, Ermittlung der optimalen Anzahl von Themen-Clustern und Clustern von rd. 30.600 Video-Annotationen durch Topic Mining auf der Basis von LDA (Latent Dirichlet Allocation) für die Condat AG.

"Danke für die gute, schnelle und qualitativ hochwertige Zusammenarbeit." Sacha Weinberg,  Softwarearchitekt


Erzeugung von Referenzdatensätzen durch manuelle Extraktion von Nominalphrasen aus RBB-Beiträgen und der Beurteilung von Such- und Recommenderergebnissen.

"gute Arbeit !" Rolf Fricke, Projektleiter

Beratung: Analyse der Verwertungsmöglichkeiten von Patenten und Softwareprototypen zu einem innovativen Ontologie-basierten Vergleichsverfahren einer Forschergruppe an der Charité Berlin im Auftrag der  Max-Planck-Innovation GmbH.

"Ich bin mir sicher, dass Ihr Input einen sehr wichtigen Beitrag für die weiteren Entscheidungen und die daraus resultierenden Entwicklungen haben wird." Dieter Treichel,  Start-Up Manager

intelligent views

Datenanalyse, Qualitätssicherung: Grafische und numerische Analyse der Vorhersagequalität eines semantischen Modells zur Prognose der Erfolgswahrscheinlichkeit von Regressansprüchen für ein juristisches Dienstleistungsunternehmen. Begleitende Unterstützung des Entwicklungsprozesses von intelligent views durch Validierung der Prognosequalität und abschliessender unabhängiger Evaluation des Systems für den Kunden.

Europublic Werbeagentur

Data Mining: Konzeption und Validierung eines Ontologie-basierten Klassifikationsverfahrens zur Klassifikation von Weiterbildungsangeboten in Clusterthemen. Eine Beschreibung des Verfahrens und seine Evaluation  werden voraussichtlich 2015 beim Springer-Verlag veröffentlicht. Bei Interesse kontaktieren Sie mich für einen Vorabdruck. Die wichtigsten Ergebnisse des Projekts sind als Folien eines öffentlichen Vortrags dokumentiert.

 "Das Ergebnis ist sehr schön, sehr beeindruckend." Projektleiter Horst Junghans, Europublic


Datenaufbereitung, Knowledge Engineering
: Dokumentenanalyse und Extraktion von Begriffen zu den Clusterthemen: Energie und Umwelttechnik, IKT und Kreativwirtschaft, Optik und Mikrosystemtechnik, Life Science und Gesundheit, und Verkehr, Mobilität und Logistik. Erweiterung des Thesaurus des Suchportals der Weiterbildungsdatenbank Berlin-Brandenburg um rund 5.600 Bezeichnungen.

Datenanalyse: Vergleich der semantischen Suche und der Volltextsuche des Suchportals der Weiterbildungsdatenbank Berlin-Brandenburg über rd 28.000 Weiterbildungsangeboten anhand von 7.200 unterschiedlichen realen Benutzeranfragen, die innerhalb von 2 Monaten rd 206.000 mal angefragt wurden. Die Ergebnisse dieses Vergleichs werden im Mai/Juni 2015  im Buch "Corporate Semantic Web - Wie semantische Technologien in Unternehmen Nutzen stiften" beim Springer-Verlag veröffentlicht. Einen Vorabdruck können Sie unter den Publikationen herunterladen. 

Locadeo

Social Network Analysis: Konzeption einer Vorgehensweise zur Analyse von großen Beziehungsnetzwerken anhand eines rd. 2.85 Mio Beziehungen umfassenden Netzwerks zwischen rd. 9.500 Benutzern und ihren 2.5 Mio. Freunden, mit dem Ziel eng zusammenhängende Freundeskreise von bilateralen Relationship-Hubs besser unterscheiden zu können.

Zerstörtes Jüdisches Gewerbe 1930-1945

Datenaufbereitung: Aufbereitung von rd. 8.000 Datensätzen von jüdischen Unternehmen, die im Dritten Reich von Nationalsozialisten vernichtet wurden. Identifikation von Tippfehlern, Übersetzung historischer Straßennamen und Postleitzahlen in deren heutige Bezeichnungen und anschliessende Geocodierung der Adressen. Diese Daten werden im Rahmen der von EUROPUBLIC, structura und Ontonym umgesetzten Web- und AR-Anwendung Zerstörtes Jüdisches Gewerbe 1930-1945 genutzt.

Ontonym - Gesellschaft für semantische Webanwendungen mbH

Datenaufbereitung, Knowledge Engineering: Dokumentenanalyse, Analyse von Suchanfragen und Extraktion von Begriffen zu den Themenbereichen: Recruitment und Weiterbildung. Modellierung und Pflege eines Thesaurus von 10.700 Konzepten mit 16.350 unterschiedlichen mehrsprachigen Bezeichnungen. Dieser Thesaurus ist im produktiven Einsatz in den semantischen Suchen von ingenieurkarriere.de, dem Suchportal der Weiterbildungsdatenbank Berlin-Brandenburg und dem Karriereportal der Energiewirtschaft myworkbook.de

Datenanalyse: Entwicklung eines Verfahrens zum automatischen Vergleich von Suchmaschinen anhand großer Anzahlen von realen Benutzeranfragen. Das Verfahren vergleicht zwei Suchmaschinen über der gleichen Dokumentenmenge anhand ihrer Ergebnisse zu den Suchanfragen und ermittelt aus dem Vergleich Maße, die Aufschluß darüber geben, welche Suchmaschine Treffer liefert, die die andere nicht findet und wieviel Zeit der Benutzer bei der Inspektion der Suchergebnisse gegenüber der anderen Suchmaschine einsparen kann.

Datenaufbereitung, Knowledge Engineering: Analyse von rd. 3.100 Textdokumenten und Extraktion von Begriffen zu den Themenbereichen: Marketing, Werbung und Marktanalysen. Modellierung einer Synonymliste mit rd. 1.100 Synonymen für 2.600 der wichtigsten Begriffe. Die Synonymliste ist als Sharepoint Thesaurus im produktiven Einsatz.

Knowledge Engineering: Modellierung der initialen Ontologie zu IT-spezifischen Themen und Zusammenhängen für einen Kunden der Ontoprise GmbH.

Datenanalyse: Entwicklung eines patentierten Verfahrens für die T-Systems Nova GmbH zur Identifikation von signifikanten Stufen in den Relevanzbewertungen von linear geordneten Suchmaschinenergebnissen. Durch die ermittelten Stufen können relevantere von irrelevanten Treffern unterschieden werden. Das Patent wurde von der Deutschen Telekom angemeldet.