Lernen von ?hnlichkeitsfunktionen für Tabellen
Auf einen Blick
Sicherheit und Verl?sslichkeit, 金贝棋牌s-, Kommunikations- und verteilte Systeme
Informationssysteme, Prozess- und Wissensmanagement
DFG Sachbeihilfe
![]()
Projektbeschreibung
Tabellen sind ein effizientes und popul?res Mittel, um strukturierte Daten in unstrukturierte Texte einzubetten, wie zum Beispiel in wissenschaftliche Ver?ffentlichungen, Gesch?ftsberichte, oder auch Webseiten. Typische Suchmaschinen nutzen aber die speziellen Eigenschaften von Tabellen (Struktur bestehend aus Spalten und Zeilen, Spaltenüberschriften, semantische Einheitlichkeit in Werten in Spalten oder in Zeilen etc.) nicht aus, sondern behandeln Tabellen meistens einfach als Menge von W?rtern. Suchmethoden, deren Ergebnis direkt Tabellen aus einem gegebenen Korpus w?ren, würden Zugang zu einer Fülle an strukturierten Daten liefern, die auf anderen Wegen kaum zu bekommen sind. Eine solche Suchmethode ist die Tabellen?hnlichkeitssuche: Gegeben eine Anfragetabelle, sollen alle Tabellen in einem Korpus gefunden werden, die zu dieser ?hnlich sind. In diesem Projekt wollen wir Verfahren erforschen, die ?hnlichkeitsma?e für Tabellen in einem überwachten Verfahren lernen. Diese ?hnlichkeitsma?e sind fundamentale Komponenten von Verfahren zur Tabellen?hnlichkeitssuche, finden aber auch Anwendung in anderen interessanten Problemstellungen, wie der Informationsextraktion aus Tabellen oder dem Clustern von Tabellen. Unsere Verfahren werden sich auf moderne Methoden des Deep Learning stützen, die wir auf verschiedenen Ebenen einsetzen wollen; zum einen, um die Orientierung einer Tabelle automatisch zu erkennen, und zum anderen um Repr?sentationen von Tabellen zu erlernen, die einen einheitlichen Rahmen zum Vergleich ihrer Eigenschaften und ihres Inhalts schaffen. Alle Verfahren werden anhand eines Gold Standards von Tabellenpaaren mit manuell annotierter ?hnlichkeit aus einem frei verfügbaren umfassenden Volltextkorpus wissenschaftlicher Texte entwickelt und evaluiert. Goldstandard sowie alle entstehende Software werden der Wissenschaft in einem Open Source Modell zur Verfügung gestellt werden.
Beteiligte Einrichtungen
Institut für Informatik
Anschrift
Johann von Neumann-Haus, Institutsgeb?ude, Rudower Chaussee 25, 12489 BerlinAllgemeiner 金贝棋牌Tel.: 030 2093-41140Mathematisch-Naturwissenschaftliche Fakult?t
Anschrift
Johann von Neumann-Haus, Institutsgeb?ude, Rudower Chaussee 25, 12489 BerlinWissensmanagement in der Bioinformatik
Anschrift
Johann von Neumann-Haus, Institutsgeb?ude, Rudower Chaussee 25, 12489 BerlinAllgemeiner 金贝棋牌Tel.: 030 2093-41280