Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

Version 1 Next »

Feldbeschreibung

Eine Beschreibung des Inhalts.

PflichtJa
TypString
Feldnamecclom:general_description

Redaktionshinweis

Die Beschreibung sollte häufige Suchbegriffe (Keywords) enthalten. Nutzer*innen, die nach dem Bildungsinhalt suchen, können ihn dadurch besser finden. Redakteur*innen geben in einem guten Beschreibungstext einen Überblick über den Bildungsinhalt und platzieren dabei die Keywords möglichst am Anfang der Beschreibung.

Bisherige Generierung

Die Beschreibung wird beim Upload in der Redaktionsumgebung manuell eingegeben. Crawler generieren den Text aus seitenspezifischen Inhalten.

Crawler

In den Crawlern wird die Beschreibung über das LOM abgedeckt.

Validierung

Eine Validierung des Fließtexts gegen einen Standard ist nicht möglich.

Die Beschreibung sollte mit anderen Text-Metadaten korrelieren, e.g., Titel, freie/feste Schlagworte. Die Sprache sollte zum Sprachniveau passen. Sie sollte frei von - offensichtlichen - Sprach- und Grammatikfehlern sein.

Generierungs- / Validierungskonzepte

Anforderungen

Die Beschreibung muss eine hohe Korrelation zu anderen Text-Metadaten aufweisen. Sie sollte länger als der Titel und nicht identisch sein. Schlagworte sollten sich in der Beschreibung wiederfinden.

Die Texte müssen in der jeweiligen Sprache im passenden Sprachniveau erstellt sein. Sie müssen grammatikalisch Sinn ergeben.

Lösungsideen / -konzepte


Datengrundlage

Die Beschreibungstexte können entweder direkt aus dem Volltext der gecrawlten Seite oder aus Schlagwörtern und Titel generiert werden.

Wir bevorzugen ersteres, da Titel und Schlagwörter ggf. auch aus dem Volltext generiert wurden. Eine Möglichkeit weitere Informationen bzgl. Volltext etc. aus einer Quelle zu extrahieren könnte neben Scrapy mit dem Tool Travilatura geschehen. 

PoC's


Technisch triviale Beispiele werden direkt am Code von MetaLookup diskutiert.
Ein erster PoC ist ebenfalls bei MetaLookup vorgestellt.


Metriken

Das OpenSource-Tool SpaCy bietet inherent Möglichkeiten die Ähnlichkeit von Texten zu berechnen. Die berechnete Kosinus-Ähnlichkeit ist ein guter Indikator, welche weiterfühernde Schritte an der Beschreibung nötig sind. Werte um 0 oder kleiner sowie nahe 1 deuten auf eine ungenügende Beschreibung hin. Idealerweise sind Beschreibung sowie Titel & Co. ähnlich, aber weder identisch noch unkorreliert. 

Die minimale und maximale Länge in Zeichen ist relevant.




<< Zurück zur Startseite / Gesamtinhaltsverzeichnis


Inhalt dieser Seite:


Auf dieser Seite schrieben:

  • No labels