Allgemein

Allgemein

Wir empfehlen einen Standard-Zweistufenansatz. Zunächst werden eine Vielzahl von Prozessen genutzt, um die Inhalte auf URL-, Medien-/Text- sowie Textbausteinebene anzureichern, aka zu "taggen". In einem zweiten Schritt werden aus diesen Tags Entscheidungen getroffen, e.g., bzgl. Aktualität. Dadurch ergibt sich eine Hierarchie sowie Abfolge der Metadaten


Kontext und Risikoabschätzung

Die normal zu erwartenden Fehlerraten und Fehlertoleranzen, sowie die stets vorhandene Notwendigkeit und Möglichkeit händisch einzugreifen, nachzujustieren oder zu korrigieren propagaiert selbstverständlich durch diese Hierarchie. Daher kann nie ein Metadatum für sich allein stehend betrachtet werden. Es muss stets im Kontext gesehen werden.


Zeitabschätzung

Die gegebenen Zeitabschätzungen, bspw. in Personenmonaten (PerMo) sind vorläufig zu sehen. Sie basieren kontinuierlicher Integration (CI/CD) der gefundenen Lösungsansätze. Bei Änderungen von Spezifikationen, e.g., 3. Pädagogisch oder 4. Rechtliche Unauffälligkeit verlängern sich diese Zeitabschätzungen unbeestimmt. Die Zeitabschätzung propagiert entsprechend in die abhängigen Metadaten weiter.

Volltext

Die Volltexterkennung ist essentiell für die Generierung vieler Felder.


Volltextgenerierung aus Quellseite wurde als POC ausprobiert. Vorhandenes Open Source Tool Trafilatura



Abhängigkeit


Es gibt Abhängigkeiten zwischen den Metadaten. Manche werden für andere benötigt.

Ein erster Graph dazu:


Orthogonalität

Es reicht aus ein Metadatum zu filtern um entsprechend passende Inhalte zu finden. Metadaten können abhängig sein