Allgemein
Wir empfehlen einen Standard-Zweistufenansatz. Zunächst werden eine Vielzahl von Prozessen genutzt, um die Inhalte auf URL-, Medien-/Text- sowie Textbausteinebene anzureichern, aka zu "taggen". In einem zweiten Schritt werden aus diesen Tags Entscheidungen getroffen, e.g., bzgl. Aktualität. Dadurch ergibt sich eine Hierarchie sowie Abfolge der Metadaten
Kontext und Risikoabschätzung
Die normal zu erwartenden Fehlerraten und Fehlertoleranzen, sowie die stets vorhandene Notwendigkeit und Möglichkeit händisch einzugreifen, nachzujustieren oder zu korrigieren propagaiert selbstverständlich durch diese Hierarchie. Daher kann nie ein Metadatum für sich allein stehend betrachtet werden. Es muss stets im Kontext gesehen werden.
Zeitabschätzung
Die gegebenen Zeitabschätzungen, bspw. in Personenmonaten (PerMo) sind vorläufig zu sehen. Sie basieren kontinuierlicher Integration (CI/CD) der gefundenen Lösungsansätze. Bei Änderungen von Spezifikationen, e.g., 3. Pädagogisch oder 4. Rechtliche Unauffälligkeit verlängern sich diese Zeitabschätzungen unbeestimmt. Die Zeitabschätzung propagiert entsprechend in die abhängigen Metadaten weiter.
Volltext
Die Volltexterkennung ist essentiell für die Generierung vieler Felder.
Volltextgenerierung aus Quellseite wurde als POC ausprobiert. Vorhandenes Open Source Tool Trafilatura
Abhängigkeit
Es gibt Abhängigkeiten zwischen den Metadaten. Manche werden für andere benötigt.
Ein erster Graph dazu:
Orthogonalität
Es reicht aus ein Metadatum zu filtern um entsprechend passende Inhalte zu finden. Metadaten können abhängig sein