Formulario Contacto EPI Contacto
Copyright Copyright

 

Septiembre-octubre de 2020, vol. 29, núm. 5


Uso de Wikidata y Wikipedia para la generación asistida de un vocabulario estructurado multilingüe sobre la pandemia de Covid-19

Tomás Saorín; Juan-Antonio Pastor-Sánchez; María-José Baños-Moreno

Este artículo está en abierto

Resumen: Se propone un método para la construcción ágil y dinámica de vocabularios controlados, especialmente para los medios de comunicación, utilizando Wikidata y Wikipedia como fuentes de información terminológica. El método se aplica a la construcción de un vocabulario sobre la pandemia de Covid-19. Para ello se propone la explotación de la estructura de items y propiedades de Wikidata y de los enlaces salientes y entradas de los artículos de Wikipedia. Mediante un proceso de definición de reglas de expansión de relaciones de Wikidata se ha diseñado un algoritmo en el que se parte de un conjunto de items iniciales y en sucesivas iteraciones y revisión de resultados se recopilan las declaraciones relevantes a la temática del vocabulario. El algoritmo se ha implementado en una aplicación cuyo código y resultados de recopilación del vocabulario sobre la pandemia de Covid-19 se ha publicado en un repositorio abierto. Esto permite utilizar el algoritmo tanto para verificar los resultados usando las mismas u otras reglas de expansión como para su aplicación a la recopilación de vocabularios de otras temáticas. En los resultados también se analizan los elementos recopilados en cada iteración, la propuesta de validación mediante los enlaces entrantes y salientes de los artículos, dejando como futuros trabajos la aplicación de SKOS para la representación interoperable de los vocabularios obtenidos mediante este método.

Palabras clave: Vocabularios controlados; Metadatos; Etiquetas; Palabras clave; Ontologías; Medios de comunicación; Vocabularios para medios; Web semántica; Organización del conocimiento; Emergencias; Catástrofes; Pandemias; Covid-19; Coronavirus; SKOS; Wikidata; Wikipedia.

Using Wikidata and Wikipedia for assisted generation of a structured multilingual vocabulary about the Covid-19 pandemic

Abstract: A method for quickly and dynamically building controlled vocabularies, especially for the media, using Wikidata and Wikipedia as sources of terminological information, is proposed. The method is applied to construct a vocabulary about the Covid-19 pandemic. For this purpose, it is proposed to exploit the structure of items and properties of Wikidata and links and backlinks of Wikipedia articles. Using a process based on the definition of Wikidata relationship expansion rules, an algorithm was designed, starting from a set of initial items and then being executed in successive iterations, followed by a review of the results. In this way, the Wikidata entities relevant to the thematic coverage of the vocabulary are collected. The algorithm has been implemented in an open-source application whose results for the Covid-19 pandemic vocabulary collection have been published in a repository. The algorithm can be used to verify the results using the same or other expansion rules or applied to compile vocabularies in other thematic areas. The results in terms of the elements collected in each iteration and the validation proposal through the links and backlinks of Wikipedia articles are also analyzed. The application of SKOS to achieve an interoperable representation of vocabularies obtained by this method is proposed as future work.

Keywords: Controlled vocabularies; Metadata; Tags; Keywords; Ontologies; Media; Media vocabularies; Semantic web; Knowledge organization; Emergencies; Catastrophes; Pandemics; Covid-19; Coronavirus; SKOS; Wikidata; Wikipedia.