Nuevo artículo: Science through Wikipedia

Nuevo artículo: Science through Wikipedia

Publicación original de Wenceslao Arroyo-Machado en bibliometriaobarbarie.com


 

Recientemente publicamos un artículo en PLOS ONE en el que presentamos una nueva metodología para mapear la ciencia a través de Wikipedia, adaptando la teoría de la co-citación a este entorno, al mismo tiempo que la aplicamos en un caso práctico con un extenso dataset relativo a su edición inglesa. Una investigación que además es fruto del proyecto BBVA “Knowmetrics – evaluación del conocimiento en la sociedad digital”.

¿Por qué la Wikipedia?

Wikipedia

Si bien el uso y contenidos de esta enciclopedia suelen ser objeto de crítica, siendo además uno de los sitios web con más tráfico del mundo, con las referencias bibliográficas sus editores buscan otorgarle rigor a estos contenidos. Una acción que es transparente y dispone de un control de calidad, además de una normativa y recomendaciones tanto para usuarios relacionados con el ámbito académico como para aquellos que no lo están, todo con el fin de evitar actividad nociva. Al respecto, es importante destacar que los bots, cuyo listado es incluso público, no actúan citando de manera automatizada sino que su uso está más enfocado a la corrección de errores.

Una vez explicada la validez de estas citas como medida altmétrica, cabe destacar que los resultados alcanzados en este artículo muestran precisamente diferencias respecto a Scopus y otros medios sociales. Es por ello que encontramos que Wikipedia, a través de sus editores, ofrece una visión diferente de la ciencia.

 

Nuestro dataset y herramientas

En primer lugar hay que remarcar que esta propuesta continúa otra reciente pero centrada únicamente en las Ciencias Sociales. Ya en dicho trabajo alcanzamos resultados relevantes que distanciaban la visión de esta disciplina en un entorno abierto y colaborativo como el de Wikipedia del de otros académicos y controlados como Scopus, aunque esta disciplina solo representa un 5 % de los artículos analizados ahora. Pero además de dicha diferencia en los datos, también hemos ampliando ahora el marco metodológico.

Es por ello que los datos empleados esta vez están compuestos del total de referencias bibliográficas de la Wikipedia disponibles Altmetric.com (1 433 457 inicialmente). No obstante, estas se vieron reducidas tras su preprocesamiento y la vinculación de cada artículo con su revista, recogida en el Cite Score Metrics de Elsevier, con el fin de obtener datos complementarios a ellos como las categorías temáticas. Un proceso que en su totalidad ha sido llevado a cabo en R.

Proceso metodológico seguido para la recolección, limpieza y vinculación de los datos

 

Tras ello la muestra final utilizada para el estudio quedó compuesta de 847 512 referencias incluidas en 193 802 entradas de Wikipedia que citan 598 746 artículos pertenecientes a 14 149 revistas. Mientras que como principal resultado se han generado diferentes mapas de co-citación que muestran cómo los artículos y revistas son citados desde Wikipedia, además de llevar un análisis estadístico de estas, también a diferentes niveles.

 

Desgranando la Ciencia en la Wikipedia

En primer lugar, destaca la llamativa presencia artículos relativos a las disciplinas de Medicina y Bioquímica, mientras que aquellos pertenecientes a las Ciencias Sociales y las Humanidades se encuentra en un segundo plano. Estas diferencias son apreciables también en la propia obsolescencia de las referencias citadas.

Scatter plot de revistas por citas recogidas en Scopus y Wikipedia en 2016 a artículos publicados entre 2013 y 2015

 

La mayoría de artículos citados en Wikipedia reciben sólo entre una y tres citas, estando ante un fenómeno más extremo que la ley de Pareto, mientras que las revistas siguen una distribución power-law. Tras describir la distribución de las citas en Wikipedia, los resultados muestran nuevamente diferencias entre Wikipedia y Scopus, tanto en la cobertura de los artículos como en las citas que estos acumulan, con las cuales no hemos podido establecer causalidad.

Por su parte resulta relevante que pese al enfoque abierto de Wikipedia, las revistas de Open Access solo representan un 13 % del total de las revistas citadas, encontrando entre las más referenciadas las de alto impacto, aunque con algunas diferencias respecto a otros medios sociales.

Red de co-citación Wikipedia
Red de co-citación de revistas en Wikipedia: A) sin pathfinder, B) con pathfinder

 

A través de los mapas realizados, en los cuales se ha aplicado como método de poda el algoritmo Pathfinder (con él reducimos las relaciones a solamente aquellas más fuertes), se han conseguido retratado las relaciones que los editores establecen entre los artículos científicos y las revistas cuando los citan conjuntamente en una misma entrada. Gracias a ello es posible ver cómo las revistas se agrupan bajo sus cuatro áreas principales (FísicaCiencias de la SaludCiencias Sociales y Ciencias de la Vida) y su interdisciplinariedad, ocupando una posición central aquellas de carácter multidisciplinar, donde destaca el papel de Science, Nature, PNASPloS ONE y The Lancet.

Las disciplinas por su parte están articuladas en torno a la Medicina y la Bioquímica, algo que también se puede apreciar a nivel de especialidades. Ambas están situadas en el centro de la red, manteniendo entre sí la co-citación más fuerte. El resto se dividen entre ellas, quedando por ejemplo MatemáticasInformática o Ingenería del lado de la Biomquímica, mientas que Artes y HumanidadesCiencias Sociales y Psicología permanecen con Medicina.

Red Pathfinder de la co-citación de las disciplinas
Red Pathfinder de la co-citación de las disciplinas

 

Asimismo, son varias las limitaciones de este estudio, donde destaca la co-citación latente al trabajar con diferentes categorías temáticas para un mismo artículo o revista y todas aquellas derivadas del uso de diferentes fuentes de datos.

 

Citar este artículo como:

Arroyo-Machado, W., Torres-Salinas, D., Herrera-Viedma, E., & Romero-Frías, E. (2020). Science through Wikipedia: A novel representation of open knowledge through co-citation networks. PLOS ONE15(2), e0228713.

DOI: https://doi.org/10.1371/journal.pone.0228713