Así es la piedra Rosetta del siglo XXI

La piedra Rosetta permitió a los historiadores conocer el significado de los jeroglíficos egipcios. Este descubrimiento abrió las puertas al conocimiento de esta civilización, y hoy, la historia cuenta con un nuevo aliado. Gracias a la inteligencia artificial es posible encontrar palabras en legajos digitalizados de los siglos XV al XIX. Sin duda, una gran ayuda para los historiadores.

Indagar en el pasado

Conocer lo que sucedió, con detalle y veracidad, te permite entender cómo hemos llegado a la situación actual. Uno de los problemas de los historiadores, en algunos casos, es enfrentarse a una ingente cantidad de fuentes originales escritas a mano. En algunos casos es realmente difícil entender la caligrafía, por lo que es necesario tener conocimientos de epigrafía y experiencia.

Sin embargo, gracias a los avances en diseño de algoritmos e inteligencia artificial, los historiadores cuentan con una nueva herramienta para descifrar el pasado. El proyecto Carabela ha creado un algoritmo que detecta palabras en legajos de los siglos XV al XIX y es capaz de encontrar palabras sueltas o combinaciones. 

El equipo dirigido por Carlos Alonso lleva 12 años buscando soluciones tecnológicas para procesar textos escritos a mano. El resultado, desarrollado entre 2017 y 2019, permite reconocer palabras en imágenes de bajo contraste y calidad, las cuales hacían que las letras fueran ilegibles

Un método fiable

El proyecto se centra en 150.000 imágenes de documentos relacionados con la arqueología subacuática, la cual se dedica a buscar yacimientos submarinos o estructuras sumergidas. Estos documentos digitalizados pertenecen al Archivo General de Indias y al Archivo Histórico Provincial en Cádiz.

Si te preguntas cómo funciona, el algoritmo trabaja pixel por pixel para descifrar la imagen utilizando diversos modelos ópticos. Se analiza cómo se combinan las palabras y, en la actualidad, el algoritmo consigue unos resultados acertados en el 80 % de las veces. Para que éste aprendiera a hacer su trabajo, se utilizaron 514 documentos al azar con diferentes contrastes, calidades y tipos de letra.

Cada palabra fue transmitida al algoritmo, así como sus diferentes variaciones y sinónimos a lo largo del tiempo. Así, con tan solo 10 documentos el sistema, ya conocía cómo debía actuar y empezó a ofrecer resultados positivos. De hecho, en su primera prueba real, encontró, en 130.000 archivos, 130 nuevas referencias a la palabra naufragio que nadie había visto. 

Además, el potencial de Carabela es enorme, ya que entre el 80 y el 90 % del contenido de los documentos es desconocido. En total, solo el Archivo de Indias posee 80 millones de documentos, una cantidad que a un grupo de seres humanos le llevaría décadas empezar a cotejar. Sin embargo, con este algoritmo podrías encontrar aquellas palabras o frases que te interesen en pocos segundos.

Esto abre las puertas a todo tipo de descubrimientos y estudios sobre estos documentos, algo que podría extenderse a otros periodos históricos. No obstante, aún queda mucho trabajo para pulir el algoritmo al máximo, como que puedan buscarse párrafos completos en la ingente masa de documentos que han quedado para la posteridad.

En definitiva, Carabela es una auténtica piedra Rosetta contemporánea, la cual permitirá completar huecos en el conocimiento del pasado y realizar nuevos descubrimientos sin precedentes. Además, aligera el trabajo de los historiadores, quienes solo tendrán que indicar qué palabras o frases buscan para ir directos a los documentos.