top of page

Doctorando chileno resuelve problema abierto en compresión de datos y recibe premio internacional

  • Writer: Comunicaciones  Cebib
    Comunicaciones Cebib
  • Jul 3
  • 3 min read

El reconocimiento destacó el desarrollo de un algoritmo que permite analizar grandes volúmenes de datos comprimidos sin necesidad de descompresión, resolviendo un problema abierto desde 2020 en el Ôrea de estructuras de datos.


Alejandro Pacheco, investigador del Centro de BiotecnologĆ­a y BioingenierĆ­a (CeBiB) y estudiante de doctorado del Departamento de Ciencias de la Computación de la Universidad de Chile, fue distinguido con el Best Student Paper Award en la prestigiosa conferencia CPM 2025 – 36th Annual Symposium on Combinatorial Pattern Matching, realizada entre el 17 y 19 de junio en MilĆ”n, Italia.

Ā 

El premio fue otorgado por su trabajo titulado ā€œCounting on General Run-Length Grammarsā€, desarrollado con la guĆ­a del acadĆ©mico e investigador principal del CeBiB, Gonzalo Navarro. El paper propone una innovadora estructura de datos que permite contar ocurrencias de patrones en textos comprimidos sin necesidad de descomprimirlos, lo que representa un avance importante para el procesamiento eficiente de grandes volĆŗmenes de información, como secuencias de ADN o archivos de texto masivos.


ree

Según lo señalado en una nota publicada por el Departamento de Ciencias de la Computación de la Universidad de Chile (ver aquí), Pacheco explica el desafío abordado:

Ā 

ā€œImagĆ­nate que tienes una biblioteca gigante con millones de libros, pero todos estĆ”n comprimidos en cajas especiales para ahorrar espacio. Cuando quieres saber cuĆ”ntas veces aparece una palabra especĆ­fica en todos los libros, normalmente tendrĆ­as que descomprimir cada caja, buscar la palabra, y volver a comprimir todo – un proceso muy lento. Nuestro trabajo resuelve este problema para un tipo particular de compresión llamada GramĆ”ticas Libres de Contexto con Reglas de Tipo Run-Length (RLCFGs). Desarrollamos el primer algoritmo que puede contar cuĆ”ntas veces aparece un patrón en textos comprimidos sin necesidad de descomprimirlos completamente. Es como poder contar palabras directamente en las cajas comprimidasā€.


Esta es la primera solución a un problema abierto planteado por Christiansen et al. en 2020, en un artĆ­culo publicado en la revista especializada ACM Transactions on Algorithms (TALG). En esa publicación, los autores —expertos en estructuras de datos y compresión desde instituciones como la Universidad TĆ©cnica de Dinamarca— dejaron abierta la posibilidad de desarrollar un algoritmo eficiente para contar patrones en textos comprimidos mediante gramĆ”ticas de tipo Run-Length. El trabajo de Pacheco y Navarro no solo resuelve ese desafĆ­o teórico, sino que ademĆ”s presenta una aplicación prĆ”ctica que demuestra su utilidad en escenarios reales de anĆ”lisis de datos comprimidos.

Ā 

ā€œEste trabajo contribuye a la lĆ­nea de investigación de BioinformĆ”tica en el 
CeBiB, que busca manejar grandes colecciones muy repetitivas, como coleccionesĀ de genomas, usando mucho menos espacio que su tamaƱo original, yĀ adicionalmente poder realizar consultas y anĆ”lisis sobre estos datos sin nuncaĀ descomprimirlos. Una RLCFG puede representar una colección genómica en 10 aĀ 100 veces menos que su espacio original, permitiendo asĆ­ manipularlas enĀ computadores mucho mĆ”s accesibles, transferirlas en mucho menos tiempo, yĀ adicionalmente responder preguntas de interĆ©s bioinformĆ”tico, explicó Gonzalo Navarro, investigador principal y de CeBiB. "Con nuestroĀ trabajo, se pueden ahora hacer preguntas de anĆ”lisis estadĆ­stico sobre esasĀ colecciones, como por ejemplo la frecuencia (y por lo tanto la relevancia) queĀ tienen ciertos motifs de interĆ©s en la colección, todo esto directamente sobreĀ el formato altamente comprimidoā€, agregó.

Ā 

En cuanto al impacto del reconocimiento, Navarro destaco: ā€œEste premio es muy importante para la futura carrera de un estudiante,Ā pues le da visibilidad internacional a Ć©l y a su trabajo. Por eso es una granĀ noticia para nosotros, para nuestro programa de doctorado, y para el CeBiB,Ā que permite sustentar este tipo de investigaciónā€.

Ā 

La conferencia CPM es uno de los encuentros científicos mÔs relevantes a nivel mundial en el Ômbito del anÔlisis de patrones y algoritmos sobre cadenas, reuniendo cada año a especialistas en computación teórica y aplicada. El reconocimiento a Pacheco subraya la calidad de la investigación chilena en este competitivo campo científico.


Este trabajo fue financiado por los Fondos Basales para Centros Científicos y Tecnológicos de Excelencia FB0001 de Mideplan (Chile) y el proyecto Fondecyt 1-230755. AdemÔs, Alejandro Pacheco recibió apoyo a través del programa Becas Chile de Doctorado de la Agencia Nacional de Investigación y Desarrollo (ANID).


Consulta el artĆ­culo completo en las actas de la conferencia:

LIPIcs, Volumen 331 – 36Āŗ Simposio Anual sobre Coincidencia de Patrones Combinatorios (CPM 2025); Ā Descargar aquĆ­

ree


bottom of page