Doctorando chileno resuelve problema abierto en compresión de datos y recibe premio internacional
- Comunicaciones Cebib
- Jul 3
- 3 min read
El reconocimiento destacó el desarrollo de un algoritmo que permite analizar grandes volúmenes de datos comprimidos sin necesidad de descompresión, resolviendo un problema abierto desde 2020 en el Ôrea de estructuras de datos.
Alejandro Pacheco, investigador del Centro de BiotecnologĆa y BioingenierĆa (CeBiB) y estudiante de doctorado del Departamento de Ciencias de la Computación de la Universidad de Chile, fue distinguido con el Best Student Paper Award en la prestigiosa conferencia CPM 2025 ā 36th Annual Symposium on Combinatorial Pattern Matching, realizada entre el 17 y 19 de junio en MilĆ”n, Italia.
Ā
El premio fue otorgado por su trabajo titulado āCounting on General Run-Length Grammarsā, desarrollado con la guĆa del acadĆ©mico e investigador principal del CeBiB, Gonzalo Navarro. El paper propone una innovadora estructura de datos que permite contar ocurrencias de patrones en textos comprimidos sin necesidad de descomprimirlos, lo que representa un avance importante para el procesamiento eficiente de grandes volĆŗmenes de información, como secuencias de ADN o archivos de texto masivos.

SegĆŗn lo seƱalado en una nota publicada por el Departamento de Ciencias de la Computación de la Universidad de Chile (ver aquĆ), Pacheco explica el desafĆo abordado:
Ā
āImagĆnate que tienes una biblioteca gigante con millones de libros, pero todos estĆ”n comprimidos en cajas especiales para ahorrar espacio. Cuando quieres saber cuĆ”ntas veces aparece una palabra especĆfica en todos los libros, normalmente tendrĆas que descomprimir cada caja, buscar la palabra, y volver a comprimir todo ā un proceso muy lento. Nuestro trabajo resuelve este problema para un tipo particular de compresión llamada GramĆ”ticas Libres de Contexto con Reglas de Tipo Run-Length (RLCFGs). Desarrollamos el primer algoritmo que puede contar cuĆ”ntas veces aparece un patrón en textos comprimidos sin necesidad de descomprimirlos completamente. Es como poder contar palabras directamente en las cajas comprimidasā.
Esta es la primera solución a un problema abierto planteado por Christiansen et al. en 2020, en un artĆculo publicado en la revista especializada ACM Transactions on Algorithms (TALG). En esa publicación, los autores āexpertos en estructuras de datos y compresión desde instituciones como la Universidad TĆ©cnica de Dinamarcaā dejaron abierta la posibilidad de desarrollar un algoritmo eficiente para contar patrones en textos comprimidos mediante gramĆ”ticas de tipo Run-Length. El trabajo de Pacheco y Navarro no solo resuelve ese desafĆo teórico, sino que ademĆ”s presenta una aplicación prĆ”ctica que demuestra su utilidad en escenarios reales de anĆ”lisis de datos comprimidos.
Ā
āEste trabajo contribuye a la lĆnea de investigación de BioinformĆ”tica en elĀ āØCeBiB, que busca manejar grandes colecciones muy repetitivas, como coleccionesĀ de genomas, usando mucho menos espacio que su tamaƱo original, yĀ adicionalmente poder realizar consultas y anĆ”lisis sobre estos datos sin nuncaĀ descomprimirlos. Una RLCFG puede representar una colección genómica en 10 aĀ 100 veces menos que su espacio original, permitiendo asĆ manipularlas enĀ computadores mucho mĆ”s accesibles, transferirlas en mucho menos tiempo, yĀ adicionalmente responder preguntas de interĆ©s bioinformĆ”tico, explicó Gonzalo Navarro, investigador principal y de CeBiB. "Con nuestroĀ trabajo, se pueden ahora hacer preguntas de anĆ”lisis estadĆstico sobre esasĀ colecciones, como por ejemplo la frecuencia (y por lo tanto la relevancia) queĀ tienen ciertos motifs de interĆ©s en la colección, todo esto directamente sobreĀ el formato altamente comprimidoā, agregó.
Ā
En cuanto al impacto del reconocimiento, Navarro destaco: āEste premio es muy importante para la futura carrera de un estudiante,Ā pues le da visibilidad internacional a Ć©l y a su trabajo. Por eso es una granĀ noticia para nosotros, para nuestro programa de doctorado, y para el CeBiB,Ā que permite sustentar este tipo de investigaciónā.
Ā
La conferencia CPM es uno de los encuentros cientĆficos mĆ”s relevantes a nivel mundial en el Ć”mbito del anĆ”lisis de patrones y algoritmos sobre cadenas, reuniendo cada aƱo a especialistas en computación teórica y aplicada. El reconocimiento a Pacheco subraya la calidad de la investigación chilena en este competitivo campo cientĆfico.
Este trabajo fue financiado por los Fondos Basales para Centros CientĆficos y Tecnológicos de Excelencia FB0001 de Mideplan (Chile) y el proyecto Fondecyt 1-230755. AdemĆ”s, Alejandro Pacheco recibió apoyo a travĆ©s del programa Becas Chile de Doctorado de la Agencia Nacional de Investigación y Desarrollo (ANID).
Consulta el artĆculo completo en las actas de la conferencia:
LIPIcs, Volumen 331 ā 36Āŗ Simposio Anual sobre Coincidencia de Patrones Combinatorios (CPM 2025); Ā Descargar aquĆ

