Resultados DATAJAM 2021

La Comisión de Regulación de Comunicaciones - CRC continúa ofreciendo a los ciudadanos la oportunidad de mostrar sus habilidades e iniciativas con los Datos Abiertos. Con este DataJam 2021 quisimos brindarle la posibilidad de implementar y fortalecer ese conocimiento en el análisis de datos mediante la solución a los retos propuestos.

DataJam 2021 es la segunda versión abierta a la participación de ciudadanos, en la que se utilizaron datos del sector de las Telecomunicaciones, Postal y Audiovisual para plantear soluciones a los tres retos propuestos; para desarrollar dichas soluciones, se tenía libertad de utilizar cualquier tecnología innovadora para la extracción, transformación, análisis y visualización de los datos.

Premios primer puesto

  • Participación en el 16° Taller Internacional de Regulación 2021
  • Certificado de participación en el DataJam CRC 2021
  • Publicación de trabajo en página web y en la plataforma de datos abiertos de la CRC

Premios segundo puesto

  • Certificado de participación al DataJam CRC 2021
  • Publicación de trabajo en página web y en la plataforma de datos abiertos de la CRC

Premios tercer puesto

  • Certificado de participación al DataJam CRC 2021
  • Publicación de trabajo en página web y en la plataforma de datos abiertos de la CRC

RETOS DATAJAM 2021

RETOS

DESCRIPCIÓN DE LOS RETOS

Aproximación a la construcción de índices TIC regionales para Colombia.

Identificar a través de la creación de índices, las diferentes necesidades TIC del país y cómo estas podrían llegar a solventarse con nuevas o futuras tecnologías. Así, este reto pretende construir índices regionales que permitan conocer la homogeneidad entre los grupos analizados, y a su vez identificar las zonas rurales, apartadas y de difícil acceso. Para ello, puede hacerse uso de la información de distancia en Km o tiempo en desplazamiento de los centros poblados a las ciudades capitales de los departamentos, del acceso y uso a los servicios de telefonía e Internet fijo, entre otros.

Identificación de tendencias para los contenidos de televisión abierta.

Generar una categorización de los contenidos de la televisión abierta a partir de la información de las parillas de programación, con base en el conjunto de datos publicado en postdata “Parrillas de Programación Televisión Abierta”, diferente a la presentada en la variable clasificación del conjunto de datos que atiende a lo dispuesto en el artículo 25 del acuerdo 02 de 2011 de la CNTV. En particular, se debe generar una variable que agrupe y remplace la información contenida en los campos género y tipo.

A partir de esta categorización, identificar la existencia de franjas horarias comunes entendidas como horarios (hora_inicio y hora_fin) y días específicos, para algún tipo de programación agrupando los canales según el tipo de operador.

Por otra parte, se deberá realizar un análisis del uso de los sistemas de apoyo para la población sorda e hipoacúsica, acorde con la categorización del contenido generada. Este análisis debe atender al porcentaje de la programación que cuenta con estos sistemas y el tipo específico de sistema que se usa en cada categoría.

Análisis visual para el envío y retiro de dinero en Colombia.

Identificar y visualizar los municipios en donde existan opciones para el envío y retiro de dineros por los habitantes a través de los operadores postales de pago y entidades financieras, con el fin de comparar las coberturas y visualizar las opciones de acceso a estos servicios por parte de los usuarios. Lo anterior puede ser desarrollado mediante el uso de herramientas geográficas o de analítica de datos.

Participantes

Total de inscritos 36 con una recepción de 5 propuestas, las cuales fueron evaluadas por el equipo de la CRC.

Equipo evaluador CRC

El equipo evaluador de la CRC fue conformado por:
* Miguel Andres Duran, Juan Fernando Plazas, Santiago Bermúdez, Victor Baldrich, Isabella Russi, Jose David Soba, Celso Andrés Forero, Diego Álvarez, Olga Cortes, Nicolle Cárdenas, Fabricio Vargas, Madeleine Gil

Grupo GEEEF

Grupo de Estudios Económicos, Estadísticos y Financieros de la Dirección de Investigaciones de Protección de Usuarios de Servicios de Comuniciones de la Superintendencia de Industria y Comercio

Integrantes

  • Lizeth Sandoval Zapata
  • Julieth Milena Perea Meneses
  • Eliseo Franco Salcedo
  • Miguel Ernesto Vega Beltrán

Reto 1: Aproximación a la construcción de índices TIC regionales para Colombia

El equipo de la SIC participó en el DataJam 2021 con el reto del cálculo de índices TIC regionales que permitan conocer la homogeneidad para Colombia entre grupos analizados, y a su vez identificar las zonas rurales, apartadas y de difícil acceso.

Para ello el equipo participante tomó como referencia el Índice de Desarrollo TIC (IDI, por sus siglas en inglés), desarrollado por la UIT a nivel país y posteriormente calculado a nivel departamental por el DNP en 2020, tomando como fuente de información Indicadores de la Encuesta Nacional de Calidad de Vida - ENCV 2018. Frente al índice, conservó los ponderadores de las tres dimensiones definidas por la UIT (acceso, uso y competencias TIC).

Para atender el reto, el participante propone como aspecto diferenciador a lo ya existente la inclusión de los siguientes indicadores en cada una de dimensiones para identificar elementos diferenciadores entre departamentos que explican la brecha digital. Estos nuevos indicadores son propuestos por el participante bajo la hipótesis de que, si bien son externas a los servicios TIC por pertenecer más al ámbito sociodemográfico, reflejan condiciones y características importantes de los departamentos que suponen una incidencia significativa sobre el desarrollo TIC:

Acceso TIC:

  • Porcentaje de población en centros poblados y rural disperso – PCPRD
  • Porcentaje de viviendas sin acceso a energía – VSE

Utilización (Uso TIC):

  • Porcentaje de personas género femenino que utilizan internet
  • Porcentaje de personas que usan el Internet en el Hogar

Competencias (Conocimiento TIC):

  • Índice de feminidad
  • Índice de dependencia demográfica

Sobre las nuevas variables adicionadas el participante realizó un Análisis de Componentes Principales (PCA, por sus siglas en inglés) en R-Studio para identificar el efecto de cada indicador sobre el subíndice por dimensión. Vale la pena señalar que, aunque utilizando esta técnica hubiesen podido determinar ponderadores de cada indicador al interior de cada dimensión, no realizaron modificación sobre la estrategia adoptada por DNP respecto de la equiponderancia de los indicadores.

Frente a la replicabilidad para periodos más recientes, el equipo de la SIC se enfrentó a la no disponibilidad de información de indicadores TIC de hogares derivados de la ENCV para 2019 y 2020.

Para ejecutar el estudio, el equipo participante adoptó la metodología CRISP – DM (Cross Industry Standard Process for Data Mining) para dar una organización más definida al proceso analítico y como continuación de un primer análisis regional realizado en el año 2020. Así, la estructura del informe presentado contiene las 6 fases del ciclo de vida del proyecto, a saber, Fase I: Antecedentes; Fase II: Comprensión de los datos; Fase III: Análisis visual de datos y variables; Fase IV: Metodología y Datos; Fase V: Presentación de Resultados; Fase VI: Conclusiones.

Conclusión

El equipo GEEEF (de la SIC) demostró un alto conocimiento en temas de analítica y procesamiento de datos, así como de referentes internacionales y nacionales de índices TIC, obteniendo así importantes conclusiones al analizar la correlación e influencia de los indicadores propuestos para calcular el Índice TIC en cada departamento del país. Sin embargo, frente a la aproximación, habrían podido ser más audaces en hacer una discusión respecto de los pesos que toma cada indicador al interior de cada dimensión, así como explorar una técnica de clúster en la que podrían haber analizado el comportamiento del índice general con los elementos que lo componen en su interior.

LAB101

Integrantes

  • Ana María Barbosa Cárdenas
  • Jhonatan Alejandro Gordillo Silva
  • Carlos Alberto Galindo Rojas

Reto 1: Aproximación a la construcción de índices TIC regionales para Colombia

El equipo de LAB101 participó en el DataJam 2021 dando solución al reto 1, en el cual se abordaba la construcción de nuevos índices TIC regionales para Colombia.

Sus esfuerzos se centraron en la construcción de diferentes propuestas de índices, centrándose en las variaciones anuales de las coberturas de los servicios y en los porcentajes de accesos a los servicios de telecomunicaciones por población. A partir de ello, generaron estructuras de clasificación regionales donde pudieron obtener el número de municipios clasificados en los grupos bajos, medios y altos asociados a los índices creados. Con ese dato realizaron la creación de mapas de calor para la visualización de los resultados.

Para verificar la homogeneidad del acceso a los servicios TIC, generaron algoritmos de clasificación, tanto a nivel nacional como departamental. En primer lugar, se construyeron curvas de evolución temporal para los índices analizados por cada municipio. Posteriormente se procedió a su agrupación a través de una conversión de las curvas en objetos multivariados, para luego emplear el método ACP para la visualización de los grupos. Emplearon además un algoritmo de K-mean para la creación de clusters, y dendogramas de similitud como forma complementaria para visualizar la homogeneidad entre los departamentos.

Conclusión:

El equipo de LAB101 demostró un alto conocimiento en temas de analítica y procesamiento de datos. Aunque su disposición y trabajo para dar respuesta al reto fue muy buena, hizo falta complementar los resultados de cómo los índices analizados sirven para identificar los problemas TIC a nivel nacional y departamental, además de proponer la forma de solventar las brechas entre las diferentes regiones analizadas.

Bases de datos utilizadas

Para la construcción de los índices, el equipo LAB101 usó las siguientes bases de datos:

  • Cantidad de accesos a internet fijo
  • Líneas de telefonía local
  • Suscriptores de TV por suscripción
  • Población del DANE

EQUIPO ACE

Integrantes:

  • Julián Alberto Uribe Gómez

Reto 2: Identificación de tendencias para los contenidos de televisión abierta

El equipo ACE desarrolló soluciones para los tres retos, aun cuando en el DataJam CRC 2021 solo se concursaba con uno de los retos; por lo que el equipo evaluador realizó lo siguiente para este caso especial:

  • Se evaluaron los tres retos entregados por el equipo ACE según los criterios establecidos para el DataJam CRC 2021, y
  • Se tomó como reto calificable para el DataJam CRC 2021 el que obtuvo mayor puntaje en la evaluación técnica.

La propuesta inicia con un análisis de la información disponible en Postdata, al plantear un esquema secuencial con base en las categorías que esta misma contiene, a saber:

  1. Análisis de categorización
  2. Análisis de franjas horarias
  3. Análisis de duración de la programación
  4. Análisis de tendencias

Conclusión:

La propuesta tiene como objetivo principal conocer características relevantes del sector audiovisual, para ello se hizo uso de herramientas de analítica como Jupyter Notebook, Python y Excel. Aun cuando la propuesta cumple con el análisis de la información, faltó profundizar y generar la nueva categoría de clasificación planteada en el reto, pero los esfuerzos de análisis obtuvieron valiosos acercamientos al objetivo del reto.

Data Great CRC

Reto 2: Identificación de tendencias para los contenidos de televisión abierta

Integrantes:

  • Huver Andrey Galindo Salgado

El equipo planteo la creación de un tablero de datos que permite identificar los contenidos comunes por franja horario, estos contenidos comunes coindicen con una nueva variable que agrupa contenido y tipo, y un indicador de apoyo para la población sorda e hipoacúsica. La clasificación construida agrupa la información existente en la variable tipo y se une con la variable de género. A partir de esta nueva clasificación se identifica el porcentaje de contenido con algún sistema de apoyo para la población sorda e hipoacúsica que se visualiza en un tablero de power BI.

Telecomunicaciones UD

Reto 2: Identificación de tendencias para los contenidos de televisión abierta

Integrantes:

  • Angélica Liliana Parada Velandia
  • Brayan Fabián Calderón Bastilla
  • Jassir Sneider Agressoth Cardona
  • Sebastián Murillo Román

El equipo planteo una nueva categorización para el contenido la cual incluye cuatro categorías (informativo, entretenimiento, información y ficción) y realizan un análisis descriptivo de la cantidad de contenido que tiene cada sistema de apoyo para la población sorda e hipoacúsica.

Primer Puesto

Segundo Puesto

Tercer Puesto