¿Por qué el Machine Learning es un gran aliado para la ciberseguridad?

¿Qué es Machine Learning?

El aprendizaje automático, en inglés Machine Learning (ML), es una rama de la ciencia que permite a las computadoras a través de un conjunto de técnicas realizar tareas sin ser programadas explícitamente. A través del ML los ordenadores pueden generalizar su comportamiento a partir de datos procesados con el objetivo de realizar predicciones sobre datos futuros. A modo de contexto, el término Machine Learning existe desde hace varias décadas, cuando  Arthur Samuel lo utilizó por primera vez en los laboratorios de IBM en el año 1959 y lo definió como: “Campo de estudio que le da a las computadoras la capacidad de aprender sin ser programadas explícitamente”

Sin embargo, fue recién en la década de 1980 cuando este concepto tomó más fuerza con la aparición de las redes neuronales artificiales (ANN – Artificial Neural Network) y luego después de otra década se empezó a utilizar por diversos especialistas con el objetivo de resolver algunas problemáticas de la vida diaria.

Similar a lo que ocurrió a principios del 2010 con las tecnologías Cloud cuando muchos consideraban que no iban a tomar fuerza, lo mismo pasó con el ML. Hoy en día esta ciencia es utilizada por diversas empresas: Facebook, Netflix, YouTube, Google o Amazon, por nombrar algunas.

Los sistemas que emplean Machine Learning más populares son el reconocimiento de voz y el reconocimiento facial, perfilamiento de clientes en marketing, estudios de mercado, y a esto último se le está sumando automatización para IoT, automóviles autónomos, y hasta incluso los famosos robots de ayuda.

Ahora bien, la pregunta central es: ¿qué tipo de necesidades podría satisfacer el Machine Learning en la industria de la ciberseguridad? Para responder esto antes debemos dar un pequeño marco teórico para comprender dónde podríamos aplicar Machine Learning en la ciberseguridad.

Aprendizaje supervisado: está enfocado en determinar las probabilidades de nuevos eventos en función de eventos observados anteriormente. Dentro de este algoritmo encontramos otras dos categorías:

  • Clasificación: los algoritmos de clasificación predicen a qué categoría pertenece una entrada en función de las probabilidades aprendidas de las entradas observadas previamente. Por ejemplo: determinar si un archivo es malware o no.
  • Regresión: los modelos de regresión (lineal, logística) predicen un valor de salida para una entrada determinada en función de los valores de salida asociados a las entradas anteriores. Por ejemplo: predecir cuántas muestras de malware se detectarán al próximo mes.

Aprendizaje no supervisado: intentan encontrar patrones no etiquetados. Por ejemplo: determinar cuántas familias de malware existen en el conjunto de datos y qué archivos pertenecen a cada familia. Dentro de este tipo de ML se encuentra el “Clustering”, que consiste en agrupar un conjunto de objetos (cluster) por sus similitudes. Ejemplo: detección de anomalías, o familias de malware.

Etapas del Machine Learning

  • Obtención de datos: Cualquiera sea el algoritmo de ML a utilizar, se debe poseer un gran número de datos para entrenar a nuestro modelo. Mayoritariamente, los datos provienen de diversas fuentes.
  • Preprocesamiento: muchas veces los datos recolectados son categóricos, por lo que es necesario realizar un preprocesamiento y transformar esos datos en numéricos, ya que los algoritmos de ML trabajan solo con datos numéricos.
  • Extracción de características: se identifican los elementos que deben extraerse y someterse a análisis.
  • Selección de características: se identifican los atributos necesarios para entrenar el modelo de ML.
  • Entrenamiento: se entrena el modelo con base en el algoritmo seleccionado de ML. En esta etapa se emplea una parte de los datos para entrenar el modelo y otra parte para efectuar la evaluación del mismo.
  • Testing: es considerado por muchos expertos la etapa más importante, ya que, teniendo el modelo entrenado, se debe validar el modelo. Para esto, los datos que se separaron en la etapa anterior, datos de validación, son utilizados para ejecutar el modelo de ML y evaluar si el modelo ofrece los resultados esperados.
  • Análisis de resultados: en esta etapa se buscan los errores a corregir y ajustar el modelo.

Ya explicado los tipos de ML que existen y sus etapas, procederemos a detallar las áreas en donde se podría usar esta tecnología dentro de la ciberseguridad.

Áreas de la ciberseguridad en las que se está aplicando el Machine Learning

En general, los productos de aprendizaje automático se crean para predecir ataques antes de que ocurran, pero dada la naturaleza sofisticada de estos ataques, las medidas preventivas a menudo fallan. En tales casos, el aprendizaje automático ayuda a remediar de otras maneras como reconocer el ataque en sus etapas iniciales y evitar que se propague por toda la organización.

Regresar a Noticias
T-Cert / Tigo Copyright©, Guatemala todos los derechos reservados.