Big Data, IA y analítica predictiva: del dato a la inteligencia de ciberseguridad

Fecha de publicación 20/06/2019

Autor

Hugo Rodríguez Santos (INCIBE)

Panorama de las amenazas de ciberseguridad

El mundo de la ciberseguridad está cambiando rápidamente, se diversifican y aumentan los tipos de amenazas y los vectores de ataque. Estos han migrado hacia amenazas persistentes avanzadas (Advanced Persistent Threats, APT) cada vez más sofisticadas, ataques internos (insider attack), fraudes y ciberdelitos. Las soluciones de seguridad tradicionales no son suficientes para hacer frente a este nuevo panorama de desafíos en la seguridad, y es necesario que las organizaciones y los usuarios estén en la vanguardia de las últimas tecnologías en uso.

Dentro de las mismas, podemos encontrar, por ejemplo, las técnicas de machine learning, puesto que los atacantes, también las están utilizando. A esta técnica se la conoce como adversarial attacks, ya que consiste en utilizar entradas diseñadas, intencionadamente, con el objetivo de que el modelo cometa un error.

Análisis predictivo

Big Data, ciberseguridad y análisis predictivo

La ciberseguridad es un área en la que un análisis de alto rendimiento y en tiempo real como el que proporciona el Big Data, es imprescindible, ya que los ataques cada vez se cometen en menos tiempo y surgen amenazas nuevas en cuestión de segundos. En este ámbito, existen multitud de fuentes de datos para alimentar el Big Data, como son los logs de sistemas de todo tipo (autenticación, SIEM, IDS/IPS, etc.) y de dispositivos de red, logs de aplicaciones (registro de transacciones, autenticaciones, interacciones, etc.), datos de redes sociales, contenido de los mensajes, etc. Unido a esto, también es interesante realizar análisis de la Deep Web para monitorizar las acciones de los ciberdelincuentes.

En este contexto, se hace necesario el cambio del tradicional enfoque pasivo, en el que se toman las medidas necesarias una vez que se ha sufrido el ciberataque, por una postura proactiva. Este nuevo planteamiento ofrece un punto de vista que incluye la detección avanzada de amenazas, la identificación en tiempo real de los riesgos, así como la aplicación diligente de medidas de protección y contramedidas. Esto servirá para garantizar que el creciente número, tanto en cantidad como en variaciones, de los ciberataques, se identifique y mitigue antes de que produzca un impacto financiero o de reputación significativo en la empresa atacada. Las organizaciones reconocen que para llegar a ese punto se requiere un conjunto de herramientas diferente, una combinación de Big Data y análisis predictivos, combinados para ser utilizados de formas innovadoras.

En este campo, el Big Data, en combinación con técnicas de analítica predictiva, permiten identificar patrones y tendencias de comportamiento, lo que otorga la capacidad de anticiparse a multitud de ataques cibernéticos, que están caracterizados por ser relativamente aleatorios, espontáneos y fuera de lo común.

Procesamiento de big data y análisis predictivo

- Procesamiento de Big Data y análisis predictivo. Fuente: predictiveanalyticstoday -

Proporcionar soporte tecnológico para los análisis de comportamiento presenta retos significativos para las operaciones de seguridad, incluyendo:

Escalabilidad: el análisis de comportamiento requiere la ingestión rápida y continua de datos brutos y granulares de múltiples fuentes, lo que resulta de volúmenes de datos cada vez mayores.
Optimización: el rápido procesamiento de los modelos analíticos en el punto de decisión proporciona una respuesta optimizada. Tradicionalmente, esto ha significado un enfoque altamente personalizado para integrar múltiples componentes tecnológicos en apoyo de esta exigente carga de trabajo.
Experiencia: más allá de la tecnología en sí, el mayor problema al que se enfrentan las instituciones es la falta de habilidades para configurar y ajustar los motores analíticos, interpretar los conocimientos generados y actuar de acuerdo con la amenaza potencial.
Integración: el cloud computing proporciona ventajas significativas para cargas de trabajo analíticas altamente especializadas e intensivas con los datos que comúnmente definen los sistemas de riesgo operacional y que requieren cierto grado de operaciones de seguridad, tanto en el entorno local (on-premises) como en el cloud.

Para pasar a un enfoque proactivo con la utilización de análisis en tiempo real, propio de los entornos predictivos, se deben de tomar una serie de medidas:

Mapear y aprovechar las fuentes de datos existentes: las organizaciones disponen de una gran cantidad de datos existentes o de fácil acceso que podrían contribuir a mejorar la seguridad. Las fuentes de datos van desde información en la red a los registros de actividad web, pasando por la información de Netflow, los registros del servidor, etc. Pero las organizaciones necesitan mapear estas fuentes de datos y averiguar lo que ya está disponible, lo que es fácilmente accesible, y qué datos presentan un mayor nivel de dificultad a la hora de acceder a ellos, pero vale la pena el esfuerzo. Una vez que los datos han sido mapeados, es necesario evaluar su valor en un análisis posterior.
Contextualizar y conectar los datos: cuando una organización comprende la información que maneja, el siguiente paso consiste en establecer el contexto de la misma, para luego relacionarla con otros datos, información de red y componentes de la arquitectura. Esto construye los modelos de riesgos y amenazas activos para la organización. Dichos modelos se pueden analizar con técnicas predictivas de machine learning.
Utilizando deep analytics para refinar estos modelos: comprender el contexto de los datos y luego conectar sus piezas es solo el principio. La utilización de las nuevas capacidades analíticas refina el modelo, proporcionando métricas útiles, información adecuada y recomendaciones para la toma de decisiones sobre los riesgos actuales y futuros.

¿Qué beneficios nos ofrece el análisis predictivo de Big Data?

Los atacantes están dispuestos a extender sus acciones a lo largo de un amplio período de tiempo para eludir los sistemas de detección, en ocasiones haciendo uso de las mismas técnicas y tecnologías para eludir la vigilancia de dichos sistemas. Por lo tanto, es crucial cambiar a un enfoque de detección en tiempo real continuo, para evitar las limitaciones del análisis actual, en el que está acotada la ventana de tiempo de recogida de datos. En cambio, es preferible un enfoque centrado en la captura de paquetes completos, la inspección en profundidad de dichos paquetes utilizando técnicas de Big Data, que permita el uso de algoritmos significativamente más avanzados, mitigando así los intentos de evasión.

La tecnología que soporta analítica predictiva utilizando Big Data facilita la detección de amenazas mediante:

Recopilación, consolidación y correlación, dinámica y administrada, de diversas fuentes de datos, como logs de IDS, dispositivos de red, sistemas y aplicaciones, redes sociales, analizadores de tráfico de red, etc. Esta visión holística de la infraestructura permite a los defensores correlacionar eventos esporádicos de baja gravedad como resultado de un ataque continuo. En comparación con los sistemas SIEM (Security Information and Event Management) modernos, la analítica de Big Data no tiene una ventana de tiempo limitada para realizar la correlación.
Detección de anomalías, basada en la correlación de eventos recientes e históricos. Por ejemplo, un mayor volumen de tráfico del DNS (Domain Name System) de un sistema, en particular durante un período de tiempo reducido, puede deberse a acciones legítimas de los usuarios. Sin embargo, si tal patrón también se identifica en el tráfico histórico durante un período de días, es una indicación potencial de la fuga de datos encubierta. Además, esta correlación puede ayudar a limitar el número de falsos positivos. Las soluciones del Big Data, combinadas con machine learning, aumentan la cantidad y el alcance de los datos sobre los que se puede realizar la correlación.

Teniendo en cuenta estos datos, se pueden englobar en tres apartados las principales ventajas de la utilización de técnicas de análisis predictivo en el tratamiento de datos y en la ciberseguridad:

La prevención vale por dos: la ciberseguridad exige un enfoque cada vez más proactivo. Necesita ser capaz de hacer un crunch (preparación del procesamiento automatizado de gran cantidad de información) de los datos, identificar patrones y detectar anomalías en tiempo casi real para que pueda establecer las medidas necesarias antes de que los datos sean sustraídos. El análisis predictivo no sólo identifica dónde han intentado atacar los ciberdelincuentes en el pasado, sino que ayuda a ver dónde es probable que ataquen a continuación, dónde están sus puntos débiles y cómo de preparada está una organización (o un sistema particular) para contrarrestar un ataque antes de que sea demasiado tarde. Aprovechar con éxito el análisis predictivo significa mapear patrones en el sistema de TI e indagar hasta el detalle para que, en el momento en que suceda algún comportamiento inusual, pueda ejecutarse e investigar dicho comportamiento. Significa mantenerse al tanto de dónde se están realizando los intentos de ataque para que se pueda detectar la tendencia y prepararse con la suficiente antelación.
Manejo de grandes volúmenes de datos: uno de los mayores desafíos para una solución de ciberseguridad sólida es que trata enormes grupos de datos, que pueden ser muy difíciles de examinar, procesar y analizar para obtener información útil. Estos flujos de datos pueden provenir de una amplia gama de programas, bases de datos y dispositivos, lo que significa que se necesita una potente herramienta de BI (Qlik, Sisense, IBM Cognos Analytics, etc.) para mantenerlos todos sincronizados. Sin embargo, una vez que se cuenta con un sistema capaz de realizar esta tarea, cuantas más variables de entrada se tengan para analizar, más completa será la imagen que se obtenga y más precisas serán sus predicciones.
Automatización de gran parte de la carga de trabajo: las técnicas de análisis predictivo y el machine learning pueden ayudar a manipular datos y a sacar conclusiones cruciales con gran rapidez, al mismo tiempo que elimina parte de la carga de trabajo al departamento de TI. Por supuesto, todavía se necesitará a un experto para interpretar con precisión los hallazgos y patrones, pero gran parte del arduo trabajo de recopilar, cotejar y compilar informes se realiza automáticamente. Esto significa que el equipo de TI puede concentrarse en identificar amenazas potenciales y actuar rápidamente para proteger el sistema, en lugar de quedarse estancado en las tareas diarias. Además, a medida que estos sistemas se vuelvan más inteligentes, podrán tomar medidas para bloquear nuevas amenazas o corregir sus propias debilidades.

[Actualización 12/07/2023]

Existen varios campos dentro de la detección de amenazas donde pueden encontrarse estas técnicas y herramientas, algunos de ellos son:

La detección de botnets: los modelos de machine learning, como las redes neuronales artificiales (ANN) utilizadas en el aprendizaje automático, son particularmente potentes para identificar si una aplicación o proceso específico es parte de una botnet al compararlo con un conjunto de datos previamente etiquetado. Estas técnicas también pueden utilizarse para identificar patrones complejos de tráfico de red, característicos de las botnets, como conexiones a puertos aleatorios y protocolos inusuales, lo que permite su detección temprana y la adopción de medidas preventivas.
La detección de malware: como el ransomware, es otro campo que puede apoyarse en las técnicas analíticas. Esto contribuye a detectar patrones de malware de forma rápida y eficiente. Por ejemplo, las técnicas de ensemble permiten la combinación de diferentes modelos de aprendizaje automático, incluyendo máquinas de vectores de soporte y árboles de decisión, y procesamiento de grandes cantidades de datos de diferentes fuentes, incluidos registros del sistema, permisos, llamadas a API (como las llamadas a funciones de cifrado, en el caso de ransomware), tráfico de red y metadatos de archivos. Esto permite incluso adaptarse a nuevos tipos de malware mediante el aprendizaje continuo.
Integración con los sistemas SIEM: la inteligencia artificial puede ayudar en la búsqueda de automatización de las tareas de detección y respuesta dentro de los SIEM, ya que una vez que se produce un ataque contamos con toda la información que podría ser procesada por la IA, antes de que llegue al analista. Cabe destacar que muchas alertas de los SIEM son falsos positivos, por lo que la IA deberá ofrecer recomendaciones que requieran la intervención del analista, pudiendo no tener siempre recomendaciones concretas. Por tanto, el trabajo del analista sigue siendo crucial, pero se ahorrará mucho tiempo gracias a ese primer procesamiento.

En cuanto a las desventajas surgidas por el uso de estas técnicas, se encuentra el hecho de que aún se trata de una tecnología en fase de desarrollo, con un amplio recorrido para llegar a una fase de madurez. Además, su utilidad surge de su capacidad para extraer información útil de los datos recibidos, por lo que si estos datos se reciben de manera masiva, y se almacenan y analizan indiscriminadamente, de forma que el analista no pueda tratarlos de una manera adecuada, solo se convierten en ruido que ralentizará y obstaculizará las tareas.

La capacidad de los análisis de Big Data para correlacionar información de una amplia gama de fuentes de datos a través de períodos de tiempo significativos generará una menor tasa de falsos positivos y permitirá que la amenaza sea detectada entre el «ruido» de las actividades autorizadas de los usuarios. Aunque el procesamiento y la correlación no tienen que ser en tiempo real, deben completarse dentro de un plazo aceptable (idealmente unas pocas horas) para dar a los analistas una alerta temprana de posibles ataques contra su infraestructura.

Conclusiones

La tecnología Big Data, combinada con técnicas de analítica de datos, sirve como herramienta de pronóstico, ayuda a gestionar y analizar toda la información nueva que se recibe y detecta posibles ataques en tiempo real. Por supuesto, reporta múltiples beneficios el hecho de aplicar técnicas Big Data en ámbitos de control industrial, aunque también algunos riesgos para la privacidad en el caso de empresas de marketing y similares.

El análisis predictivo ofrece una oportunidad única para identificar tendencias futuras y permite a las organizaciones actuar sobre ellas. Los datos son la experiencia colectiva de una organización y es importante aprovechar esos datos para encontrar patrones que sean válidos en nuevas situaciones.

En ciberseguridad es esencial la prevención y la identificación de posibles irregularidades y brechas de seguridad antes de que se produzcan de manera efectiva, por el ahorro económico y de esfuerzo humano que supone.

Etiquetas