Instituto Nacional de ciberseguridad. Sección Incibe
Protege tu empresa. Sección empresas

Minería de datos, Big Data y Seguridad

Fecha de publicación 06/02/2017
Autor
INCIBE (INCIBE)
Minería de datos, Big Data y Seguridad

El ejército se levanta temprano. Es una fría mañana de otoño. Su indumentaria es la habitual, perfecta para entrar en batalla, pero ligera y confortable ante todo: ellas con ropa cómoda, algunos con traje, tweed a un lado y a otro; los menos, para no dar pistas de sus actividades con uniforme. Les ayudan a mantenerse centrados confort en las largas jornadas delante de las mesas. Y allí, donde se erige una mansión victoriana de apariencia señorial, ese ejército de mecanógrafos, matemáticos, estadísticos, físicos, lingüistas, psicólogos y otros especialistas, explora uno de los parajes más áridos, y menos agradecidos y reconocidos de toda una guerra.

En palabras de Winston Churchill «La gallina de los huevos de oro que nunca cacareó».

Hombres y mujeres trabajan en equipo, su misión es descifrar toda la información que circula por las redes de comunicación alemanas, sus ejércitos, unidades, cuerpos; y a la vez tratan de asegurar todas las comunicaciones británicas y con todos los aliados. El lugar: Bletchley Park. El momento: la Segunda Guerra Mundial. Tan importante fue su trabajo que el desembarco de Normandía dependió en gran parte de ellos. O el famoso descifrado de la famosa máquina Enigma. Con medios manuales, papel, lápices, pizarras... su trabajo era analizar información, mediante métodos estadísticos, pero debido a la cantidad de información a analizar y sobre todo a las distintas probabilidades de los textos cifrados alemanes, tuvieron que desarrollar ingenios mecánicos que les ayudaran en el procesado de la información.

MINERÍA DE DATOS:

El análisis de información que ya se hacía en la antigüedad, en nuestros días tiene hoy un nombre Minería de Datos. Se define como «el proceso que trata de encontrar información útil o patrones dentro de aquellos grandes volúmenes de información donde en apariencia no existe nada útil», o de otro modo más simple, en convertir datos sin aparente utilidad, en conocimiento. Sus aproximaciones son varias, siendo el término inglés «Knowledge Discovery in Databases» -representado por las siglas KDD, o «descubrimiento de conocimiento en bases de datos» el que más se utiliza para asimilarlo a esta disciplina. Aunque técnicamente debemos saber que KDD es el proceso general y la minería de datos forma parte de él.

Lo que con todo ello se intenta extraer es información o conocimiento que sea:

  • válido
  • novedoso: que aporte algo nuevo
  • potencialmente útil: debe derivar hacia la toma de decisiones de actuación
  • comprensible para el usuario: el operador que va a analizar la información o el decisor.

La minería de datos requiere de la conjunción con otras disciplinas como la estadística, la computación, los sistemas de recuperación de información o ya se están comenzando a modelar sistemas con inteligencia artificial.

Y para ello la minería exige de la utilización de tecnologías que faciliten el procesamiento de los cálculos, que de modo manual elevarían exponencialmente el tiempo de cálculo, lo que en Bletchley Park descubrieron pronto y así comenzaron a desarrollar máquinas que facilitaran la explotación de la información en bruto, como las denominadas «La bomba» o «Colossus», unas máquinas que no eran sino computadoras, aunque hoy en día cualquier ordenadores en nuestros hogares es infinitamente más potente que cualquiera de aquellas máquinas, hasta nuestro teléfono móvil lo es.

BIG DATA

¿Y qué es el Big Data? Pues el Big Data no es más que un derivado de todos estos conceptos anteriores, uniendo a lo anterior tres conceptos básicos:

  • Volumen de datos: de un tamaño más que considerable
  • Complejidad de los datos: en cuanto a su dificultad de tratamiento, lo que denomina «datos desestructurados» (p.e. imágenes, vídeo, texto)
  • Velocidad de análisis, explotación y decisión: siendo el objetivo máximo el 'tiempo real', minimizando el tiempo entre la entrada de información input en el proceso y las decisiones.

Su diferencia fundamental con la minería de datos es la velocidad de resolución, es fundamental tener como meta poder analizar y resolver las situaciones en tiempo real. El campo del Big Data todavía está hoy en desarrollo, dado que en la actualidad la mayor parte de la información está desestructurada, y se prevé que será fundamental en los próximos 5 ó 10 años, cuando su desarrollo esté más maduro y existan operadores especializados en ello.

Minería de datos, Big Data y Seguridad

¿En qué campos se puede aplicar la Minería de datos y el Big Data? pues la respuesta es muy amplia, y en general será en todos aquellos donde se manejen datos, como por ejemplo: en banca e instituciones financieras y de seguros, investigación de mercados, medicina, educación, procesos industriales, telecomunicaciones, biología y otras ciencias, y en Internet y todo lo que tenga relación con él.

¿Y si nos centramos en la parte de seguridad? unos ejemplos:

Seguridad en Internet:

  • Correo electrónico: clasificación del correo, determinación del correo como válido o spam, distribución automática a remitentes.
  • Web: análisis del tráfico por las redes, tráfico firmado o tráfico comprometido (p.e. spam, análisis del comportamiento de los usuarios, detección de fraude en el comercio electrónico, análisis de ataques contra una empresa o servidor, mediante el análisis de logs.

Seguridad física:

  • Análisis de movimientos personales dentro de una ubicación: videovigilancia en instalaciones privadas o en lugares públicos.
  • Identificación de posibles actividades terroristas en una ciudad, en un aeropuerto, etc. o el análisis de la existencia de materiales peligrosos en una ubicación física.

Seguridad en las Telecomunicaciones:

  • Patrones de comunicación, en llamadas o transmisión de datos: fraude por consumo indebido de ancho de banda.
  • Modelos de carga de transmisión de datos por las redes, muy importante para el tema del análisis del spam.
  • Detección de fraude (phishing).

Seguridad económica:

  • Para obtener la obtención de patrones de uso, transferencias, y la resolución de incidencias de fraude bancario y uso fraudulento (tarjetas de débito, crédito)
  • Impuestos: análisis de movimientos de masa monetaria y evasión fiscal.
  • Análisis de riesgos en créditos

Seguridad Industrial:

  • Predicción de fallos y accidentes en sistemas automáticos,
  • Gestión de la administración de modelos complejos, por ejemplo, control aéreo.

Y en particular cómo se aplican:

  1. Para temas de Seguridad en Internet: por ejemplo en algunos portales gratuitos de gestión de correo, p.e. Gmail o Outlook en línea (anteriormente Hotmail), cuando se tiene constancia de que se ha realizado una conexión desde un lugar no habitual, como por ejemplo si nos encontramos de vacaciones en un sitio alejado de los habituales de nuestras ubicaciones físicas habituales, se genera un aviso mediante el cual nos piden la confirmación de que hemos sido nosotros los que hemos conectado al servicio desde dicho lugar, para cerciorarnos de la autenticidad de las credenciales del usuario.
  2. Otro caso de Seguridad en Internet: la utilización de métodos heurísticos bayesianos para la clasificación de correo electrónico como spam.
  3. En Seguridad Económica, cuando las entidades financieras realizan defensa contra el fraude online, en este caso el análisis de datos es fundamental para conocer comportamientos anormales en las operaciones realizadas por un cliente. Por ejemplo, si se detecta una operación anormal en la cuenta de un usuario, como que la misma implique una cantidad anormalmente alta en una compra, una transferencia no periódica con parámetros, o una compra realizada desde un lugar o comercio no habitual, se procede al aviso al usuario para comprobar la autenticidad de la misma.
  4. Otro ejemplo de la utilización de la minería de datos, en seguridad es en las Smart Cities, por ejemplo en el caso de las compañías eléctricas, para prevenir caídas de servicio se trata de compensar las cargas de demanda de energía, desplegando una mayor oferta por el proveedor en aquellos lugares, servicios o compañías que lo demanden. Para ello es necesaria la instalación de determinados medidores que den información a las compañías y, con el tratamiento de esos datos, poder realizar los procesos de añadir mayor capacidad en determinados momentos. Además se pueden utilizar algoritmos de medición de cargas de demanda para descubrir posibles consumos fraudulentos en determinadas actividades.

Si nos damos cuenta, estos ejemplos, y otros similares, tienen un factor común y que cada día cobra mayor importancia, y que está enraizado en el proceso de la minería de datos y dentro del Big Data: el concepto de «tiempo real». En todos estos casos es muy importante que el análisis, clasificación y ejecución de las medidas correctivas sea realizado lo antes posible. Es más importante la aplicación de las medidas de modo que implique un efecto preventivo más que reactivo, de nada sirve que un fraude sea localizado si la respuesta no es ejecutada de modo que el usuario no sufra perjuicio económico, o pierda la conexión, o pierda la acreditación para administrar algún servicio en concreto.

Etiquetas