Instituto Nacional de ciberseguridad. Sección Incibe
Instituto Nacional de Ciberseguridad. Sección INCIBE-CERT

OSINT - La información es poder

Fecha de publicación 28/05/2014
Autor
Asier Martínez (INCIBE)
OSINT

La proliferación del uso de Internet, cerca de 2.500 millones de usuarios a nivel mundial, y la facilidad de publicación de contenidos a través de diferentes medios como redes sociales o blogs ha favorecido que se almacene una desorbitada cantidad de información online. Algunas de las cifras más significativas son las siguientes:

Estos son algunos de los datos representativos más conocidos. Sin embargo, no hay que olvidarse de la cantidad de información disponible en la «Deep Web» ya que aunque no existen cifras exactas, su volumen también se estima como muy extenso y puede resultar muy relevante, incluso en muchas ocasiones más que la accesible a través de métodos convencionales.

Estas cifras permiten hacerse una idea aproximada de la enorme cantidad de datos disponibles en la red de manera pública, y a partir de los cuales se puede obtener información de gran valor y utilidad mediante técnicas como OSINT.

Descripción

Inteligencia de fuentes abiertas u «Open Source Intelligence» (OSINT) hace referencia al conocimiento recopilado a partir de fuentes de acceso público. El proceso incluye la búsqueda, selección y adquisición de la información, así como un posterior procesado y análisis de la misma con el fin de obtener conocimiento útil y aplicable en distintos ámbitos.

Existen multitud de fuentes abiertas a partir de las cuales se puede obtener información relevante, entre las que destacan:

  • Medios de comunicación: revistas, periódicos, radio, etc.
  • Información pública de fuentes gubernamentales.
  • Foros, redes sociales, blogs, wikis, etc.
  • Conferencias, simposios, «papers», bibliotecas online, etc.

Ejemplos de fuentes abiertas

Algunos ejemplos de la utilización de OSINT son los siguientes:

  • Conocer la reputación online de un usuario o empresa.
  • Realizar estudios sociológicos, psicológicos, lingüísticos, etc.
  • Auditoria de empresas y diferentes organismos con el fin de evaluar el nivel de privacidad y seguridad.
  • Evaluar tendencias de mercados.
  • Identificación y prevención de posibles amenazas en el ámbito militar o de la seguridad nacional.
  • Como aspecto negativo, es utilizado por cibercriminales para lanzar ataques APT y «Spear Phishing».

Casos de estudio

  • Un estudio realizado por investigadores de la Universidad de Cambridge (Reino Unido) en colaboración con Microsoft Research Cambridge advierte que las preferencias mostradas haciendo clic en los «Me gusta» son suficientes para trazar un detallado perfil del usuario.
  • Investigadores de la Universidad de Pensilvania, en Estados Unidos, tomando con fuente de información las actualizaciones de estado de 75.000 personas en Facebook han conseguido predecir su edad, sexo e incluso el tipo de personalidad basándose únicamente en las palabras que usaron.
  • Alessandro Acquisti y Ralph Gross, de la Universidad Carnegie Mellon, realizaron un estudio en el que usaron información de diversas fuentes de carácter público, incluyendo perfiles de redes sociales, informaron que pudieron predecir con precisión el número de afiliado de la seguridad social del 8,5% de las personas nacidas en Estados Unidos entre 1989 y 2003, prácticamente cinco millones de personas.
  • Las universidades de Sevilla y Alicante están desarrollando una plataforma que analiza las opiniones de la web y de los medios sociales para ayudar a las instituciones o empresas a tomar decisiones estratégicas.
  • Investigadores de la Universidad Carnegie Mellon concluyen cómo la información compartida a través de las redes sociales puede llevar a la discriminación en la contratación.
  • Distintos proyectos europeos tratan de obtener y explotar información de redes sociales, que mejoren la gestión total e integrada de todos los intervinientes en situaciones de crisis y emergencias, dentro del programa de Seguridad 2013 «Topic SEC-2013.6.1-1 The impact of social media in emergencies».

Proceso

El proceso OSINT consta de las siguientes fases:

Fases OSINT

  • Requisitos: es la fase en la que se establecen todos los requerimientos que se deben cumplir, es decir, aquellas condiciones que deben satisfacerse para conseguir el objetivo o resolver el problema que ha originado el desarrollo del sistema OSINT.
  • Identificar fuentes de información relevante: consiste en especificar, a partir de los requisitos establecidos, las fuentes de interés que serán recopiladas. Hay que tener presente que el volumen de información disponible en Internet es prácticamente inabordable por lo que se deben identificar y concretar las fuentes de información relevante con el fin de optimizar el proceso de adquisición.
  • Adquisición: etapa en la que se obtiene la información a partir de los orígenes indicados.
  • Procesamiento: consiste en dar formato a toda la información recopilada de manera que posteriormente pueda ser analizada.
  • Análisis: es la fase en la que se genera inteligencia a partir de los datos recopilados y procesados. El objetivo es relacionar la información de distintos orígenes buscando patrones que permitan llegar a alguna conclusión significativa.
  • Presentación de inteligencia: consiste en presentar la información obtenida de una manera eficaz, potencialmente útil y comprensible, de manera que pueda ser correctamente explotada.

Problemas

Se pueden identificar principalmente 2 problemas a la hora de utilizar un sistema OSINT:

  • Demasiada información: como ya se ha puesto de manifiesto, la cantidad de información pública disponible en Internet es más que notable. Es por ello, que se debe realizar un proceso muy exhaustivo a la hora de identificar y seleccionar las fuentes de información de interés que van a ser recopiladas, y que posteriormente servirán para la generación de inteligencia. El hecho de utilizar un catálogo extenso de fuentes conlleva obviamente un mayor gasto a la hora de implementar el sistema, y en el caso de no tener disponibles los recursos necesarios, provoca una significativa ralentización del mismo.
  • Fiabilidad de las fuentes: es importante valorar previamente las fuentes que van a nutrir el sistema de información ya que una selección errónea de las mismas puede provocar resultados erróneos y desinformación.

Herramientas

Hay multitud de herramientas y servicios útiles a la hora de implementar un sistema OSINT. A continuación se mencionan algunos de ellos:

  • Buscadores habituales: Google, Bing, Yahoo, Ask. Permiten consultar toda la información que indexan. Así mismo, permiten especificar parámetros concretos (Hacking con buscadores: por ejemplo «Google Hacking» o «Bing Hacking») de manera que se pueden realizar búsquedas con mucha mayor precisión que la que utilizan los usuarios habitualmente.

    Dependiendo del buscador empleado se utilizan distintos parámetros, si bien algunos de ellos son comunes. Algunos ejemplos de búsquedas parametrizadas son las siguientes:

    • Ficheros con extensión pdf de un sitio web concreto: site:cert.inteco.es + ext:pdf ­
    • Algunos sitios hackeados: intitle:"hacked by SultanHaikal"

    Mediante éstos parámetros se puede obtener, entre otras cosas, información sensible como nombres de usuarios y contraseñas procedentes de volcados de bases de datos, localización de servidores vulnerables, acceso a dispositivos hardware online como webcams, cámaras de vigilancia o impresoras, o datos personales como DNI, cuentas bancarias, etc.

  • Buscadores especializados:

     

    • Shodan: Permite entre otras cosas localizar ordenadores, webcams, impresoras, etc. basándose en el software, la dirección IP, la ubicación geográfica, etc. Mediante este servicio es posible localizar información de interés y, en ocasiones, curiosa e incluso inquietante, como por ejemplo: acceder al sistema de control de una pista de patinaje sobre hielo en Dinamarca y descongelarla, poner en modo de prueba todo el sistema de control de tráfico de una ciudad o acceder al sistema de control de una planta hidroeléctrica en Francia. ­
    • NameCHK: es una herramienta que permite comprobar si un nombre de usuario está disponible en más de 150 servicios online. De este modo, se puede saber los servicios que utiliza un usuario en concreto, ya que habitualmente la gente mantiene dicho nombre para todos los servicios que utiliza. Además, disponen de una API que permite automatizar las consultas. ­
    • Knowem: es una herramienta de similares características que MameCHK pero comprueba el nombre en más de 550 servicios, incluyendo dominios disponibles. ­
    • Tineye: es un servicio que, partiendo de una imagen, indica en qué sitios web aparece. Es similar a la búsqueda por imagen que incorpora Google Imágenes. ­
    • Buscadores de información de personas: permiten realizar búsquedas a través de diferentes parámetros como nombres, direcciones de correo o teléfonos. A partir de datos concretos localizan a usuarios en servicios como redes sociales, e incluyen posibles datos relacionados con ellos como números de teléfono o fotos. Algunos de los portales que incorporan este servicio son: Spokeo, Pipl, 123people o Wink.

     

  • Herramientas de recolección de metadatos:

     

    • Metagoofil: permite la extracción de metadatos de documentos públicos (pdf, doc, xls, ppt, docx, pptx, xlsx). A partir de la información extraída se pueden obtener direcciones de correo electrónico del personal de una empresa, el software utilizado para la creación de los documentos y por tanto poder buscar vulnerabilidades para dicho software, nombres de empleados, etc.
    • Libextractor: es una aplicación similar a Metagoofil que soporta muchos más formatos, si bien la información obtenida no es de tanta utilidad.

     

  • Servicios para obtener información a partir de un dominio:

     

    • Domaintools: es uno de los servicios referentes en este ámbito ya que incorpora un gran número de funcionalidades. Cabe destacar que permite crear alertas a usuarios que registran dominios, monitorizar dominios e IPs, crear alertas para dominios nuevos que contengan ciertas palabras, e incluso un servicio de investigación de gran cantidad de amenazas como «spear phishing», denegación de servicio, spam, fraude o malware.
    • Robtex: muestra, entre otras cosas, la fiabilidad del dominio, su posición en el ranking Alexa, el listado de subdominios, los servidores de correo o el ISP que utiliza. ­
    • MyIPNeighbors: permite obtener el listado de dominios que comparten servidor con el dominio indicado.

     

  • APIs de diferentes servicios como Facebook, Twitter, Google+ o Youtube:

    Mediante los métodos que implementan se pueden consultar de una manera automatizada los datos publicados.

  • Otras herramientas de interés:

     

    • GooScan: permite automatizar búsquedas en Google pudiendo identificar de una manera sencilla subdominios de un dominio concreto, fugas de información o posibles vulnerabilidades.
    • SiteDigger: al igual que GooScan permite automatizar búsquedas. Busca en la caché de Google para identificar vulnerabilidades, errores, problemas de configuración, etc. ­
    • OsintStalker (FBStalker y GeoStalker): utilizan diferentes redes sociales como Facebook, LinkedIn, Flickr, Instagram y Twitter para recolectar gran cantidad de información sobre una persona. Permiten localizar lugares y sitios web visitados con regularidad, amigos online, etc. y mostrar los datos en Google Maps. ­
    • Cree.py: permite obtener datos de Twitter, Flickr e Instagram. A partir de la selección de una cuenta extrae fechas e información GPS, y crea una base de datos en formato csv o kmz para visualizarlos. ­
    • Theharvester: esta herramienta obtiene emails, subdominios, host, nombres de empleados, puertos abiertos, etc. a través de diferentes servicios como Google, Bing, LinkedIn y Shodan.

     

  • Merecen una mención especial Palantir y Maltego al implementar un gran número de funcionalidades y ser unos de los grandes referentes en la materia de la inteligencia de las fuentes abiertas.

     

    • ­
    • Palantir: es una empresa que tiene como cliente a diferentes servicios del Gobierno de Estados Unidos (CIA, NSA y FBI) y que se centra en el desarrollo de software contra el terrorismo y el fraude, mediante la gestión y explotación de grandes volúmenes de información. ­
    • Maltego: permite visualizar de manera gráfica las relaciones entre personas, empresas, páginas web, documentos, etc. a partir de información pública.

     

Conclusiones

La inteligencia recopilada a partir de fuentes de acceso público (OSINT) ha cobrado una especial relevancia en los últimos años, principalmente promovida por la proliferación del uso de Internet y de las redes sociales. Existe una enorme cantidad de información disponible en la red, «Deep Web» incluida, que puede resultar de gran interés en muy diversos campos que abarcan desde la seguridad de la información, la reputación online o la identificación y gestión de posibles riesgos a la seguridad nacional. Así mismo, cada vez se llevan a cabo más estudios sociológicos, psicológicos, o de otras materias que utilizan como base la información pública disponible en internet.

Otro aspecto significativo, y que permite darse cuenta de la importancia de este tipo de información, es la aparición en el mercado laboral de la figura del analista OSINT, el cual es el encargado, entre otras cosas, de implementar y gestionar los sistemas OSINT. McKinsey Global Institute ha pronosticado que para el 2018 en EEUU habrá una demanda de entre 140.000 y 190.000 profesionales con conocimientos estadísticos y de análisis predictivo.

Todo esto ha provocado que diferentes países destinen cada vez más recursos a implementar estos sistemas, creando incluso organismos como Open Source Center (OSC) en Estados Unidos o asociaciones como Eurosint en Bélgica, encargadas de analizar los datos públicos con el fin de identificar y prevenir amenazas.

Por todo lo anteriormente indicado, es innegable que la la inteligencia de fuentes abiertas puede aportar gran cantidad de beneficios.