Alertando 13 millones de dominios maliciosos en 1 mes con dominios observados recientemente

Por Federico Dios, pre-sales senior manager en Akamai Technologies

Los investigadores de Akamai han marcado casi 79 millones de dominios como maliciosos en la primera mitad de 2022, según un conjunto de datos de dominio observado recientemente. Esto equivale aproximadamente a 13 millones de dominios maliciosos por mes y representa el 20,1% de todos los NOD que se resolvieron con éxito.

Comparamos un enfoque de detección basado en NOD con otro agregador de inteligencia de amenazas conocido en términos de cobertura y tiempo promedio para detectar y encontramos un excelente valor complementario.

La detección de amenazas basada en NOD nos permite observar la "long tail” de las consultas de DNS y marcar nuevas amenazas maliciosas muy temprano en el ciclo de vida de una amenaza.

Las instancias de Akamai CacheServe actualmente manejan más de 80 millones de consultas de DNS por segundo, o aproximadamente 7 billones de solicitudes por día, de todo el mundo. Un subconjunto anónimo de estos datos llega a nuestro equipo, donde nuestros investigadores trabajan arduamente para hacer que la vida online sea más segura.

 

Producimos inteligencia de DNS e IP para ISP y empresas, de modo que los usuarios finales puedan navegar por la web de manera segura y protegida.

 

Sin duda, los destinos de los enlaces web no siempre son seguros. Si identificamos un destino como malicioso, nuestros sistemas pueden intervenir para que no seas víctima de ransomware, malware, phishing y muchas otras amenazas.

 

Uno de nuestros activos más poderosos es el conjunto de datos de dominio recién observado (NOD) y cómo lo usamos para marcar nuevos nombres de dominio maliciosos con un tiempo medio de detección (MTTD) muy corto.

 

Manejamos el concepto de NOD para permitir a nuestro equipo proteger a los clientes y usuarios finales.

 

Dominios observados recientemente

Algunos de nuestros clientes de CacheServe (por lo general, los ISP) nos proporcionan campos de consulta de DNS anónimos, como el FQDN solicitado y la dirección IP resuelta. A partir de estos datos, extraemos los nombres de dominio y hacemos un seguimiento de cuándo se observó por última vez cada nombre de dominio. Siempre que se consulta un nombre de dominio por primera vez en los últimos 60 días, lo consideramos un NOD : un dominio observado recientemente.

 

El conjunto de datos NOD nos permite acercarnos a lo que a menudo se denomina "cola larga", en este caso, la cola larga de las consultas de DNS. Este conjunto de datos es donde encontrará nombres de dominio recién registrados, errores tipográficos y dominios que rara vez se consultan a escala global.

 

Otras organizaciones que sabemos que están monitoreando los NOD han declarado que usan un periodo de tiempo de 30 minutos a 72 horas. Esto está muy lejos de la ventana de 60 días que estamos usando nosotros. Trabajamos con una ventana tan larga para asegurarnos de que solo estamos viendo los nombres de dominio más recientes y menos consultados. Este subconjunto es donde nuestros investigadores han encontrado una gran cantidad de nuevas y futuras ciberamenazas basadas en DNS.

 

Además de esto, también realizamos un seguimiento de las consultas de DNS que nunca se resolvieron con éxito (NXDOMAIN). Hacemos esto porque la mayoría de los dominios a los que el malware intenta conectarse ni siquiera están registrados. Esto conduce a un aumento del tamaño de nuestro conjunto de datos de aproximadamente un orden de magnitud, pero permite que nuestros investigadores de seguridad observen una imagen completa en lugar de una muestra sesgada.

 

Esto es, en pocas palabras, lo que es nuestro conjunto de datos NOD. Y nos proporciona una gran cantidad de opciones para el análisis.

 

Actividad maliciosa en datos NOD

Para tener una idea de cómo se ve realmente el conjunto de datos NOD, la Figura 1 muestra una muestra aleatoria del 3 de marzo de 2022.

 

aa65ef[.]ch

i3oq6565ybln1l14[.]com

1z4e1feu8flth[.]com

fkyjtgqnodzv0n0[.]com

xmyc[.]ren

bx76-lzlirxpp6[.]com

vcd7alw-x34ujurr7aeciih9l8[.]com

yporqueyo[.]com

avdl2-li2tmw86[.]com

vnfwjetwwqqddnundjgk[.]jp

lynnesilkmandesig[.]com

aa73ve[.]ch

Fig. 1: Una muestra aleatoria del conjunto de datos NOD

 

Después de ver la Figura 1, no sorprende que los NOD tengan una alta probabilidad de ser maliciosos. 

 

En un día normal, nuestro equipo observa un total de aproximadamente 12 millones de NOD nuevos, de los cuales un poco más de 2 millones se resuelven con éxito. Durante los primeros 6 meses de 2022, casi 79 millones de nombres de dominio se marcaron como maliciosos gracias a la detección de amenazas basada en NOD. Esto hace que el conjunto de datos NOD sea un componente clave de nuestros mecanismos de detección.

 

Muchos nombres en el conjunto de datos NOD parecen nombres que nunca escribiría en una ventana del navegador. No son legibles por humanos y parecen generados por un ordenador. ¿Por qué vemos tantos de estos nombres?

Los actores maliciosos a menudo registran miles de nombres de dominio de forma masiva. De esta manera, si uno o más de sus dominios están marcados y bloqueados (por ejemplo, por nuestro equipo), simplemente pueden cambiar a uno de los otros dominios que poseen. Por lo general, estos nombres de dominio se crean mediante programación utilizando un algoritmo de generación de dominio (DGA). Este proceso automatizado es parte de lo que hace que estos NOD sean peligrosos. Es una forma persistente de atacar una organización.

Suele ocurrir que se insertan dígitos en los nombres, por lo que hay pocas posibilidades de que los dominios generados ya se hayan registrado.

Las amenazas comunes que utilizan la técnica anterior incluyen malware, ataques de ransomware, criptomineros, typosquatting (a menudo utilizado para phishing), botnets y APT. Cuanto mejor y más rápido se detectan este tipo de patrones y nombres generados por computadora, más amenazas se pueden neutralizar antes de que causen daños. 

Detección de actividad maliciosa en datos NOD

Aquí hay una pequeña selección de los métodos de detección basados ​​en NOD de nuestro equipo.

Base de datos DGA conocida

Echemos un vistazo más de cerca a 2 nombres de dominio de los ejemplos anteriores: aa65ef[.]ch y aa73ve[.]ch. Ambos comparten la misma longitud, dominio de nivel superior (TLD) y ubicación de caracteres alfabéticos y numéricos, lo que sugiere que muy probablemente fueron creados por el mismo DGA.

Una vez que conocemos el funcionamiento interno de un DGA a través de la ingeniería inversa, es fácil generar nombres que esperamos ver en el futuro. Esto es exactamente lo que ha hecho uno de nuestros proyectos internos: hemos creado una base de datos con nombres previstos para todas las familias DGA conocidas hasta 30 años en el futuro. Esto solo fue posible gracias al intercambio de conocimientos públicos en la comunidad de ciberseguridad.

Cada vez que detectamos un nuevo NOD, buscamos una coincidencia con esta base de datos. Si existe una coincidencia, consideramos que el NOD es malicioso. Aproximadamente el 0,1% de los NOD resueltos con éxito se marcan actualmente como maliciosos a través de este método.

Esto significa que el conocimiento recopilado de la comunidad de ciberseguridad tiene un impacto activo aquí y protege a los usuarios finales. Pero también significa que este método está detectando solo una pequeña fracción de la actividad maliciosa, y necesitamos más mecanismos de detección además de esto.

Análisis heurístico

Nuestros investigadores han estado trabajando con datos NOD durante muchos años. A través del análisis manual y la investigación en los últimos 12 años, hemos creado más de 190 reglas de detección específicas de NOD.

 

Estas reglas heurísticas son actualmente responsables de la gran mayoría de todas las detecciones y se basan en entradas como el nombre de dominio en sí, su TLD, IP resuelta, números de sistema autónomo (ASN), etc.

Un ejemplo de tal regla podría verse así:

Marque todos los NOD con:

Una puntuación de riesgo de ASN superior a 0,50

Una puntuación de riesgo de TLD superior a 0,75

Direcciones IP resueltas en el rango 127.0.0.0/8

Un nombre de dominio registrado que comienza con un dígito

 

¿Cómo sabemos que una regla no crea falsos positivos? La experiencia del equipo juega un papel importante aquí. A lo largo de los años, las reglas ciertamente han causado una buena cantidad de falsos positivos. Contamos con un mecanismo de informes para nuestros clientes, de modo que cualquier error pueda analizarse y tratarse rápidamente.

En la primera mitad de 2022, de los 79 millones de dominios marcados como resultado del análisis heurístico, luego encontramos 329 falsos positivos. Esto equivale a una tasa de descubrimiento falso de 0.00042%.

Nuestro equipo de científicos de datos está trabajando actualmente en un enfoque basado en ML para extender la heurística y aumentar aún más la cobertura.

Detección de phishing

Para cada nuevo NOD que vemos, verificamos la similitud con una lista de marcas conocidas y sitios web populares. Si vemos un nuevo NOD con una similitud muy alta, puede ser motivo suficiente para marcar el NOD como malicioso.

En casos de similitud ligeramente menor (pero aún alta), aportamos otros datos para ayudar a tomar la decisión. Por ejemplo: Si después de resolver el nombre de dominio apunta a un ASN con una puntuación de riesgo alta , la probabilidad de que se trate de un ataque de phishing aumenta.

Detección rápida de amenazas

La gran ventaja de un NOD es su MTTD muy corto. 

Los datos de NOD nos permiten clasificar un nuevo dominio muy temprano en el ciclo de vida de la amenaza. Todo lo que necesitamos para activar nuestros mecanismos de detección es una sola consulta de DNS a un dominio malicioso recién creado.

 

 

Veamos un ejemplo:

Estamos viendo un intento de phishing que se está configurando en el "país de los piratas informáticos malvados". Los actores malintencionados tienen como objetivo a safebank[.]abc y crearon un sitio web falso en savebank[.]abc.

Se envían correos electrónicos para que la gente visite el sitio web falso. Uno de esos correos electrónicos llega a Pedro, que vive en el España y es suscriptor de un ISP que usa CacheServe. El ISP también comparte metadatos de CacheServe con nuestro equipo, y Pedro se ha suscrito al paquete de seguridad mejorado del ISP proporcionado por Akamai, al igual que todos los demás suscriptores de ISP.

Pedro hace clic en el enlace al sitio web de phishing. Como el sitio web es completamente nuevo y nadie lo ha marcado como malicioso, lamentablemente Pedro podrá visitarlo.

Sin embargo, detrás de escena, nuestro equipo ahora recibe una nueva entrada en el conjunto de datos NOD para savebank[.]abc. Nuestra detección de phishing lo identifica inmediatamente como un error ortográfico de safebank[.]abc.

El dominio está marcado como malicioso. Esto se conecta en cascada al ISP. A partir de este momento, todos los suscriptores del ISP están protegidos contra esta estafa de phishing. Incluso si hacen clic en el enlace de phishing, no podrán visitar el sitio web falso.

Pedro pudo haber sido la primera víctima del sitio web de phishing. Pero en lo que respecta a las personas protegidas por nuestro equipo, Pedro probablemente también sea el último.

Todos nuestros sistemas y reglas de detección basados ​​en NOD están completamente automatizados. Esto significa que una vez que se identifica un nuevo NOD, el tiempo necesario para clasificarlo como malicioso se mide en minutos, no en horas o días. No se necesita intervención humana.

Todo esto le da a nuestra detección de amenazas basada en NOD una ventaja en velocidad sobre muchos otros mecanismos de detección de amenazas. Le permite a nuestro equipo mitigar rápidamente las nuevas amenazas basadas en DNS.

Para resumir:

El evento que desencadena la detección de amenazas se ubica en una etapa muy temprana del ciclo de vida de la amenaza.

Los sistemas de detección en sí son muy rápidos porque están completamente automatizados.

¿Cómo somos de efectivos?

Para poder hacer una comparación, acerquémonos a los NOD que se resolvieron con éxito, porque es poco probable que encontremos nombres de dominio sin resolver en conjuntos de datos externos. Por lo tanto, los números mencionados a continuación son solo para rcode 0. También nos limitamos a una línea de tiempo desde el 1 de enero de 2022 hasta finales de junio de 2022.

En este período de tiempo, los sistemas de detección de nuestro equipo marcaron el 20,1 % de todos los NOD como maliciosos. Esto equivale a casi 79 millones de nombres de dominio maliciosos únicos en este período de 6 meses, según solo el rcode 0.

Decidimos hacer una evaluación usando como referencia un gran y conocido agregador de inteligencia de amenazas. Nos referiremos a esta referencia como “el agregador”.

Por un lado, tomamos todos los NOD que fueron marcados como maliciosos por el proyecto de análisis heurístico que describimos anteriormente.

Por otro lado, tomamos todos los nombres de dominio que habían sido buscados al menos una vez en la base de datos mencionada anteriormente.

Descubrimos que el 91,4 % de los NOD que marcamos como maliciosos no estaban presentes.

También revelamos que, de los nombres que pudimos encontrar, más del 99,9 % tenían una "reputación" de 0, lo que significa que aún no habían sido etiquetados como benignos o maliciosos (solo alguien los buscó).

En resumen, para todos los nombres de dominio resueltos con éxito que nuestros investigadores marcaron a través de las reglas heurísticas, solo pudimos obtener una opinión del agregador conocido para aproximadamente 1 de cada 11 000 nombres de dominio.

¿Lo hicimos mejor o peor que ellos? Esta es una pregunta que no podemos responder aquí.

Lo que podemos concluir de los números anteriores es que el conjunto de datos de NOD proporciona mucho valor complementario, ya que solo hay una superposición muy pequeña entre su salida y otras importantes fuentes de inteligencia de amenazas.

¿Somos rápidos?

Analicemos ahora el tiempo para detectar.

Tomamos la misma configuración de datos que la anterior y ampliamos la pequeña superposición que encontramos, que representa casos en los que tanto el agregador como nuestro equipo marcaron un nombre de dominio como malicioso. Tenga en cuenta que todavía estamos viendo aquí solo uno de nuestros proyectos de detección; es decir, el análisis heurístico.

 

 

La figura 2 aborda la pregunta: cuando ambos sistemas marcan un nombre de dominio como malicioso, ¿cuál de los dos lo hace antes y cuál es la diferencia horaria?

Gráfico, Histograma

Descripción generada automáticamente

Fig. 2: La diferencia de tiempo para la detección por parte del agregador versus nuestro sistema de detección NOD

Descubrimos que en los casos en que tanto el agregador como nuestro equipo marcan un nombre de dominio como malicioso, generalmente lo hacemos 29,6 días antes que el agregador (es decir, un MTTD de casi 30 días más corto).

La Figura 2 desglosa aún más este número.

El eje y representa el recuento de nombres de dominio maliciosos.

El eje x representa la diferencia en la cantidad de días entre marcar un nombre de dominio como malicioso y que el otro sistema lo marque. Las barras del lado derecho representan casos en los que nuestro sistema de detección fue más rápido. Las barras del lado izquierdo representan casos en los que el agregador fue más rápido.

El enfoque NOD realmente muestra su excelente MTTD aquí, como resultado de que sus disparadores de detección se posicionan muy temprano en el ciclo de vida de una amenaza típica.

Sin embargo, también está claro que hay numerosos casos en los que el enfoque NOD es más lento que el otro agregador. Esto demuestra la necesidad de un enfoque multifacético para obtener lo mejor de ambos sistemas.

 

A partir de nuestro análisis de la Figura 2, concluimos, nuevamente, que la mejor solución es usar el enfoque NOD y el agregador al mismo tiempo.

Una observación reciente de NOD

Una cosa más sobre los datos de NOD es que analizarlos puede brindarnos una perspectiva macro única sobre la actividad maliciosa. Por ejemplo, la Figura 3 muestra la cantidad de nombres de dominio maliciosos que marcamos por TLD a lo largo del tiempo. 

El comportamiento del TLD ruso .ru es particularmente interesante. Su base de referencia es de aproximadamente 10 000 nuevos dominios maliciosos únicos por día. Dos semanas antes de la invasión rusa de Ucrania, comenzamos a ver una actividad maliciosa en constante aumento hasta casi 40 000 NOD maliciosos por día. Luego, esta actividad se desaceleró un poco antes de generar un pico masivo de más de 250 000 nombres de dominio .ru maliciosos únicos por día en la segunda quincena de marzo.

Marcar estos dominios para nuestros clientes les permitió mantener a sus suscriptores a salvo de estas amenazas potenciales.

Imagen que contiene Gráfico

Descripción generada automáticamente

Fig. 3: La cantidad de nombres de dominio maliciosos marcados por TLD a lo largo del tiempo

Conclusión

La seguridad tiene que ser multifacética, y cuanto más sepamos, más seguro podremos hacer el mundo. La detección de amenazas basada en NOD es rápida y muy complementaria a otras fuentes de inteligencia de amenazas.