Un enorme conjunto de datos de 20 millones de muestras de malware publicado en línea

descarga de muestras de malware

Las firmas de ciberseguridad Sophos y ReversingLabs lanzaron conjuntamente el lunes el primer conjunto de datos de investigación de malware a escala de producción que se pondrá a disposición del público en general y tiene como objetivo construir defensas efectivas e impulsar mejoras en toda la industria en detección y respuesta de seguridad.

«SoReL-20M» (abreviatura de EntoncesfósforoReversandoLabdominales – 20 METROillion), como se le llama, es un conjunto de datos que contiene metadatos, etiquetas y funciones para 20 millones de archivos Windows Portable Executable (.PE), incluidos 10 millones de muestras de malware desarmadas, con el objetivo de diseñar enfoques de aprendizaje automático para mejorar las capacidades de detección de malware. .

«El conocimiento abierto y la comprensión de las amenazas cibernéticas también conducen a una ciberseguridad más predictiva», dijo el grupo de IA de Sophos. «Los defensores podrán anticipar lo que hacen los atacantes y estar mejor preparados para su próximo movimiento».

Acompañando al lanzamiento hay un conjunto de modelos de aprendizaje automático basados ​​en PyTorch y LightGBM entrenados previamente en estos datos como líneas de base.

A diferencia de otros campos como el lenguaje natural y el procesamiento de imágenes, que se han beneficiado de vastos conjuntos de datos disponibles públicamente como MNIST, ImageNet, CIFAR-10, IMDB Reviews, Sentiment140 y WordNet, obtener conjuntos de datos etiquetados y estandarizados dedicados a la ciberseguridad ha resultado ser un desafío. debido a la presencia de información de identificación personal, datos confidenciales de infraestructura de red y propiedad intelectual privada, sin mencionar el riesgo de proporcionar software malicioso a terceros desconocidos.

Aunque EMBER (también conocido como Endgame Malware BEnchmark for Research) se lanzó en 2018 como un clasificador de malware de código abierto, su tamaño de muestra más pequeño (1,1 millones de muestras) y su función como un conjunto de datos de etiqueta única (benigno/malware) significaba que «limitaba[ed] el rango de experimentación que se puede realizar con él».

SoReL-20M tiene como objetivo solucionar estos problemas con 20 millones de muestras de PE, que también incluyen 10 millones de muestras de malware desarmado (que no se pueden ejecutar), así como características extraídas y metadatos para 10 millones de muestras benignas adicionales.

Además, el enfoque aprovecha un modelo de etiquetado basado en aprendizaje profundo entrenado para generar descripciones semánticas interpretables por humanos que especifican atributos importantes de las muestras involucradas.

El lanzamiento de SoReL-20M sigue iniciativas similares de la industria en los últimos meses, incluida la de una coalición liderada por Microsoft, que lanzó Adversarial ML Threat Matrix en octubre para ayudar a los analistas de seguridad a detectar, responder y remediar ataques adversarios contra sistemas de aprendizaje automático.

«La idea de compartir inteligencia de amenazas en seguridad no es nueva, pero es más crítica que nunca dada la innovación que los actores de amenazas han mostrado en los últimos años», dijeron los investigadores de ReversingLabs. «El aprendizaje automático y la IA se han vuelto fundamentales para estos esfuerzos, lo que permite que los cazadores de amenazas y los equipos SOC vayan más allá de las firmas y las heurísticas y se vuelvan más proactivos en la detección de malware nuevo o dirigido».

Continua leyendo

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Newsletter Signup

Suscríbete a nuestra lista si te interesa recibir turcos exclusivos sobre hacking y seguridad informática