Google ha recentemente reso open source Magika, uno strumento di identificazione dei file alimentato da machine learning, come parte della sua Iniziativa per la Difesa Cyber AI. Questa mossa mira a fornire agli addetti alla sicurezza informatica e ad altri professionisti del settore strumenti automatizzati più efficaci.
Sfide nell’Identificazione dei File
Determinare il vero contenuto di un file inviato da un utente può essere più complicato di quanto sembri. Non è sicuro affidarsi solo all’estensione del file e fare affidamento su euristiche e regole create manualmente per identificare la natura effettiva di un documento dai suoi dati è, secondo Google, un processo “laborioso e soggetto a errori”.
Introduzione di Magika
Per affrontare questa sfida, Google ha introdotto Magika, che utilizza un modello addestrato per identificare rapidamente i tipi di file dai dati del file. Questo strumento è già utilizzato da servizi come Gmail, Google Drive, la Safe Browsing di Chrome e VirusTotal per identificare correttamente i dati e instradarli per ulteriori elaborazioni.
Potenziali applicazioni
Magika potrebbe essere particolarmente utile per i difensori della rete per identificare rapidamente e su larga scala il vero contenuto dei file, un passo fondamentale nell’analisi dei malware e nel rilevamento delle intrusioni. Questo modello di deep learning potrebbe essere utile anche per chiunque debba esaminare documenti forniti dagli utenti, ad esempio, per distinguere tra video che sono in realtà eseguibili, che dovrebbero suscitare allarmi e richiedere un’ispezione più approfondita.
Prestazioni e Disponibilità
Google sostiene che Magika sia il 50% più accurato nell’identificazione dei tipi di file rispetto al sistema precedente basato su regole manuali, richiedendo solo millisecondi per identificare un tipo di file e raggiungendo una precisione di almeno il 99% nei test. Tuttavia, il modello non è perfetto e non riesce a classificare i tipi di file circa il 3% delle volte. Magika è rilasciato sotto licenza Apache 2.0, e il codice è disponibile su GitHub.
Iniziativa per la Difesa Cyber AI di Google
Oltre a Magika, Google collaborerà con 17 startup nel Regno Unito, negli Stati Uniti e in Europa come parte della sua Iniziativa per la Difesa Cyber AI, addestrandole all’uso di questi strumenti automatizzati per migliorare la loro sicurezza. Espanderà inoltre il suo Programma di Seminari sulla Sicurezza Informatica da 15 milioni di dollari per aiutare le università a formare più studenti europei in materia di sicurezza e ha impegnato 2 milioni di dollari in sovvenzioni per finanziare la ricerca in cyber-offesa e modelli di linguaggio di grandi dimensioni per supportare gli accademici dell’Università di Chicago, Carnegie Mellon e Stanford.
Cos’è Magika?
Google ha recentemente annunciato l’open-sourcing di Magika, un sistema di identificazione dei tipi di file alimentato da intelligenza artificiale, per aiutare a identificare con precisione i tipi di file binari e testuali. Magika utilizza un modello di deep learning personalizzato e altamente ottimizzato, che consente un’identificazione precisa dei file in millisecondi, anche su CPU.
Perché l’identificazione del tipo di file è difficile?
L’identificazione accurata dei tipi di file è cruciale per determinare come elaborare i file. Linux è dotato di libmagic e dell’utilità file, che sono stati lo standard de facto per l’identificazione dei tipi di file per oltre 50 anni. Tuttavia, l’identificazione accurata dei tipi di file è notoriamente difficile, poiché ogni formato di file ha una struttura diversa, o nessuna struttura affatto.