La genomica computazionale è la branca della bioinformatica che decodifica l’informazione genetica e fa luce sui processi biologici.
La genomica computazionale è la scienza che, partendo dal sequenziamento del DNA e grazie all’utilizzo di analisi statistiche e computazionali, decifra la funzione delle regioni del genoma di ogni paziente.
Queste informazioni sono utili a comprendere sia le cause molecolari delle malattie, sia a mettere a punto strategie di diagnosi, prognosi e cura personalizzati.
La nascita della genomica computazionale
Gli articoli pubblicati dal 1962 al 1965 da Linus Pauling ed Emile Zuckerkandl costituiscono la nascita della genomica computazionale. Sulla base di studi comparati riguardanti le diversità nelle sequenze amminoacidiche delle sequenze delle catene dell’emoglobina in diversi animali, i due scienziati elaborarono la cosiddetta “ipotesi dell’orologio molecolare“.
Secondo questa ipotesi, viene assunto come costante il tasso di variazione nel tempo delle sequenze di macromolecole biologiche e utilizzate le divergenze tra le sequenze come se fossero “orologi molecolari” per misurare il tempo dell’evoluzione. Ne deriva dunque che sulla base della somiglianza di sequenza, è possibile trarre conclusioni su struttura simile, funzione simile e ascendenza comune. Informazioni al centro della genomica computazionale.
Le sfide della genomica computazionale
Le innovazioni biotecnologiche degli ultimi decenni ci permettono ormai di decodificare l’informazione genetica contenuta nelle molecole di DNA di ogni paziente. Questa informazione, utile sia a comprendere le cause molecolari delle malattie, sia a mettere a punto strategie di diagnosi, prognosi e cura di precisione, è resa disponibile ai laboratori nella forma di big data, cioè di grandi insiemi di dati complessi.
Dati che per essere decifrati necessitano di importanti risorse computazionali, di strumenti bioinformatici dedicati e di competenze altamente specializzate nella loro analisi e interpretazione.
Per comprendere l’impatto che ha avuto l’utilizzo di metodi computazionali nella ricerca e la rivoluzione che ha attraversato la biologia molecolare negli ultimi anni, basti pensare che per sequenziare un genoma umano – operazione che quindici anni fa ha richiesto una decina di anni di lavoro e miliardi di dollari – oggi basta qualche giorno e poche migliaia di dollari.
L’ambito biologico
La domanda più importante in questo ambito di ricerca è:
“com’è possibile che tutte le cellule del nostro organismo contengano essenzialmente lo stesso genoma ma eseguano funzioni molto diverse?”
Oggi sappiamo che, nonostante il manuale d’istruzioni (il genoma) sia lo stesso, cellule di organi e tessuti diversi usano capitoli diversi (diverse aree del genoma) e questo le differenzia nelle loro funzioni, che però vengono sempre eseguite in modo coordinato e controllato. Quando qualcosa va storto nelle istruzioni codificate nel genoma si sviluppano patologie. Questo è per esempio ciò che succede nel cancro.
La ricerca sul cancro si è tradizionalmente concentrata principalmente sulle alterazioni nella porzione del genoma che codifica per proteine, che costituisce solamente circa l’1% dell’intero genoma. Molte alterazioni patologiche però interessano il restante 99% del genoma umano, che pur non codificando proteine contiene le istruzioni per regolarne l’espressione.
Per la loro natura è più difficile assegnare un ruolo preciso a queste regioni non codificanti e identificare l’effetto delle loro alterazioni. Per fare ciò è necessario integrare diversi tipi d’informazioni (genetiche, epigenetiche e di espressione genica) ottenute con tecnologie genomiche e usando soluzioni di biologia computazionale innovative.
Il deep learning al servizio della biologia
La grande difficoltà della genomica computazionale consiste nell’interpretazione dei dati, ovvero nella costruzione di sistemi in grado di integrare i dati genomici estratti da algoritmi per ottenere un “senso biologico” utilizzabile dai medici.
Il deep learning viene utilizzato per superare questo ostacolo e rappresentare le relazioni non lineari, per aiutare a scoprire i modelli genomici alla base della complessità biologica.
La classificazione delle immagini e l’analisi di grandi sequenziamenti genomici sono sicuramente i due maggiori obiettivi che si vogliono raggiungere attraverso l’uso degli algoritmi di deep learning.
Nel caso della predizione di immagini e del riconoscimento di oggetti, si utilizzano le “Convolutional Neural Network” (ConvNets o CNN) ossia un tipo di rete neurale artificiale che si distingue dalle altre per le prestazioni superiori con immagini, input vocali e segnali audio, svolgendo un ruolo fondamentale negli algoritmi di deep learning. D’altra parte, possono risultare impegnative dal punto di vista dei calcoli e richiedono schede GPU (Graphical Processing Unit) per addestrare i modelli.
Riguardo ai dati di sequenziamento, si possono avere numerosi approcci derivati dai diversi input che possono venire dai dati. Utilizzare DNA o RNA è chiaramente una prima grossa differenza che necessita di approcci sensibilmente diversi, così anche come strutture complesse ottenute da DNA-proteina o DNA-RNA.
Fra i tanti algoritmi è stato sviluppato anche DeepVariant (GitHub) da Verily Life Sciences a San Francisco. Il programma traduce le informazioni genomiche in rappresentazioni simili a immagini, che poi sono analizzate proprio come immagini. In questo modo si cerca di utilizzare metodi più consolidati per l’analisi piuttosto che realizzare strategie ex novo. Grazie a DeepVariant si sono raggiunti tassi di errore del 2% invece del 20 % tipico di altri approcci.
Prospettive future
L’introduzione di nuovi approcci di convalida genomica, computazionale e funzionale nell’ultimo decennio ha contribuito ad un miglioramento nella capacità di rilevare e caratterizzare le varianti genomiche che sono alla base di processi biologici fisiologici e patologici, come il cancro.
Una delle prerogative principali di questo campo è fornire a medici, biologi e bioinformatici una serie integrata di tool, workflow di analisi di dati e di database di varianti genetiche da usare a supporto dell’attività di ricerca e dell’interpretazione diagnostica, per favorire un sempre maggiore approccio personalizzato alla diagnosi e cura del paziente.