«Ολόκληρο το πρωτεϊνικό σύμπαν»: Η τεχνητή νοημοσύνη προβλέπει το σχήμα σχεδόν κάθε γνωστής πρωτεΐνης

«Ολόκληρο το πρωτεϊνικό σύμπαν»: Η τεχνητή νοημοσύνη προβλέπει το σχήμα σχεδόν κάθε γνωστής πρωτεΐνης

Το εργαλείο AlphaFold της DeepMind έχει καθορίσει τις δομές περίπου 200 εκατομμυρίων πρωτεϊνών.

Από σήμερα, ο προσδιορισμός του τρισδιάστατου σχήματος σχεδόν κάθε πρωτεΐνης που είναι γνωστή στην επιστήμη θα είναι τόσο απλός όσο η πληκτρολόγηση σε μια αναζήτηση Google.

Οι ερευνητές χρησιμοποίησαν το AlphaFold – το επαναστατικό δίκτυο τεχνητής νοημοσύνης (AI) – για να προβλέψουν τις δομές περίπου 200 εκατομμυρίων πρωτεϊνών από 1 εκατομμύριο είδη, καλύπτοντας σχεδόν κάθε γνωστή πρωτεΐνη στον πλανήτη.

Η απόρριψη δεδομένων θα είναι δωρεάν διαθέσιμη σε μια βάση δεδομένων που έχει συσταθεί από την DeepMind, την εταιρεία τεχνητής νοημοσύνης της Google με έδρα το Λονδίνο που ανέπτυξε το AlphaFold, και το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (EMBL-EBI), έναν διακυβερνητικό οργανισμό κοντά στο Κέιμπριτζ του Ηνωμένου Βασιλείου.

«Ουσιαστικά μπορείτε να σκεφτείτε ότι καλύπτει ολόκληρο το πρωτεϊνικό σύμπαν», δήλωσε ο CEO της DeepMind, Ντέμης Χασάμπις, σε συνέντευξη Τύπου. «Βρισκόμαστε στην αρχή της νέας εποχής της ψηφιακής βιολογίας».

Το τρισδιάστατο σχήμα ή δομή μιας πρωτεΐνης είναι αυτό που καθορίζει τη λειτουργία της στα κύτταρα. Τα περισσότερα φάρμακα σχεδιάζονται χρησιμοποιώντας δομικές πληροφορίες και οι ακριβείς χάρτες είναι συχνά το πρώτο βήμα για ανακαλύψεις σχετικά με το πώς λειτουργούν οι πρωτεΐνες.

Η DeepMind ανέπτυξε το δίκτυο AlphaFold χρησιμοποιώντας μια τεχνική AI που ονομάζεται βαθιά εκμάθηση και η βάση δεδομένων AlphaFold κυκλοφόρησε πριν από ένα χρόνο με 350.000 προβλέψεις δομής που καλύπτουν σχεδόν κάθε πρωτεΐνη που παράγεται από ανθρώπους, ποντίκια και 19 άλλους ευρέως μελετημένους οργανισμούς. Έκτοτε, ο κατάλογος έχει διογκωθεί σε περίπου 1 εκατομμύριο καταχωρήσεις.

«Προετοιμαζόμαστε για την απελευθέρωση αυτού του τεράστιου θησαυρού», λέει η Christine Orengo, υπολογιστική βιολόγος στο University College του Λονδίνου, η οποία έχει χρησιμοποιήσει τη βάση δεδομένων AlphaFold για να εντοπίσει νέες οικογένειες πρωτεϊνών. “Το να έχουμε όλα τα δεδομένα που έχουν προβλεφθεί για εμάς είναι απλά φανταστικό.”

Κατασκευές υψηλής ποιότητας

Η κυκλοφορία του AlphaFold πέρυσι έκανε θραύση στην κοινότητα των βιοεπιστημών, η οποία προσπαθούσε να εκμεταλλευτεί το εργαλείο. Το δίκτυο παράγει εξαιρετικά ακριβείς προβλέψεις για το τρισδιάστατο σχήμα ή τη δομή των πρωτεϊνών. Παρέχει επίσης πληροφορίες σχετικά με την ακρίβεια των προβλέψεών του, ώστε οι ερευνητές να ξέρουν σε ποια να βασιστούν. Παραδοσιακά, οι επιστήμονες έχουν χρησιμοποιήσει χρονοβόρες και δαπανηρές πειραματικές μεθόδους όπως η κρυσταλλογραφία ακτίνων Χ και η κρυοηλεκτρονική μικροσκοπία για την επίλυση των πρωτεϊνικών δομών.

Σύμφωνα με το EMBL-EBI, περίπου το 35% από τις περισσότερες από 214 εκατομμύρια προβλέψεις θεωρούνται εξαιρετικά ακριβείς, πράγμα που σημαίνει ότι είναι εξίσου καλές με τις πειραματικά προσδιορισμένες δομές. Ένα άλλο 45% κρίθηκε αρκετά σίγουρο για να βασιστεί σε πολλές εφαρμογές.

Πολλές δομές AlphaFold είναι αρκετά καλές για να αντικαταστήσουν τις πειραματικές δομές για ορισμένες εφαρμογές. Σε άλλες περιπτώσεις, οι ερευνητές χρησιμοποιούν προβλέψεις AlphaFold για να επικυρώσουν και να κατανοήσουν τα πειραματικά δεδομένα. Οι κακές προβλέψεις είναι συχνά προφανείς και μερικές από αυτές προκαλούνται από εγγενή διαταραχή στην ίδια την πρωτεΐνη που σημαίνει ότι δεν έχει καθορισμένο σχήμα, τουλάχιστον χωρίς άλλα μόρια.

Οι 200 ​​εκατομμύρια προβλέψεις που δημοσιεύθηκαν σήμερα βασίζονται στις ακολουθίες μιας άλλης βάσης δεδομένων, που ονομάζεται UNIPROT. Είναι πιθανό ότι οι επιστήμονες θα είχαν ήδη μια ιδέα για το σχήμα ορισμένων από αυτές τις πρωτεΐνες, επειδή καλύπτονται σε βάσεις δεδομένων πειραματικών δομών ή μοιάζουν με άλλες πρωτεΐνες σε τέτοια αποθετήρια, λέει ο Eduard Porta Pardo, υπολογιστικός βιολόγος στο Ερευνητικό Ινστιτούτο Λευχαιμίας Josep Carreras. (IJC) στη Βαρκελώνη.

Αλλά τέτοιες καταχωρήσεις τείνουν να στρέφονται προς τις πρωτεΐνες του ανθρώπου, του ποντικιού και άλλων θηλαστικών, λέει η Porta, οπότε είναι πιθανό η χωματερή AlphaFold να προσθέσει σημαντική γνώση επειδή αντλεί από πολλούς περισσότερους διαφορετικούς οργανισμούς. «Θα είναι ένας φοβερός πόρος. Και μάλλον θα το κατεβάσω μόλις βγει», λέει η Porta.

Επειδή το λογισμικό AlphaFold είναι διαθέσιμο εδώ και ένα χρόνο, οι ερευνητές είχαν ήδη την ικανότητα να προβλέψουν τη δομή οποιασδήποτε πρωτεΐνης επιθυμούν. Ωστόσο, πολλοί λένε ότι η διαθεσιμότητα προβλέψεων σε μια ενιαία βάση δεδομένων θα εξοικονομήσει χρόνο, χρήμα – και φασαρία στους ερευνητές. «Είναι άλλο ένα εμπόδιο εισόδου που αφαιρείτε», λέει η Porta. «Έχω χρησιμοποιήσει πολλά μοντέλα AlpahFold. Δεν έχω τρέξει ποτέ μου το AlphaFold».

Ο Jan Kosinski, δομικός μοντελιστής στην EMBL Hamburg στη Γερμανία, ο οποίος διαχειρίζεται το δίκτυο AlphaFold τον περασμένο χρόνο, ανυπομονεί για την επέκταση της βάσης δεδομένων. Η ομάδα του πέρασε 3 εβδομάδες προβλέποντας το πρωτεϊνό – το σύνολο όλων των πρωτεϊνών ενός οργανισμού – ενός παθογόνου. «Τώρα μπορούμε απλώς να κατεβάσουμε όλα τα μοντέλα», είπε στην ενημέρωση.

Εκατό terabyte

Η ύπαρξη σχεδόν κάθε γνωστής πρωτεΐνης στη βάση δεδομένων θα επιτρέψει επίσης νέα είδη μελετών. Η ομάδα του Orengo χρησιμοποίησε τη βάση δεδομένων AlphaFold για να εντοπίσει νέα είδη οικογενειών πρωτεϊνών και τώρα θα το κάνει αυτό σε πολύ μεγαλύτερη κλίμακα. Το εργαστήριό της θα χρησιμοποιήσει επίσης τη διευρυμένη βάση δεδομένων για να κατανοήσει την εξέλιξη των πρωτεϊνών με χρήσιμες ιδιότητες, όπως η ικανότητα κατανάλωσης πλαστικού ή ανησυχητικές, όπως αυτές που μπορούν να προκαλέσουν καρκίνο. Ο εντοπισμός μακρινών συγγενών αυτών των πρωτεϊνών στη βάση δεδομένων μπορεί να εντοπίσει τη βάση για τις ιδιότητές τους.

Ο Martin Steinegger, ένας υπολογιστικός βιολόγος στο Εθνικό Πανεπιστήμιο της Σεούλ, ο οποίος βοήθησε στην ανάπτυξη μιας έκδοσης του AlphaFold που βασίζεται στο cloud, είναι ενθουσιασμένος που βλέπει τη βάση δεδομένων να επεκτείνεται. Αλλά λέει ότι οι ερευνητές είναι πιθανό να συνεχίσουν να πρέπει να λειτουργούν το δίκτυο μόνοι τους. Όλο και περισσότερο, οι άνθρωποι χρησιμοποιούν το AlphaFold για να καθορίσουν πώς αλληλεπιδρούν οι πρωτεΐνες και τέτοιες προβλέψεις δεν υπάρχουν στη βάση δεδομένων. Ούτε οι μικροβιακές πρωτεΐνες προσδιορίζονται με αλληλούχιση γενετικού υλικού από το έδαφος, το νερό των ωκεανών και άλλες «μεταγονιδιωματικές» πηγές.

Ορισμένες εξελιγμένες εφαρμογές της διευρυμένης βάσης δεδομένων AlphaFold μπορεί επίσης να εξαρτώνται από τη λήψη ολόκληρου του περιεχομένου των 23 terabyte, κάτι που δεν θα είναι εφικτό για πολλές ομάδες, λέει ο Steinegger. Η αποθήκευση που βασίζεται στο cloud θα μπορούσε επίσης να αποδειχθεί δαπανηρή. Ο Steinegger έχει αναπτύξει από κοινού ένα εργαλείο λογισμικού που ονομάζεται FoldSeek το οποίο μπορεί να βρει γρήγορα δομικά παρόμοιες πρωτεΐνες και το οποίο θα πρέπει να είναι σε θέση να συνθλίψει σημαντικά τα δεδομένα AlphaFold.

Ακόμη και με κάθε γνωστή πρωτεΐνη που περιλαμβάνεται, η βάση δεδομένων AlphaFold θα χρειαστεί ενημέρωση καθώς ανακαλύπτονται νέοι οργανισμοί. Οι προβλέψεις του AlphaFold μπορούν επίσης να βελτιωθούν καθώς γίνονται διαθέσιμες νέες δομικές πληροφορίες. Ο Hassabis λέει ότι ο DeepMind έχει δεσμευτεί να υποστηρίζει τη βάση δεδομένων για μεγάλο χρονικό διάστημα και ότι θα μπορούσε να δει ενημερώσεις να πραγματοποιούνται ετησίως.

Η ελπίδα του είναι ότι η διαθεσιμότητα της βάσης δεδομένων AlphaFold θα έχει μόνιμο αντίκτυπο στις βιοεπιστήμες. «Θα απαιτήσει πολύ μεγάλη αλλαγή στη σκέψη».

Πηγή: https://www.nature.com