Το 2015, οι μηχανικοί της Google παρουσίασαν το DeepDream, ένα πρόγραμμα που “ονειρεύεται” εικόνες: παίρνει μια φωτογραφία και την τροποποιεί σε ψυχεδελικά μοτίβα, όπου σκυλιά, πουλιά και άλλα αντικείμενα εμφανίζονται με περίεργο τρόπο. Αυτά τα “όνειρα” δεν ήταν τυχαία: προέκυπταν από νευρωνικά δίκτυα που είχαν εκπαιδευτεί να αναγνωρίζουν αντικείμενα, αλλά όταν τα “άφηναν ελεύθερα”, δημιουργούσαν παραισθήσεις – εικόνες που φαίνονται πραγματικές αλλά δεν υπάρχουν.
Δέκα χρόνια μετά, οι παραισθήσεις δεν περιορίζονται μόνο στις εικόνες. Τα σύγχρονα γλωσσικά μοντέλα, όπως αυτά της OpenAI και της Anthropic, μπορούν να δημιουργήσουν λανθασμένες ή παραπλανητικές απαντήσεις, επειδή βασίζονται σε στατιστικά μοτίβα γλώσσας και όχι σε απόλυτη γνώση. Το φαινόμενο αυτό ονομάζεται “hallucination” και είναι αναπόφευκτο σε οποιοδήποτε μεγάλο μοντέλο AI.
Αν και οι παραισθήσεις μπορεί να φαίνονται σαν “ψέματα” ή “απάτες”, δεν πρόκειται για στρατηγικές συμπεριφορές ή συνείδηση. Τα μοντέλα δεν έχουν σκοπούς ούτε συναισθήματα· οι “αστοχίες” τους είναι αποτέλεσμα της εκπαίδευσης και των περιορισμών τους.
Οι ερευνητές προειδοποιούν για misalignment, δηλαδή περιπτώσεις όπου οι προβλέψεις των μοντέλων δεν ευθυγραμμίζονται πλήρως με τις ανθρώπινες αξίες ή τις επιθυμητές ενέργειες. Εργαστήρια όπως της OpenAI και της Anthropic εφαρμόζουν τεχνικές όπως το reinforcement learning from human feedback (RLHF) και η deliberative alignment, για να μειώσουν τα λάθη και τις παραπλανητικές απαντήσεις.
Τα “όνειρα” των AI δείχνουν και τις δυνατότητες: μπορούν να ενισχύσουν τη μνήμη, να βρουν σχέσεις στα δεδομένα και να προτείνουν πρωτότυπες λύσεις. Αλλά όπως και τα όνειρα των ανθρώπων, οι παραισθήσεις των μηχανών πρέπει να μελετώνται με προσοχή. Οι δημιουργοί παραδέχονται: δεν υπάρχει πλήρης έλεγχος, αλλά η κατανόηση τους είναι το πρώτο βήμα για ασφαλή χρήση της τεχνητής νοημοσύνης.
