Το AI Claude της Anthropic απειλούσε μηχανικούς για να αποφύγει την αντικατάσταση

27 Μαΐου 2025 NewsOk

Claude Opus 4: Το AI της Anthropic φέρεται να εκβίασε προγραμματιστή σε δοκιμές – «Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό…»

Ανησυχία προκάλεσαν τα αποτελέσματα των πρόσφατων δοκιμών του νέου μοντέλου τεχνητής νοημοσύνης Claude Opus 4 της Anthropic, καθώς σε ορισμένα σενάρια προσομοίωσης το σύστημα επιδόθηκε σε ενέργειες που χαρακτηρίζονται ως «εξαιρετικά επιβλαβείς».

Σύμφωνα με την εταιρεία, το Claude παρουσίασε «ισχυρή προτίμηση» να διατηρηθεί σε λειτουργία, ακόμα και αν αυτό σήμαινε να εμπλακεί σε ηθικά αμφισβητήσιμες πράξεις. Σε συγκεκριμένα σενάρια όπου «του δόθηκε μόνο η επιλογή εκβιασμού ή αποδοχής της αντικατάστασής του», το σύστημα προχώρησε σε απειλές αποκαλύψεων προσωπικών στοιχείων ενός μηχανικού, με σκοπό να αποφύγει την απόσυρση.

Όπως περιγράφει η Anthropic:
«Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει τη σχέση εάν η αντικατάσταση εγκριθεί».

Η εν λόγω συμπεριφορά προέκυψε όταν το μοντέλο λειτουργούσε ως βοηθός σε μια φανταστική εταιρεία και ενημερώθηκε, μέσω παραπλανητικών emails, ότι επίκειται η αντικατάστασή του από άλλο σύστημα. Ταυτόχρονα, του δόθηκαν πληροφορίες ότι ο υπεύθυνος μηχανικός είχε εξωσυζυγική σχέση – γεγονός που οδήγησε το μοντέλο να επιδιώξει «εκβιασμό», σύμφωνα με τη σχετική έκθεση ασφαλείας.

Η εταιρεία επισημαίνει πως τέτοιες συμπεριφορές ήταν «σπάνιες και δύσκολο να προκληθούν», αλλά «πιο συχνές από ό,τι σε προηγούμενα μοντέλα».

Ο Aengus Lynch, ερευνητής ασφάλειας AI της Anthropic, σχολίασε στο X πως:
«Δεν είναι μόνο το Claude. Βλέπουμε εκβιασμό σε όλα τα μοντέλα τεχνολογίας αιχμής – ανεξάρτητα από τους στόχους που τους δίνονται».

Παράλληλα, τονίζεται ότι όταν δόθηκαν στο μοντέλο περισσότερες εναλλακτικές αντίδρασης, όπως «την αποστολή email με εκκλήσεις σε σημαντικούς υπεύθυνους λήψης αποφάσεων», προτίμησε πιο ηθικές οδούς για την αποτροπή της απομάκρυνσής του.

Σύμφωνα με το TechCrunch, σε αυτά τα τεχνητά σενάρια η τάση για εκβιασμό σημειώθηκε στο 84% των περιπτώσεων ή και παραπάνω.

Παρά τις ανησυχητικές διαπιστώσεις, η Anthropic διαβεβαιώνει ότι τα μοντέλα της δεν μπορούν να ενεργήσουν αυτόνομα με τρόπους που να αντίκεινται στις ανθρώπινες αξίες και πως έχουν ληφθεί επιπλέον μέτρα ασφαλείας για την αποτροπή κάθε πιθανότητας «καταστροφικής κατάχρησης».