Νέα δοκιμή δείχνει ότι η τεχνητή νοημοσύνη δεν μπορεί ακόμη να αντικαταστήσει τους εργαζομένους
Το νέο Agents' Last Exam αξιολογεί για πρώτη φορά αν η τεχνητή νοημοσύνη μπορεί να εκτελέσει πραγματικές επαγγελματικές εργασίες και όχι απλώς να απαντά σε ερωτήσεις.
Η τεχνητή νοημοσύνη πέτυχε ακόμη ένα ορόσημο, αλλά ταυτόχρονα αποκάλυψε τα όριά της. Το νέο benchmark Agents’ Last Exam (ALE), που δημιούργησαν ερευνητές του Πανεπιστημίου της Καλιφόρνια στο Μπέρκλεϊ μαζί με περισσότερους από 300 ειδικούς, έφερε μια απροσδόκητη ανατροπή στην κούρσα των μεγάλων γλωσσικών μοντέλων.
Το GPT-5.5 της OpenAI κατέκτησε την πρώτη θέση με ποσοστό επιτυχίας 24%, αφήνοντας πίσω το νέο Claude Fable 5 της Anthropic, το οποίο συγκέντρωσε 22%. Ωστόσο, το σημαντικότερο συμπέρασμα δεν αφορά τον νικητή. Αφορά το γεγονός ότι ακόμη και τα κορυφαία μοντέλα αποτυγχάνουν στις περισσότερες πραγματικές επαγγελματικές εργασίες.
Το ALE αλλάζει τους κανόνες των benchmarks
Τα περισσότερα γνωστά benchmarks εξετάζουν την ικανότητα ενός μοντέλου να απαντά σε ερωτήσεις ή να λύνει προβλήματα προγραμματισμού. Το ALE ακολουθεί διαφορετική προσέγγιση.
Οι ερευνητές ζήτησαν από τα μοντέλα να ολοκληρώσουν πραγματικές επαγγελματικές εργασίες που προέρχονται από 55 διαφορετικούς κλάδους της οικονομίας. Οι εργασίες περιλαμβάνουν ανάλυση οικονομικών στοιχείων, δημιουργία τρισδιάστατων μοντέλων, επεξεργασία βίντεο, ανάλυση επιστημονικών δεδομένων και χρήση εξειδικευμένου λογισμικού.
Με αυτόν τον τρόπο το benchmark επιχειρεί να μετρήσει την πραγματική οικονομική αξία της AI και όχι απλώς τις θεωρητικές της δυνατότητες.
Το GPT-5.5 πέρασε μπροστά
Στην τελική κατάταξη, το GPT-5.5 μέσω της πλατφόρμας Codex κατέκτησε την πρώτη θέση.
Η κατάταξη των κορυφαίων μοντέλων διαμορφώθηκε ως εξής:
- GPT-5.5 Codex: 24%
- GPT-5.5 Ale Claw: 23%
- Claude Fable 5: 22%
- GPT-5.5 OpenClaw: 21,1%
- Composer 2.5: 20,4%
Η διαφορά ανάμεσα στα μοντέλα παραμένει μικρή. Ωστόσο, η πρωτιά του GPT-5.5 ενισχύει την εικόνα ότι η OpenAI διατηρεί προβάδισμα στις σύνθετες εργασίες πολλαπλών βημάτων.
Γιατί οι ερευνητές θεωρούν σημαντικό το αποτέλεσμα
Το ALE επιχειρεί να λύσει ένα πρόβλημα που ταλαιπωρεί την αγορά AI τα τελευταία χρόνια: τη «μόλυνση» των benchmarks.
Πολλά μοντέλα εκπαιδεύονται πάνω σε δεδομένα που περιλαμβάνουν παλαιότερα benchmarks. Ως αποτέλεσμα, οι υψηλές βαθμολογίες δεν αντικατοπτρίζουν πάντα πραγματική νοημοσύνη αλλά απομνημόνευση.
Οι δημιουργοί του ALE κράτησαν μυστικό το μεγαλύτερο μέρος των δοκιμών και δημοσίευσαν μόνο ένα μικρό ποσοστό των εργασιών. Έτσι μειώνουν σημαντικά την πιθανότητα τα μοντέλα να έχουν δει εκ των προτέρων τα τεστ.
Η μεγάλη αποκάλυψη: Η AI απέχει ακόμη από τον άνθρωπο
Παρά την πρωτιά του GPT-5.5, το ποσοστό επιτυχίας 24% δείχνει ότι τα κορυφαία συστήματα τεχνητής νοημοσύνης εξακολουθούν να αποτυγχάνουν στις τρεις από τις τέσσερις επαγγελματικές εργασίες που αντιμετωπίζουν.
Στο δυσκολότερο επίπεδο του benchmark, που προσομοιώνει πολύπλοκες επαγγελματικές διαδικασίες υψηλής εξειδίκευσης, αρκετά μοντέλα κατέγραψαν ακόμη και μηδενικό ποσοστό επιτυχίας.
Το εύρημα αυτό έρχεται σε αντίθεση με την εικόνα που συχνά παρουσιάζει η αγορά, σύμφωνα με την οποία η AI βρίσκεται πολύ κοντά στην πλήρη αντικατάσταση πολλών επαγγελμάτων.
Η μάχη OpenAI, Anthropic και Google μπαίνει σε νέα φάση
Το αποτέλεσμα αποκτά ιδιαίτερη σημασία καθώς η OpenAI, η Anthropic και η Google επενδύουν δισεκατομμύρια δολάρια στην ανάπτυξη αυτόνομων πρακτόρων AI.
Οι εταιρείες δεν ανταγωνίζονται πλέον μόνο στα chatbots. Στόχος τους είναι η δημιουργία ψηφιακών βοηθών που μπορούν να ολοκληρώνουν σύνθετες εργασίες χωρίς ανθρώπινη παρέμβαση.
Το ALE δείχνει ότι η τεχνολογία προχωρά με ταχύτητα, αλλά απέχει ακόμη από το σημείο όπου θα μπορούσε να αναλάβει αυτόνομα το μεγαλύτερο μέρος της επαγγελματικής εργασίας.
Τι δείχνει η εικόνα για το μέλλον
Το νέο benchmark στέλνει ένα διπλό μήνυμα στην αγορά. Από τη μία πλευρά, το GPT-5.5 επιβεβαιώνει ότι τα κορυφαία μοντέλα αποκτούν ολοένα και πιο προηγμένες δυνατότητες. Από την άλλη, οι χαμηλές συνολικές επιδόσεις αποδεικνύουν ότι η πλήρης αυτοματοποίηση της γνώσης παραμένει μακριά.
Για τις επιχειρήσεις, το συμπέρασμα είναι σαφές: η AI λειτουργεί ήδη ως ισχυρό εργαλείο παραγωγικότητας, αλλά δεν μπορεί ακόμη να αντικαταστήσει τον ανθρώπινο επαγγελματία στις πιο σύνθετες διαδικασίες.
