Νέος ιστότοπος βαθμολογεί τα μοντέλα τεχνητής νοημοσύνης με κλίμακα IQ. Τα αποτελέσματα ήδη διχάζουν την τεχνολογική κοινότητα

Το AI IQ χρησιμοποιεί 12 σημεία αναφοράς σε τέσσερις τομείς (αφηρημένη, μαθηματική, προγραμματική και ακαδημαϊκή σκέψη). Το OpenAI προηγείται, αλλά η κορυφή της καμπύλης γίνεται ολοένα και πιο πυκνή.

Νέος ιστότοπος βαθμολογεί τα μοντέλα τεχνητής νοημοσύνης με κλίμακα IQ. Τα αποτελέσματα ήδη διχάζουν την τεχνολογική κοινότητα
Το νέο εγχείρημα AI IQ βαθμολογεί τα γλωσσικά μοντέλα σε κλίμακα IQ, χρησιμοποιώντας 12 σημεία αναφοράς σε τέσσερις τομείς. Το OpenAI προηγείται, αλλά η κορυφή της καμπύλης είναι πλέον εξαιρετικά πυκνή – και οι επικριτές προειδοποιούν ότι η προσέγγιση είναι παραπλανητική.

Today I’m launching AI IQ — frontier AI models, scored on the human IQ scale. Instead of endless leaderboard tables, AI IQ shows: • Where models land on the IQ bell curve • How frontier IQ is changing over time • How models compare on IQ and EQ • What intelligence costs in… pic.twitter.com/gylF4YRPv4

— Ryan Shea (@ryaneshea) May 12, 2026

σχετικά άρθρα

Τι είναι το AI IQ

Το aiiq.org είναι ένα νέο εγχείρημα. Ο δημιουργός του, Ryan Shea, συνιδρυτής της πλατφόρμας blockchain Stacks, προσπάθησε να κάνει την πολύπλοκη αγορά μοντέλων τεχνητής νοημοσύνης πιο ευανάγνωστη. Η ιδέα: να αντιστοιχίσει περισσότερα από 50 γλωσσικά μοντέλα σε μια καμπύλη IQ, ακριβώς όπως τα τεστ νοημοσύνης στους ανθρώπους.

Η μεθοδολογία είναι απλή στην περιγραφή. Ο ιστότοπος ομαδοποιεί 12 σημεία αναφοράς σε τέσσερις διαστάσεις: αφηρημένη συλλογιστική, μαθηματική, προγραμματική και ακαδημαϊκή. Το συνολικό IQ προκύπτει ως ο μέσος όρος των τεσσάρων. Κάθε βαθμολογία αντιστοιχίζεται σε υπονοούμενο IQ μέσω «καμπυλών δυσκολίας που έχουν βαθμονομηθεί με το χέρι».

Ποιος κερδίζει και ποιος ακολουθεί

Σύμφωνα με τα διαγράμματα του AI IQ, το GPT-5.5 της OpenAI βρίσκεται στην κορυφή. Το εκτιμώμενο IQ του πλησιάζει το 136. Ακολουθούν από κοντά το Opus 4.7 της Anthropic (132), το GPT-5.4 (131) και το Gemini 3.1 Pro της Google (131).

Η κορυφή της καμπύλης είναι εξαιρετικά πυκνή. Κάτω από αυτήν, όμως, υπάρχει μια μεγάλη μεσαία κατηγορία. Κινεζικά μοντέλα όπως τα Kimi K2.6, GLM-5, DeepSeek-V3.2 και Qwen3.6 κυμαίνονται μεταξύ 112 και 118. Για εταιρικούς αγοραστές που δεν χρειάζονται το απόλυτα καλύτερο μοντέλο σε κάθε εργασία, αυτό το επίπεδο κόστους-απόδοσης γίνεται ολοένα και πιο ελκυστικό.

Η διάσταση EQ και η μεροληψία

Το AI IQ προσθέτει κάτι που δεν συναντάται συχνά. Μια βαθμολογία EQ, δηλαδή συναισθηματικής νοημοσύνης, που βασίζεται σε δύο πηγές: το EQ-Bench 3 (όπου τα μοντέλα κρίνονται από το Claude της Anthropic) και το Arena Elo (όπου κρίνουν άνθρωποι).

Το πρόβλημα: το EQ-Bench 3 κρίνεται από μοντέλο της Anthropic. Η ομάδα του AI IQ αναγνωρίζει ότι αυτό δημιουργεί μεροληψία υπέρ των ανθρωπικών μοντέλων. Για να το αντιμετωπίσει, αφαιρεί μια ποινή 200 μονάδων Elo από όλα τα μοντέλα της Anthropic. Το Opus 4.7, παρόλα αυτά, εξακολουθεί να προηγείται στο EQ (132), τοποθετώντας το στο άνω δεξιά τεταρτημόριο: υψηλό IQ και υψηλό EQ.

Το διάγραμμα που ενδιαφέρει τους αγοραστές: IQ έναντι κόστους

Το πιο πρακτικό διάγραμμα δεν είναι η καμπύλη καμπάνας. Είναι η γραφική παράσταση IQ έναντι «πραγματικού κόστους» (κόστος token για 2 εκατομμύρια εισόδου και 1 εκατομμύριο εξόδου, πολλαπλασιασμένο με έναν συντελεστή αποδοτικότητας).

Τα αποτελέσματα είναι αποκαλυπτικά. Το GPT-5.5 και το Opus 4.7 βρίσκονται ψηλά και αριστερά: υψηλό IQ, υψηλό κόστος (άνω των 30και50 ανά εργασία). Μοντέλα όπως το GPT-5.4-mini, το DeepSeek-V3.2 και το MiniMax-M2.7 προσφέρουν αξιοπρεπές IQ (112-120) με κόστος που κυμαίνεται από 1εˊως5. Στο φθηνότερο άκρο, το GPT-oss-20b (ένα μοντέλο ανοιχτού κώδικα της OpenAI) εμφανίζεται με IQ περίπου 107 και κόστος μόλις 0,20$ ανά εργασία.

Γιατί οι επικριτές το απορρίπτουν

Οι αντιρρήσεις είναι πολλές και βαθιές. Το IQ, λένε, είναι παραπλανητικό. Ένα μοντέλο μπορεί να αριστεύει στη φυσική μεταπτυχιακού επιπέδου, αλλά να αποτυγχάνει σε εργασίες που ένα παιδί λύνει με ευκολία. Η σύνθετη βαθμολογία καλύπτει αυτά τα κενά.

Άλλοι επικρίνουν την έλλειψη πλήρους διαφάνειας. Οι καμπύλες βαθμονόμησης είναι ορατές, αλλά τα ακατέργαστα δεδομένα και οι ακριβείς μαθηματικοί μετασχηματισμοί δεν δημοσιεύονται. Χωρίς αυτά, η αναπαραγωγιμότητα παραμένει αδύνατη.

Το πραγματικό διακύβευμα

Παρά τις αδυναμίες του, το AI IQ δείχνει κάτι σημαντικό. Η αγορά έχει ωριμάσει. Υπάρχουν πλέον περισσότερα από 50 μοντέλα frontier-class από τουλάχιστον 14 μεγάλους παρόχους σε ΗΠΑ, Κίνα και Ευρώπη. Κάθε πάροχος δημοσιεύει τα δικά του benchmarks, διαλέγοντας αυτά που τον ευνοούν. Ο Πύργος της Βαβέλ δεν είναι υπερβολή.

Η κεντρική ιδέα – να δοθεί στους αγοραστές επιχειρήσεων ένα ενιαίο πλαίσιο σύγκρισης είναι χρήσιμη, ακόμα κι αν η εκτέλεση είναι ατελής. Όπως σημείωσε ένας χρήστης στο X, «ο ρόλος ενός ανθρώπου είναι απλώς να ενορχηστρώνει». Και για την ενορχήστρωση –γνώση του μοντέλου που θα αναπτυχθεί, πότε και με ποια τιμή– δεν υπάρχει ακόμα σημείο αναφοράς.