Τεχνητή νοημοσύνη με 1.500 δολάρια: Το πείραμα που απειλεί το μονοπώλιο των γιγάντων

Η Sapient Intelligence εκπαίδευσε από το μηδέν το γλωσσικό μοντέλο HRM-Text με κόστος όσο ένα μεταχειρισμένο laptop, αντί για εκατομμύρια δολάρια. Έτσι, μικρές επιχειρήσεις, τράπεζες και πανεπιστήμια, και στην Ευρώπη, αποκτούν δρόμο για δικά τους «μυαλά» AI χωρίς εξάρτηση από τους κολοσσούς.

Τεχνητή νοημοσύνη με 1.500 δολάρια: Το πείραμα που απειλεί το μονοπώλιο των γιγάντων
 Το HRM-Text της Sapient Intelligence αποδεικνύει ότι ένα ικανό μοντέλο τεχνητής νοημοσύνης χρειάζεται πλέον μόλις 1.500 δολάρια και δύο μέρες εκπαίδευσης.

Ερευνητές της Sapient Intelligence παρουσίασαν το HRM-Text, ένα γλωσσικό μοντέλο τεχνητής νοημοσύνης 1 δισεκατομμυρίου παραμέτρων, με συνολικό κόστος εκπαίδευσης περίπου 1.500 δολάρια. Συγκεκριμένα, η ομάδα ολοκλήρωσε την εκπαίδευση σε 1,9 ημέρες πάνω σε 16 κάρτες γραφικών, όπως ανέφερε το VentureBeat στις 10 Ιουνίου. Για σύγκριση, τα μεγάλα μοντέλα των OpenAI και Google κοστίζουν εκατοντάδες εκατομμύρια. Παρ’ όλα αυτά, το μικρό μοντέλο πέτυχε επιδόσεις αντίστοιχες με ανοιχτά μοντέλα δύο έως επτά φορές μεγαλύτερα. Επομένως, η εκπαίδευση μοντέλου AI παύει να αποτελεί προνόμιο των τεχνολογικών αυτοκρατοριών. Για την Ευρώπη, που κυνηγά την «ψηφιακή κυριαρχία», η εξέλιξη ανοίγει μια πόρτα στρατηγικής σημασίας.

σχετικά άρθρα

Πώς δουλεύει το κόλπο της Sapient

Η συνταγή ξεκινά από μια απλή ιδέα. Αντί το μοντέλο να αποστηθίσει ολόκληρο το διαδίκτυο, μαθαίνει κατευθείαν να λύνει εργασίες. Μοιάζει με μαθητή που εξασκείται σε ασκήσεις με τις λύσεις τους, αντί να διαβάσει όλη τη βιβλιοθήκη. Συγκεκριμένα, η ομάδα τάισε το HRM-Text με μόλις 40 δισεκατομμύρια tokens από ζεύγη εντολής και απάντησης: μαθηματικά, λογική και σχολικές ασκήσεις. Δηλαδή, έως 900 φορές λιγότερα δεδομένα από μοντέλα όπως τα Qwen, Gemma και Llama. Επιπλέον, η αρχιτεκτονική HRM χωρίζει τη «σκέψη» σε δύο επίπεδα. Το αργό επίπεδο κρατά τη στρατηγική και το γρήγορο εκτελεί τα βήματα, όπως ένας προπονητής με τον παίκτη του. Στα τεστ, το αποτέλεσμα μίλησε από μόνο του: 60,7% στο MMLU, 84,5% στα μαθηματικά προβλήματα GSM8K και 56,2% στο απαιτητικό MATH.

Τι κερδίζουν επιχειρήσεις και Ευρώπη

Ο διευθύνων σύμβουλος της Sapient, Γκουάν Γουάνγκ, βάζει τον πήχη ψηλά: όταν το κόστος πέφτει στα 1.500 δολάρια, η τεχνητή νοημοσύνη «γίνεται ζήτημα στρατηγικής», όχι υποδομής. Πράγματι, τράπεζες, ασφαλιστικές και νοσοκομεία κρατούν ευαίσθητα δεδομένα που δεν θέλουν να στείλουν σε ξένα μοντέλα. Πλέον, μπορούν να χτίσουν δικό τους «πυρήνα συλλογισμού» μέσα στα τείχη τους. Για την Ευρώπη, με τους αυστηρούς κανόνες προστασίας δεδομένων (GDPR), αυτό λύνει ένα διπλό πρόβλημα: κόστος και ιδιωτικότητα. Μάλιστα, η Sapient έδωσε το μοντέλο πλήρως ανοιχτό στο Hugging Face, με άδεια Apache 2.0. Άρα, ένα ελληνικό πανεπιστήμιο ή μια startup στην Αθήνα κατεβάζει σήμερα τον κώδικα και πειραματίζεται με κόστος μικρότερο από έναν μηνιαίο μισθό.

Τα ψιλά γράμματα πριν από τον ενθουσιασμό

Η ίδια η εταιρεία κρατά χαμηλούς τόνους σε ένα σημείο. Ειλικρινά, παραδέχθηκε ο Γουάνγκ, το HRM-Text «δεν αντικαθιστά ακόμη το ChatGPT». Πρόκειται για απόδειξη ιδέας, όπως οι πρώτες εκδόσεις GPT. Επιπλέον, επικριτές σημειώνουν ότι η σύγκριση με κλασικά μοντέλα μοιάζει με «μήλα και πορτοκάλια», αφού η εκπαίδευση έγινε σε διαφορετικού τύπου δεδομένα. Ο Γουάνγκ απαντά ότι όλα τα σύγχρονα μοντέλα βλέπουν τέτοια δεδομένα στην ευθυγράμμισή τους. Πάντως, οι έλεγχοι «μόλυνσης» έδειξαν ότι το μοντέλο δεν αποστήθισε τις απαντήσεις των τεστ. Τελικά, ένα πράγμα μένει σίγουρο: το δόγμα «μεγαλύτερο μοντέλο, περισσότερα χρήματα» δέχτηκε το πρώτο σοβαρό ράγισμα.