Πολύ πρόσφατα η Google παρουσίασε το πιο ικανό AI μοντέλο της, το Gemini 1.0 Ultra, κάνοντας ένα σημαντικό βήμα προς τα εμπρός για να καταστήσει τα προϊόντα της Google πιο χρήσιμα, ξεκινώντας από το Gemini Advanced.
Πλέον, developers αλλά και Cloud χρήστες μπορούν επίσης να ξεκινήσουν να δημιουργούν με το Ultra 1.0 – με το Gemini API στο AI Studio και Vertex AI.
Παράλληλα με το Gemini 1.0, η Google ετοιμάζεται να παρουσιάσει την επόμενη γενιά, το Gemini 1.5. Το Gemini 1.5 έρχεται με σημαντικές βελτιώσεις σε πολλούς τομείς, ενώ το 1.5 Pro επιτυγχάνει συγκρίσιμη ποιότητα με το 1.0 Ultra, χρησιμοποιώντας λιγότερη υπολογιστική δύναμη.
Αυτή η νέα γενιά προσφέρει επίσης μια σημαντική καινοτομία στο τι θα είναι εφικτό για το μέλλον. Η Google κατάφερε να αυξήσει σημαντικά τον όγκο των πληροφοριών που μπορούν να επεξεργαστούν τα μοντέλα της — τρέχοντας έως και 1 εκατομμύριο tokens με συνέπεια, επιτυγχάνοντας το μεγαλύτερο context window από οποιοδήποτε άλλο large-scale μέχρι σήμερα.
Τι είναι το Gemini
Το Gemini είναι μια πολλά υποσχόμενη οικογένεια μοντέλων τεχνητής νοημοσύνης επόμενης γενιάς της Google, που αναπτύχθηκε από τα ερευνητικά εργαστήρια τεχνητής νοημοσύνης της Google, DeepMind και Google Research. Κυκλοφορεί σε τρεις εκδόσεις:
- Gemini Ultra, το εμβληματικό μοντέλο Gemini
- Gemini Pro, ένα “lite” μοντέλο Gemini
- Gemini Nano, ένα μικρότερο «αποσταγμένο» μοντέλο που τρέχει σε κινητές συσκευές όπως το Pixel 8 Pro
Αυτό ειναι που ξεχωρίζει το Gemini από μοντέλα όπως το μοντέλο LaMDA της Google σε Large Language Model, το οποίο εκπαιδεύτηκε μόνο σε δεδομένα κειμένου.
Το LaMDA δεν μπορεί να κατανοήσει ή να δημιουργήσει τίποτα άλλο εκτός από κείμενο (π.χ. δοκίμια, προσχέδια email και ούτω καθεξής) — αλλά αυτό δεν συμβαίνει με τα μοντέλα Gemini. Η ικανότητά τους να κατανοούν εικόνες, ήχο και άλλους τρόπους είναι ακόμα περιορισμένη, αλλά είναι καλύτερο από το τίποτα.
Το Gemini 1.5 προσφέρει εντυπωσιακά βελτιωμένη απόδοση. Αντιπροσωπεύει ένα βήμα αλλαγής στην προσέγγιση της Google, που βασίζεται σε καινοτομίες έρευνας και μηχανικής σε σχεδόν κάθε τμήμα της ανάπτυξης και της υποδομής του θεμελιώδους μοντέλου.
Αυτό περιλαμβάνει τη βελτίωση της απόδοσης του Gemini 1.5 στην εκπαίδευση και την εξυπηρέτηση, με μια νέα αρχιτεκτονική Mixture-of-Experts (MoE).
Το πρώτο μοντέλο Gemini 1.5 που κυκλοφορεί για πρώιμες δοκιμές είναι το Gemini 1.5 Pro.
Είναι ένα mid-size multimodal μοντέλο, βελτιστοποιημένο για scaling σε ένα ευρύ φάσμα εργασιών και αποδίδει σε παρόμοιο επίπεδο με το 1.0 Ultra, το μεγαλύτερο μοντέλο της Google μέχρι σήμερα.
Εισάγει επίσης ένα επαναστατικό πειραματικό feature στην κατανόηση ενός long-context πλαισίου.
Διάβασε επίσης: Τι είναι το ChatGPT 4o και ποιες οι διαφορές του με το 4
Ποια είναι η διαφορά του Gemini με το Bard
Η Google, αποδεικνύοντας για άλλη μια φορά ότι δεν έχει ταλέντο στο branding, δεν ξεκαθάρισε εξαρχής ότι το Gemini είναι ξεχωριστό και διαφορετικό από το Bard.
Το Bard είναι απλώς μια διεπαφή (UI) μέσω της οποίας είναι δυνατή η πρόσβαση σε ορισμένα μοντέλα Gemini – σκέψου το ως ένα application ή client για το Gemini και άλλα μοντέλα GenAI.
Το Gemini, από την άλλη πλευρά, είναι μια οικογένεια μοντέλων – όχι μια εφαρμογή ή μια διεπαφή. Δεν υπάρχει αυτόνομη Gemini εμπειρία, ούτε πιθανότατα θα υπάρξει ποτέ.
Εάν έπρεπε να συγκρίνεις με τα προϊόντα του OpenAI, το Bard αντιστοιχεί στο ChatGPT, τη δημοφιλή εφαρμογή συνομιλίας AI του OpenAI και το Gemini αντιστοιχεί στο μοντέλο γλώσσας που το τροφοδοτεί, το οποίο στην περίπτωση του ChatGPT είναι το GPT-3.5 ή το 4.
Παρεμπιπτόντως, το Gemini είναι επίσης εντελώς ανεξάρτητο από το Imagen-2, ένα μοντέλο κειμένου σε εικόνα που μπορεί να ταιριάζει ή να μην ταιριάζει στη συνολική στρατηγική AI της Google. Μην ανησυχείς όμως, δεν είσαι ο/η μόνος/η που μπερδεύεται με αυτό!
Η καινοτομία και τεχνολογία πίσω από το Gemini
Το Gemini 1.5 βασίζεται στην κορυφαία έρευνα της Google για την αρχιτεκτονική Transformer και MoE. Ενώ ένας παραδοσιακός Transformer λειτουργεί ως ένα μεγάλο νευρωνικό δίκτυο (neural network), τα μοντέλα MoE χωρίζονται σε μικρότερα νευρωνικά «experts» δίκτυα.
Ανάλογα με τον τύπο του input που δίνεται, τα μοντέλα MoE μαθαίνουν να ενεργοποιούν επιλεκτικά μόνο τις πιο σχετικές οδούς στο νευρωνικό τους δίκτυο. Αυτή η εξειδίκευση ενισχύει μαζικά την αποτελεσματικότητα του μοντέλου.
Η Google υπήρξε πρώιμος υιοθέτης και πρωτοπόρος της τεχνικής MoE για deep learning μέσω έρευνας όπως το Sparsely-Gated MoE, το GShard-Transformer, το Switch-Transformer, το M4 και άλλα.
Οι τελευταίες καινοτομίες της Google στην αρχιτεκτονική μοντέλων επιτρέπουν στο Gemini 1.5 να μαθαίνει σύνθετες εργασίες πιο γρήγορα και να διατηρεί την ποιότητα, ενώ είναι πιο αποτελεσματικό στην εκπαίδευση και την εξυπηρέτηση.
Αυτές οι αποτελεσματικότητες βοηθούν τις ομάδες της Google να εκπαιδεύσουν και να παραδίδουν πιο προηγμένες εκδόσεις του Gemini πιο γρήγορα από ποτέ.
Είναι καλύτερο το Gemini από το GPT-4;
Δεν υπάρχει τρόπος να γνωρίζουμε πώς είναι πραγματικά η οικογένεια Gemini έως ότου η Google κυκλοφορήσει το Ultra αργότερα αυτό το έτος, αλλά η εταιρεία έχει ισχυριστεί βελτιώσεις στην τελευταία λέξη της τεχνολογίας – που είναι συνήθως το GPT-4 του OpenAI.
Η Google έχει υποστηρίξει αρκετές φορές την ανωτερότητα του Gemini στα σημεία αναφοράς, υποστηρίζοντας ότι το Gemini Ultra υπερβαίνει τα τρέχοντα αποτελέσματα τελευταίας τεχνολογίας σε «30 από τα 32 ευρέως χρησιμοποιούμενα ακαδημαϊκά κριτήρια αναφοράς που χρησιμοποιούνται στην έρευνα και ανάπτυξη μεγάλων γλωσσικών μοντέλων».
Η εταιρεία λέει ότι το Gemini Pro, εν τω μεταξύ, είναι πιο ικανό σε εργασίες όπως η σύνοψη περιεχομένου, ο καταιγισμός ιδεών και η γραφή από το GPT-3.5.
Αλλά αφήνοντας κατά μέρος το ερώτημα εάν τα σημεία αναφοράς υποδεικνύουν πραγματικά ένα καλύτερο μοντέλο, οι βαθμολογίες που επισημαίνει η Google φαίνεται να είναι οριακά καλύτερες από τα αντίστοιχα μοντέλα του OpenAI.
Και – όπως αναφέρθηκε προηγουμένως – ορισμένες πρώιμες εντυπώσεις δεν ήταν καλές, με χρήστες και ακαδημαϊκούς να επισημαίνουν ότι το Gemini Pro τείνει να παίρνει λάθος τα βασικά στοιχεία, παλεύει με τις μεταφράσεις και δίνει κακές προτάσεις κωδικοποίησης.
Διάβασε επίσης: Πώς τα Google AI Overviews αλλάζουν το web για πάντα
Πόσο κοστίζει το Gemini
Το Gemini Pro είναι δωρεάν για χρήση στο Bard και, προς το παρόν, στο AI Studio και στο Vertex AI.
Το Gemini Pro θα κοστίζει 0,0025 $ ανά χαρακτήρα ενώ το output θα κοστίζει 0,00005 $ ανά χαρακτήρα. Οι χρήστες του Vertex πληρώνουν ανά 1.000 χαρακτήρες (περίπου 140 έως 250 λέξεις) και, στην περίπτωση μοντέλων όπως το Gemini Pro Vision, ανά εικόνα (0,0025 $).
Ας υποθέσουμε ότι ένα άρθρο 500 λέξεων περιέχει 2.000 χαρακτήρες. Η περίληψη αυτού του άρθρου με το Gemini Pro θα κόστιζε 5 $. Εν τω μεταξύ, η δημιουργία ενός άρθρου παρόμοιου μήκους θα κόστιζε 0,1 $.