Il binomio Gemini-AI ha occupato più o meno integralmente lo spazio di Google I/O 2024, l’evento dedicato agli sviluppatori e agli utenti evoluti.
Il modello di intelligenza artificiale pervade ormai la galassia delle applicazioni del vendor, anche se alcune delle cose mostrate all’evento arriveranno più avanti e altri temi, come le caratteristiche del nuovo Android 15, non sono nemmeno stati presi in considerazione.
Google si è impegnata a dimostrare come l’AI generativa andrà a essere inserita in tutti i processi, i servizi, le applicazioni e, ancor più, in tutti i momenti della vita quotidiana. Per questo, l’enfasi si è concentrata sul potenziale dei modelli Gemini, con l’intento di convincere sulle capacità di innovazione in termini di intelligenza artificiale e di dimostrare come essa trasformerà le esperienze Gmail, Photo e Google Search nelle settimane e nei mesi a venire.
I modelli targati Gemini si moltiplicano un po' come i pani. Conoscevamo Ultra 1.0, Pro e Nano, mentre ora più spazio è stato dato a Gemini 1.5 Pro, la versione pensata per un uso intensivo e più avanzato. Oltre a essere disponibile, finalmente, anche in Europa (35 lingue in tutto), essa metterà a disposizione una finestra contestuale da 2 milioni di token, il doppio di quanto offerto fin qui, consentire l'analisi di contenuti ancora più grandi, ma anche per applicazioni come la traduzione in tempo reale o l'assistenza personale approfondita.
Google ha presentato anche Gemini 1.5 Flash, una versione di Gemini 1.5 Pro ottimizzata per ridurre al minimo la latenza, in altre parole il tempo di risposta, e avvicinarsi alle interazioni in tempo reale.
Il Ceo di Google, Sundar Pichai, durante Google I/O 2024
Google Search, il prodotto di punta dell'azienda, a sua volta beneficia di importanti innovazioni. Con l'introduzione di AI Overview, è stata evidenziata la capacità di Gemini di generare riepiloghi contestuali delle informazioni disponibili sul Web. Presto sarà possibile porre domande complesse, personalizzare i risultati ottenuti, pianificare direttamente cose come una dieta o un itinerario di viaggio, ad esempio.
Anche Google Foto beneficia dei progressi di Gemini, rendendo più semplice la navigazione e l’organizzazione delle immagini personali, oltre alla ricerca eseguita in linguaggio naturale. Inoltre, sono stati presentati strumenti di analisi video in tempo reale. Ciò consente di ottenere informazioni su quanto viene filmato e di ritrovare oggetti smarriti. Ma anche di riprendere un dispositivo rotto, spiegare il problema o ottenere istruzioni per la riparazione sotto forma di elenco.
In Workspace, Gemini è ora accessibile direttamente da un pannello laterale in app come Gmail e Google Docs. Questa integrazione consente un'automazione avanzata delle attività attraverso una migliore comprensione contestuale del contenuto dell'utente. La versione 1,5 Pro offre flussi di lavoro intelligenti e automatizzati tra diverse applicazioni, consentendo ad esempio di confrontare gli allegati delle ricevute, riassumere lunghi scambi di e-mail o, anche, evidenziare i punti chiave durante le registrazioni delle riunioni.
Da sottolineare l’arrivo al capolinea per Google Assistant, tecnologia che esiste dal 2016 e che ora sarà rimpiazzata da Gems, una sorta di vero e proprio assistente personale multifunzione per riassumere video e Pdf, rispondere a domande specifiche sul contenuto di questi documenti, ma anche sfruttarne le capacità di elaborazione per trasformarlo in un istruttore sportivo, dietista, collega, contabile e persino agente di viaggio.
Qui un ulteriore salto di qualità potrebbe arrivare con il progetto Astra, ancora in fase di sviluppo, ma destinato a proporre uno strumento multimodale in grado di scrivere, parlare o vedere, lavorando in interazione con lo smartphone per identificare, su richiesta, oggetti che emettono suoni o luce, fornire istruzioni d’uso di strumenti semplicemente inquadrati con la fotocamera, ma anche spiegare significato e utilità delle righe di codice di un software.
Tra le altre novità, anche la tecnica di watermarking SynthID, in modalità testo e video, in modo che i contenuti generati dall'AI siano più facili da identificare, ma anche la sesta generazione delle Tpu, chiamata Trillium, che offre un miglioramento di 4,7 volte sulle prestazioni di calcolo per chip rispetto alla generazione precedente.