L'intelligenza artificiale multimodale è ovunque, ma di cosa si tratta?
L'espressione "IA multimodale" è improvvisamente ovunque, con aziende come Meta, OpenAI, Google e Microsoft che nelle ultime settimane l'hanno utilizzata per vendere nuovi modelli e servizi di IA. Ma cos'è e cosa significa "multimodale"?L'idea della multimodalità non è nuova, anche se è entrata improvvisamente nello zeitgeist culturale tecnologico. Le persone hanno imparato a conoscere il mondo attraverso la multimodalità fin dagli albori dell'umanità, e non è nemmeno limitata agli esseri umani. Al suo livello più elementare, la multimodalità è l'idea che gli individui imparino a conoscere ciò che li circonda attraverso più sensi o processi.
Per esempio, la comunicazione tra due persone è multimodale perché le persone usano il testo, la voce, le espressioni facciali, il linguaggio del corpo e persino foto, video e disegni.
"È molto probabile che la futura comunicazione tra uomo e macchina sarà multimodale", afferma Han Xiao, CEO di Jina AI, in un articolo pubblicato su MIT Technology Review.
È lecito supporre che sia così, dato che è proprio questo il modo in cui le altre aziende di IA affermano di approcciarsi alla tecnologia in questo momento.
Ad esempio, nel nuovo GPT-4o di OpenAI, un utente può interagire con l'IA attraverso testo, audio e immagini, tutti elaborati simultaneamente.
"La famiglia di modelli Gemini comprende modelli che funzionano con richieste di prompt multimodali. Il termine multimodale indica che è possibile utilizzare più di una modalità, o tipo di input, in una richiesta. I modelli che non sono multimodali accettano richieste solo di testo. Le modalità possono includere testo, audio, video e altro", spiega Google in una guida ai suoi modelli Gemini AI.
Meta afferma qualcosa di simile, scrivendo che i sistemi di IA multimodali "accettano più tipi di input, come testo e immagini, e producono varie forme di output".
Secondo il MIT, tuttavia, non si tratta di un vero e proprio sistema di intelligenza artificiale multimodale, poiché gli approcci contemporanei si basano ancora su una forma di fusione di modelli per gestire diversi tipi di input e output. Districare i fili e vedere cosa succede sotto il cofano può essere difficile.