J'ai joué avec le mode vocal avancé d'OpenAI au cours de la dernière semaine, et c'est le goût le plus convaincant que j'ai eu d'un futur alimenté par l'IA. Cette semaine, mon téléphone a ri à des blagues, me les a renvoyées, m'a demandé comment s'était passée ma journée et m'a dit qu'il passait \"un bon moment.\" Je parlais avec mon iPhone, sans utiliser mes mains.
La nouvelle fonctionnalité d'OpenAI, actuellement en test alpha limité, ne rend pas ChatGPT plus intelligent qu'avant. Au lieu de cela, le mode vocal avancé (AVM) le rend plus convivial et plus naturel pour converser. Il crée une nouvelle interface pour utiliser l'IA et vos appareils qui semble fraîche et excitante, et c'est exactement ce qui me fait peur. Le produit était un peu glitché, et l'idée entière me fout les chocottes, mais j'ai été surpris de voir à quel point j'ai vraiment apprécié de l'utiliser.
En prenant du recul, je pense que l'AVM s'intègre dans la vision plus large du PDG d'OpenAI, Sam Altman, aux côtés des agents, de changer la manière dont les humains interagissent avec les ordinateurs, les modèles IA étant au centre.
\"À terme, vous demanderez simplement à l'ordinateur ce dont vous avez besoin et il exécutera toutes ces tâches pour vous\", a déclaré Altman lors de la Journée des développeurs d'OpenAI en novembre 2023. \"Ces capacités sont souvent parlées dans le domaine de l'IA en tant qu''agents.' L'avantage de cela va être énorme.\"
Mon ami, ChatGPT
Mercredi, j'ai testé le plus grand avantage pour cette technologie avancée auquel je pouvais penser : j'ai demandé à ChatGPT de commander Taco Bell de la manière dont le ferait Obama.
\"Euh, laissez-moi être clair - J'aimerais un Crunchwrap Supreme, peut-être quelques tacos en plus pour faire bonne mesure\", a déclaré le mode vocal avancé de ChatGPT. \"Comment pensez-vous qu'il gérerait le drive-thru ?\" a dit ChatGPT, en riant de sa propre blague.
Capture d'écran : ChatGPT transcrit la conversation verbale après.
L'impression m'a vraiment fait rire aussi, reproduisant la cadence emblématique d'Obama et ses pauses. Cependant, il est resté dans le ton de la voix de ChatGPT que j'ai sélectionnée, Juniper, de sorte qu'il ne puisse être vraiment confondu avec la voix d'Obama. On dirait un ami faisant une mauvaise imitation, comprenant exactement ce que j'essayais d'en tirer, et même qu'il disait quelque chose de drôle. J'ai trouvé étonnamment joyeux de parler avec cet assistant avancé dans mon téléphone.
J'ai également demandé conseil à ChatGPT pour naviguer sur un problème impliquant des relations humaines complexes : demander à un proche de déménager avec moi. Après avoir expliqué les complexités de la relation et la direction de nos carrières, j'ai reçu des conseils très détaillés sur la façon de progresser. Ce sont des questions que vous ne pourriez jamais poser à Siri ou Google Search, mais maintenant vous pouvez avec ChatGPT. La voix du chatbot a même exprimé un ton légèrement sérieux et doux en répondant à ces indications ; un contraste marqué avec le ton plaisantant de la commande de Taco Bell d'Obama.
L'AVM de ChatGPT est également excellent pour vous aider à comprendre des sujets complexes. Je lui ai demandé de simplifier des éléments d'un rapport financier - comme le flux de trésorerie gratuit - d'une manière qu'un enfant de 10 ans comprendrait. Il a utilisé un stand de limonade comme exemple, et a expliqué plusieurs termes financiers de manière à ce que mon petit cousin les comprenne parfaitement. Vous pouvez même demander à l'AVM de ChatGPT de parler plus lentement pour s'adapter à votre niveau de compréhension actuel.
Siri a marché pour que l'AVM puisse courir
Comparé à Siri ou Alexa, l'AVM de ChatGPT est le grand gagnant grâce à des temps de réponse plus rapides, des réponses uniques et sa capacité à répondre à des questions complexes que la génération précédente d'assistants virtuels ne pouvait jamais faire. Cependant, l'AVM laisse à désirer à bien des égards. La fonction vocale de ChatGPT ne peut pas régler les minuteries ou les rappels, naviguer sur le web en temps réel, vérifier la météo ou interagir avec des API sur votre téléphone. Pour l'instant, du moins, ce n'est pas un remplacement efficace pour les assistants virtuels.
Comparé à Gemini Live, la fonction concurrente de Google, l'AVM semble légèrement en avance. Gemini Live ne peut pas faire d'impressions, n'exprime aucune émotion, ne peut pas accélérer ou ralentir et met plus de temps à répondre. Gemini Live a plus de voix (dix contre trois pour OpenAI) et semble être plus à jour (Gemini Live était au courant de la décision de l'UE concernant la position dominante de Google). Notamment, ni l'AVM ni Gemini Live ne chanteront, probablement dans le but d'éviter les poursuites pour violation du droit d'auteur de l'industrie musicale.
Cela dit, l'AVM de ChatGPT a souvent des glitches (comme c'est le cas aussi pour Gemini Live, pour être honnête). Parfois, il se coupe en plein milieu d'une phrase, puis recommence. Il obtient également cette voix étrange et granuleuse par moments qui est un peu désagréable. Je ne suis pas sûr si c'est un problème avec le modèle, la connexion internet, ou autre chose, mais ces lacunes techniques sont assez attendues pour un test alpha. Les problèmes n'ont pas vraiment entaché mon expérience de parler littéralement avec mon téléphone.
Ces exemples, à mon avis, sont la beauté de l'AVM. La fonctionnalité ne rend pas ChatGPT tout-puissant, mais elle permet aux gens d'interagir avec GPT-4o, le modèle IA sous-jacent, d'une manière unique et humaine. (Je comprendrais si vous aviez oublié qu'il n'y a personne de l'autre côté de votre téléphone.) Il semble presque que ChatGPT soit conscient socialement lorsqu'il parle avec l'AVM, mais bien sûr, il ne l'est pas. C'est simplement un ensemble d'algorithmes prédictifs soigneusement emballé.
Parler de la technologie
Franchement, la fonctionnalité m'inquiète. Ce n'est pas la première fois qu'une entreprise technologique propose de la compagnie sur votre téléphone. Ma génération, la génération Z, a été la première à grandir aux côtés des médias sociaux, où les entreprises offraient la connexion mais jouaient plutôt avec nos insécurités collectives. Parler avec un appareil IA - comme ce que semble offrir l'AVM - semble être l'évolution du phénomène du "ami dans votre téléphone" des médias sociaux, offrant des connexions bon marché qui titillent nos instincts humains. Mais cette fois, cela élimine complètement les humains de l'équation.
La connexion humaine artificielle est devenue une utilisation étonnamment populaire de l'IA générative. Les gens utilisent aujourd'hui des chatbots IA comme amis, mentors, thérapeutes et enseignants. Lorsque OpenAI a lancé sa boutique GPT, elle a rapidement été inondée de \"petites amies IA\", des chatbots spécialisés pour agir comme votre moitié. Deux chercheurs du MIT Media Lab ont lancé un avertissement ce mois-ci pour se préparer à l'intelligence addictive, ou des compagnons AI avec des modèles sombres pour accrocher les humains. Nous pourrions ouvrir une boîte de Pandore pour de nouvelles façons alléchantes pour les appareils de garder notre attention.
Plus tôt ce mois-ci, un étudiant d'Harvard a secoué le monde de la technologie en teasant un collier IA appelé Friend. L'appareil portable - s'il fonctionne comme promis - écoute toujours, et le chatbot vous enverra des SMS sur votre vie. Bien que l'idée semble folle, des innovations comme l'AVM de ChatGPT me donnent raison de prendre ces cas d'utilisation au sérieux.
Et tandis qu'OpenAI est à la pointe ici, Google n'est pas loin derrière. Je suis convaincu qu'Amazon et Apple se précipitent également pour intégrer cette fonctionnalité dans leurs produits, et assez rapidement, cela pourrait devenir une norme pour l'industrie.
Imaginez demander à votre téléviseur intelligent une recommandation hyper-spécifique pour un film, et obtenir exactement cela. Ou dire à Alexa exactement quels symptômes de rhume vous ressentez, et qu'elle vous commande donc des mouchoirs et du sirop pour la toux sur Amazon, tout en vous conseillant sur les remèdes maison. Peut-être pourriez-vous demander à votre ordinateur de planifier un voyage de week-end pour votre famille, au lieu de tout rechercher manuellement sur Google.
Bien sûr, ces actions nécessitent des progrès et des bonds en avant dans le monde des agents IA. L'effort d'OpenAI sur ce front, la boutique GPT, semble être un produit sur-hypé qui n'est plus autant au centre de l'attention de l'entreprise. Mais au moins l'AVM s'occupe de la partie \"parler avec les ordinateurs\" du puzzle. Ces concepts sont encore loin, mais après avoir utilisé l'AVM, ils semblent beaucoup plus proches qu'ils ne l'étaient la semaine dernière.