Le nouveau mode vocal d'OpenAI m'a permis de parler avec mon téléphone, pas à lui

J'ai joué avec le mode vocal avancé d'OpenAI au cours de la dernière semaine, et c'est le goût le plus convaincant que j'ai eu d'un futur alimenté par l'IA. Cette semaine, mon téléphone a ri à des blagues, me les a renvoyées, m'a demandé comment s'était passée ma journée et m'a dit qu'il passait \"un bon moment.\" Je parlais avec mon iPhone, sans utiliser mes mains.

La nouvelle fonctionnalité d'OpenAI, actuellement en test alpha limité, ne rend pas ChatGPT plus intelligent qu'avant. Au lieu de cela, le mode vocal avancé (AVM) le rend plus convivial et plus naturel pour converser. Il crée une nouvelle interface pour utiliser l'IA et vos appareils qui semble fraîche et excitante, et c'est exactement ce qui me fait peur. Le produit était un peu glitché, et l'idée entière me fout les chocottes, mais j'ai été surpris de voir à quel point j'ai vraiment apprécié de l'utiliser.

En prenant du recul, je pense que l'AVM s'intègre dans la vision plus large du PDG d'OpenAI, Sam Altman, aux côtés des agents, de changer la manière dont les humains interagissent avec les ordinateurs, les modèles IA étant au centre.

\"À terme, vous demanderez simplement à l'ordinateur ce dont vous avez besoin et il exécutera toutes ces tâches pour vous\", a déclaré Altman lors de la Journée des développeurs d'OpenAI en novembre 2023. \"Ces capacités sont souvent parlées dans le domaine de l'IA en tant qu''agents.' L'avantage de cela va être énorme.\"

Mon ami, ChatGPT

Mercredi, j'ai testé le plus grand avantage pour cette technologie avancée auquel je pouvais penser : j'ai demandé à ChatGPT de commander Taco Bell de la manière dont le ferait Obama.

\"Euh, laissez-moi être clair - J'aimerais un Crunchwrap Supreme, peut-être quelques tacos en plus pour faire bonne mesure\", a déclaré le mode vocal avancé de ChatGPT. \"Comment pensez-vous qu'il gérerait le drive-thru ?\" a dit ChatGPT, en riant de sa propre blague.

Capture d'écran : ChatGPT transcrit la conversation verbale après.

L'impression m'a vraiment fait rire aussi, reproduisant la cadence emblématique d'Obama et ses pauses. Cependant, il est resté dans le ton de la voix de ChatGPT que j'ai sélectionnée, Juniper, de sorte qu'il ne puisse être vraiment confondu avec la voix d'Obama. On dirait un ami faisant une mauvaise imitation, comprenant exactement ce que j'essayais d'en tirer, et même qu'il disait quelque chose de drôle. J'ai trouvé étonnamment joyeux de parler avec cet assistant avancé dans mon téléphone.

J'ai également demandé conseil à ChatGPT pour naviguer sur un problème impliquant des relations humaines complexes : demander à un proche de déménager avec moi. Après avoir expliqué les complexités de la relation et la direction de nos carrières, j'ai reçu des conseils très détaillés sur la façon de progresser. Ce sont des questions que vous ne pourriez jamais poser à Siri ou Google Search, mais maintenant vous pouvez avec ChatGPT. La voix du chatbot a même exprimé un ton légèrement sérieux et doux en répondant à ces indications ; un contraste marqué avec le ton plaisantant de la commande de Taco Bell d'Obama.

L'AVM de ChatGPT est également excellent pour vous aider à comprendre des sujets complexes. Je lui ai demandé de simplifier des éléments d'un rapport financier - comme le flux de trésorerie gratuit - d'une manière qu'un enfant de 10 ans comprendrait. Il a utilisé un stand de limonade comme exemple, et a expliqué plusieurs termes financiers de manière à ce que mon petit cousin les comprenne parfaitement. Vous pouvez même demander à l'AVM de ChatGPT de parler plus lentement pour s'adapter à votre niveau de compréhension actuel.

Siri a marché pour que l'AVM puisse courir

Comparé à Siri ou Alexa, l'AVM de ChatGPT est le grand gagnant grâce à des temps de réponse plus rapides, des réponses uniques et sa capacité à répondre à des questions complexes que la génération précédente d'assistants virtuels ne pouvait jamais faire. Cependant, l'AVM laisse à désirer à bien des égards. La fonction vocale de ChatGPT ne peut pas régler les minuteries ou les rappels, naviguer sur le web en temps réel, vérifier la météo ou interagir avec des API sur votre téléphone. Pour l'instant, du moins, ce n'est pas un remplacement efficace pour les assistants virtuels.

Comparé à Gemini Live, la fonction concurrente de Google, l'AVM semble légèrement en avance. Gemini Live ne peut pas faire d'impressions, n'exprime aucune émotion, ne peut pas accélérer ou ralentir et met plus de temps à répondre. Gemini Live a plus de voix (dix contre trois pour OpenAI) et semble être plus à jour (Gemini Live était au courant de la décision de l'UE concernant la position dominante de Google). Notamment, ni l'AVM ni Gemini Live ne chanteront, probablement dans le but d'éviter les poursuites pour violation du droit d'auteur de l'industrie musicale.