< Back

AI Voice Interfaces

Vandaag kwam Dave Bitter ons iets vertellen over AI powered voice interfaces, en dan voornamelijk over de rise hiervan binnen het web. Dave werkt bij digital design agency IO, doet veel aan het geven van presentaties en is ook onderdeel van Google, namelijk bij het Developer Expert Program. Dave heeft ons meer verteld over AI, en wat voor coole dingen je hiermee kan doen op het web. Hij gaf veel demo voorbeelden, en liet een beetje code zien.

"When in doubt, more AI!"

Dave vertelde ons eerst dat hij eigenlijk 7 jaar lang heeft gewacht op een leuke usecase voor Voice AI. Zijn eerste projectje hiermee was PresiParrot, die live transcripties kan geven bij presentaties. Die demo staat inmiddels ook al 7 jaar live, toevallig. PresiParrot maakt gebruik van de Speech Recognition API, en zie zet voice imput om naar tekst. Ook vertelt Dave dat voice recognition eigenlijk al in 1950 bestond, dit waren de early days van speech recognition, met de first attempts om computers simepele woorden en nummers te laten verstaan. In 1970-1980 werd het steeds beter, waarna in de 1990s er programmas kwamen als Dragon Dictate en IBM ViaVoice. In de 2000s werd het steeds normaler, omdat ook Google toen een functie introduceerde waar je met jouw stem zoekopdrachten kon doen. In de 2010s ging dit nog een stapje verder door middel van smart assisstance, zoals Alexa, Google home/nest, Siri etc. In de 2020s is het bijna normaal, every day voice interactions is een ding.

Toch is niet alles nu voice related. ChatGPT, wat nu helemaal hot is, is namelijk toch iets waarbij voornamelijk gebruik gemaakt wordt van een chat. Daarom vroeg Dave zichzelf de vraag, wat is de meest natuurlijke manier voor mensen om te communiceren? De meeste mensen lopen liever naar iemand toe om een vraag te stellen. Dave heeft een prototype laten zien, namelijk Aiva. Aiva is een voice activated assistent, eigenlijk een soort chatGPT maar dan praat je tegen een soort bewegende blob. De demonstratie ging in het begin niet smooth, maar dit kwam omdat hij bij PresiParrot zijn microfoon nog aan had, en we kwamen er achter dat dat gelijk een limit is, hahha. Aiva vertelde ons een joke over Front-End. Wat mij opviel, was dat haar stem niet monotoon klinkt als een robot, maar daadwerkelijk als een persoon.

"Make cool stuff, build. dont just discuss."

Aiva werkt zo: Je vertelt wat tegen de computer, die stuurt de tekst door naar de AI database, die geeft antwoord, en leest dat dan weer op. Dave gebruikt hierbij de Speech Recognition AI, checkt in de code of deze in de browser aanwezig is, en als er dan een resultaat is update het scherm. Voor de output, gebruikt hij de Speech Synthesis API. Hij heeft de API persoonlijkheid gegeven door een idling animatie (rustig), een listening animatie (iets heftiger) en een responsing animatie (helemaal ham). Die blobs heeft hij gedaan met ThreeJS, een voorbeeld wat hij van YouTube had gehaald. En dan had hij binnen een paar uur, een mooie proof of concept. Ook zei Dave, when in doubt, more AI! Ik weet niet of ik het daarmee eens ben though, hahaha. Hij doelde hiermee op het gebruik van Elevenlabs, hier kan je allemaal stemmen vinden. Ook gaf hij aan dat het belangrijk is dat je niet teveel latency hebt, omdat dat de illusie van een live conversatie verpest. Dit doet hij door per zin een kleine fetch te doen, omdat je dan veel snellere reactietijden hebt en de AI eigenlijk terwijl hij al antwoord geeft, de rest van het antwoord nog kan berekenen en klaarmaken. AI is just another data source, its the UX that makes the difference. Wel wou Dave duidelijk maken, dat je oudere technieken niet moet vergeten: voor hem duurde het 7 jaar om een usecase te vinden voor SpeechRecognition. Als laatste gaf hij ons nog de boodschap: Make cool stuff, build. Dont just discuss.