Det finns många exempel på när något som sagts på TV:n eller i radio har aktiverat digitala assistenter runt om i världen. Såväl Burger King som Southpark har medvetet gjort det, och reklamfilmer och nyhetsankare har omedvetet lyckats såväl beställa dockhus som spela musik. Men nu har Amazon delvis hittat en lösning på problemet.
De nya röststyrda assistenterna erbjuder en mängd olika möjligheter för såväl reklam som att spela spratt genom att ge kommandon via media. När Amazon under SuperBowl vill dra uppmärksamhet till sin digitala assistent Echo, och deras AI Alexa, vill de dock inte råka aktivera enheter över hela USA. Lösningen ligger i att skapa ett så kallat ”akustiskt fingeravtryck”. Det innebär att Amazon programmerar in reklamens ljud i Alexas databas, så när reklamen går igång kan enheter i människors hem identifiera det som reklam och ignorera kommandona som ges.
Detta fungerar dock bara för reklamfilmer som Amazon själva gör, eftersom ljudet måste införlivas i databasen i förväg. Men de har en annan lösning för att undvika att ljud från media aktiverar assistenterna. Den lösningen går ut på att ett kommando korsrefereras med kommandon som getts till andra enheter i närtid. Om minst två andra enheter fått exakt samma kommando samtidigt tolkas det som att kommandot kommer från media och ignoreras. Det fungerar så klart inte perfekt, men det är ett sätt att hantera de uppenbara problem som kan komma från att digitala assistenter får kommandon från andra håll än de som äger enheten.
Systemet med korsreferens fungerar givetvis inte om någon i efterhand ser ett reklamklipp eller ett tv-program, exempelvis via YouTube eller Netflix, eftersom användaren då själv styr när klippet spelas upp. Amazon kan så klart i efterhand lägga till dessa akustiska fingeravtryck så att exempelvis det kontroversiella Southpark-avsnittet inte aktiverar enheterna om någon skulle se avsnittet vid ett senare tillfälle. Men det innebär en manuell hantering av dessa situationer, och frågan är om det går att förvänta sig att en tillverkare kontinuerligt ska söka upp när kommandon ges i media världen över för att förhindra oönskad aktivering av deras enheter.
Det är ett svårt problem att komma runt, då enheterna redan idag kan missuppfatta vad som sägs och mitt i en konversation börja prata eftersom den uppfattade att väckningsordet nämndes. Detta är extra vanligt i bullrigare miljöer, där det är svårare att exakt uppfatta vad som sägs. Att förvänta sig att en AI själv ska kunna avgöra om ett kommando kommer från media, och ska ignoreras, eller från en person och ska följas, är nog inget vi kan förvänta oss än på ett bra tag. Så i nuläget får vi vara tacksamma att Amazon ändå vidtar mått och steg för att minimera risken att vi plötsligt får hem dockhus eller att vår enhet börjar läsa upp vad en Whopper innehåller.