
Apple-kommentator John Gruber har i skarpe vendinger kritiseret Siri for dens manglende evne til at besvare basale spørgsmål.
Et specifikt eksempel på dette er dens svar på, hvem der vandt Super Bowl 13, hvilket ifølge Gruber er en type forespørgsel, som enhver amerikansk chatbot burde kunne håndtere.
Grubers kritik blev inspireret af hans ven Paul Kafasis, der besluttede sig for at teste Siri systematisk på dens viden om Super Bowl-vindere fra 1 til 60. Resultaterne, som Kafasis delte i et blogindlæg, viser, at Siri ikke levede op til forventningerne.
Kafasis test afslørede, at Siri kun korrekt kunne identificere vinderen i 20 ud af de 58 afholdte Super Bowls. Dette svarer til en korrekthedsprocent på blot 34 %. Til sammenligning ville en NFL-quarterback med en tilsvarende succesrate sandsynligvis blive fjernet fra ligaen.
På sit bedste formåede Siri at besvare fire år i træk korrekt (Super Bowl IX til XII), men dette krævede, at man accepterede “det rigtige svar af den forkerte årsag”. Mere realistisk præsterede Siri tre korrekte svar i træk i tre forskellige perioder: Super Bowl V-VII, XXXV-XXXVII og LVII-LIX. På sit værste leverede Siri 15 forkerte svar i træk mellem Super Bowl XVII og XXXII.

Fejl og Misforståelser
En bemærkelsesværdig fejl var Siri’s overdrevne tildeling af sejre til Philadelphia Eagles, som den krediterede med 33 Super Bowl-sejre, selvom holdet kun har vundet én gang i virkeligheden. En anden fejl opstod, da Siri blev spurgt om vinderen af Super Bowl X. I stedet for at besvare spørgsmålet leverede den en lang redegørelse om Super Bowl IX, hvilket tilfældigvis førte til det korrekte svar.
Flere gange ignorerede Siri helt spørgsmålet og svarede med irrelevante oplysninger. For eksempel, da den blev spurgt, hvem der vandt Super Bowl 23, svarede Siri med en opremsning af Bill Belichicks rekord for flest Super Bowl-sejre og optrædener, hvilket ikke havde noget med spørgsmålet at gøre.
Sammenligning med Andre AI-Systemer
For at undersøge, om andre AI-systemer klarede sig lige så dårligt, udførte Gruber en række stikprøver med alternativer som ChatGPT, Kagi, DuckDuckGo og Google. Disse systemer klarede sig betydeligt bedre og gav korrekte svar på alle spørgsmål, inklusive dem om Super Bowl 59 og 60, som endnu ikke er blevet spillet. I sådanne tilfælde informerede systemerne korrekt om, at kampene endnu ikke havde fundet sted.
Gruber sammenlignede dette med Siri’s tidligere versioner, som i det mindste leverede links til relevante websider. Den nyeste version af Siri, der bruger Apple Intelligence med ChatGPT-integration, leverer ofte plausible, men forkerte svar. Gruber bemærkede også, at Siri kunne give forskellige forkerte svar på det samme spørgsmål, hvilket forværrer problematikken.
Implicitte Konklusioner
Grubers kritik peger på en bredere problemstilling omkring Siri’s pålidelighed som en informationskilde. Når en AI-assistent fejler på en så fundamental opgave som at besvare spørgsmål om Super Bowl-vindere, rejser det spørgsmål om dens anvendelighed i mere komplekse scenarier. Desuden fremhæver sammenligningen med andre AI-systemer, at Siri i stigende grad halter bagefter sine konkurrenter, både hvad angår præcision og konsistens.
Hele undersøgelsen kan læses i dette blogindlæg.