De Turingtest is een manier om te testen of een machine intelligent gedrag kan vertonen dat equivalent is met menselijk gedrag of niet daarvan te onderscheiden. Deze methode is bedacht door Alan Turing. Bij deze test beslissen menselijke waarnemers of ze antwoord krijgen van een mens of van een robot.
Het originele voorstel was om een experiment uit te voeren in de vorm van een tweegesprek tussen twee keyboards (teletypes) in aparte kamers. In feite doen moderne chatbots precies hetzelfde.
Bedrijven zoals Apple en Amazon spannen zich enorm in om de dialoog met hun chatbot zo menselijk mogelijk te laten lijken. Ze maken gebruik van teams van menselijke beoordelaars, die de gesprekken analyseren en verbeteringen aanbrengen, maar dat is een langzaam en kostbaar proces. Zou het niet mooi zijn als we tweegesprekken veel sneller zouden kunnen evalueren door gebruik te maken van… een machine?
Onderzoekers van McGill University in Montreal in Canada hebben een evaluatiemodel ontwikkeld, het Automatic Dialogue Evaluation Model (ADEM). Bij het testen bleek dit model in staat om precies dezelfde beoordelingen te produceren als mensen bij het evalueren van dezelfde input.
Het team wil dit model gaan vrijgeven als open source.