Eksaminer chatbotten

Nutiden og fremtiden er AI. En af de vigtigste kompetencer bliver at kunne partner op med intelligente værktøjer ud fra en vurdering af hvornår det gavner læringen, arbejdet, datasikkerheden og livsgnisten.

Mennesker er testende væsner. Voksne tester unge mennesker i skolen, til køreprøven, til Forsvarets dag i stort og småt, direkte og indirekte. Vi tester computeren, den nye relation, appen, bolden, viskelæderet og nu også chatbots.

Når de professionelle computerfolk tester sprogmodeller, så benchmarker de dem. Det svarer i grove træk til at give chatbots en karakter og rangordne dem ud fra en systematisk eksamination.

Det lyder måske som et job, der er forbeholdt eksperter, men formentlig gør dine elever det allerede! Hvis de har afprøvet to forskellige chatbots, vil de formentlig foretrække den ene frem for den anden. Måske vibede den lidt bedre, forstod deres intention lidt bedre, havde flere funktioner eller gav bedre svar på matematikopgaven? Med andre ord; de har evalueret den. Hverken på systematisk vis eller med benhårde evalueringskriterier, men den værktøjskasse kan du assistere dem med at opbygge.

Du kan lære eleverne at benchmarke chatbots og AI agenter, så I sammen kan udvikle et sprog for, hvordan man tester, evaluere og vurdere chatbottens evner og de faldgruber og muligheder, som man inviterer på besøg, når man partner op med chatbots i skolen, fritiden og på arbejdet.

Nutiden og fremtiden er malet med AI. En af de vigtigste kompetencer bliver at kunne partner op med intelligente værktøjer og vurdere hvornår det gavner eller ikke-gavner læringen, arbejdet, datasikkerheden og livsgnisten. Den fremtid kan du tage hul på med ressourcepakken: Test chatbotten

Værktøjskassen er under udvikling og suppleres løbende med læremidler:

 

1️⃣🪧PLAKAT MED TESTTYPER

Plakaten giver jer overblik over de 3 mest relevante testtyper i uddanelsesregi. Testtyper, som I kan bruge til at designe NYE tests og som vil være backbone i Tankespirernes test-materialer.

(Obs. Jeg har fravalgt LLM som dommer, selvom det er en gængs testtype).

 

HVORFOR VÆLGE SKOLEGPT, CHAT.DK ELLER AI-ARENA SOM TESTPLATFORM?

SkoleGPT overholder GDPR og har implementeret de nødvendige tiltag for at beskytte persondata. I modsætning til SkrivSikkert og Skolebot har i direkte adgang til og kan manipulere to sprogmodeller. SkoleGPT v.1 = Mixtral 8×7B og SkoleGPT v.3 = Gemma 3 12B.

Det giver eleverne ideelle betingelser for at lave evaluerende sammenligninger og forbedre testbetingelserne, fx gennem systemprompts eller ved at ændre på systemindstillingerne. Både Mixtral- og Gemma modellen er mindre sprogmodeller. De er væsentlige dårligere end de nyeste modeller fra Anthropic, OpenAI, Alphabet Inc., xAI og Meta. Det gør dem bedre som testmodeller for elever, da sprogmodellernes mangler er mere øjensynlige.

Ordbogen A/S har skabt en dansk platform med to open source-sprogmodeller, som de har fintunet på dansk data. I interface betegnes de som “hurtig” og “grundig”. I kan teste dem uden at logge ind. Så længe eleverne ikke uploader databeskyttet materialer eller personfølsomme data, kan I roligt teste de to chatbots på chat.dk. Det er særligt interessant om de klarer sig bedre i det danske sprog og på særlige danske kontekster, inden for fx litteratur, mad, lokal sport etc. etc.

Med den nye danske LM-arena, kan I teste langt flere chatbots op mod hinanden i et arena-format. Husk igen. Ingen personfølsomme data eller ophavsbeskyttet materialer. AI-arenaen. Fx kan I lave en David mod Goliat-test. Det er særligt interessant, fordi spørgsmålet om hvornår, man har brug for den store forhammer og hvornår man kan nøjes med den mindre, bliver tydeligt.