[Clavié ym., 2023](https://arxiv.org/abs/2303.07142)-julkaisussa tutkitaan kehotesuunnittelun soveltamista tekstin luokittelutehtävässä tuotantojärjestelmässä. Tutkimuksessa selvitetään, onko tarjolla oleva työpaikka todellinen "aloitustason työ", joka sopii äskettäin valmistuneelle. He testaavat useita kehotesuunnittelutekniikoita ja raportoivat tuloksensa käyttäen GPT-3.5-mallia (`gpt-3.5-turbo`)
Tutkimus osoittaa, että LLM:t suoriutuvat paremmin kuin kaikki muut testatut mallit, mukaan lukien erittäin vahva vertailukohta DeBERTa-V3. `gpt-3.5-turbo` suoriutuu myös huomattavasti paremmin kuin vanhemmat GPT3-variantit kaikissa keskeisissä mittareissa, mutta sen tulosten jäsentämistä on tehostettava, koska sen kyky noudattaa mallipohjaa näyttää olevan heikompi kuin muiden varianttien.
- Tehtävissä, joissa ei tarvita asiantuntijatietoa, vähäisen ohjauksen CoT -kehote suoriutui huonommin kuin nollaoppimisen kehote kaikissa kokeissa.
- Kehotteen vaikutus oikean perustelun saamiseen on merkittävä. Mallin pyytäminen luokittelemaan annettu työpaikka johtaa F1-pistemäärään 65,6, kun taas malli saavuttaa kehotesuunnittelun jälkeen F1-pistemäärän 91,7
- Mallin pakottaminen noudattamaan mallipohjaa heikentää suorituskykyä kaikissa tapauksissa (tämä käyttäytyminen katoaa GPT-4:llä, joka on julkaistu tutkimuksen jälkeen).
- Monet pienet muutokset vaikuttavat suuresti suorituskykyyn.