Tämä tutkimus käsittelee [kielimallien hienosäätämistä ohjeistuksen avulla](https://arxiv.org/pdf/2109.01652.pdf) ja se tarkastelee suorituskyvyn ja skaalautuvuuden vaikutuksia useissa erilaisissa malleissa (kuten PaLM, T5), kehoteasetelmissa (nollakehote, vähäinen ohjaus, ajatusketju eli CoT) ja vertailukohteissa (MMLU, TyDiQA). Tämä tarkastelu tapahtuu seuraavilla osa-alueilla: tehtävien määrän skaalaaminen (1,8K tehtävää), mallin koon skaalaaminen ja ajatusketjun perusteella tapahtuva hienosäätö (käytetty 9 tietojoukkoa).
- Ohjeistuksen avulla hienosäädetty malli skaalautuu hyvin sekä tehtävien määrän että mallin koon suhteen. Tämä viittaa siihen, että tehtävien määrän ja mallin koon skaalaamista tulisi jatkaa
- Flan-PaLM parantaa monikielisiä kykyjä; se saavuttaa 14,9 % parannuksen TyDiQA:n nollakehotteessa ja 8,1 % parannuksen aritmeettisessa päättelyssä aliedustetuilla kielillä.
**Tulokset hienosäätötehtävien määrän ja mallin koon skaalaamisessa:** Mallin koon ja hienosäätötehtävien määrän skaalaaminen odotetaan jatkavan suorituskyvyn parantamista, mutta tehtävien määrän kasvattaminen johtaa hitaampaan kasvuun.
**Tulokset hienosäätäessä ilman CoT-dataa ja CoT-dataa käyttäen:** Yhteinen hienosäätö ilman CoT-dataa ja CoT-dataa käyttäen parantaa suorituskykyä molemmissa tapauksissa verrattuna hienosäätöön, jossa käytetään vain toista.
Lisäksi, yhdistämällä CoT:n itsejohdonmukaisuuteen saavutetaan parhaat nykyiset tulokset useissa vertailukohteissa. CoT ja itsejohdonmukaisuus parantavat merkittävästi tuloksia vertailukohteissa, jotka sisältävät matemaattisia ongelmia (kuten MGSM, GSM8K).
CoT-hienosäätö mahdollistaa nollakehote päättelyn, joka aktivoidaan lauseella "ajatellaan vaihe vaiheelta" BIG-Bench-tehtävissä (huomaa, että suomenkielistä testidataa ei ole saatavilla). Yleisesti ottaen nollakehote CoT Flan-PaLM suoriutuu paremmin kuin nollakehote CoT PaLM ilman hienosäätöä.
Alla on lisää esimerkkejä nollakehotteista. Nämä esimerkit osoittavat, kuinka PaLM-malli kamppailee toistojen kanssa ja ei pysty vastaamaan ohjeisiin nollakehote-asetuksessa, kun taas Flan-PaLM suoriutuu näistä tehtävistä paremmin. Vähäisen ohjauksen esimerkit voivat auttaa lieventämään näitä virheitä.
Lisäksi, alla on useita esimerkkejä, jotka osoittavat Flan-PALM-mallin kyvykkyyksiä nollakehote-asetuksissa monien erilaisten ja haastavien avoimen päättelyn kysymysten kanssa: