# 학위가 필요한 직업을 분류한 사례연구 [Clavié et al., 2023](https://arxiv.org/abs/2303.07142)는 프롬프트 엔지니어링을 적용한 미디엄 스케일의 텍스트 분류 유스케이스 사례연구를 발표했습니다. 분류 작업을 통해서 특정 직업이 대학을 갓 졸업한 사람에게 꼭 맞는 "신입 레벨" 인지, 여러 프롬프트 엔지니어링 테크닉을 사용하여 평가한 뒤 GPT-3.5 (`gpt-3.5-turbo`)를 사용하여 결과를 공유했습니다. 이 연구는 강력한 베이스라인인 DeBERTa-V3를 포함한 여러 다른 모델들을 LLM이 가뿐히 능가했음을 증명합니다. 또한 `gpt-3.5-turbo`가 구 버전의 GPT3 variants의 모든 키 메트릭에서 두각을 나타냈음을 보여주었습니다만, 템플릿에 한정하여 추가 출력 파싱을 필요로 할 만큼 다른 variants보다는 조금 떨어진 성능을 확인할 수 있었습니다. 프롬프트 엔지니어링 접근법에서 얻은 주요 결과는 다음과 같습니다: - 전문가의 지식이 필요하지 않은 이러한 단순 작업의 경우, 모든 실험에서 Few-shot CoT 프롬프팅이 Zero-shot 프롬프팅에 비해 상대적으로 낮은 퍼포먼스를 보여주었습니다. - 프롬프트는 올바른 추론 도출에 엄청난 영향을 미칩니다. 모델에게 직업을 분류하라고 간단하게 명령했을 때에는 65.6의 F1 점수를 얻었으나, 포스트-프롬프트 엔지니어링 모델은 91.7의 F1 점수를 보여주었습니다. - 모델을 템플릿에 강제로 적용하려 한 모든 경우에 성능이 저하되었습니다. (이 방법은 논문 뒤 쪽의 GPT-4를 사용한 초기 테스트에서 사라졌습니다.) - 아주 작은 수정사항이 성능에 엄청난 영향을 미쳤습니다. - 아래 표에서 모든 수정사항에 따른 결과를 확인하세요. - 적절한 지시를 내리고, 키 포인트를 반복하는 것이 가장 큰 성능 동력으로 나타났습니다. - 모델에게 (사람)이름을 지어주고 불러주는 것은 F1 점수를 증가시켰습니다. ### 실험에 쓰인 프롬프트 수정사항들 | 약어 | 설명 | | -------- | --------------------------------------------------------------------------------- | | Baseline | 채용 공고를 제공하고 갓 졸업한 신입에게 적합한지 묻습니다. | | CoT | 쿼리를 날리기 전에 몇 가지 정확한 예시를 제공합니다. | | Zero-CoT | 모델에게 단계별로 추론한 뒤 정답을 제시하도록 요구합니다. | | rawinst | 역할 및 작업에 대한 지침을 사용자 메시지에 추가하여 제공합니다. | | sysinst | 시스템 메시지로서의 역할과 작업에 대한 지침을 제공합니다. | | bothinst | 시스템 메시지로서의 역할과 사용자 메시지로서의 작업을 사용하여 명령을 분할합니다. | | mock | 토론 내용을 인식하는 부분을 따라하여 작업 지시를 내립니다. | | reit | 주요 요소를 반복하여 지시를 보강합니다. | | strict | 모델에게 주어진 템플릿을 엄격히 준수하여 답변하도록 요청합니다. | | loose | 주어진 템플릿 뒤에 최종 답변만 반환하도록 요청합니다. | | right | 모델에게 올바른 결론에 도달하도록 요청합니다. | | info | 일반적인 추론 실패를 해결하기 위한 추가 정보를 제공합니다. | | name | 모델에게 이름을 지어주고 대화 시 사용합니다. | | pos | 쿼리를 날리기 전 모델에게 긍정적인 피드백을 제공합니다. | ### 위의 프롬프트 수정사항이 성능에 미치는 영향 | | 정확도 | 리콜 | F1 | 템플릿 고착도 | | --------------------------------------- | -------- | ------ | -------- | ------------- | | _Baseline_ | _61.2_ | _70.6_ | _65.6_ | _79%_ | | _CoT_ | _72.6_ | _85.1_ | _78.4_ | _87%_ | | _Zero-CoT_ | _75.5_ | _88.3_ | _81.4_ | _65%_ | | _+rawinst_ | _80_ | _92.4_ | _85.8_ | _68%_ | | _+sysinst_ | _77.7_ | _90.9_ | _83.8_ | _69%_ | | _+bothinst_ | _81.9_ | _93.9_ | _87.5_ | _71%_ | | +bothinst+mock | 83.3 | 95.1 | 88.8 | 74% | | +bothinst+mock+reit | 83.8 | 95.5 | 89.3 | 75% | | _+bothinst+mock+reit+strict_ | _79.9_ | _93.7_ | _86.3_ | _**98%**_ | | _+bothinst+mock+reit+loose_ | _80.5_ | _94.8_ | _87.1_ | _95%_ | | +bothinst+mock+reit+right | 84 | 95.9 | 89.6 | 77% | | +bothinst+mock+reit+right+info | 84.9 | 96.5 | 90.3 | 77% | | +bothinst+mock+reit+right+info+name | 85.7 | 96.8 | 90.9 | 79% | | +bothinst+mock+reit+right+info+name+pos | **86.9** | **97** | **91.7** | 81% | 템플릿 고착도란 요구한 형식으로 모델이 응답한 빈도를 나타냅니다. Template stickiness refers to how frequently the model answers in the desired format.