Prompt-Engineering-Guide/pages/techniques/multimodalcot.tr.mdx

15 lines
997 B
Plaintext
Raw Normal View History

2023-04-08 16:23:03 +08:00
# Çok Modlu CoT Bilgi İstemi
import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'
[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) yakın zamanda çok modlu bir düşünce zinciri yönlendirme yaklaşımı önerdi. Geleneksel CoT, dil yöntemine odaklanır. Buna karşılık, Multimodal CoT, metin ve vizyonu iki aşamalı bir çerçevede birleştirir. İlk adım, çok modlu bilgilere dayalı gerekçe oluşturmayı içerir. Bunu, bilgilendirici olarak oluşturulmuş gerekçelerden yararlanan ikinci aşama olan cevap çıkarımı izler.
Multimodal CoT modeli (1B), ScienceQA kıyaslamasında GPT-3.5'ten daha iyi performans gösterir.
<Screenshot src={MCOT} alt="MCOT" />
Resim Kaynağı: [Zhang et al. (2023)](https://arxiv.org/abs/2302.00923)
Daha Fazla Bilgi:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)