# Çok Modlu CoT Bilgi İstemi

import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'

[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) yakın zamanda çok modlu bir düşünce zinciri yönlendirme yaklaşımı önerdi. Geleneksel CoT, dil yöntemine odaklanır. Buna karşılık, Multimodal CoT, metin ve vizyonu iki aşamalı bir çerçevede birleştirir. İlk adım, çok modlu bilgilere dayalı gerekçe oluşturmayı içerir. Bunu, bilgilendirici olarak oluşturulmuş gerekçelerden yararlanan ikinci aşama olan cevap çıkarımı izler.

Multimodal CoT modeli (1B), ScienceQA kıyaslamasında GPT-3.5'ten daha iyi performans gösterir.

<Screenshot src={MCOT} alt="MCOT" />
Resim Kaynağı: [Zhang et al. (2023)](https://arxiv.org/abs/2302.00923)

Daha Fazla Bilgi:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)