Generative Pre-trained Transformer 3 (GPT-3) är en autoregressivspråkmodell, som använder djupinlärning för att producera text, som liknar sådan som människor producerar.
Sextio procent av den viktade förträningsdatauppsättningen för GPT-3 kommer från en filtrerad version av Common Crawl som består av 410 miljarder byte-par-kodade tokens. Andra källor är 19 miljarder tokens från WebText2 som representerar 22 % av viktat totalt, 12 miljarder tokens från Books1 som representerar 8 %, 55 miljarder tokens från Books2 representerar 8 % och 3 miljarder tokens från Wikipedia som representerar 3 %.[1]: 9 GPT-3 tränades på hundratals miljarder ord och är kapabel. av kodning i bland annat CSS, JSX, Python.[1]