उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर 2 ( जीपीटी-2 ) ओपन एआई द्वारा एक बड़ा भाषा मॉडल है और जीपीटी मॉडल की उनकी मूलभूत श्रृंखला में दूसरा है। GPT-2 को बुककॉर्पस पर पूर्व-प्रशिक्षित किया गया था, [1] विभिन्न शैलियों की 7,000 से अधिक अप्रकाशित फिक्शन पुस्तकों का डेटासेट, और 8 मिलियन वेब पेजों के डेटासेट पर प्रशिक्षित किया गया था। [2] इसे फरवरी 2019 में आंशिक रूप से जारी किया गया था, इसके बाद 5 नवंबर, 2019 को 1.5-बिलियन-पैरामीटर मॉडल की पूर्ण रिलीज हुई [3] [4] [5] [6] [7]

GPT-2 को GPT-1 [8] के "प्रत्यक्ष स्केल-अप" के रूप में बनाया गया था, जिसमें इसके पैरामीटर गिनती और इसके प्रशिक्षण डेटासेट के आकार दोनों में दस गुना वृद्धि हुई थी। [7] यह एक सामान्य-उद्देश्यीय शिक्षार्थी है और विभिन्न कार्यों को करने की इसकी क्षमता एक क्रम में अगले आइटम की सटीक भविष्यवाणी करने की इसकी सामान्य क्षमता का परिणाम थी, [2] [9] जिसने इसे ग्रंथों का अनुवाद करने, किसी विषय के बारे में सवालों के जवाब देने में सक्षम बनाया। एक पाठ से, एक बड़े पाठ से अनुच्छेदों को सारांशित करें, [9] और कभी-कभी मनुष्यों से अप्रभेद्य स्तर पर पाठ आउटपुट उत्पन्न करें, [10] हालांकि लंबे अनुच्छेद उत्पन्न करते समय यह दोहराव या निरर्थक हो सकता है। [11] इसका स्थान GPT-3 और GPT-4 मॉडल ने ले लिया, जो अब खुला स्रोत नहीं हैं।

GPT-2 में, अपने पूर्ववर्ती GPT-1 और उसके उत्तराधिकारियों जीपीटी-3 और जीपीटी-4 की तरह, एक उत्पादक पूर्व-प्रशिक्षित ट्रांसफॉर्मर वास्तुकला है, जो एक गहरे तंत्रिका नेटवर्क को लागू करता है, विशेष रूप से एक ट्रांसफार्मर मॉडल, [8] जो पुराने के बजाय ध्यान का उपयोग करता है पुनरावृत्ति- और कनवल्शन-आधारित आर्किटेक्चर। [12] [13] ध्यान तंत्र मॉडल को इनपुट टेक्स्ट के उन खंडों पर चयनात्मक रूप से ध्यान केंद्रित करने की अनुमति देता है जो सबसे अधिक प्रासंगिक होने की भविष्यवाणी करते हैं। [14] [15] यह मॉडल बहुत अधिक समानांतरीकरण की अनुमति देता है, और RNN/CNN/LSTM-आधारित मॉडल के लिए पिछले बेंचमार्क से बेहतर प्रदर्शन करता है। [8]

  1. Zhu, Yukun; Kiros, Ryan (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV].Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015).
  2. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). मूल (PDF) से 6 February 2021 को पुरालेखित. अभिगमन तिथि 19 December 2020. Cite journal requires |journal= (मदद)Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019).
  3. Vincent, James (7 November 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge. मूल से 11 June 2020 को पुरालेखित. अभिगमन तिथि 19 December 2020.Vincent, James (7 November 2019).
  4. "GPT-2: 1.5B Release". OpenAI (अंग्रेज़ी में). 2019-11-05. मूल से 2019-11-14 को पुरालेखित. अभिगमन तिथि 2019-11-14."GPT-2: 1.5B Release".
  5. Piper, Kelsey (15 May 2019). "A poetry-writing AI has just been unveiled. It's ... pretty good". Vox. मूल से 7 November 2020 को पुरालेखित. अभिगमन तिथि 19 December 2020.Piper, Kelsey (15 May 2019).
  6. Johnson, Khari (20 August 2019). "OpenAI releases curtailed version of GPT-2 language model". VentureBeat. मूल से 18 December 2020 को पुरालेखित. अभिगमन तिथि 19 December 2020.Johnson, Khari (20 August 2019).
  7. "Better Language Models and Their Implications". OpenAI. 14 February 2019. मूल से 19 December 2020 को पुरालेखित. अभिगमन तिथि 19 December 2020."Better Language Models and Their Implications". सन्दर्भ त्रुटि: <ref> अमान्य टैग है; "openai" नाम कई बार विभिन्न सामग्रियों में परिभाषित हो चुका है
  8. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. पृ॰ 12. मूल (PDF) से 26 January 2021 को पुरालेखित. अभिगमन तिथि 23 January 2021.
  9. Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". arXiv:2006.05477 [cs.CL].Hegde, Chaitra; Patil, Shrikumar (9 June 2020).
  10. Kaiser, Caleb (31 January 2020). "Too big to deploy: How GPT-2 is breaking servers". Towards Data Science. मूल से 15 February 2020 को पुरालेखित. अभिगमन तिथि 27 February 2021.Kaiser, Caleb (31 January 2020).
  11. Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. मूल से 14 February 2019 को पुरालेखित. अभिगमन तिथि 19 December 2020.Hern, Alex (14 February 2019).
  12. Polosukhin, Illia; Kaiser, Lukasz (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
  13. Olah, Chris; Carter, Shan (8 September 2016). "Attention and Augmented Recurrent Neural Networks". Distill. 1 (9). डीओआइ:10.23915/distill.00001. मूल से 22 December 2020 को पुरालेखित. अभिगमन तिथि 22 January 2021.
  14. Bahdanau, Dzmitry; Cho, Kyunghyun (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014).
  15. Luong, Minh-Thang; Pham, Hieu (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025 [cs.CL].Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015).