پرشین تم مقالات کاوش در معماری GPT-3

کاوش در معماری GPT-3

image profile میثم اسدی - 12 اسفند 1402 - 03:24 دانلود مقاله

با 175 میلیارد پارامتر، GPT-3 یکی از بزرگترین و شناخته شده ترین شبکه های عصبی موجود برای کاربردهای زبان طبیعی است. بیاموزید که چرا مردم اینقدر در مورد آن متحیر هستند.

کاوش در معماری GPT-3

معماری تبدیل کننده از پیش آموزش دیده مولد OpenAI یا GPT-3 نشان دهنده یک تغییر اساسی در تحقیقات و استفاده از هوش مصنوعی است. این یکی از بزرگترین شبکه های عصبی است که تا به امروز توسعه یافته است و پیشرفت های قابل توجهی را در ابزارها و برنامه های کاربردی زبان طبیعی ارائه می دهد.در قلب ChatGPT، مدل زبان بزرگی است که قادر به تولید متن واقعی است، و معماری آن نیز به لطف API های OpenAI و مایکروسافت در انواع برنامه های سازمانی ادغام شده است.

توسعه دهندگان می توانند از مدل زبان مبتنی بر یادگیری عمیق برای توسعه تقریباً هر چیزی که به زبان مربوط می شود استفاده کنند. این رویکرد نویدبخش استارتاپ هایی است که ابزارهای پیشرفته پردازش زبان طبیعی (NLP) را توسعه می دهند - نه تنها برای برنامه های کاربردی B2C، بلکه برای ادغام در موارد استفاده B2B سازمانی.

GPT-3 محبوب ترین هوش مصنوعی NLP است که به طور گسترده در دسترس است، تا حد زیادی به دلیل تطبیق پذیری آن: می توان آن را برای تولید کد، نوشتن غزل، پرس و جو از پایگاه های داده و پاسخگویی دقیق تر به درخواست های خدمات مشتری، در میان برنامه های کاربردی بی شمار دیگر تنظیم کرد. 

Vishwastam Shukla، مدیر ارشد فناوری در HackerEarth که نرم‌افزاری را ارائه می‌کند که به شرکت‌ها در استخدام و استخدام کارکنان فنی کمک می‌کند، گفت: GPT-3 "مسلماً بزرگترین و بهترین مدل هوش مصنوعی NLP همه منظوره است."


 

پارامترهای GPT-3


یکی از قابل توجه ترین ویژگی های GPT-3 تعداد پارامترهای آن است.

شوکلا می‌گوید: "پارامترها در زبان ماشینی مهارت‌ها یا دانش مدل را نشان می‌دهند، بنابراین هرچه تعداد پارامترها بیشتر باشد، به طور کلی مدل مهارت بیشتری دارد."

GPT-3 دارای 175 میلیارد پارامتر است که تقریباً 2000 برابر بیشتر از تعداد پارامترهای مدل اصلی GPT-1 و بیش از 100 برابر بیشتر از 1.5 میلیارد پارامتر در GPT-2 است.

OpenAI، آزمایشگاه تحقیقاتی هوش مصنوعی که GPT-3 را ایجاد کرد، مدل را بر روی بیش از 45 ترابایت داده از اینترنت و کتاب آموزش داد تا از 175 میلیارد پارامتر آن پشتیبانی کند.

Dattaraj Rao، دانشمند ارشد داده که مشاور IT Persistent Systems است گفت: "صنعت هوش مصنوعی درباره GPT-3 به دلیل انعطاف‌پذیری محض که 175 میلیارد اتصال وزنی بین پارامترها برای توسعه برنامه NLP به ارمغان می‌آورد، هیجان‌زده است."

سری مگا وجینی، دانشمند داده در Saggezza، یک مشاور جهانی فناوری اطلاعات، توضیح داد که پارامترها مانند متغیرهای یک معادله هستند.

در یک معادله ریاضی پایه، مانند a + 5b = y، a و b پارامتر هستند و y نتیجه است. در الگوریتم یادگیری ماشینی، این پارامترها با وزن بین کلمات، مانند همبستگی بین معنی یا استفاده با هم، مطابقت دارند.

 

GPT-3، BERT، پارامترها، مدل های ترانسفورماتور


توسعه دهندگان همچنین در حال بررسی راه هایی برای بهبود عملکرد با پارامترهای کمتر هستند. به عنوان مثال، EleutherAI، مجموعه ای از محققان، مهندسان و توسعه دهندگان داوطلب هوش مصنوعی، GPT-Neo 1.3B و GPT-Neo 2.7B را منتشر کردند.

مدل‌های GPT-Neo که به دلیل تعداد پارامترهایی که دارند به این نام نام‌گذاری شده‌اند، دارای معماری بسیار شبیه به GPT-2 OpenAI هستند.

Rao گفت که عملکرد قابل مقایسه ای با مدل های GPT-2 و GPT-3 کوچکتر دارد. مهم‌تر از همه، توسعه‌دهندگان می‌توانند آن را دانلود کرده و آن را با متن خاص دامنه تنظیم کنند تا نتایج جدیدی ایجاد کنند. در نتیجه، رائو گفت که انتظار دارد تعداد زیادی برنامه جدید از دل GPT-Neo بیرون بیاید.

 

رمزگذاری مهارت های زبانی، از جمله طنز


Sreekar Krishna، مدیر/شریک در تمرین Digital LightHouse در KPMG ایالات متحده، GPT-3 را به عنوان "گام بعدی در تکامل یک سیستم یادگیری طبیعی" توصیف کرد و نشان داد که سیستم ها می توانند جنبه های دانش، دامنه و ساختارهای زبان را با استفاده از میلیون ها مثال بیاموزند. .

توسعه الگوریتمی سنتی، مشکلات را به ریزمشکلات اصلی اصلی تقسیم کرد، که می‌تواند به صورت جداگانه به سمت راه‌حل نهایی حرکت کند. انسان‌ها مشکلات را به همان روش حل می‌کنند، اما چندین دهه آموزش در عقل سلیم، دانش عمومی و تجربه تجاری به ما در این زمینه کمک می‌کنند.

در فرآیند آموزش یادگیری ماشین سنتی، الگوریتم‌ها نمونه‌ای از داده‌های آموزشی را بررسی می کنند و انتظار می‌رود قابلیت‌های مختلفی را برای مطابقت با تصمیم‌گیری انسانی بیاموزند.

در طول دهه‌ها، دانشمندان این ایده را آزمایش کرده‌اند که اگر ما حجم عظیمی از داده‌ها را به الگوریتم‌ها تغذیه کنیم، الگوریتم‌ها داده‌های خاص حوزه و دانش عمومی، ساختارهای دستور زبان و هنجارهای اجتماعی انسانی را جذب می‌کنند. با این حال، به دلیل قدرت محاسباتی محدود و چالش‌های آزمایش سیستماتیک سیستم‌های بسیار پیچیده، آزمایش این نظریه دشوار بود.

کریشنا گفت، با این حال، موفقیت معماری GPT-3 نشان داده است که محققان در مسیر درستی قرار دارند، با داده های کافی و معمار مناسب امکان رمزگذاری دانش عمومی، گرامر و حتی طنز در شبکه وجود دارد.

 

آموزش مدل های زبان GPT-3


جذب چنین حجم عظیمی از داده ها از منابع مختلف، نوعی ابزار همه منظوره را در GPT-3 ایجاد کرد. Saggezza's Vujjini گفت: "نیازی نداریم که آن را برای موارد استفاده مختلف تنظیم کنیم."

به عنوان مثال، دقت یک مدل سنتی برای ترجمه انگلیسی به آلمانی بر اساس میزان آموزش خوب و نحوه دریافت داده ها متفاوت است. اما با معماری GPT-3، خروجی بدون توجه به نحوه جذب داده ها دقیق به نظر می رسد. مهمتر از آن، یک توسعه دهنده مجبور نیست آن را با نمونه های ترجمه به طور خاص آموزش دهد.

این امر گسترش GPT-3 را برای طیف گسترده ای از موارد و مدل های زبانی آسان می کند.

تری سیج می گوید: "توسعه دهندگان می توانند با آموزش مدل GPT-3 با چند مثال بهره وری بیشتری داشته باشند و برنامه ای را به هر زبانی مانند پایتون، جاوا اسکریپت یا Rust توسعه دهند."

سیج همچنین استفاده از آن را برای کمک به شرکت‌ها در تجزیه و تحلیل بازخورد مشتریان برای توسعه بینش آزمایش کرده است.

با این حال، رائو استدلال می‌کند که برای تنظیم مدل‌های زبان GPT-3 برای کسب بیشترین ارزش در برنامه‌های کاربردی دنیای واقعی، مانند مراقبت‌های بهداشتی، بانکداری و برنامه‌نویسی، آموزش‌های خاص دامنه مورد نیاز است.

برای مثال، آموزش یک مدل از نوع GPT بر روی مجموعه داده‌ای از تشخیص‌های بیمار توسط پزشکان بر اساس علائم، می‌تواند توصیه‌های تشخیصی را آسان‌تر کند. در همین حال، مایکروسافت، GPT-3 را روی حجم زیادی از کد منبع برای تکمیل کننده خودکار کد به نام Copilot که می تواند به طور خودکار خطوط کد منبع را تولید کند، به خوبی تنظیم کرد.

 

سایر مدل های زبان بزرگ یا LLM


سایر LLM ها شامل Wu Dao 2.0 آکادمی هوش مصنوعی پکن با 1.75 تریلیون پارامتر است. Switch Transformer گوگل با 1.6 تریلیون پارامتر. مایکروسافت و انویدیا MT-NLG با 540 میلیارد پارامتر. Hugging Face's Bloom، با 176 میلیارد پارامتر. و LaMDA گوگل با 137 میلیارد پارامتر.

سوئیچ گوگل برای آزمایش تکنیک هایی برای پشتیبانی کارآمد از پارامترهای بیشتر طراحی شده است.

وو دائو برای پشتیبانی از پردازش زبان و تشخیص تصویر، با استفاده از 4.9 ترابایت تصویر و متن آموزش دیده است.

هر دو مدل Wu Dao و Google Switch از تکنیک یادگیری ماشینی استفاده کردند که به عنوان ترکیبی از رویکرد متخصصان شناخته می شود، که در آموزش مدل هایی با تعداد زیادی پارامتر کارآمدتر است. با این حال، این مدل ها اغلب عملکردی معادل LLM هایی را نشان می دهند که صدها برابر کوچکتر هستند.

 

GPT-3 در مقابل BERT


GPT-3 اغلب با مدل زبان BERT گوگل مقایسه می شود، زیرا هر دو شبکه های عصبی بزرگی برای NLP هستند که بر اساس معماری ترانسفورماتور ساخته شده اند.

اما تفاوت های اساسی از نظر اندازه، روش های توسعه و مدل های تحویل وجود دارد. همچنین، به دلیل مشارکت استراتژیک بین مایکروسافت و OpenAI، GPT-3 تنها به عنوان یک سرویس خصوصی ارائه می شود، در حالی که BERT به عنوان نرم افزار منبع باز در دسترس است.

کریشنا گفت که GPT-3 در حوزه های کاربردی جدید بهتر از BERT عمل می کند. این بدان معناست که شرکت‌ها می‌توانند با GPT-3 سریع‌تر مشکلات ساده تجاری را نسبت به BERT حل کنند.

اما، GPT-3 به دلیل زیرساخت‌های خالصی که کسب‌وکارها برای استقرار و استفاده از آن نیاز دارند، می‌تواند ناخوشایند شود، طبق گفته HackerEarth's Shukla. شرکت ها می توانند به راحتی بزرگترین مدل BERT را با 345 میلیون پارامتر روی یک ایستگاه کاری GPU بارگذاری کنند.

با 175 میلیارد پارامتر اندازه، بزرگترین مدل های GPT-3 تقریباً 470 برابر بزرگ ترین مدل BERT هستند. اما اندازه بزرگ GPT-3 هزینه محاسباتی بسیار بالاتری دارد. به همین دلیل است که GPT-3 فقط به عنوان یک سرویس ارائه می شود، در حالی که BERT را می توان در برنامه های جدید جاسازی کرد.

 

BERT و GPT-3 از معماری ترانسفورماتور برای رمزگذاری و رمزگشایی دنباله ای از داده ها استفاده می کنند. بخش رمزگذار یک جاسازی متنی برای یک سری از داده ها ایجاد می کند، در حالی که رمزگشا از این جاسازی برای ایجاد یک سری جدید استفاده می کند.

BERT دارای قابلیت رمزگذاری قابل توجه تری برای ایجاد تعبیه متنی از یک دنباله است. این برای تجزیه و تحلیل احساسات یا پاسخ به سؤال مفید است. در همین حال، GPT-3 در بخش رمزگشا برای گرفتن متن و تولید متن جدید قوی تر است. این برای نوشتن محتوا، ایجاد خلاصه یا تولید کد مفید است.

Sage گفت GPT-3 به طور قابل توجهی موارد استفاده بیشتری را نسبت به BERT پشتیبانی می کند. GPT-3 برای نوشتن مقاله، بررسی اسناد حقوقی، تولید رزومه، کسب بینش تجاری از بازخورد مصرف کنندگان و ساخت برنامه ها مناسب است. BERT بیشتر برای دستیار صوتی، تجزیه و تحلیل نظرات مشتریان و برخی جستجوهای پیشرفته استفاده می شود.

 

 

منبع : techtarget.com

با خرید اشتراک می توانید تا چندین برابر مبلغ خرید اشتراک خود قالب های HTML ، سورس کدهای آماده و یا مقالات دانلود کنید
شما می توانید تنها فقط با مبلغ 3,000,000 میلیون تومان وب سایت سفارسی برای خود داشته باشید
محبوب ترین مقالات
تفاوت بین CSS و SCSS چیست؟ تفاوت بین CSS و SCSS چیست؟
category برنامه نویسی 07 اسفند 1402
تفاوت بین RDBMS و DBMS تفاوت بین RDBMS و DBMS
category برنامه نویسی 02 فروردین 1403
ChatGPT چیست؟ ChatGPT چیست؟
category هوش مصنوعی 12 اسفند 1402
کلمات کلیدی در SQL کلمات کلیدی در SQL
category برنامه نویسی 01 خرداد 1403
تفاوت بین CSS، SASS و SCSS چیست؟ تفاوت بین CSS، SASS و SCSS چیست؟
category برنامه نویسی 13 اسفند 1402
انواع Join در SQL انواع Join در SQL
category برنامه نویسی 02 فروردین 1403
کدهای وضعیت HTTP(400 و 500) کدهای وضعیت HTTP(400 و 500)
category برنامه نویسی 02 فروردین 1403
آخرین مقالات
چگونه زمان را مدیریت کنیم - نکاتی برای مدیریت موثر زمان چگونه زمان را مدیریت کنیم - نکاتی برای مدیریت موثر زمان مهم نیست چقدر برای بهره وری کار می کنیم، همیشه به نظر می رسد که کارهای زیادی برای انجام دادن وجود دارد و هیچ وقت در رو...
category عمومی 29 آبان 1403
شش ویژگی مشترک مدیران موفق شش ویژگی مشترک مدیران موفق ممکن است برای هدف بعدی شغلی خود که مدیر شدن است، کار کنید. شما صبورانه منتظر هستید، یا نه چندان صبورانه منتظر رئیستان ...
category عمومی 29 آبان 1403
حال و آینده انرژی های تجدیدپذیر حال و آینده انرژی های تجدیدپذیر به نظر می رسد انرژی های تجدیدپذیر بهترین جایگزین و راه حل پایدار برای رسیدگی به مسائل امنیت انرژی به روش های جدید و پا...
category محیط زیست 28 آبان 1403