کاوش در معماری GPT-3

پرشین تم

مقالات

میثم اسدی - 12 اسفند 1402 - 03:24 دانلود مقاله

با 175 میلیارد پارامتر، GPT-3 یکی از بزرگترین و شناخته شده ترین شبکه های عصبی موجود برای کاربردهای زبان طبیعی است. بیاموزید که چرا مردم اینقدر در مورد آن متحیر هستند.

معماری تبدیل کننده از پیش آموزش دیده مولد OpenAI یا GPT-3 نشان دهنده یک تغییر اساسی در تحقیقات و استفاده از هوش مصنوعی است. این یکی از بزرگترین شبکه های عصبی است که تا به امروز توسعه یافته است و پیشرفت های قابل توجهی را در ابزارها و برنامه های کاربردی زبان طبیعی ارائه می دهد.در قلب ChatGPT، مدل زبان بزرگی است که قادر به تولید متن واقعی است، و معماری آن نیز به لطف API های OpenAI و مایکروسافت در انواع برنامه های سازمانی ادغام شده است.

توسعه دهندگان می توانند از مدل زبان مبتنی بر یادگیری عمیق برای توسعه تقریباً هر چیزی که به زبان مربوط می شود استفاده کنند. این رویکرد نویدبخش استارتاپ هایی است که ابزارهای پیشرفته پردازش زبان طبیعی (NLP) را توسعه می دهند - نه تنها برای برنامه های کاربردی B2C، بلکه برای ادغام در موارد استفاده B2B سازمانی.

GPT-3 محبوب ترین هوش مصنوعی NLP است که به طور گسترده در دسترس است، تا حد زیادی به دلیل تطبیق پذیری آن: می توان آن را برای تولید کد، نوشتن غزل، پرس و جو از پایگاه های داده و پاسخگویی دقیق تر به درخواست های خدمات مشتری، در میان برنامه های کاربردی بی شمار دیگر تنظیم کرد.

Vishwastam Shukla، مدیر ارشد فناوری در HackerEarth که نرم‌افزاری را ارائه می‌کند که به شرکت‌ها در استخدام و استخدام کارکنان فنی کمک می‌کند، گفت: GPT-3 "مسلماً بزرگترین و بهترین مدل هوش مصنوعی NLP همه منظوره است."

پارامترهای GPT-3

یکی از قابل توجه ترین ویژگی های GPT-3 تعداد پارامترهای آن است.

شوکلا می‌گوید: "پارامترها در زبان ماشینی مهارت‌ها یا دانش مدل را نشان می‌دهند، بنابراین هرچه تعداد پارامترها بیشتر باشد، به طور کلی مدل مهارت بیشتری دارد."

GPT-3 دارای 175 میلیارد پارامتر است که تقریباً 2000 برابر بیشتر از تعداد پارامترهای مدل اصلی GPT-1 و بیش از 100 برابر بیشتر از 1.5 میلیارد پارامتر در GPT-2 است.

OpenAI، آزمایشگاه تحقیقاتی هوش مصنوعی که GPT-3 را ایجاد کرد، مدل را بر روی بیش از 45 ترابایت داده از اینترنت و کتاب آموزش داد تا از 175 میلیارد پارامتر آن پشتیبانی کند.

Dattaraj Rao، دانشمند ارشد داده که مشاور IT Persistent Systems است گفت: "صنعت هوش مصنوعی درباره GPT-3 به دلیل انعطاف‌پذیری محض که 175 میلیارد اتصال وزنی بین پارامترها برای توسعه برنامه NLP به ارمغان می‌آورد، هیجان‌زده است."

سری مگا وجینی، دانشمند داده در Saggezza، یک مشاور جهانی فناوری اطلاعات، توضیح داد که پارامترها مانند متغیرهای یک معادله هستند.

در یک معادله ریاضی پایه، مانند a + 5b = y، a و b پارامتر هستند و y نتیجه است. در الگوریتم یادگیری ماشینی، این پارامترها با وزن بین کلمات، مانند همبستگی بین معنی یا استفاده با هم، مطابقت دارند.

GPT-3، BERT، پارامترها، مدل های ترانسفورماتور

توسعه دهندگان همچنین در حال بررسی راه هایی برای بهبود عملکرد با پارامترهای کمتر هستند. به عنوان مثال، EleutherAI، مجموعه ای از محققان، مهندسان و توسعه دهندگان داوطلب هوش مصنوعی، GPT-Neo 1.3B و GPT-Neo 2.7B را منتشر کردند.

مدل‌های GPT-Neo که به دلیل تعداد پارامترهایی که دارند به این نام نام‌گذاری شده‌اند، دارای معماری بسیار شبیه به GPT-2 OpenAI هستند.

Rao گفت که عملکرد قابل مقایسه ای با مدل های GPT-2 و GPT-3 کوچکتر دارد. مهم‌تر از همه، توسعه‌دهندگان می‌توانند آن را دانلود کرده و آن را با متن خاص دامنه تنظیم کنند تا نتایج جدیدی ایجاد کنند. در نتیجه، رائو گفت که انتظار دارد تعداد زیادی برنامه جدید از دل GPT-Neo بیرون بیاید.

رمزگذاری مهارت های زبانی، از جمله طنز

Sreekar Krishna، مدیر/شریک در تمرین Digital LightHouse در KPMG ایالات متحده، GPT-3 را به عنوان "گام بعدی در تکامل یک سیستم یادگیری طبیعی" توصیف کرد و نشان داد که سیستم ها می توانند جنبه های دانش، دامنه و ساختارهای زبان را با استفاده از میلیون ها مثال بیاموزند. .

توسعه الگوریتمی سنتی، مشکلات را به ریزمشکلات اصلی اصلی تقسیم کرد، که می‌تواند به صورت جداگانه به سمت راه‌حل نهایی حرکت کند. انسان‌ها مشکلات را به همان روش حل می‌کنند، اما چندین دهه آموزش در عقل سلیم، دانش عمومی و تجربه تجاری به ما در این زمینه کمک می‌کنند.

در فرآیند آموزش یادگیری ماشین سنتی، الگوریتم‌ها نمونه‌ای از داده‌های آموزشی را بررسی می کنند و انتظار می‌رود قابلیت‌های مختلفی را برای مطابقت با تصمیم‌گیری انسانی بیاموزند.

در طول دهه‌ها، دانشمندان این ایده را آزمایش کرده‌اند که اگر ما حجم عظیمی از داده‌ها را به الگوریتم‌ها تغذیه کنیم، الگوریتم‌ها داده‌های خاص حوزه و دانش عمومی، ساختارهای دستور زبان و هنجارهای اجتماعی انسانی را جذب می‌کنند. با این حال، به دلیل قدرت محاسباتی محدود و چالش‌های آزمایش سیستماتیک سیستم‌های بسیار پیچیده، آزمایش این نظریه دشوار بود.

کریشنا گفت، با این حال، موفقیت معماری GPT-3 نشان داده است که محققان در مسیر درستی قرار دارند، با داده های کافی و معمار مناسب امکان رمزگذاری دانش عمومی، گرامر و حتی طنز در شبکه وجود دارد.

آموزش مدل های زبان GPT-3

جذب چنین حجم عظیمی از داده ها از منابع مختلف، نوعی ابزار همه منظوره را در GPT-3 ایجاد کرد. Saggezza's Vujjini گفت: "نیازی نداریم که آن را برای موارد استفاده مختلف تنظیم کنیم."

به عنوان مثال، دقت یک مدل سنتی برای ترجمه انگلیسی به آلمانی بر اساس میزان آموزش خوب و نحوه دریافت داده ها متفاوت است. اما با معماری GPT-3، خروجی بدون توجه به نحوه جذب داده ها دقیق به نظر می رسد. مهمتر از آن، یک توسعه دهنده مجبور نیست آن را با نمونه های ترجمه به طور خاص آموزش دهد.

این امر گسترش GPT-3 را برای طیف گسترده ای از موارد و مدل های زبانی آسان می کند.

تری سیج می گوید: "توسعه دهندگان می توانند با آموزش مدل GPT-3 با چند مثال بهره وری بیشتری داشته باشند و برنامه ای را به هر زبانی مانند پایتون، جاوا اسکریپت یا Rust توسعه دهند."

سیج همچنین استفاده از آن را برای کمک به شرکت‌ها در تجزیه و تحلیل بازخورد مشتریان برای توسعه بینش آزمایش کرده است.

با این حال، رائو استدلال می‌کند که برای تنظیم مدل‌های زبان GPT-3 برای کسب بیشترین ارزش در برنامه‌های کاربردی دنیای واقعی، مانند مراقبت‌های بهداشتی، بانکداری و برنامه‌نویسی، آموزش‌های خاص دامنه مورد نیاز است.

برای مثال، آموزش یک مدل از نوع GPT بر روی مجموعه داده‌ای از تشخیص‌های بیمار توسط پزشکان بر اساس علائم، می‌تواند توصیه‌های تشخیصی را آسان‌تر کند. در همین حال، مایکروسافت، GPT-3 را روی حجم زیادی از کد منبع برای تکمیل کننده خودکار کد به نام Copilot که می تواند به طور خودکار خطوط کد منبع را تولید کند، به خوبی تنظیم کرد.

سایر مدل های زبان بزرگ یا LLM

سایر LLM ها شامل Wu Dao 2.0 آکادمی هوش مصنوعی پکن با 1.75 تریلیون پارامتر است. Switch Transformer گوگل با 1.6 تریلیون پارامتر. مایکروسافت و انویدیا MT-NLG با 540 میلیارد پارامتر. Hugging Face's Bloom، با 176 میلیارد پارامتر. و LaMDA گوگل با 137 میلیارد پارامتر.

سوئیچ گوگل برای آزمایش تکنیک هایی برای پشتیبانی کارآمد از پارامترهای بیشتر طراحی شده است.

وو دائو برای پشتیبانی از پردازش زبان و تشخیص تصویر، با استفاده از 4.9 ترابایت تصویر و متن آموزش دیده است.

هر دو مدل Wu Dao و Google Switch از تکنیک یادگیری ماشینی استفاده کردند که به عنوان ترکیبی از رویکرد متخصصان شناخته می شود، که در آموزش مدل هایی با تعداد زیادی پارامتر کارآمدتر است. با این حال، این مدل ها اغلب عملکردی معادل LLM هایی را نشان می دهند که صدها برابر کوچکتر هستند.

GPT-3 در مقابل BERT

GPT-3 اغلب با مدل زبان BERT گوگل مقایسه می شود، زیرا هر دو شبکه های عصبی بزرگی برای NLP هستند که بر اساس معماری ترانسفورماتور ساخته شده اند.

اما تفاوت های اساسی از نظر اندازه، روش های توسعه و مدل های تحویل وجود دارد. همچنین، به دلیل مشارکت استراتژیک بین مایکروسافت و OpenAI، GPT-3 تنها به عنوان یک سرویس خصوصی ارائه می شود، در حالی که BERT به عنوان نرم افزار منبع باز در دسترس است.

کریشنا گفت که GPT-3 در حوزه های کاربردی جدید بهتر از BERT عمل می کند. این بدان معناست که شرکت‌ها می‌توانند با GPT-3 سریع‌تر مشکلات ساده تجاری را نسبت به BERT حل کنند.

اما، GPT-3 به دلیل زیرساخت‌های خالصی که کسب‌وکارها برای استقرار و استفاده از آن نیاز دارند، می‌تواند ناخوشایند شود، طبق گفته HackerEarth's Shukla. شرکت ها می توانند به راحتی بزرگترین مدل BERT را با 345 میلیون پارامتر روی یک ایستگاه کاری GPU بارگذاری کنند.

با 175 میلیارد پارامتر اندازه، بزرگترین مدل های GPT-3 تقریباً 470 برابر بزرگ ترین مدل BERT هستند. اما اندازه بزرگ GPT-3 هزینه محاسباتی بسیار بالاتری دارد. به همین دلیل است که GPT-3 فقط به عنوان یک سرویس ارائه می شود، در حالی که BERT را می توان در برنامه های جدید جاسازی کرد.

BERT و GPT-3 از معماری ترانسفورماتور برای رمزگذاری و رمزگشایی دنباله ای از داده ها استفاده می کنند. بخش رمزگذار یک جاسازی متنی برای یک سری از داده ها ایجاد می کند، در حالی که رمزگشا از این جاسازی برای ایجاد یک سری جدید استفاده می کند.

BERT دارای قابلیت رمزگذاری قابل توجه تری برای ایجاد تعبیه متنی از یک دنباله است. این برای تجزیه و تحلیل احساسات یا پاسخ به سؤال مفید است. در همین حال، GPT-3 در بخش رمزگشا برای گرفتن متن و تولید متن جدید قوی تر است. این برای نوشتن محتوا، ایجاد خلاصه یا تولید کد مفید است.

Sage گفت GPT-3 به طور قابل توجهی موارد استفاده بیشتری را نسبت به BERT پشتیبانی می کند. GPT-3 برای نوشتن مقاله، بررسی اسناد حقوقی، تولید رزومه، کسب بینش تجاری از بازخورد مصرف کنندگان و ساخت برنامه ها مناسب است. BERT بیشتر برای دستیار صوتی، تجزیه و تحلیل نظرات مشتریان و برخی جستجوهای پیشرفته استفاده می شود.

منبع : techtarget.com

با خرید اشتراک می توانید تا چندین برابر مبلغ خرید اشتراک خود قالب های HTML ، سورس کدهای آماده و یا مقالات دانلود کنید

خرید اشتراک

شما می توانید تنها فقط با مبلغ 3,000,000 میلیون تومان وب سایت سفارسی برای خود داشته باشید

شروع کنید

محبوب ترین مقالات

تفاوت بین CSS و SCSS چیست؟

برنامه نویسی 07 اسفند 1402

بهترین زبان های برنامه نویسی بک اند در سال 2024

برنامه نویسی 17 اسفند 1402

تست نرم افزار چیست و چگونه کار می کند؟

برنامه نویسی 22 اسفند 1402

تفاوت بین RDBMS و DBMS

برنامه نویسی 02 فروردین 1403

کلمات کلیدی در SQL

برنامه نویسی 01 خرداد 1403

فناوری های نوظهور در علوم کامپیوتر

فناوری 23 مهر 1403

تفاوت بین CSS، SASS و SCSS چیست؟

برنامه نویسی 13 اسفند 1402

انواع Join در SQL

برنامه نویسی 02 فروردین 1403

برنامه نویسی سی شارپ برای مبتدیان- مقدمه، ویژگی ها و برنامه های کاربردی

برنامه نویسی 18 اسفند 1402

ChatGPT چیست؟

هوش مصنوعی 12 اسفند 1402

تغییرات اقلیمی - تحقیقات جدید ناسا

محیط زیست 10 اسفند 1402

چگونه مهندس نرم افزار شویم؟

برنامه نویسی 19 اسفند 1402

آخرین مقالات

🎨 نظریه یا تئوری طراحی چیست؟ نظریه طراحی چارچوب فکری است که نحوه درک، خلق و ارزیابی طراحی را هدایت می‌کند. این نظریه، فلسفه، زیبایی‌شناسی، عملکرد و...

کامپیوتر 05 مرداد 1404

سفر من به داستان‌سرایی بصری - طراحی رابط کاربری و طراحی لوگو چگونه سفر خود را به سمت طراحی لوگو، گرافیک و رابط کاربری/تجربه کاربری آغاز کنید. برای موفقیت در طراحی لوگو، طراحی گراف...

کامپیوتر 02 مرداد 1404

🧠 درک هوش مصنوعی- از مبانی تا مرزها هوش مصنوعی تقریباً هر صنعتی را تغییر شکل می‌دهد، در این مقاله با یک مرور کلی آکادمیک سطح بالا شروع کنیم و آن را به بخش...

هوش مصنوعی 27 تیر 1404