با 175 میلیارد پارامتر، GPT-3 یکی از بزرگترین و شناخته شده ترین شبکه های عصبی موجود برای کاربردهای زبان طبیعی است. بیاموزید که چرا مردم اینقدر در مورد آن متحیر هستند.
معماری تبدیل کننده از پیش آموزش دیده مولد OpenAI یا GPT-3 نشان دهنده یک تغییر اساسی در تحقیقات و استفاده از هوش مصنوعی است. این یکی از بزرگترین شبکه های عصبی است که تا به امروز توسعه یافته است و پیشرفت های قابل توجهی را در ابزارها و برنامه های کاربردی زبان طبیعی ارائه می دهد.در قلب ChatGPT، مدل زبان بزرگی است که قادر به تولید متن واقعی است، و معماری آن نیز به لطف API های OpenAI و مایکروسافت در انواع برنامه های سازمانی ادغام شده است.
توسعه دهندگان می توانند از مدل زبان مبتنی بر یادگیری عمیق برای توسعه تقریباً هر چیزی که به زبان مربوط می شود استفاده کنند. این رویکرد نویدبخش استارتاپ هایی است که ابزارهای پیشرفته پردازش زبان طبیعی (NLP) را توسعه می دهند - نه تنها برای برنامه های کاربردی B2C، بلکه برای ادغام در موارد استفاده B2B سازمانی.
GPT-3 محبوب ترین هوش مصنوعی NLP است که به طور گسترده در دسترس است، تا حد زیادی به دلیل تطبیق پذیری آن: می توان آن را برای تولید کد، نوشتن غزل، پرس و جو از پایگاه های داده و پاسخگویی دقیق تر به درخواست های خدمات مشتری، در میان برنامه های کاربردی بی شمار دیگر تنظیم کرد.
Vishwastam Shukla، مدیر ارشد فناوری در HackerEarth که نرمافزاری را ارائه میکند که به شرکتها در استخدام و استخدام کارکنان فنی کمک میکند، گفت: GPT-3 "مسلماً بزرگترین و بهترین مدل هوش مصنوعی NLP همه منظوره است."
پارامترهای GPT-3
یکی از قابل توجه ترین ویژگی های GPT-3 تعداد پارامترهای آن است.
شوکلا میگوید: "پارامترها در زبان ماشینی مهارتها یا دانش مدل را نشان میدهند، بنابراین هرچه تعداد پارامترها بیشتر باشد، به طور کلی مدل مهارت بیشتری دارد."
GPT-3 دارای 175 میلیارد پارامتر است که تقریباً 2000 برابر بیشتر از تعداد پارامترهای مدل اصلی GPT-1 و بیش از 100 برابر بیشتر از 1.5 میلیارد پارامتر در GPT-2 است.
OpenAI، آزمایشگاه تحقیقاتی هوش مصنوعی که GPT-3 را ایجاد کرد، مدل را بر روی بیش از 45 ترابایت داده از اینترنت و کتاب آموزش داد تا از 175 میلیارد پارامتر آن پشتیبانی کند.
Dattaraj Rao، دانشمند ارشد داده که مشاور IT Persistent Systems است گفت: "صنعت هوش مصنوعی درباره GPT-3 به دلیل انعطافپذیری محض که 175 میلیارد اتصال وزنی بین پارامترها برای توسعه برنامه NLP به ارمغان میآورد، هیجانزده است."
سری مگا وجینی، دانشمند داده در Saggezza، یک مشاور جهانی فناوری اطلاعات، توضیح داد که پارامترها مانند متغیرهای یک معادله هستند.
در یک معادله ریاضی پایه، مانند a + 5b = y، a و b پارامتر هستند و y نتیجه است. در الگوریتم یادگیری ماشینی، این پارامترها با وزن بین کلمات، مانند همبستگی بین معنی یا استفاده با هم، مطابقت دارند.
GPT-3، BERT، پارامترها، مدل های ترانسفورماتور
توسعه دهندگان همچنین در حال بررسی راه هایی برای بهبود عملکرد با پارامترهای کمتر هستند. به عنوان مثال، EleutherAI، مجموعه ای از محققان، مهندسان و توسعه دهندگان داوطلب هوش مصنوعی، GPT-Neo 1.3B و GPT-Neo 2.7B را منتشر کردند.
مدلهای GPT-Neo که به دلیل تعداد پارامترهایی که دارند به این نام نامگذاری شدهاند، دارای معماری بسیار شبیه به GPT-2 OpenAI هستند.
Rao گفت که عملکرد قابل مقایسه ای با مدل های GPT-2 و GPT-3 کوچکتر دارد. مهمتر از همه، توسعهدهندگان میتوانند آن را دانلود کرده و آن را با متن خاص دامنه تنظیم کنند تا نتایج جدیدی ایجاد کنند. در نتیجه، رائو گفت که انتظار دارد تعداد زیادی برنامه جدید از دل GPT-Neo بیرون بیاید.
رمزگذاری مهارت های زبانی، از جمله طنز
Sreekar Krishna، مدیر/شریک در تمرین Digital LightHouse در KPMG ایالات متحده، GPT-3 را به عنوان "گام بعدی در تکامل یک سیستم یادگیری طبیعی" توصیف کرد و نشان داد که سیستم ها می توانند جنبه های دانش، دامنه و ساختارهای زبان را با استفاده از میلیون ها مثال بیاموزند. .
توسعه الگوریتمی سنتی، مشکلات را به ریزمشکلات اصلی اصلی تقسیم کرد، که میتواند به صورت جداگانه به سمت راهحل نهایی حرکت کند. انسانها مشکلات را به همان روش حل میکنند، اما چندین دهه آموزش در عقل سلیم، دانش عمومی و تجربه تجاری به ما در این زمینه کمک میکنند.
در فرآیند آموزش یادگیری ماشین سنتی، الگوریتمها نمونهای از دادههای آموزشی را بررسی می کنند و انتظار میرود قابلیتهای مختلفی را برای مطابقت با تصمیمگیری انسانی بیاموزند.
در طول دههها، دانشمندان این ایده را آزمایش کردهاند که اگر ما حجم عظیمی از دادهها را به الگوریتمها تغذیه کنیم، الگوریتمها دادههای خاص حوزه و دانش عمومی، ساختارهای دستور زبان و هنجارهای اجتماعی انسانی را جذب میکنند. با این حال، به دلیل قدرت محاسباتی محدود و چالشهای آزمایش سیستماتیک سیستمهای بسیار پیچیده، آزمایش این نظریه دشوار بود.
کریشنا گفت، با این حال، موفقیت معماری GPT-3 نشان داده است که محققان در مسیر درستی قرار دارند، با داده های کافی و معمار مناسب امکان رمزگذاری دانش عمومی، گرامر و حتی طنز در شبکه وجود دارد.
آموزش مدل های زبان GPT-3
جذب چنین حجم عظیمی از داده ها از منابع مختلف، نوعی ابزار همه منظوره را در GPT-3 ایجاد کرد. Saggezza's Vujjini گفت: "نیازی نداریم که آن را برای موارد استفاده مختلف تنظیم کنیم."
به عنوان مثال، دقت یک مدل سنتی برای ترجمه انگلیسی به آلمانی بر اساس میزان آموزش خوب و نحوه دریافت داده ها متفاوت است. اما با معماری GPT-3، خروجی بدون توجه به نحوه جذب داده ها دقیق به نظر می رسد. مهمتر از آن، یک توسعه دهنده مجبور نیست آن را با نمونه های ترجمه به طور خاص آموزش دهد.
این امر گسترش GPT-3 را برای طیف گسترده ای از موارد و مدل های زبانی آسان می کند.
تری سیج می گوید: "توسعه دهندگان می توانند با آموزش مدل GPT-3 با چند مثال بهره وری بیشتری داشته باشند و برنامه ای را به هر زبانی مانند پایتون، جاوا اسکریپت یا Rust توسعه دهند."
سیج همچنین استفاده از آن را برای کمک به شرکتها در تجزیه و تحلیل بازخورد مشتریان برای توسعه بینش آزمایش کرده است.
با این حال، رائو استدلال میکند که برای تنظیم مدلهای زبان GPT-3 برای کسب بیشترین ارزش در برنامههای کاربردی دنیای واقعی، مانند مراقبتهای بهداشتی، بانکداری و برنامهنویسی، آموزشهای خاص دامنه مورد نیاز است.
برای مثال، آموزش یک مدل از نوع GPT بر روی مجموعه دادهای از تشخیصهای بیمار توسط پزشکان بر اساس علائم، میتواند توصیههای تشخیصی را آسانتر کند. در همین حال، مایکروسافت، GPT-3 را روی حجم زیادی از کد منبع برای تکمیل کننده خودکار کد به نام Copilot که می تواند به طور خودکار خطوط کد منبع را تولید کند، به خوبی تنظیم کرد.
سایر مدل های زبان بزرگ یا LLM
سایر LLM ها شامل Wu Dao 2.0 آکادمی هوش مصنوعی پکن با 1.75 تریلیون پارامتر است. Switch Transformer گوگل با 1.6 تریلیون پارامتر. مایکروسافت و انویدیا MT-NLG با 540 میلیارد پارامتر. Hugging Face's Bloom، با 176 میلیارد پارامتر. و LaMDA گوگل با 137 میلیارد پارامتر.
سوئیچ گوگل برای آزمایش تکنیک هایی برای پشتیبانی کارآمد از پارامترهای بیشتر طراحی شده است.
وو دائو برای پشتیبانی از پردازش زبان و تشخیص تصویر، با استفاده از 4.9 ترابایت تصویر و متن آموزش دیده است.
هر دو مدل Wu Dao و Google Switch از تکنیک یادگیری ماشینی استفاده کردند که به عنوان ترکیبی از رویکرد متخصصان شناخته می شود، که در آموزش مدل هایی با تعداد زیادی پارامتر کارآمدتر است. با این حال، این مدل ها اغلب عملکردی معادل LLM هایی را نشان می دهند که صدها برابر کوچکتر هستند.
GPT-3 در مقابل BERT
GPT-3 اغلب با مدل زبان BERT گوگل مقایسه می شود، زیرا هر دو شبکه های عصبی بزرگی برای NLP هستند که بر اساس معماری ترانسفورماتور ساخته شده اند.
اما تفاوت های اساسی از نظر اندازه، روش های توسعه و مدل های تحویل وجود دارد. همچنین، به دلیل مشارکت استراتژیک بین مایکروسافت و OpenAI، GPT-3 تنها به عنوان یک سرویس خصوصی ارائه می شود، در حالی که BERT به عنوان نرم افزار منبع باز در دسترس است.
کریشنا گفت که GPT-3 در حوزه های کاربردی جدید بهتر از BERT عمل می کند. این بدان معناست که شرکتها میتوانند با GPT-3 سریعتر مشکلات ساده تجاری را نسبت به BERT حل کنند.
اما، GPT-3 به دلیل زیرساختهای خالصی که کسبوکارها برای استقرار و استفاده از آن نیاز دارند، میتواند ناخوشایند شود، طبق گفته HackerEarth's Shukla. شرکت ها می توانند به راحتی بزرگترین مدل BERT را با 345 میلیون پارامتر روی یک ایستگاه کاری GPU بارگذاری کنند.
با 175 میلیارد پارامتر اندازه، بزرگترین مدل های GPT-3 تقریباً 470 برابر بزرگ ترین مدل BERT هستند. اما اندازه بزرگ GPT-3 هزینه محاسباتی بسیار بالاتری دارد. به همین دلیل است که GPT-3 فقط به عنوان یک سرویس ارائه می شود، در حالی که BERT را می توان در برنامه های جدید جاسازی کرد.
BERT و GPT-3 از معماری ترانسفورماتور برای رمزگذاری و رمزگشایی دنباله ای از داده ها استفاده می کنند. بخش رمزگذار یک جاسازی متنی برای یک سری از داده ها ایجاد می کند، در حالی که رمزگشا از این جاسازی برای ایجاد یک سری جدید استفاده می کند.
BERT دارای قابلیت رمزگذاری قابل توجه تری برای ایجاد تعبیه متنی از یک دنباله است. این برای تجزیه و تحلیل احساسات یا پاسخ به سؤال مفید است. در همین حال، GPT-3 در بخش رمزگشا برای گرفتن متن و تولید متن جدید قوی تر است. این برای نوشتن محتوا، ایجاد خلاصه یا تولید کد مفید است.
Sage گفت GPT-3 به طور قابل توجهی موارد استفاده بیشتری را نسبت به BERT پشتیبانی می کند. GPT-3 برای نوشتن مقاله، بررسی اسناد حقوقی، تولید رزومه، کسب بینش تجاری از بازخورد مصرف کنندگان و ساخت برنامه ها مناسب است. BERT بیشتر برای دستیار صوتی، تجزیه و تحلیل نظرات مشتریان و برخی جستجوهای پیشرفته استفاده می شود.
منبع : techtarget.com