در حوزه AI واژگان و اصطلاحات زیادی وجود دارد که برخی از آنها به میزان زیادی به یکدیگر نزدیک هستند؛ به همین دلیل ممکن است نتوانید مفهوم آنها را درست تشخیص دهید. در این مطلب، متداولترین واژگانها و اصطلاحاتی را که در مطالب آشنایی با هوش مصنوعی استفاده میشوند، بهترتیب حروف الفبای انگلیسی، ساده و کوتاه تعریف کردیم؛ با خواندن این مقاله مفاهیم پایه و ابتدایی دنیای هوش مصنوعی را راحتتر متوجه میشوید.
A
AGI (هوش مصنوعی عمومی)
شرکتهای بهشدت به ایدهی هوش مصنوعی عمومی (AGI) علاقهمند هستند اما هیچکدام نمیتوانند بر سر تعریف آن به توافق برسند. این اصطلاح معمولاً به سیستمهای هوش مصنوعی فرضی اشاره میکند که میتوانند طیف وسیعی از وظایف پیچیده را با کمی دخالت انسانی انجام بدهند. OpenAI، شرکت توسعهدهنده چتبات ChatGPT، یک قدم فراتر رفته و AGI را «سیستمهای بسیار خودمختار که در اکثر کارهای اقتصادی باارزش از انسانها بهتر عمل میکنند»، تعریف میکند اما مشخص نیست چه چیزی «سیستم بسیار خودمختار» و مهمتر از آن «کار اقتصادی باارزش» در نظر گرفته شده است. برخی صاحبنظران در صنعت هوش مصنوعی فکر میکنند در دهه آینده به AGI خواهیم رسید اما برخی دیگر معتقدند سیستمهای AGI در آینده بسیار دورتر ایجاد خواهند شد و شاید هم اصلاً ایجاد نشوند.
Agent (عامل)
اگر هوش مصنوعی مولد در نخستین سال پیدایش خود تا مدتی بعد با چتباتها تعریف میشد، شاید در مرحله بعدی با مفهوم «عامل» تعریف شود؛ شاید چنین تعریفی درست نباشد اما حداقل میتوانیم بگوییم شرکتهای فناوری روی چنین اتفاقی شرط بستهاند.
شاید چتباتهایی مانند ChatGPT بتوانند دستور پخت غذا یا فهرستی از رستورانها را بهسرعت ارائه دهند اما امیدواریم عاملهای هوش مصنوعی بتوانند از طرف شما مواد غذایی بخرند یا رستوران رزرو کنند؛ ممکن است هوش مصنوعی اینچنینی برای استفادههای شخصی و حرفهای جذاب باشد اما زمانی که کاملاً مستقل عمل میکنند، احتمال خطا نیز افزایش مییابد.
Algorithm (الگوریتم)
الگوریتم فرایندی مرحلهبهمرحله است که برای حل مشکل استفاده میشود. در این فرایند داده را وارد میکنید، با استفاده از منطق آن الگوریتم خروجی میگیرید. قرنهاست انسانها از الگوریتمها برای حل مشکلات استفاده میکنند. برخی تحلیلگران مالی تمام عمر صرف ساختن الگوریتمهایی میکنند که میتوانند رویدادهای آینده پیشبینی کنند و برای کسب درآمد به آنها کمک میکند. جهان ما براساس این «الگوریتمهای متداول» عمل میکند اما اخیراً حرکتی بهسمت «یادگیری ماشین» شکل گرفته که برمبنای این ایدهها ایجاد شده است.
Alignment (همترازی)
برخی شرکتهای هوش مصنوعی برای جلوگیری از کنترل خارج شدن AI، روی رفع مشکل همترازی متمرکز شدهاند. برخی دیگر از این شرکتها هم میخواهند مطمئن شوند AI بهگونهای ساخته شود که مطابق ارزشهای اصلی انسانی عمل کند. مشکل این است که نه بر سر ماهیت این ارزشها توافق وجود دارد و نه بر سر اختیارات سیستمهای هوش مصنوعی.
Artificial intelligence (هوش مصنوعی)
هوش مصنوعی اصطلاح گستردهای است که بهقدری استفاده شده که دیگر بخشی از معنای خود را از دست داده است. باوجوداین، هوش مصنوعی بهصورت تخصصی به فناوری خاصی اشاره دارد که هوش انسانی را مدلسازی میکند و میتواند مجموعهای از وظایفی را که ممکن است نیاز به دخالت انسانها داشته باشد، انجام دهد. دانشمند کامپیوتر «جان مککارتی» (John McCarthy)، این اصطلاح را در دهه ۱۹۵۰ ابداع کرد اما فناوری AI تا این قرن پیشرفت جدی نکرده بود تا اینکه غولهای فناوری مانند گوگل، شرکت مادر فیسبوک، متا و مایکروسافت قدرت محاسباتی وسیع را با مجموعههای عمیق دادههای کاربران ترکیب کردند. بااینکه AI میتواند قابلیتهای انسانی را در پردازش داده یا مکالمه نشان دهد، ماشینهای مجهز به آن هنوز «درک» نمیکنند چه کاری میکنند یا چه چیزی میگویند؛ آنها هنوز اساساً به الگوریتمها متکی هستند.
B
Benchmarks (پنجمارکها)
باتوجهبه بازار روبهرشد خدمات AI، شرکتهای فناوری معمولاً به مجموعهای از معیارها (benchmarks) اشاره میکنند تا نشان دهند نرمافزار آنها از رقبا بهتر است اما هنوز هیچ آزمون مستقل و استانداردی وجود ندارد که شرکتهای هوش مصنوعی برای مقایسه عملکرد نرمافزارهایشان از آن استفاده کنند. برخی صاحبنظران حوزه AI میکوشند این مشکل را حل کنند. درحالحاضر، شرکتها معمولاً خودشان معیارهای خود را طراحی میکنند تا نشان دهند سرویس آنها چقدر خوب به سؤالات درباره جبر، درک مطلب و کدنویسی پاسخ میدهد.
چتباتها (Chatbots)
اگر پیش از ظهور هوش مصنوعی مولد چتباتها وجود داشتند، این رباتهای هوش مصنوعی پیش از پیدایش AI برای ارائه خدمات مشتری آنلاین استفاده میشدند اما در عصر جدید چتباتهای AI میتوانند در موضوعات مختلف گفتگوی پویایی با انسان داشته باشند؛ از موضوعات مرتبط با حقایق تاریخی گرفته تا دستورهای غذایی. احتمالاً در آینده چتباتها با سرمایهگذاری شرکتهایی مانند OpenAI و گوگل در مدلهای پیشرفتهتر، مفیدتر و مکالمهمحورتر نیز خواهند شد و شاید طراحان آنها به هدف دیرینه حوزه AI، ساخت دستیار شخصی مجازی همهکاره، نزدیک شوند.
C
Claude ( کلاد)
کلاد از معدود سرویسهایی است که واقعاً میتواند با عملکرد پیشرفتهترین فناوری OpenAI رقابت کند. این چتبات را آنتروپیک (Anthropic)، استارتاپی که گروهی از کارمندان سابق OpenAI تأسیس کردهاند، طراحی و ایجاد کردهاند که هدف اصلیاش اهمیتدادن به توسعه ایمن هوش مصنوعی است. کلاد مثل ChatGPT میتواند بهسرعت به طیف گستردهای از سؤالات کاربران پاسخ دهد اما آنتروپیک برخلاف OpenAI تاکنون از ایجاد برخی قابلیتهای AI مانند تولید تصویر اجتناب کرده است. طبق گفته مسئولان شرکت، هدف آنتروپیک ساخت محصولاتی است که عمدتاً برای استفاده تجاری طراحی میشوند.
Computer vision (بینایی کامپیوتری)
بینایی کامپیوتری شاخهای از هوش مصنوعی است که به کامپیوترها اجازه میدهد اطلاعات بصری مانند تصاویر و ویدیوها را اسکن کرده و اشیا و افراد را شناسایی و طبقهبندی کنند. این سیستمها میتوانند به آنچه میبینند واکنش نشان دهند و اقدام خاصی انجام دهند یا توصیه کنند. این فناوری برای ردیابی حیاتوحش بهمنظور حفاظت و هدایت وسایل نقلیه خودران استفاده میشود اما درمورد استفاده از آن در عملیات نظامی و پلیسی نگرانیهایی وجود دارد؛ زیرا ثابت شده چنین سیستمهایی رفتارهای نشاندهنده تعصب نژادی دارند و برای شناسایی مطمئن دقت کافی ندارند.
E
Emergent behaviors (رفتارهای درحال تکوین)
وقتی مدلهای زبانی بزرگ به سطح خاصی میرسند، گاهی شروع به نمایش تواناییهایی میکنند که به نظر میرسد منبع پیدایش آنها مشخص نیست. نه انتظار چنین تواناییهای را وجود داریم نه مربیان آنها مشخص کردهاند از میان چنین تواناییهایی میتوان به تولید کدهای اجرایی کامپیوتری، تعریف داستانهای عجیب و شناسایی فیلمها از طریق رشته ایموجی بهجای سرنخ اشاره کرد.
F
Fine Tuning (فاین تیونینگ)
فاین تیونینگ را اصطلاحی تخصصی برای سفارشیسازی در نظر بگیرید. کاربر با کمک فاین تیونینگ مدل هوش مصنوعی موجودی را دریافت میکند و آن را با اطلاعات اضافی درباره کاری خاص یا حوزهای مشخص آموزش میدهد. این کار میتواند به مدل کمک کند مطابق خواسته کاربر عمل کند؛ مثلاً شرکتی که تجهیزات ورزشی میفروشد، ممکن است مدل AI را برای پاسخگویی بهتر به سؤالات مرتبط با نگهداری صحیح از دوچرخه ثابت فاین تیون کند.
Frontier models (مدلهای پیشرفته)
مدلهای پیشرفته به جدیدترین و پیشرفتهترین مدلهای AI موجود در بازار اشاره دارند. درحالحاضر، شرکتهای پشت این مدلها OpenAI، آنتروپیک، گوگل و متا هستند. تمام این شرکتها عضو گروهی به نام Frontier Model Forum هستند که با همکاری دانشگاهیان و سیاستگذاران سیستمهای پیشرفته هوش مصنوعی را مسئولانه توسعه میدهند. انتظار میرود هزینه توسعه این مدلهای پیشرفته بهطور قابلتوجهی افزایش یابد و رقابت برای استارتاپها در مقابل شرکتهای بزرگ فناوری سختتر شود.
G
Gemini (جمینای)
گوگل که پیشتاز رقابت در حوزه هوش مصنوعی بود، اکنون میکوشد همگام OpenAI بشود. جمینای چتبات پرچمدار گوگل است و خانواده مدلهای هوش مصنوعی آن نیز به همین نام شناخته میشوند. جمینای محور اصلی تلاشهای گوگل در زمینه هوش مصنوعی است. پیشرفتهترین نسخه جمینای، اولترا (Ultra)، برای انجام وظایف پیچیده برنامهنویسی و استدلال ریاضی طراحی شده است؛ درست شبیه پیشرفتهترین نسخه فناوری OpenAI. گوگل قابلیتهای چندوجهی را در جمینی گنجانده؛ بهطوریکه مثلاً این مدل AI میتواند تصویر یک غذا را آنالیز کند و دستور پخت آن را بدهد.
Generative AI (هوش مصنوعی مولد)
اصطلاح هوش مصنوعی مولد به تولید محتوا (تصاویر، مقالات، آهنگها و آوازهای دریای) به سؤالات یا دستورات ساده اشاره دارد. این حوزه شامل مواردی مانند DALL-E از OpenAI میشود که میتواند در چند ثانیه تصاویر پیچیده و دقیقی بسازد یا Suno که موسیقی را براساس توضیحات متنی تولید میکند. هوش مصنوعی مولد پس از آموزش با حجم زیادی از دادههای موجود، اثری جدید خلق میکند؛ چنین اتفاقی در برخی موارد منجر به طرح برخی دعاوی حقوقی از سوی صاحبان حقوق نشر شده است که ادعا میکنند آثار آنها بدون اجازه استفاده شده است.
GPT (جیپیتی)
ترنسفورماتور ازپیشآموزشدیده مولد نوعی مدل زبانی بزرگ است. «ترنسفورماتور» به سیستمی گفته میشود که میتواند رشتههای ورودی را گرفته و آنها را بهگونهای که زمینه محتوا و ترتیب کلمات قابلدرک باشد، همزمان پردازش کند، نه جداگانه؛ این امر در ترجمه زبان اهمیت زیادی دارد؛ مثلاً اگر بهترتیب، نحو و معنا درست توجه نشود، ممکن است جمله «سگ او، پاپی، در آشپزخانه غذا خورد.» به معادل فرانسوی «پاپی در آشپزخانه سگ او را خورد» ترجمه شود.
Grok (گروک)
در نگاه اول میتوانیم بهسادگی گروک را تلاشی غیرجدی تلقی کنیم. این چتبات که استارتاپ هوش مصنوعی ایلان ماسک (xAI) آن را ساخته و برای مشترکان در شبکه اجتماعی ایکس در دسترس است، بهخاطر پاسخهای بیپروا و تولید تصاویر جنجالی با کمترین محدودیتهای مشخص، تیتر خبرها شده است اما xAI برای این چتبات میلیاردها دلار سرمایه جذب و تیمی بااستعداد تشکیل داده و به حجم وسیعی از دادههای کاربران ایکس دسترسی دارد که میتواند از آنها برای ساخت محصولات هوش مصنوعی خود استفاده کند؛ به همین دلیل گروک در مدت بسیار کوتاهی در جایگاه رقیبی واقعی برای چتباتهای بزرگتر خودش را نشان داده است.
H
Hallucination (توهم)
زمانی که سرویس هوش مصنوعی مانند (ChatGPT) چیزی بهظاهر قانعکننده اما کاملاً ساختگی تولید میکند، با پدیده (توهم) مواجهیم. این پدیده ناشی از نبود پاسخ صحیح برای آن سؤال است؛ سیستم میداند پاسخ خوب باید چگونه باشد و آن را بهجای حقیقت ارائه میکند. کارشناسان نگران ناتوانی هوش مصنوعی در گفتن «نمیدانم» هنگام پاسخ هستند؛ چنین مشکلی میتواند منجر به اشتباهات پرهزینه، سوءتفاهمهای خطرناک و افزایش ارائه اطلاعات نادرست شود. برخی شرکتهای AI مدعی هستند توانستهاند دقت سرویسهایشان را با مدلهای جدیدتر بهبود دهند؛ مثلاً چتباتها را طوری بازطراحی کردهاند که قبل از پاسخ به درخواستها، زمان بیشتری صرف استدلال کنند؛ البته مشکل توهم AI همچنان پابرجاست.
L
large language models (مدلهای زبانی بزرگ)
مدلهای زبانی بزرگ یا LLMs شبکههای عصبی بسیار بزرگ هستند که با استفاده از مقادیر زیادی متن و داده، ازجمله کتابهای الکترونیکی، مقالات خبری و صفحات ویکیپدیا آموزش دیدهاند. مدلهای زبانی با میلیاردها پارامتر برای یادگیری، ستون فقرات فناوری پردازش زبان طبیعی هستند که میتوانند متن را شناسایی، خلاصه، ترجمه، پیشبینی و تولید کنند.
Llama
متا سرمایه عظیمی صرف ساخت Llama کرده است، مدل زبانی Llama مجموعهای از مدلهای پیشرفته هوش مصنوعی محسوب میشود که رایگان در دسترس توسعهدهندگان قرار دارد و توسعهدهندگانش میتوانند از آن استفاده کنند. متا امیدوار است Llama به لطف چنین رویکردی نهفقط مغز متفکر چتبات خود، Meta AI، باشد، بلکه به پایه و اساس فهرست بلندبالایی از محصولات AI شرکتهای دیگر نیز تبدیل شود؛ چنین اتفاقی میتواند متا و Llama را در هسته اکوسیستم هوش مصنوعی قرار دهد.
M
Machine learning (یادگیری ماشینی)
یادگیری ماشینی فرایند بهبود تدریجی الگوریتمها (مجموعهای از دستورالعملها برای دستیابی به نتیجهای خاص) از طریق قراردادن آنها در معرض مقادیر زیادی داده است. کامپیوتر با بررسی ورودیها و خروجیهای زیاد، میتواند بدون اینکه الزاماً آموزش ویژهای ببیند، «یاد بگیرد»؛ مثلاً اپلیکیشن عکس (Photo) آیفون، ابتدا نمیداند چه شکلی هستید اما وقتی پس از مدتی در محیطهای مختلف خودتان را بهعنوان چهره در عکسها برچسبگذاری میکنید (تگگذاری)، ماشین توانایی شناسایی شما را به دست میآورد.
Model collapse (فروپاشی مدل)
محققان دریافتهاند وقتی مدلهای AI با دادههایی دربردارنده محتوای ایجادشده با هوش مصنوعی آموزش میبینند، درنهایت عملکرد خوبی نخواهند داشت (این موضوع باتوجهبه افزایش دیتاهای درحالگردش در فضای مجازی، بهصورت فزایندهای محتمل است).
به نظر برخی کارشناسان، اگر مدلهای هوش مصنوعی بیشازحد با محتوای ایجادشده با AI آموزش ببینند، احتمال فروپاشی آنها نیز وجود دارد و شدیداً نگران این موضوع هستند. نتایج پژوهشی که سال ۲۰۲۳ درباره مبحث فروپاشی مدل انجام شد، نشان داد تصاویر انسانها ساخته AI، پس از آموزش مجدد مدل با دادههایی که خودشان (حتی با مقادیر کمی از این دادهها) تولید کردهاند، بهصورت فزایندهای تحریف شد.
Multimodal (چندمدلی)
شرکتهای هوش مصنوعی بهطور فزایندهای روی سیستمهای «چندمدلی» تمرکز میکنند که میتوانند مجموعهای از ورودیها، ازجمله متن، تصویر و صدا را پردازش و به آنها پاسخ دهند؛ مثلاً شاید بتوانید با چتباتی صحبت کنید و از آن جواب بگیرید یا تصویری از مسئلهای ریاضی را به چتبات نشان بدهید و راهحل بخواهید. بهرهمندی از سیستمهای چندمدلی نهفقط تنوع محصولات هوش مصنوعی را افزایش میدهد، بلکه احساس واقعیتری از گفتگو با دستیار دیجیتال ایجاد میکند.
N
Natural language processing یا NLP (پردازش زبان طبیعی)
این فناوری شاخهای از AI است که به کامپیوترها کمک میکند گفتار و متن را درست مانند انسان، درک، پردازش و تولید کنند. فناوری پردازش زبان طبیعی برای استخراج دادهها از متن، ترجمه زبانها، تشخیص کلمات دستنویس و فهم محتوا و معنی، بر الگوریتمهای یادگیری ماشین تکیه دارد؛ این فناوری زیربنایی دستیاران مجازی مانند سیری یا الکسا است که باعث میشود بتوانند درخواستها را درک کنند و به زبان طبیعی، درست مانند زبان انسان، پاسخ دهند.
فناوری پردازش زبان طبیعی میتواند احساسات را در متن تشخیص دهد؛ به همین دلیل اگر به سیری بگویید: «من ناراحتم.»، ممکن است پیشنهاد کند با دوستی تماس بگیرید. سایر کاربردهای روزمره این فناوری، شامل فیلترکردن ایمیلهای اسپم، جستجوی وب، بررسی املایی و پیشبینی متن میشود.
Neural networks (شبکههای عصبی)
این شبکهها نوعی هوش مصنوعی هستند که در آن کامپیوتری با روشی تقریباً مشابه روش مغز انسان برای یادگیری از طریق آزمونوخطا یاد میگیرند؛ موفقیت یا شکست این شبکهها بر تلاشها و سازگاریهای بعدی آنها تأثیر میگذارد؛ همانطور که مغز کودک براساس آنچه به او آموخته میشود، نقشهبرداری شبکههای عصبی را یاد میگیرد؛ این فرایند نیز میتواند شامل میلیونها بار تلاش برای دستیابی به مهارت باشد. دلیل نیاز مبرم پلتفرمهای AI به مقدار زیادی توان پردازشی کامپیوتر نیز همین موضوع است.
O
Open Source (متنباز)
یکی از اختلافنظرهای کلیدی در صنعت هوش مصنوعی (و اختلافنظر میان افرادی که بهدنبال تنظیم آن هستند) اختلافنظر درمورد انتخاب مدلهای باز یا بسته است. باوجود اینکه برخی اصطلاح «باز» را بهمعنای بیقیدوشرط بودن به کار میبرند، این اصطلاح به ایده مدلهای متنباز اشاره دارد. مدلهای متنباز مدلهایی هستند که توسعهدهندگانشان کد منبع خود را رایگان در دسترس عموم قرار میدهند تا همه بتوانند از این کد استفاده یا آن را اصلاح کند. تعریف متنباز از سازمان غیرانتفاعی «Open Source Initiative» میآید، اشاره میکند. نرمافزاری که واقعاً متنباز است باید با شرایط خاصی برای توزیع و دسترسی مطابقت داشته باشد.
P
Parameters (پارامترها)
زمانی که شرکت هوش مصنوعی مدل جدیدی عرضه میکند، یکی از شاخصهای کلیدی که برای تمایز محصولش به آن اشاره میکند، تعداد پارامترهای آن است. این اصطلاح به تعداد کل متغیرهایی اشاره میکند که مدل حین فرایند آموزش به دست میآورد و نشاندهنده اندازه واقعی مدل زبانی بزرگ است؛ ارقام مرتبط با پارامترها بسیار حیرتانگیزند؛ مثلاً مدل Llama از شرکت Meta در ۳ اندازه عرضه میشود که بزرگترین آن تقریباً ۴۰۰ میلیارد پارامتر دارد.
Prompt (پرامپت)
تجربه استفاده از ابزارهای هوش مصنوعی امروزی معمولاً با یک پرامپت شروع میشود. در اصل هر پرسش یا درخواست کاربر میتوانند نمونههایی از پرامپتها باشند. پرامپت میتواند شامل درخواست از یک چتبات هوش مصنوعی برای خلاصهکردن یک سند، ارائه پیشنهادهایی برای بازسازی خانه یا سرودن شعر در وصف عاشق مافین بلوبری شدن، باشد.
Prompt Engineering (مهندسی پرومپت)
دقیق و مفید بودن پاسخهای پلتفرم هوش مصنوعی تا حد زیادی به کیفیت دستورات دادهشده بستگی دارد. مهندسان پرامپت میتوانند دستورالعملهای زبان طبیعی را برای تولید خروجیهای باکیفیت، با حداقل مصرف توان محاسباتی، بهینهسازی کنند.
R
Reasoning (استدلال)
سپتامبر ۲۰۲۴، OpenAI مدل جدیدی معرفی کرد که میتواند برخی وظایف استدلالی را درست مانند انسان انجام دهد؛ وظایفی مانند پاسخ به مسائل پیچیدهتر ریاضی و کدنویسی. اساساً سیستم AI بهروزرسانیشده قبل از پاسخ به کاربر، زمان بیشتری صرف محاسبهاش میکنند؛ بهاینترتیب میتواند مسائل چندمرحلهای را بهتر حل کند. گوگل و آنتروپیک نیز درحالتوسعه مهارتهای استدلال با مدلهای پیشرفته AI خود هستند.
S
Small Models (مدلهای کوچک)
پس از سالها رقابت برای ساخت مدلهای بزرگتر، برخی کارشناسان حوزه AI به این نتیجه رسیدهاند که همیشه مدل بزرگتر بهتر نیست. OpenAI، گوگل، متا و دیگر شرکتها مدلهای کوچکتری منتشر کردهاند. محصولاتی که این شرکتها منتشر کردهاند، نرمافزارهایی فشردهتر و سریعتر از مدلهای زبان بزرگ پرچمدار خود، هستند؛ شاید چنین مدلهایی در حد و اندازه مدلهای بزرگتر نباشند اما میتوانند برای مشتریان گزینهای کارآمدتر و مقرونبهصرفهتر باشند.
Sentient AI (هوش مصنوعی دارای شعور)
اکثر پژوهشگران معتقدند سالها تا تحقق هوش مصنوعی آگاه و دارای شعور (هوشی که قادر به درک و تأمل بر دنیای اطراف خود باشد.) فاصله داریم. اگرچه AI میتواند برخی تواناییهای انسانگونه را نشان دهد، ماشینها هنوز «نمیفهمند» چه میکنند یا چه میگویند؛ آنها فقط الگوها را در حجم عظیمی از اطلاعات تولیدشده توسط انسانها پیدا میکنند و فرمولهایی را برای تعیین نحوه پاسخ به دستورات به دست میآورند. همچنین ممکن است تشخیص زمانی که شعور هوش مصنوعی به واقعیت تبدیل میشود، دشوار باشد؛ زیرا هنوز توافق گستردهای درباره چیستی آگاهی وجود ندارد.
Synthetic Data (دادههای مصنوعی یا ساختگی)
برخی شرکتهای فناوری که با دادههای مصنوعی آزمایش میکنند، میکوشند دادههای بیشتر برای توسعه مدلهای زبان بزرگ بیابند که چتباتهای هوش مصنوعی را قدرت میبخشند. شرکتهای AI از سیستمهای AI خود برای تولید نوشتار و محتواهای دیگر استفاده میکنند؛ در مرحله بعدی این دادهها برای آموزش مدلهای جدید استفاده خواهند شد. مزیت استفاده از چنین روشی این است که از برخی نگرانیهای قانونی و اخلاقی درمورد منبع دادههای آموزش جلوگیری میکند اما شاید دراینمیان ایرادی وجود داشته باشد؛ برخی کارشناسان نگراناند چنین اتفاقی میتواند به کاهش عملکرد سیستمهای AI منجر شود. پدیدهای که به «فروپاشی مدل» معروف است.
T
Training data (داده آموزشی)
شرکتهای AI مقادیر عظیمی از دادهها را جمعآوری میکنند یا مجوز میگیرند تا مدلهای هوش مصنوعی را توسعه یا آموزش بدهند؛ مدلهایی که میتوانند در پاسخ به پرسشهای کاربران، متن، تصاویر، موسیقی و سایر محتواها را تولید کنند. این شرکتها معمولاً درمورد تعیین دقیق دادههای آموزشی که به آنها وابستهاند، اطلاعات کمی ارائه میدهند اما دادههای مورداستفاده برای آموزش چتبات AI ممکن است شامل مقالات، کتابها، نظرات آنلاین و پستهای شبکههای اجتماعی باشد. مسئولان سونو (Sono)، شرکت فعال در حوزه ساخت موسیقی با AI، گفتهاند نرمافزار شرکتشان با «دهها میلیون داده ثبتشده» آموزش داده شده است و ممکن است برخی از این آثار حق کپیرایت داشته باشند.