سیستم جامع ارزیابی و رتبه‌بندی مدل‌های زبانی فارسی عرضه شد

مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، از عرضه Open Persian LLM Leaderboard به‌عنوان سیستمی جامع برای ارزیابی مدل‌های زبانی فارسی خبر دادند. بخشی از دادگان این سیستم ارزیابی (بنچمارک) هم‌اکنون به‌صورت متن‌باز (Open-source) در دسترس توسعه‌دهندگان قرار دارد و فعالان زیست‌بوم هوش مصنوعی فارسی می‌توانند مدل‌های زبانی خود را از طریق دادگان این سیستم مورد ارزیابی قرار دهند.

طی ماه‌های اخیر، شاهد توجه ویژه‌ای به مدل‌های زبانی در اکوسیستم هوش مصنوعی ایران بودیم و مراکز تحقیقاتی و شرکت‌های فعال در حوزه هوش مصنوعی، مدل‌های زبانی متعددی را مبتنی بر زبان فارسی توسعه داده‌اند. طبیعتاً تمامی این مدل‌ها از کیفیت یکسانی برخوردار نیستند و عوامل مختلفی مانند تعداد توکن‌های قابل قبول در ورودی، تعداد پارامترها و کیفیت داده‌هایی که برای آموزش مدل استفاده می‌شود، بر کیفیت عملکرد آنها تاثیر می‌گذارد. به دلیل عدم پشتیبانی سیستم‌های ارزیابی جهانی از مدل‌های زبانی فارسی و نتایج غیرقابل اتکای آنها، زیست‌بوم هوش مصنوعی کشور شاهد تلاش‌هایی در جهت ارائه بنچمارک‌هایی برای مدل‌‌های زبانی فارسی بوده است؛ اما به دلیل جامع نبودن سیستم‌‌های ارزیابی، امکان سنجش دقیق و یکپارچه و یکسان مدل‌های زبانی فارسی تا به امروز امکان‌پذیر نبود.

از همین رو، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، دکتر سعیده ممتازی، با توسعه یک سیستم ارزیابی جامع و قدرتمند در صدد رفع این چالش برآمده ‌است. این سیستم ارزیابی که شامل پایپ‌لاین استاندارد و بنچمارک‌های مورد نیاز برای سنجش کیفیت مدل‌های زبانی است، حاصل ترکیب روش‌های ارزیابی مرکز تحقیقات هوش مصنوعی پارت با آخرین دستاوردهای تیم پردازش زبان طبیعی دکتر ممتازی در این حوزه است. همکاری این دو مجموعه سبب شده تا سیستم ارزیابی نهایی به گسترده‌ترین و توانمند‌ترین سنگ محک مدل‌های زبانی فارسی تا به امروز تبدیل شود. همراه با این سیستم، یک جدول رتبه‌بندی نیز منتشر شده که مقایسه مدل‌های زبانی فارسی را امکان‌پذیر می‌کند.

این سیستم ارزیابی و جدول رتبه‌بندی، مرجع قابل اتکایی برای کسب‌وکارها و توسعه‌دهندگان فارسی‌زبان است تا با بررسی و مقایسه مدل‌های زبانی، مناسب‌ترین گزینه را برای فعالیت خود انتخاب کنند. در کنار این، محققان و توسعه‌دهندگان مدل‌های زبانی این امکان را دارند که محصول خود را در چارچوبی رقابتی به علاقه‌مندان معرفی کنند و با ارائه مدل‌های باکیفیت، رتبه خود را در جدول ارتقا دهند.

سیستم ارزیابی ارائه شده، شامل چندین بنچمارک معتبر و شناخته شده در زمینه ارزیابی مدل‌های زبانی بزرگ است که با بهترین کیفیت به زبان فارسی بازگردانده شده و بومی‌سازی‌های مورد نیاز بر روی آن انجام گرفته است. در فازی دیگر، فرایند جمع‌آوری کلان‌داده‌های فارسی از پایه و برچسب‌زنی آن انجام شده است. این کلان‌داده‌ها،‌ سطح دانش مدل‌های بزرگ زبانی را در عرصه‌های گوناگون از جمله پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی،‌ علوم انسانی  و… هم‌تراز با کارشناس ارشد حوزه مربوطه طبقه‌بندی می‌کند؛ این در حالی است که بنچمارک‌های ارزیابی که تاکنون عرضه شده‌اند، نهایتا از دانشی هم‌سطح دبیرستان برخوردار بودند.

سیستم ارزیابی مدل‌های زبانی متشکل از داده‌های متنی، اعداد و فرمول‌های ریاضی است و می‌تواند مدل‌ها را از جنبه‌های مختلفی مورد ارزیابی قرار دهد. این سنجش چندجانبه که به‌عنوان یکی از نقاط قوت مهم سیستم شناخته می‌شود، توان بررسی مدل‌ها را در ابعاد مختلف بهبود می‌بخشد. همچنین این سیستم برای ارزیابی مدل‌های زبانی از بیش از ۴۰ هزار نمونه استفاده می‌کند که این رقم، سیستم ارزیابی مدل‌های فارسی را در کنار برترین بنچمارک‌های جهانی قرار می‌دهد. شایان ذکر است که این تعداد نمونه به صورت مستمر در حال افزایش خواهد بود.

عرضه موفقیت‌آمیز این بنچمارک، نتیجه نخستین همکاری صنعت و دانشگاه در حوزه توسعه سیستم ارزیابی مدل‌های زبانی هوش مصنوعی است. پارت، همواره در جهت ارتقای پیوند میان دانشگاه و صنعت گام برداشته و معتقد است که در کنار آموزش و یادگیری، می‌بایست به ارائه محصولات موردنیاز کشور نیز توجه ویژه‌ای صورت بگیرد. به همین جهت، پارت با تأمین زیرساخت‌های لازم و همچنین پایپ‌لاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، توسعه و فعالیت مطلوب این سیستم ارزیابی را امکان‌پذیر ساخته و مسیر را برای همکاری‌های آتی بین مجموعه پارت و دانشگاه بیش‌ازپیش هموار می‌کند.

سیستم ارزیابی مدل‌های فارسی هم‌اکنون از طریق درگاه «HuggingFace» قابل دسترسی است. به لطف تلاش‌های دکتر ممتازی، مجوز ارزیابی مدل‌های زبانی فارسی «Open LLM Leaderboard» دریافت شده و نتیجه ارزیابی مدل‌ها در این مرجع معتبر نیز قابل ارائه هستند. توسعه‌دهندگان مدل‌های زبانی می‌توانند از طریق لینک ارزیابی مدل‌های زبانی فارسی، سنجش مدل‌های خود را آغاز کنند و نظرات خود را پیرامون این بنچمارک با تیم سازندگان آن به‌ اشتراک بگذارند.

منبع خبر

نظر و دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

زنجیره تامین نیازها