مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، از عرضه Open Persian LLM Leaderboard بهعنوان سیستمی جامع برای ارزیابی مدلهای زبانی فارسی خبر دادند. بخشی از دادگان این سیستم ارزیابی (بنچمارک) هماکنون بهصورت متنباز (Open-source) در دسترس توسعهدهندگان قرار دارد و فعالان زیستبوم هوش مصنوعی فارسی میتوانند مدلهای زبانی خود را از طریق دادگان این سیستم مورد ارزیابی قرار دهند.
طی ماههای اخیر، شاهد توجه ویژهای به مدلهای زبانی در اکوسیستم هوش مصنوعی ایران بودیم و مراکز تحقیقاتی و شرکتهای فعال در حوزه هوش مصنوعی، مدلهای زبانی متعددی را مبتنی بر زبان فارسی توسعه دادهاند. طبیعتاً تمامی این مدلها از کیفیت یکسانی برخوردار نیستند و عوامل مختلفی مانند تعداد توکنهای قابل قبول در ورودی، تعداد پارامترها و کیفیت دادههایی که برای آموزش مدل استفاده میشود، بر کیفیت عملکرد آنها تاثیر میگذارد. به دلیل عدم پشتیبانی سیستمهای ارزیابی جهانی از مدلهای زبانی فارسی و نتایج غیرقابل اتکای آنها، زیستبوم هوش مصنوعی کشور شاهد تلاشهایی در جهت ارائه بنچمارکهایی برای مدلهای زبانی فارسی بوده است؛ اما به دلیل جامع نبودن سیستمهای ارزیابی، امکان سنجش دقیق و یکپارچه و یکسان مدلهای زبانی فارسی تا به امروز امکانپذیر نبود.
از همین رو، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، دکتر سعیده ممتازی، با توسعه یک سیستم ارزیابی جامع و قدرتمند در صدد رفع این چالش برآمده است. این سیستم ارزیابی که شامل پایپلاین استاندارد و بنچمارکهای مورد نیاز برای سنجش کیفیت مدلهای زبانی است، حاصل ترکیب روشهای ارزیابی مرکز تحقیقات هوش مصنوعی پارت با آخرین دستاوردهای تیم پردازش زبان طبیعی دکتر ممتازی در این حوزه است. همکاری این دو مجموعه سبب شده تا سیستم ارزیابی نهایی به گستردهترین و توانمندترین سنگ محک مدلهای زبانی فارسی تا به امروز تبدیل شود. همراه با این سیستم، یک جدول رتبهبندی نیز منتشر شده که مقایسه مدلهای زبانی فارسی را امکانپذیر میکند.
این سیستم ارزیابی و جدول رتبهبندی، مرجع قابل اتکایی برای کسبوکارها و توسعهدهندگان فارسیزبان است تا با بررسی و مقایسه مدلهای زبانی، مناسبترین گزینه را برای فعالیت خود انتخاب کنند. در کنار این، محققان و توسعهدهندگان مدلهای زبانی این امکان را دارند که محصول خود را در چارچوبی رقابتی به علاقهمندان معرفی کنند و با ارائه مدلهای باکیفیت، رتبه خود را در جدول ارتقا دهند.
سیستم ارزیابی ارائه شده، شامل چندین بنچمارک معتبر و شناخته شده در زمینه ارزیابی مدلهای زبانی بزرگ است که با بهترین کیفیت به زبان فارسی بازگردانده شده و بومیسازیهای مورد نیاز بر روی آن انجام گرفته است. در فازی دیگر، فرایند جمعآوری کلاندادههای فارسی از پایه و برچسبزنی آن انجام شده است. این کلاندادهها، سطح دانش مدلهای بزرگ زبانی را در عرصههای گوناگون از جمله پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علوم انسانی و… همتراز با کارشناس ارشد حوزه مربوطه طبقهبندی میکند؛ این در حالی است که بنچمارکهای ارزیابی که تاکنون عرضه شدهاند، نهایتا از دانشی همسطح دبیرستان برخوردار بودند.
سیستم ارزیابی مدلهای زبانی متشکل از دادههای متنی، اعداد و فرمولهای ریاضی است و میتواند مدلها را از جنبههای مختلفی مورد ارزیابی قرار دهد. این سنجش چندجانبه که بهعنوان یکی از نقاط قوت مهم سیستم شناخته میشود، توان بررسی مدلها را در ابعاد مختلف بهبود میبخشد. همچنین این سیستم برای ارزیابی مدلهای زبانی از بیش از ۴۰ هزار نمونه استفاده میکند که این رقم، سیستم ارزیابی مدلهای فارسی را در کنار برترین بنچمارکهای جهانی قرار میدهد. شایان ذکر است که این تعداد نمونه به صورت مستمر در حال افزایش خواهد بود.
عرضه موفقیتآمیز این بنچمارک، نتیجه نخستین همکاری صنعت و دانشگاه در حوزه توسعه سیستم ارزیابی مدلهای زبانی هوش مصنوعی است. پارت، همواره در جهت ارتقای پیوند میان دانشگاه و صنعت گام برداشته و معتقد است که در کنار آموزش و یادگیری، میبایست به ارائه محصولات موردنیاز کشور نیز توجه ویژهای صورت بگیرد. به همین جهت، پارت با تأمین زیرساختهای لازم و همچنین پایپلاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، توسعه و فعالیت مطلوب این سیستم ارزیابی را امکانپذیر ساخته و مسیر را برای همکاریهای آتی بین مجموعه پارت و دانشگاه بیشازپیش هموار میکند.
سیستم ارزیابی مدلهای فارسی هماکنون از طریق درگاه «HuggingFace» قابل دسترسی است. به لطف تلاشهای دکتر ممتازی، مجوز ارزیابی مدلهای زبانی فارسی «Open LLM Leaderboard» دریافت شده و نتیجه ارزیابی مدلها در این مرجع معتبر نیز قابل ارائه هستند. توسعهدهندگان مدلهای زبانی میتوانند از طریق لینک ارزیابی مدلهای زبانی فارسی، سنجش مدلهای خود را آغاز کنند و نظرات خود را پیرامون این بنچمارک با تیم سازندگان آن به اشتراک بگذارند.