مدل زبانی BERT large با عنوان «توکا» برای اولینبار در ایران به زبان فارسی توسط مرکز تحقیقات هوش مصنوعی پارت توسعه داده شده و با هدف تسهیل توسعه محصولات هوشمند، به شکل منبعباز در اختیار علاقهمندان و کسبوکارها قرار گرفته است. گروه دانشبنیان پارت علاوه بر نسخه Large این مدل زبانی، نسخه پایه آن را نیز بهصورت متنباز ارائه کرده تا زیستبوم هوش مصنوعی کشور را در لبه فناوریهای روز دنیا نگه دارد.
این مدل زبانی، با حجم داده ۵۰۰ گیگابایت معادل ۹۰ میلیارد توکن، یکی از بهینهترین مدلها برای استفاده در سرویسهای فارسیزبان شناخته میشود و بهدلیل برخورداری از دقت و کیفیتی بالا، در مقایسه با دیگر مدلهای مشابه فارسی در جایگاه نخست قرار میگیرد. همچنین از آنجا که مدل زبانی «توکا»، قابلیت اجرا و آموزش روی سختافزارهای نهچندان قدرتمند را فراهم میکند، مناسبترین گزینه برای اهداف تحقیقاتی، توسعهدهندگان شخصی و کسبوکارهای نوپا به شمار میرود.
انتشار نسخه متنباز این مدل زبانی، امکان دسترسی ساده و رایگان و مشارکت با دیگر توسعهدهندگان را برای کسبوکارها و برنامهنویسان فراهم میکند. علاوهبراین، فرصتی ایجاد میکند تا از یک سو، توسعهدهندگان و برنامهنویسان بتوانند ابزارهای قدرتمندتر و کاربردیتری را برای مخاطب فارسی زبان توسعه دهند و از سوی دیگر، کسبوکارها این امکان را داشته باشند تا محصولات سفارشیسازیشده و منطبق با نیاز کاربران خود را ایجاد کنند و درنتیجه، همه اجزای زیستبوم فناوری ایران در کنار یکدیگر و همگام با هم، رشد و پیشرفت قابلملاحظهای را تجربه کنند.
شایان ذکر است، مدل زبانی «توکا» طی سالهای گذشته، در محصولات پارت همچون سرویسهای هوشمند ابری سهاب، سرویس تبدیل صوت به متن «آوانگار»، سرویس تبدیل متن به صوت «آواشو»، چتبات هوشمند «دانابات» و سرویس تبدیل تصویر به متن «نویسهنگار» بهکار گرفته شده و عملکردی فوقالعاده را به نمایش گذاشته و زمینه استفاده از ابزارهای هوشمند تعاملی را برای میلیونها کاربر فارسیزبان فراهم کرده است. هرچند که این روزها، گروه دانشبنیان پارت خبری مبنی بر توسعه مدل زبانی بزرگ درنا با ۱۳ میلیارد پارامتر را منتشر کرده و انتظار میرود در سال جاری، شاهد استفادههای تجاری از مدل بزرگ درنا در محصولات این شرکت دانش بنیان باشیم.
برای دسترسی به نسخه متنباز مدل زبانی «توکا» فارسی کلیک کنید.