کلان پیکره زبان فارسی، بزرگترین مجموعه دادگان شامل ۳۵ میلیارد کلمه در همایش الزامات توسعه مدل زبانی بزرگ فارسی رونمایی شد.
معرفی کلان پیکره زبان فارسی در همایش الزامات توسعه مدل زبانی
همایش الزامات توسعه مدل زبانی بزرگ فارسی با عنوان «هوش مصنوعی مولد قدرت حکومتها» به همت ستاد توسعه فناوریهای هوش مصنوعی و رباتیک معاونت علمی ریاستجمهوری در پژوهشگاه ارتباطات و فناوری اطلاعات(ایرانداک) برگزار شد.
در این نشست، کلان پیکره زبان فارسی با حمایت ستاد توسعه فناوریهای هوش مصنوعی و رباتیک و توسعه داده شده توسط یکی از شرکتهای فناور رونمایی شد.
ویژگی های کلان پیکره زبان فارسی
این کلان پیکره با آزادرسانی به صورت open source با تنوع بالا و حفظ بافتار متن در دسترس عموم قرار خواهد گرفت.
مدل زبان بزرگ یا LLM (Large language model)، یک نوع نوآوری در حوزه هوش مصنوعی است که از شبکههای عصبی با پارامترهای گسترده برای پردازش پیشرفته زبان استفاده میکند.
به نقل از معاونت علمی ریاستجمهوری، هوش مصنوعی مولد در یک سال اخیر بیشترین پیشرفت را به خود اختصاص داده و عمده سهم این پیشرفت متکی به مدلهای زبانی بزرگLLM ها بوده است.
مدلهای زبان بزرگ یک نوع از مدلهای هوش مصنوعی است که توانایی پردازش اطلاعات چندجانبه را دارند. این مدلها از قدرت بینظیر خود در پردازش زبان برای ایجاد پاسخهای بهینهتر و بهتر به سوالات مختلف کاربران استفاده میکنند. در حال حاضر، طراحی و مهندسی دستورالعملهای بهینه برای این مدلها از اهمیت زیادی برخوردار است و تیمهای پژوهشی در دانشگاهها و مراکز تحقیقاتی مختلف به این موضوع توجه ویژهای دارند.