کنسرسیوم‌ها پردازش زبان طبیعی ELRA و LDC

دسترسی به منابع زبانی مناسب، نقش مهمی در پیشرفت و توسعه فعالیت‌‌های حوزه پردازش زبان طبیعی ایفا می‌کند.

در این راستا برخی کنسرسیوم‌ها به تهیه، جمع‌آوری و انتشار منابع زبانی در سطح ملی و بین المللی دست زده‌اند که از جمله آنها می‌توان به    LDC و   ELRA، TDA اشاره کرد.

به عنوان مثال، "دادگان"، مرجع داده‌های موجود برای زبان فارسی است که در کشور راه‌اندازی شده است.

به واسطه اهمیت  کنسرسیوم‌های LDC و ELRA که در زمینه زبان فارسی نیز فعالیت کرده‌اند، مطالعه ای انجام گرفته است که شرح مختصری از آنها و لینک مربوطه به شرح زیر ارائه می‌شود:

کنسرسیوم داده زبانی  LDC در دانشگاه پنسیلوانیا، تنها به عنوان یک مخزن داده  برای جمع‌آوری و انتشار منابع زبانی مطرح بوده است، سپس به شکل تدریجی و با کمک اعضای آن این کنسرسیوم  به فرم امروزی آن یعنی سازمانی برای ایجاد و انتشار دیتابیس‌های متنی و صوتی تبدیل شده است.

در این کنسرسیوم، نحوه عضویت و هزینه عضویت در به اشتراک­گذاری داده­های زبانی و نیز چگونگی همکاری و تعامل با LDC تدوین شده است.

تعدادی از منابع زبانی به اشتراک گذاشته شده به همراه مجوزهای لازم برای اعضا و همینطور غیراعضا در LDC در قالب  کاتالوگ منابع زبانی LDC، و منابع زبانی مرتبط با زبان فارسی موجود در این کاتالوگ، فهرست شده‌اند.

با مراجعه به لینک LDC، اطلاعات کاملی از نحوه به اشتراک گذاری داده‌های زبانی و چگونگی همکاری و تعامل با LDC، در اختیار شما قرار می‌گیرد:

https://www.ldc.upenn.edu

کاتالوگ منابع زبانی ELRA یک مخزن داده از منابع زبانی است که در لوکزامبورگ واقع است. ELRA دارای منابع زبانی رو به افزایش در زمینه تکنولوژی‌های مختلف زبانی است (افزایش تعداد این منابع زبانی از طریق مشارکت افراد مختلف جامعه HLT  انجام می‌گیرد). توزیع این منابع زبانی از طریق بخش اجرایی ELRA یعنی ELDA  انجام می‌گیرد. در بخش ELDA علاوه بر توزیع، کارهایی مانند ارزیابی نیز انجام می‌گیرد. 

عضویت در ELRA برای هر سازمان عمومی ویا خصوصی، اروپایی و غیر اروپایی ممکن است.

اطلاعات مرتبط با چگونگی همکاری و تعامل در زمینه فراهم آوردن داده­های زبانی در لینک

http://universal.elra.info قابل دسترسی و مشاهده است.