به منظور بهرهمندی عموم جامعه ذینفعان، بخشی از دادگان محک توسعه داده شده در آزمایشگاه، که به منظور ارزیابی خدمات مختلف تحت وب مورد استفاده قرار میگیرند، در این قسمت به اشتراکگذاری شده اند. مجموعه دادگانی که در حال حاضر در اختیار قرار گرفتهاند عبارتند از:
- مجموعه پرسوجوها: این پرسوجوها، که به تفکیک نوع جویشگر (متنی، تصویری، صوتی و ویدئویی) ارائه شدهاند، برای ارزیابیهای خودکار و انسانی جویشگرهای مختلف مورد استفاده قرار میگیرند. هر آیتم در این مجموعه یک پرس و جو را نشان میدهد که برچسبهای مختلفی، نظیر دستهبندی (علوم، کامپیوتر، هنر و سرگرمی و…)، نوع (پیمایشی یا اطلاعاتی)، زبان (فارسی، انگلیسی،…)، منبع دریافت (کاربران، لاگ جویشگرها،…) و تعداد کلمات روی آن خورده است. برای برخی از پرسوجوها، نظیر پرس و جوهای جویشگرهای صوتی، با توجه به آنکه نوع پرس و جوها پیمایشی بوده است، فایل صوتی متناظر، که انتظار میرود جویشگر صوتی آن را بازگرداند، نیز در مجموعه دادگان ضمیمه شده است.
- پیکره ترجمه: جملات موجود در این پیکره، برای ارزیابی خودکار و انسانی مترجمهای ماشینی مختلف مورد استفاده قرار میگیرند. هر آیتم در این پیکره شامل یک جمله انگلیسی و ۴ ترجمه مختلف از آن به زبان فارسی است. ترجمههای موجود در پیکره توسط انسان و با کیفیت طلایی تولید شدهاند و لذا از دقت بالایی برخوردار هستند. هرچه خروجی یک ماشین ترجمه به این ترجمهها نزدیکتر باشد، نشاندهنده کیفیت بالاتر آن ماشین ترجمه خواهد بود.
ردیف | نمونه دادگان، جهت ارزیابی خدمات ذیل | فایل |
---|---|---|
۱ | جویشگر متن | دانلود فایل |
۲ | جویشگر صوت | دانلود فایل |
۳ | جویشگر تصویر | دانلود فایل |
۴ | جویشگر ویدیو | دانلود فایل |
۵ | ترجمه ماشینی | دانلود فایل |