+982184977834
Today
2023-01-30   |   فارسی
Laboratory Activities

شناسنامه دادگان

شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك جويشگر متني شناسه (ID): DT_Text_Func_01
توضیح:
به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي متني لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرها و برخي دادگان استاندارد نظير TREC مي­باشد.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ انگليسي، فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 1200 عدد پرس و جو
منابع اخذ:
 • 300 پرس­وجو از لاگ یوز،
 • 300 پرس­وجو از لاگ پارسی­جو
 • 500 پرس­وجو از مجموعه دادگان استاندارد TREC (250 پرس و جوي بومي شده و 250 پرس و جوي انگليسي)
 • 100 پرس­وجو از 500 سایت برتر الکسا
زمان (بازه زمانی) توليد: بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: ارديبهشت تا تير 95
پرس و جوهاي TREC : 2016
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
 • زبان
 • صحت نگارش
 • طول پرس و جو
 • نوع پایه
 • انتظار صریح فایل یا وب سایت
 • وابستگي زماني
 • حساس به آخرین نسخه
 • مبهم بودن
 • اخلاقي بودن
 • دسته‏بندی موضوعی
نام برچسب‏هاي مورد استفاده:
 • کیفیت‏سنجی جویشگرهای متنی
شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك جويشگر خبر شناسه (ID): DT_News_Func_01
توضیح:
به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي خبري لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرهاي متني و خبري مي­باشد.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 300 عدد پرس و جو
منابع اخذ:
 • 150 پرس­وجوي خبري از لاگ جويشگر متنی پارسی‏جو،
 • 150 پرس­وجوي خبري از لاگ جويشگرهای خبری بومی پارسی‏جو و خبروان
زمان (بازه زمانی) توليد: بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: 7 تا 13 اسفند 95
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
 • کیفیت‏سنجی جویشگرهای خبري
نام برچسب‏هاي مورد استفاده:
 • طول پرس و جو
 • وابستگي زماني
 • نوع خبر
 • دسته­بندی موضوعی
شناسنامه مجموعه دادگان
نام مجموعه دادگان: دادگان محک حوزه‏های تخصصی ترجمه انگلیسی به فارسی شناسه (ID): DT_MT_Func_01
توضیح:
با توجه به وجود تفاوت در جملات موجود در حوزه‏های عمومی (مثل اخبار و ...) و حوزه‏های تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزه‏های تخصصی مختلف ایجاد شود. حوزه‏های تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازه‏های فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....):
تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه می‏باشد. تعداد جملات در هر یک از حوزه‏های تخصصی به تفکیک به صورت زیر است:
 • تازه‏های فناوری: 146 جمله، 3284 کلمه (طول متوسط جملات 22.5)
 • فناوری اطلاعات: 150 جمله، 3526 کلمه (طول متوسط جملات 23.5)
 • سرگرمی: 52 جمله، 1228 کلمه (طول متوسط جملات 23.6)
 • تجارت: 78 جمله، 1939 کلمه (طول متوسط جملات 24.8)
 • اقتصاد: 101 جمله، 2466 کلمه (طول متوسط جملات 24.4)
 • ورزشی: 106 جمله، 2757 کلمه (طول متوسط جملات 26)
 • علوم مدیریت: 80 جمله، 1718 کلمه (طول متوسط جملات 21.5)
 • علوم اجتماعی: 91 جمله، 1530 کلمه (طول متوسط جملات 27.8)
منابع اخذ:
 • خبرگزاری‏های معتبر خارجی (حدود 75 سایت مختلف برای پوشش بهتر نوشتارهای مختلف)
زمان (بازه زمانی) توليد: خبرهای انتخاب‏شده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
 • ارزیابی دقت مترجم‏های ماشینی
نام برچسب‏هاي مورد استفاده:
 • طول جمله
 • حوزه تخصصی
 • خبرگزاری
 • تاریخ خبر
 • لینک خبر
شناسنامه مجموعه دادگان
نام مجموعه دادگان: دادگان محک حوزه‏های تخصصی ترجمه انگلیسی به فارسی شناسه (ID): DT_MT_Func_01
توضیح:
با توجه به وجود تفاوت در جملات موجود در حوزه‏های عمومی (مثل اخبار و ...) و حوزه‏های تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزه‏های تخصصی مختلف ایجاد شود. حوزه‏های تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازه‏های فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....):
تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه می‏باشد. تعداد جملات در هر یک از حوزه‏های تخصصی به تفکیک به صورت زیر است:
 • تازه‏های فناوری: 146 جمله، 3284 کلمه (طول متوسط جملات 22.5)
 • فناوری اطلاعات: 150 جمله، 3526 کلمه (طول متوسط جملات 23.5)
 • سرگرمی: 52 جمله، 1228 کلمه (طول متوسط جملات 23.6)
 • تجارت: 78 جمله، 1939 کلمه (طول متوسط جملات 24.8)
 • اقتصاد: 101 جمله، 2466 کلمه (طول متوسط جملات 24.4)
 • ورزشی: 106 جمله، 2757 کلمه (طول متوسط جملات 26)
 • علوم مدیریت: 80 جمله، 1718 کلمه (طول متوسط جملات 21.5)
 • علوم اجتماعی: 91 جمله، 1530 کلمه (طول متوسط جملات 27.8)
منابع اخذ:
 • خبرگزاری‏های معتبر خارجی (حدود 75 سایت مختلف برای پوشش بهتر نوشتارهای مختلف)
زمان (بازه زمانی) توليد: خبرهای انتخاب‏شده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
 • ارزیابی دقت مترجم‏های ماشینی
نام برچسب‏هاي مورد استفاده:
 • طول جمله
 • حوزه تخصصی
 • خبرگزاری
 • تاریخ خبر
 • لینک خبر
شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك نيازهاي غيركاركردي شناسه (ID): DT_NonFunc_01
توضیح:
به منظور اندازه­گیری میزان دسترس­پذیری، متوسط زمان پاسخگویی و درصد پاسخگویی و تعیین حد نهایی در توانایی پاسخگویی به کاربران همزمان برای خدمات تحت وب مختلف، لازم بود مجموعه­ای از پرس و جوها، موجود باشند تا از آنها در درخواست­های ارسالی به خدمات مختلف، بهره گرفته شود.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ انگليسي، فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 89374 عدد پرس و جو
منابع اخذ:
 • لاگ پارسی­جو
 • لاگ یوز
 • EVVE: an Event retrieval dataset
 • LEAR
 • پرس و جوهای مورد استفاده در ارزیابی­های دستی در پروژه­های قبلی
 • 100 پرس­وجو از 500 سایت برتر الکسا
 • پرس و جوهای دریافتی از شرکت مجری سکوی تبلیغات هوشمند پیناد
زمان (بازه زمانی) توليد: از آغاز پروژه­ی پیشین تا هم اکنون
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
 • ارزیابی نیازمندی­های غیرکارکردی شامل میزان دسترس­پذیری، متوسط زمان پاسخگویی، درصد پاسخگویی به درخواست­ها و تعیین حد نهایی در پاسخگویی به کاربران همزمان و ارزیابی تازگی.
نام برچسب‏هاي مورد استفاده:
برچسب­های زیر بر روی پرس و جوهای موجود در این مجموعه دادگان، در نظر گرفته شده­اند.
 • نیاز اطلاعاتی
 • خدمت تحت وب مورد ارزیابی ( توسط پرس و جو)
 • دسته­بندی موضوعی پرس و جو
 • نوع پرس و جو
 • منبع پرس و جو
 • زبان پرس و جو
 • تاریخ درج پرس و جو
 • طول پرس و جو
 • توضیحات