شناسنامه مجموعه دادگان | |
---|---|
نام مجموعه دادگان: داده محك جويشگر متني | شناسه (ID): DT_Text_Func_01 |
توضیح: به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي متني لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرها و برخي دادگان استاندارد نظير TREC ميباشد. |
|
فرمت (xml ، متن، ....): متن | |
زبان مورد استفاده در دادهها (فارسی، انگلیسی، ترکیبی و ...): فارسي، انگليسي، فارسي/انگليسي | |
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 1200 عدد پرس و جو | |
منابع اخذ:
|
|
زمان (بازه زمانی) توليد:
بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: ارديبهشت تا تير 95 پرس و جوهاي TREC : 2016 |
|
نام آزمونهایي که این مجموعه دادگان میتواند در آنها مورد استفاده قرار گیرد:
|
|
نام برچسبهاي مورد استفاده:
|
شناسنامه مجموعه دادگان | |
---|---|
نام مجموعه دادگان: داده محك جويشگر خبر | شناسه (ID): DT_News_Func_01 |
توضیح: به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي خبري لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرهاي متني و خبري ميباشد. |
|
فرمت (xml ، متن، ....): متن | |
زبان مورد استفاده در دادهها (فارسی، انگلیسی، ترکیبی و ...): فارسي، فارسي/انگليسي | |
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 300 عدد پرس و جو | |
منابع اخذ:
|
|
زمان (بازه زمانی) توليد: بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: 7 تا 13 اسفند 95 | |
نام آزمونهایي که این مجموعه دادگان میتواند در آنها مورد استفاده قرار گیرد:
|
|
نام برچسبهاي مورد استفاده:
|
شناسنامه مجموعه دادگان | |
---|---|
نام مجموعه دادگان: دادگان محک حوزههای تخصصی ترجمه انگلیسی به فارسی | شناسه (ID): DT_MT_Func_01 |
توضیح: با توجه به وجود تفاوت در جملات موجود در حوزههای عمومی (مثل اخبار و ...) و حوزههای تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزههای تخصصی مختلف ایجاد شود. حوزههای تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازههای فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است. |
|
فرمت (xml ، متن، ....): متن | |
زبان مورد استفاده در دادهها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی | |
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه میباشد. تعداد جملات در هر یک از حوزههای تخصصی به تفکیک به صورت زیر است:
|
|
منابع اخذ:
|
|
زمان (بازه زمانی) توليد: خبرهای انتخابشده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی | |
نام آزمونهایي که این مجموعه دادگان میتواند در آنها مورد استفاده قرار گیرد:
|
|
نام برچسبهاي مورد استفاده:
|
شناسنامه مجموعه دادگان | |
---|---|
نام مجموعه دادگان: دادگان محک حوزههای تخصصی ترجمه انگلیسی به فارسی | شناسه (ID): DT_MT_Func_01 |
توضیح: با توجه به وجود تفاوت در جملات موجود در حوزههای عمومی (مثل اخبار و ...) و حوزههای تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزههای تخصصی مختلف ایجاد شود. حوزههای تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازههای فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است. |
|
فرمت (xml ، متن، ....): متن | |
زبان مورد استفاده در دادهها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی | |
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه میباشد. تعداد جملات در هر یک از حوزههای تخصصی به تفکیک به صورت زیر است:
|
|
منابع اخذ:
|
|
زمان (بازه زمانی) توليد: خبرهای انتخابشده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی | |
نام آزمونهایي که این مجموعه دادگان میتواند در آنها مورد استفاده قرار گیرد:
|
|
نام برچسبهاي مورد استفاده:
|
شناسنامه مجموعه دادگان | |
---|---|
نام مجموعه دادگان: داده محك نيازهاي غيركاركردي | شناسه (ID): DT_NonFunc_01 |
توضیح: به منظور اندازهگیری میزان دسترسپذیری، متوسط زمان پاسخگویی و درصد پاسخگویی و تعیین حد نهایی در توانایی پاسخگویی به کاربران همزمان برای خدمات تحت وب مختلف، لازم بود مجموعهای از پرس و جوها، موجود باشند تا از آنها در درخواستهای ارسالی به خدمات مختلف، بهره گرفته شود. |
|
فرمت (xml ، متن، ....): متن | |
زبان مورد استفاده در دادهها (فارسی، انگلیسی، ترکیبی و ...): فارسي، انگليسي، فارسي/انگليسي | |
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 89374 عدد پرس و جو | |
منابع اخذ:
|
|
زمان (بازه زمانی) توليد: از آغاز پروژهی پیشین تا هم اکنون | |
نام آزمونهایي که این مجموعه دادگان میتواند در آنها مورد استفاده قرار گیرد:
|
|
نام برچسبهاي مورد استفاده: برچسبهای زیر بر روی پرس و جوهای موجود در این مجموعه دادگان، در نظر گرفته شدهاند.
|