چالشهای جستجوهای وطنی درمقابل رقبا
این روزها موتورجستوجوی بومی همچنان بهعنوان مبحثی مهم و البته حل نشده در مجامع آیتی مطرح است. نگارنده تاکنون از زوایای مختلف به این بحث پرداخته اما در این نوشتار توضیحات مفصلتری دراین خصوص شامل مشکلات، موانع و راهکارها ارایه خواهد شد.
به گزارش صدای ایران، در ادامه گزارش شهروند آمده است:
هدف از ایجاد موتور جستوجوی بومی
هدف کاربر از مراجعه به موتورهای جستوجو رسیدن به جواب موردنظر است که در حال حاضر در هیچیک از موتورهای جستوجو وجود ندارد. کاربر هنگام جستوجو در موتورهای جستوجو با انبوهی از نتایج مواجه میشود که بسیاری از آنها ارتباطی با عبارت جستوجوشده ندارد و کمکی به کاربر در یافتن جواب مورد نظر نمیکند. بنابراین موتور جستوجو باید یا جواب مورد نظر کاربر را در اختیار وی قرار دهد یا او را در رسیدن به این جواب راهنمایی کند. بنابراین درک مفهومی عبارت جستوجو و درک مفهومی نتایج جستوجو جهت ارایه به کاربر جزو ضروریات یک موتور جستوجو است.
بهعنوان نمونه، زمانی که کاربر عبارت «مسافرت هوایی» را جستوجو میکند، موتور جستوجو باید لیست ارایه دهندگان خدمات تورهای هوایی را در اختیار وی قرار دهد یا حداقل در گروهی مجزا این نتایج را به کاربر ارایه دهد نه سایتهایی که صرفا کلمه «مسافرت» یا «هوایی» یا هر دو در آنها وجود دارد.
جایگاه سختافزار در موتور جستوجوی بومی
یکی از مواردی که به کرّات در این زمینه شنیده شده و بهعنوان مانع اصلی در راهاندازی موتور جستوجو عنوان میشود، این است که موتور جستوجو نیازمند بستر سخت افزاری عظیمی است. اغلب این اظهار نظرها و موارد مانند آن بدون انجام آزمایشهای عملی و صرفا براساس شنیده اظهار شده و میشود. نگارنده به هیچوجه منکر لزوم بستر سخت افزاری مناسب نیست لیکن حد و اندازه آن چیزی نیست که عنوان میشود یا حداقل هنگام توسعه آن و سالهای ابتدایی راهاندازی نیازی به این بستر سختافزاری عظیم وجود ندارد.
موتور جستوجو برای ارایه سرویس نیازمند سه مرحله کلی Crawl (خزش برای جمعآوری اطلاعات از سایتها)، Index (ایندکسگذاری،پایش و دستهبندی و رتبهبندی نتایج جستوجو) و Web Service (ارایه سرویس جستوجو تحت وب) است. سرویسدهندههای داخلی درحال حاضر معمولا یکبار اطلاعات را جمعآوری میکنند و بعد از ایندکسگذاری ارایه سرویس میکنند. بدون در نظر گرفتن اینکه خزش (Crawl) یک فعالیت دایمی است و به روز بودن اطلاعات حائز اهمیت است. بنابراین درحال حاضر بیشتر نیازهای سختافزاری سرویسدهندههای داخلی مربوط به بخش سوم یعنی وب سرویس است. براساس آزمایشهای عملی که نگارنده انجام داده است، یک سرور با مشخصات سختافزاری شامل ۸ GB رم، ۲ Core سیپییو و پهنای باند لحظهای ۵ Mb.s و ترافیک روزانه ۲۵ GB قادر به ارایه سرویس برای ۲۵۰هزار جستوجو و ۵۰۰ کاربر همزمان در روز است.در شرایطی که سرویسدهندگان داخلی ۲۰درصد این میزان را نیز سرویس نمیدهند و حداکثر برای پایداری سیستم به ۲ سرور دیگر بهعنوان Redundant سرور جاری و Cashe Server برای افزایش سرعت اعلام نتایج نیاز است.
نکته دیگر این است که با وجود تکنولوژی Cloud، دیگر اساسا نیازی به راهاندازی بستر سختافزاری به شکل سنتی نیست. چرا که در صورت استفاده از تکنولوژی ابری، سرمایهگذاری ثابت به صفر رسیده و سرمایه جاری نیز با توجه به میزان مورد نیاز تعیین شده و به حداقل میرسد. در صورتیکه امنیت دادهها هم مدنظر قرار گیرد و نیاز به بستر سختافزاری داخل کشور باشد هم میتوان از سرویسدهندههای داخلی مبتنی بر تکنولوژی ابری استفاده کرد.
مزیت رقابتی در موتور جستوجو
رمز ماندگاری سرویس و خدمات، داشتن طرح تجاری است و نکته حایز اهمیت در طرح تجاری (اگر نمونه قبلی داشته باشد) مزیت رقابتی است. در حال حاضر موتور جستوجوهای موجود مانند گوگل از لحاظ امکانات سختافزاری و نرمافزاری، حجم سرمایهگذاری، نیروی متخصص و... برای رقبای داخلی دست نیافتنی هستند. بنابراین اگر اصرار به ادامه روند فعلی با توضیحات ارایه شده وجود دارد، هیچگاه سرویسدهندگان داخلی توان رقابت با رقبای خارجی مانند گوگل را نخواهند داشت.
بحث سرویسهای ارزش افزوده که توسط سرویسدهندههای داخلی مطرح میشود نیز جبرانکننده آن نخواهد بود چراکه اگر سرویسدهندهای به واسطه ارایه سرویسهای دیگر مانند خبر، طالعبینی و... بتواند تا حدی کاربر جذب کند، دیگر سرویس موتور جستوجوی موفقی نخواهد بود و این درواقع حذف صورت مساله است.
به عبارت دیگر سرویسهای ارزش افزوده در کنار یک موتور جستوجوی مناسب و جذاب برای کاربران ضامن موفقیت خواهد بود.
چه باید کرد؟
راهکار عملی در این خصوص استفاده از هستانشناسی (Ontology) برای زبان فارسی و ارایه جستوجوی مفهومی است. به این ترتیب که با فهم عبارت جستوجو شده و فهم اطلاعات جمعآوری شده توسط موتور جستوجو، میتوان جواب مناسب را به کاربر ارایه کرده یا او را در راه رسیدن به جواب موردنظر راهنمایی کرد.
ریشهیابی کلمات فارسی در موتور جستوجو
بهنظر میرسد سرویسدهندگان داخلی در رسیدن به سرویس مطلوب و جذب کاربر دچار خطایی فاحش شدهاند چراکه راهاندازی بستر سختافزاری عظیمی که عنوان میشود، فارغ از اینکه نیت انجام این کار برای نگارنده قابل درک نیست، تامینکننده نظر کاربران و موفقیت این سرویسدهندهها نخواهد بود همانگونه که تاکنون چنین بوده است. بنابراین راه حل استفاده از هستانشناسی (Ontology) برای زبان فارسی مانند دستهبندی نتایج جستوجو و ریشه یابیصحیح کلمات و مانند آن و استفاده از پردازش زبان فارسی (NLP) است و در یک کلام «ما هنوز اندرخم یک کوچهایم».
به گزارش صدای ایران، در ادامه گزارش شهروند آمده است:
هدف از ایجاد موتور جستوجوی بومی
هدف کاربر از مراجعه به موتورهای جستوجو رسیدن به جواب موردنظر است که در حال حاضر در هیچیک از موتورهای جستوجو وجود ندارد. کاربر هنگام جستوجو در موتورهای جستوجو با انبوهی از نتایج مواجه میشود که بسیاری از آنها ارتباطی با عبارت جستوجوشده ندارد و کمکی به کاربر در یافتن جواب مورد نظر نمیکند. بنابراین موتور جستوجو باید یا جواب مورد نظر کاربر را در اختیار وی قرار دهد یا او را در رسیدن به این جواب راهنمایی کند. بنابراین درک مفهومی عبارت جستوجو و درک مفهومی نتایج جستوجو جهت ارایه به کاربر جزو ضروریات یک موتور جستوجو است.
بهعنوان نمونه، زمانی که کاربر عبارت «مسافرت هوایی» را جستوجو میکند، موتور جستوجو باید لیست ارایه دهندگان خدمات تورهای هوایی را در اختیار وی قرار دهد یا حداقل در گروهی مجزا این نتایج را به کاربر ارایه دهد نه سایتهایی که صرفا کلمه «مسافرت» یا «هوایی» یا هر دو در آنها وجود دارد.
جایگاه سختافزار در موتور جستوجوی بومی
یکی از مواردی که به کرّات در این زمینه شنیده شده و بهعنوان مانع اصلی در راهاندازی موتور جستوجو عنوان میشود، این است که موتور جستوجو نیازمند بستر سخت افزاری عظیمی است. اغلب این اظهار نظرها و موارد مانند آن بدون انجام آزمایشهای عملی و صرفا براساس شنیده اظهار شده و میشود. نگارنده به هیچوجه منکر لزوم بستر سخت افزاری مناسب نیست لیکن حد و اندازه آن چیزی نیست که عنوان میشود یا حداقل هنگام توسعه آن و سالهای ابتدایی راهاندازی نیازی به این بستر سختافزاری عظیم وجود ندارد.
موتور جستوجو برای ارایه سرویس نیازمند سه مرحله کلی Crawl (خزش برای جمعآوری اطلاعات از سایتها)، Index (ایندکسگذاری،پایش و دستهبندی و رتبهبندی نتایج جستوجو) و Web Service (ارایه سرویس جستوجو تحت وب) است. سرویسدهندههای داخلی درحال حاضر معمولا یکبار اطلاعات را جمعآوری میکنند و بعد از ایندکسگذاری ارایه سرویس میکنند. بدون در نظر گرفتن اینکه خزش (Crawl) یک فعالیت دایمی است و به روز بودن اطلاعات حائز اهمیت است. بنابراین درحال حاضر بیشتر نیازهای سختافزاری سرویسدهندههای داخلی مربوط به بخش سوم یعنی وب سرویس است. براساس آزمایشهای عملی که نگارنده انجام داده است، یک سرور با مشخصات سختافزاری شامل ۸ GB رم، ۲ Core سیپییو و پهنای باند لحظهای ۵ Mb.s و ترافیک روزانه ۲۵ GB قادر به ارایه سرویس برای ۲۵۰هزار جستوجو و ۵۰۰ کاربر همزمان در روز است.در شرایطی که سرویسدهندگان داخلی ۲۰درصد این میزان را نیز سرویس نمیدهند و حداکثر برای پایداری سیستم به ۲ سرور دیگر بهعنوان Redundant سرور جاری و Cashe Server برای افزایش سرعت اعلام نتایج نیاز است.
نکته دیگر این است که با وجود تکنولوژی Cloud، دیگر اساسا نیازی به راهاندازی بستر سختافزاری به شکل سنتی نیست. چرا که در صورت استفاده از تکنولوژی ابری، سرمایهگذاری ثابت به صفر رسیده و سرمایه جاری نیز با توجه به میزان مورد نیاز تعیین شده و به حداقل میرسد. در صورتیکه امنیت دادهها هم مدنظر قرار گیرد و نیاز به بستر سختافزاری داخل کشور باشد هم میتوان از سرویسدهندههای داخلی مبتنی بر تکنولوژی ابری استفاده کرد.
مزیت رقابتی در موتور جستوجو
رمز ماندگاری سرویس و خدمات، داشتن طرح تجاری است و نکته حایز اهمیت در طرح تجاری (اگر نمونه قبلی داشته باشد) مزیت رقابتی است. در حال حاضر موتور جستوجوهای موجود مانند گوگل از لحاظ امکانات سختافزاری و نرمافزاری، حجم سرمایهگذاری، نیروی متخصص و... برای رقبای داخلی دست نیافتنی هستند. بنابراین اگر اصرار به ادامه روند فعلی با توضیحات ارایه شده وجود دارد، هیچگاه سرویسدهندگان داخلی توان رقابت با رقبای خارجی مانند گوگل را نخواهند داشت.
بحث سرویسهای ارزش افزوده که توسط سرویسدهندههای داخلی مطرح میشود نیز جبرانکننده آن نخواهد بود چراکه اگر سرویسدهندهای به واسطه ارایه سرویسهای دیگر مانند خبر، طالعبینی و... بتواند تا حدی کاربر جذب کند، دیگر سرویس موتور جستوجوی موفقی نخواهد بود و این درواقع حذف صورت مساله است.
به عبارت دیگر سرویسهای ارزش افزوده در کنار یک موتور جستوجوی مناسب و جذاب برای کاربران ضامن موفقیت خواهد بود.
چه باید کرد؟
راهکار عملی در این خصوص استفاده از هستانشناسی (Ontology) برای زبان فارسی و ارایه جستوجوی مفهومی است. به این ترتیب که با فهم عبارت جستوجو شده و فهم اطلاعات جمعآوری شده توسط موتور جستوجو، میتوان جواب مناسب را به کاربر ارایه کرده یا او را در راه رسیدن به جواب موردنظر راهنمایی کرد.
ریشهیابی کلمات فارسی در موتور جستوجو
بهنظر میرسد سرویسدهندگان داخلی در رسیدن به سرویس مطلوب و جذب کاربر دچار خطایی فاحش شدهاند چراکه راهاندازی بستر سختافزاری عظیمی که عنوان میشود، فارغ از اینکه نیت انجام این کار برای نگارنده قابل درک نیست، تامینکننده نظر کاربران و موفقیت این سرویسدهندهها نخواهد بود همانگونه که تاکنون چنین بوده است. بنابراین راه حل استفاده از هستانشناسی (Ontology) برای زبان فارسی مانند دستهبندی نتایج جستوجو و ریشه یابیصحیح کلمات و مانند آن و استفاده از پردازش زبان فارسی (NLP) است و در یک کلام «ما هنوز اندرخم یک کوچهایم».
گزارش خطا
آخرین اخبار