چالش‌های جستجوهای وطنی درمقابل رقبا

کد خبر: ۷۹۶۲
تاریخ انتشار: ۲۷ ارديبهشت ۱۳۹۳ - ۱۸:۴۲
این روزها موتورجست‌وجوی بومی همچنان به‌عنوان مبحثی مهم و البته حل نشده در مجامع ‌آی‌تی مطرح است. نگارنده تاکنون از زوایای مختلف به این بحث پرداخته اما در این نوشتار توضیحات مفصل‌تری دراین خصوص شامل مشکلات، موانع و راهکارها ارایه خواهد شد.

به گزارش صدای ایران، در ادامه گزارش شهروند آمده است:

هدف از ایجاد موتور جست‌وجوی بومی

هدف کاربر از مراجعه به موتورهای جست‌وجو رسیدن به جواب موردنظر است که در حال حاضر در هیچ‌یک از موتورهای جست‌وجو وجود ندارد. کاربر هنگام جست‌وجو در موتورهای جست‌وجو با انبوهی از نتایج مواجه می‌شود که بسیاری از آنها ارتباطی با عبارت جست‌وجوشده ندارد و کمکی به کاربر در یافتن جواب مورد نظر نمی‌کند. بنابراین موتور جست‌وجو باید یا جواب مورد نظر کاربر را در اختیار وی قرار دهد یا او را در رسیدن به این جواب راهنمایی کند. بنابراین درک مفهومی عبارت جست‌وجو و درک مفهومی نتایج جست‌وجو جهت ارایه به کاربر جزو ضروریات یک موتور جست‌وجو است.

به‌عنوان نمونه، زمانی که کاربر عبارت «مسافرت هوایی» را جست‌وجو می‌کند، موتور جست‌وجو باید لیست ارایه دهندگان خدمات تورهای هوایی را در اختیار وی قرار دهد یا حداقل در گروهی مجزا این نتایج را به کاربر ارایه دهد نه سایت‌هایی که صرفا کلمه «مسافرت» یا «هوایی» یا هر دو در آنها وجود دارد.

جایگاه سخت‌افزار در موتور جست‌وجوی بومی

یکی از مواردی که به کرّات در این زمینه شنیده شده و به‌عنوان مانع اصلی در راه‌اندازی موتور جست‌وجو عنوان می‌شود، این است که موتور جست‌وجو نیازمند بستر سخت افزاری عظیمی است. اغلب این اظهار نظرها و موارد مانند آن بدون انجام آزمایش‌های عملی و صرفا براساس شنیده اظهار شده و می‌شود. نگارنده به هیچ‌وجه منکر لزوم بستر سخت افزاری مناسب نیست لیکن حد و اندازه آن چیزی نیست که عنوان می‌شود یا حداقل هنگام توسعه آن و سال‌های ابتدایی راه‌اندازی نیازی به این بستر سخت‌افزاری عظیم وجود ندارد.

موتور جست‌وجو برای ارایه سرویس نیازمند سه مرحله کلی Crawl (خزش برای جمع‌آوری اطلاعات از سایت‌ها)، Index (ایندکس‌گذاری،پایش و دسته‌بندی و رتبه‌بندی نتایج جست‌وجو) و Web Service (ارایه سرویس جست‌وجو تحت وب) است. سرویس‌دهنده‌های داخلی درحال حاضر معمولا یکبار اطلاعات را جمع‌آوری می‌کنند و بعد از ایندکس‌گذاری ارایه سرویس می‌کنند. بدون در نظر گرفتن این‌که خزش (Crawl) یک فعالیت دایمی است و به روز بودن اطلاعات حائز اهمیت است. بنابراین درحال حاضر بیشتر نیازهای سخت‌افزاری سرویس‌دهنده‌های داخلی مربوط به بخش سوم یعنی وب سرویس است. براساس آزمایش‌های عملی که نگارنده انجام داده است، یک سرور با مشخصات سخت‌افزاری شامل ۸ GB رم، ۲ Core سی‌پی‌یو و پهنای باند لحظه‌ای ۵ Mb.s و ترافیک روزانه ۲۵ GB قادر به ارایه سرویس برای ۲۵۰هزار جست‌وجو و ۵۰۰ کاربر همزمان در روز است.در شرایطی که سرویس‌دهندگان داخلی ۲۰درصد این میزان را نیز سرویس نمی‌دهند و حداکثر برای پایداری سیستم به ۲ سرور دیگر به‌عنوان Redundant سرور جاری و Cashe Server برای افزایش سرعت اعلام نتایج نیاز است.

نکته دیگر این است که با وجود تکنولوژی Cloud، دیگر اساسا نیازی به راه‌اندازی بستر سخت‌افزاری به شکل سنتی نیست. چرا که در صورت استفاده از تکنولوژی ابری، سرمایه‌گذاری ثابت به صفر رسیده و سرمایه جاری نیز با توجه به میزان مورد نیاز تعیین شده و به حداقل می‌رسد. در صورتی‌که امنیت داده‌ها هم مدنظر قرار گیرد و نیاز به بستر سخت‌افزاری داخل کشور باشد هم می‌توان از سرویس‌دهنده‌های داخلی مبتنی بر تکنولوژی ابری استفاده کرد.

مزیت رقابتی در موتور جست‌وجو

رمز ماندگاری سرویس و خدمات، داشتن طرح تجاری است و نکته حایز اهمیت در طرح تجاری (اگر نمونه قبلی داشته باشد) مزیت رقابتی است. در حال حاضر موتور جست‌وجوهای موجود مانند گوگل از لحاظ امکانات سخت‌افزاری و نرم‌افزاری، حجم سرمایه‌گذاری، نیروی متخصص و... برای رقبای داخلی دست نیافتنی هستند. بنابراین اگر اصرار به ادامه روند فعلی با توضیحات ارایه شده وجود دارد، هیچگاه سرویس‌دهندگان داخلی توان رقابت با رقبای خارجی مانند گوگل را نخواهند داشت.

بحث سرویس‌های ارزش افزوده که توسط سرویس‌دهنده‌های داخلی مطرح می‌شود نیز جبران‌کننده آن نخواهد بود چراکه اگر سرویس‌دهنده‌ای به واسطه ارایه سرویس‌های دیگر مانند خبر، طالع‌بینی و... بتواند تا حدی کاربر جذب کند، دیگر سرویس موتور جست‌وجوی موفقی نخواهد بود و این درواقع حذف صورت مساله است.

به عبارت دیگر سرویس‌های ارزش افزوده در کنار یک موتور جست‌وجوی مناسب و جذاب برای کاربران ضامن موفقیت خواهد بود.

چه باید کرد؟

راهکار عملی در این خصوص استفاده از هستان‌شناسی (Ontology) برای زبان فارسی و ارایه جست‌وجوی مفهومی است. به این ترتیب که با فهم عبارت جست‌وجو شده و فهم اطلاعات جمع‌آوری شده توسط موتور جست‌وجو، می‌توان جواب مناسب را به کاربر ارایه کرده یا او را در راه رسیدن به جواب موردنظر راهنمایی کرد.

ریشه‌یابی کلمات فارسی در موتور جست‌وجو

به‌نظر می‌رسد سرویس‌دهندگان داخلی در رسیدن به سرویس مطلوب و جذب کاربر دچار خطایی فاحش شده‌اند چراکه راه‌اندازی بستر سخت‌افزاری عظیمی که عنوان می‌شود، فارغ از این‌که نیت انجام این کار برای نگارنده قابل درک نیست، تامین‌کننده نظر کاربران و موفقیت این سرویس‌دهنده‌ها نخواهد بود همان‌گونه که تاکنون چنین بوده است. بنابراین راه حل استفاده از هستان‌شناسی (Ontology) برای زبان فارسی مانند دسته‌بندی نتایج جست‌وجو و ریشه یابی‌صحیح کلمات و مانند آن و استفاده از پردازش زبان فارسی (NLP) است و در یک کلام «ما هنوز اندرخم یک کوچه‌ایم».
پربیننده ترین ها