سؤال لماذا يعتبر Google أسرع بكثير من البحث في محركات الأقراص الثابتة؟


عندما أبحث في ملف على جهاز HD في نظام التشغيل Windows 7 أو Windows XP ، يستغرق الأمر بضع دقائق لإنهاء العملية. إذا ملأت عبارة بحث في Google ، فسيكون الجواب على الشاشة بالمللي ثانية

كيف يمكن لـ Google البحث في الإنترنت ، وهو أكبر بكثير من محرك الأقراص الثابتة الخاص بي ، أسرع من نظام التشغيل الخاص بي الذي يمكنه البحث في جهاز الكمبيوتر الخاص بي؟ هل هو مجرد مسألة قوة الحوسبة والخوارزمية الصحيحة؟


247
2018-04-03 18:44


الأصل


هل حاولت فهرسة جميع الملفات على محرك الأقراص الخاص بك وتبحث فقط في الفهرس؟ محاولة كل شىء ونرى. - Karan
سطح مكتب Google "تم استخدامه" لتنفيذ ذلك للنوافذ أيضًا ... - rogerdpack
تبحث Google عبر المؤشرات المخزنة في ذاكرة الوصول العشوائي (RAM) ، وليس عبر الملفات الموجودة على محرك الأقراص الثابتة. - Ari
يُعد الفهرس أمرًا مهمًا ، ولكن تستخدم Google أيضًا خوارزمية تقليل الخريطة لإجراء مجموعة متوازية من العمليات. بصرف النظر عن عدد النوى التي لديك في جهاز الكمبيوتر الخاص بك ، أضمن لشركة Google المزيد. - Adam Wuerl
لا يوجد شيء يمنع تنفيذ بحث سطح المكتب من استخدام الفهرسة. ومع ذلك، تذكر أن Google لديها ما يكفي من النقود لـ أ) الكثير من وحدات المعالجة المركزية (CPU) / الخوادم السريعة جدًا لموازاة طلب بحث ؛ ب) الكثير من ذاكرة الوصول العشوائي (RAM) السريعة جداً لتجنب الوصول إلى قرص على الإطلاق ؛ ج) الكثير من محركات الأقراص الصلبة أسرع بكثير من تلك التي تستخدمها ؛ د) الكثير من المهندسين الذكية للغاية لتحسين الخوارزميات المعنية. (على سبيل المثال ، التخزين المؤقت لنتائج (الكثير من) الاستعلامات المستخدمة بشكل متكرر والكثير الكثير.) إنها ليست "فقط" مسألة أي من هذه ، كل ذلك يعمل في الحفل. - millimoose


الأجوبة:


جوجل لا تبحث في الإنترنت: إنها تبحث في فهرس. تمتلك Google مزارع خوادم ضخمة تعمل باستمرار على فحص وفهرسة الإنترنت. تستغرق هذه العملية وقتًا طويلاً ، تمامًا مثل البحث في محرك الأقراص الثابتة غير الخالي من الفيروسات. في Windows 7 ، يوجد خيار لفهرسة محركات الأقراص الثابتة. تستغرق هذه العملية بعض الوقت في البداية ولكن بمجرد تشغيلها وستكون نتائج البحث فورية.

إذا كنت تريد معرفة المزيد حول كيفية عمل بحث Google ، فيمكنك قراءة مقالة Google "كيف يعمل البحث"أو قراءة المقال"كيف تعمل الأشياء: كيف يعمل Google".


210
2018-04-03 18:53



الفقرة الأخيرة: هذا الرابط هو أكثر موثوقية وبشكل عام أفضل. - ulidtko
العفو عن فضول بلدي ، ولكن لا أنظمة الملفات فهرسة بالفعل الملفات الموجودة على القرص؟ ليس ما تراه في مستكشف الملفات الخاص بك مجرد فهرس للروابط للقطاعات الفعلية الفعلية على القرص؟ لماذا يتعين علينا إذن القيام به أكثر من ذلك الفهرسة؟ - Adi
Adnan تم تصميم فهرس أنظمة الملفات للعثور على الموضع الذي يتم فيه تخزين الملف على الوسائط الفعلية. يشبه مؤشر الكتاب الذي يخبرك عن أي صفحة تبدأ فصلاً. تم تصميم فهرس البحث للعثور على المحتوى. لا يعمل فهرس البحث الجيد على فهرسة أسماء الملفات فحسب ، بل يفيد أيضًا محتوى أنواع الملفات المعروفة مثل pdf و doc و html و ... تستخدم الفهارس المتقدمة أيضًا المرادفات ، لذلك إذا كنت تبحث عن "سيارة" ، فقد تجد نتائج أيضًا كلمة "السيارات". - Simon
Adnan ، نظام الملفات ليس حقا "فهرس" ، مجرد شجرة من أسماء الملفات. البحث عن هذه الشجرة ليس سريعًا ، نظرًا لأن البنية ليست محسّنة للبحث. يستخدم OTOH google (وقواعد البيانات) هياكل فهرس محددة مرتبة مما يجعل البحث عن دخول سريع سريعًا. حتى ذلك الحين ، لا يمكن أن تستفيد جميع عمليات البحث من هذا المؤشر وستكون بطيئة (er). - PiRX
Adnan بمعنى ، تم تحسين شجرة FS ضد البحث. تم تصميمه للسماح بمعالجة المواقع المعروفة. من العقدة الجذرية ، كل ما تحصل عليه هو قائمة من الدلائل والملفات تحت الجذر. كل دليل يعرف فقط حول الملفات الموجودة فيه ، والدلائل أدناه. الوصول إلى مسار ملف معروف سريع جدا تحت هذا ، ويوفر الكثير من المرونة ، ولكن لا توجد قائمة عالمية من الملفات للبحث من خلالها. يجب أن تنزل دائمًا خلال شجرة الدليل ، وهذا يجعل الكثير من عمليات البحث المميزة. - Phoshi


تشبه Google البحث عن الصفحات الصفراء لعنوان (مفهرسة). يشبه بحث Windows القيادة حول التحقق من الأرقام على المباني (غير المفهرسة).

تشبيه آخر سيكون من خلال البحث في مكتبة منظمة وكتالوج جيد التنظيم ، أو مجرد الفرز من خلال كومة غير منظمة من الكتب في كل مرة.

أساسا هو كل العمل التنظيمي الذي قام به قبل البحث الذي يجعلها بسرعة.

لمعلوماتك: عند البحث في المواقع المفهرسة ، يمكن أن يكون البحث عن النوافذ متجاوبًا تمامًا.


71
2018-04-03 21:09



أو: مسح كتاب مدرسي مقابل البحث في جدول محتويات (مفصل) - bobobobo


عمل Google هو البحث (وعرض الإعلانات) وهو يركز بشكل كبير على ذلك. هناك عدد من الأشياء التي تفعلها Google لضمان إرجاع البيانات إليك بسرعة كبيرة:

  • أولا يستخدم مابريديوس و رتبة صفحة لتوليد فهرس شامل لشبكة الويب العالمية. يقوم بتحديث هذا بانتظام حتى تكون النتائج جديدة.
  • يتم توزيع هذا المؤشر وتكراره عبر العديد من خوادم Google
  • يتم تقسيم الاستعلام الخاص بك عبر خوادم متعددة لبناء النتائج التي تم إرجاعها. هذا يسمح لهذه العملية أن تكون متوازية للغاية.
  • يتم تخزين الاستعلامات والنتائج الشائعة مؤقتًا ، مما يقلل من الحاجة إلى إجراء البحث على الإطلاق.

انظر هذا الرابط لمزيد من المعلومات حول كيف يعمل البحث

وبالمقارنة ، فإن البحث في محرك الأقراص الثابتة بدون فهرس يجب عليه قراءة كل ملف على محرك الأقراص ، وقد يستغرق ذلك الكثير من الوقت.

بالإضافة إلى ذلك يمكنك التفكير في كل من نظام الملفات والفهرس كشجرة. في نظام الملفات ، يكون جذر الشجرة هو المجلد الأعلى ويمكن أن يكون له فروع (مجلدات) أو يترك (ملفات) في ذلك المجلد. يمكن أن يكون لكل فرع فروع فرعية لمزيد من المجلدات والأوراق لمزيد من الملفات. للبحث في هذه البنية ، عليك "السير" على جميع الفروع (والفروع الفرعية) للعثور على الورقة التي تبحث عنها. فهرس يقلب هذا التسلسل الهرمي حولها. يصبح الأساس الأبجدية وكل الفروع الفرعية مزيد من التحسينات على هذا. الأوراق هي موقع العنصر الذي تبحث عنه. يتيح لك البحث في هذه البنية تقليم (استبعاد) أقسام كبيرة من الشجرة (على سبيل المثال ، الحرف الأول من عبارة البحث يسمح لك بقص 25 فرعًا آخر على الفور).


36
2018-04-03 20:44





منذ حوالي 4 سنوات ، سألت نفسي نفس السؤال. ولكن بينما كنت أقوم ببحثي حول البحث الذي قمت به ، قرأت في النهاية أنه بالإضافة إلى حقيقة أنهم يستخدمون أفضل ما في وسعهم لتقديم بعض خوارزميات البحث الأكثر تطوراً وكل ذلك.

واحد من التصميم الرئيسي الذي استخدموه مشابه لفكرة الخفض على ما أعتقد. لديك الكثير من أجهزة الكمبيوتر الرخيصة في المزارع. دع أجهزة الكمبيوتر هذه تحتوي على 80 جيجا بايت فقط من مساحة القرص الثابت وتضغط بقوة للحصول على ذاكرة عشوائية تبلغ 16 غيغابايت أو حتى أفضل ذاكرة عشوائية 32 جيجابايت على أجهزة الكمبيوتر هذه (بقدر الإمكان). تذكر أنها متصلة ببعضها من خلال نظام متطور صممته. لكن الفكرة الأساسية هنا هي أنه عند تقديم طلب البحث ، يتم تمريره إلى نظامه حيث سيحاول البحث عن البيانات الجديدة في ذاكرة الوصول العشوائي. ضع في اعتبارك أن لديهم الكثير من هذه الأجهزة الرخيصة. وبما أن البيانات موجودة في ذاكرة الوصول العشوائي ، يتم العثور عليها أسرع بكثير من القرص الثابت. ولكن لا تنسوا أن لديهم نظامًا متطورًا (فهرسة وكل تلك الخوارزميات) يساعد أيضًا كثيرًا.

ولا يجب أن تكون هذه البيانات حديثة ، لأننا جميعًا نعلم أن Google تخزن كل شيء. وبغض النظر عما يجب أن يكون في ذاكرة الوصول العشوائي ، يمكن استخدام نفس المبدأ مع أشجار التباعد ، والحفاظ على ما يبحث عنه الناس أكثر في ذاكرة الوصول العشوائي ومسح الاشياء الأقل بحثًا إلى القرص الصلب.

قد تكون هذه الفكرة الصغيرة مقترنة بفهرستها وكافة الأشياء الأخرى التي ذكرها الآخرون في إجاباتهم ، أحد الأسباب التي تجعلها أسرع من بحث القرص الصلب.

  • القدرة على التنبؤ بناءً على عمليات بحث أخرى.
  • البيانات على الأرجح في ذاكرة الوصول العشوائي التي نعلم جميعا أنها أسرع.
  • استخدام أنظمة متعددة ل فرق تسد
  • البحث هو اولويتهم الرئيسية.

بالطبع يمكن أن أكون مخطئا ، ولكن هذا منطقي بالنسبة لي. وكنت سعيدًا بما تعلمته.


30
2018-04-03 22:57



سمّرتَه على بعض الأشياء التي غاب عنها الملصقات الأخرى الأكثر شعبية. لا تبحث Google عن كل شيء كثيرًا. بالتأكيد ليس على شبكة الإنترنت بأكملها ، ولا حتى كل شيء في مخابئها الخاصة. علاوة على ذلك ، عندما تقوم بالبحث على Google.com ، فإن البحث الفعلي لا يحدث في الوقت الفعلي ، بل مجرد النسخ السريع وعرض نتائج البحث التي تم إنتاجها وتنظيمها بالفعل في الأشهر الماضية بواسطة Google. إنه أمر معقد للغاية لوصف عملية الإنتاج / التنظيم ، ولكن يمكن أن يطلق عليه بطريقة غامضة "فهرسة" كما قال أحدهم. - Joseph Myers
من الصعب للغاية وصف عملية الإنتاج / التنظيم .... نعم ، هذا ما أشير إليه باعتباره الجزء المتطور منه. ممتاز ، لقد لخصته جيدا. - Touch
JosephMyers فهارس جوجل باستمرار. قم بالبحث على سؤال تم طرحه على SuperUser في وقت سابق من اليوم (على سبيل المثال. google.com/search؟q=google+faster+than+a+hard+drive) ويظهر في النتائج. - Brad Patton
أتفق حول البحث في ذاكرة الوصول العشوائي. كانت هذه هي النقطة الرابعة في رسالتي حول التخزين المؤقت - Brad Patton
Brad Patton True. كان علي أن أذكر ذلك لأنه كان أساس ما تعلمته. والجزء المتعلق بالفهرسة باستمرار ، جيدًا جزء الفهرسة هو جزء التنظيم. وبالتالي ، فإن البيان يفترض أنك تبحث في ما تم تنظيمه وليس ما يتم فهرسته في الوقت الحالي. ولماذا تظهر النتيجة ، فإن stackoverflow يتمتع بمصداقية أكبر من العديد من مواقع الويب ، لذلك من المفيد لفهرستها بشكل أكثر تكرارًا. هذا هو السبب في أنه يظهر. إذا لم يكن الأمر كذلك ، فسيتعين عليك الانتظار لمدة يوم أو يومين قبل ظهور ما تبحث عنه. أعتقد أن هذا هو ما يقوله جوزيف مايرز. - Touch


تستخدم Google نظام فهرسة متطوّرًا للغاية وعملياتًا متوازية وعددًا من تقنيات موازنة الحمل غير المتوفرة لجهاز كمبيوتر مستقل قياسي. هناك تشابه قليل جدًا بين البحث على الويب والبحث عن ملف على القرص الصلب ، وتحسن google بشكل كبير في حالات الاستخدام المحددة.


20
2018-04-03 18:49





في عام 2004 ، نشر بعض موظفي Google ورقة: مابريديوس ومنذ ذلك الوقت تحسنوا مئات المرات.

أيضا ، فإنها تستخدم نظام ملفات Google (GFS) وهو نظام ملفات موزعة مثل نظام الملفات Hadoop Distribud (HDFS) ومحسنة للغاية لأغراضها. أيضا بقدر ما أعرف ، GFS يعمل ربما ألف مرة أسرع من HDFS.


4
2018-04-04 06:49





اعتقدت أني سأضيف إلى هذا الأمر لأنني أيضًا تلقيت هذا السؤال منذ فترة ، ووجدت مقاطع الفيديو الرائعة التي تصف ما تفعله Google على السطح. مثيرة للاهتمام لمشاهدة.

جوجل على يوتيوب 1
جوجل على يوتيوب 2

يذهب أعمق قليلا ولكن ليس عميقا بما فيه الكفاية أن تضيع في الجوانب الفنية.

في صحتك.


2
2018-04-04 00:14





مجرد إضافة شيء إلى إجابات رائعة هنا. تستخدم Google التخزين المؤقت لعبارات البحث الشائعة. توجد نتائج عمليات البحث هذه في الذاكرة. لذلك إذا بحثت عن شيء يتم البحث عنه كثيرًا ، فستظهر النتائج على الفور تقريبًا.


1
2018-04-08 06:34