سؤال كيفية تنزيل موقع على شبكة الإنترنت من archive.org Wayback Machine؟


أرغب في الحصول على جميع الملفات لموقع ويب معين على archive.org. الأسباب قد تشمل:

  • المؤلف الأصلي لم أرشفة موقع الويب الخاص به ، والآن غير متصل ، أريد أن تجعل من ذاكرة التخزين المؤقت العامة منه
  • أنا المؤلف الأصلي لبعض مواقع الويب وفقد بعض المحتوى. اريد ان استعيدها
  • ...

كيف يمكنني فعل ذلك ؟

مع الأخذ في الاعتبار أن آلة ارتداد archive.org مميزة للغاية: لا تشير روابط صفحة الويب إلى الأرشيف نفسه ، ولكن إلى صفحة ويب قد لا تكون موجودة هناك. يتم استخدام جافا سكريبت من جانب العميل لتحديث الروابط ، ولكن لن تعمل خدعة مثل wget العودية.


72
2017-10-20 10:16


الأصل


لقد جئت عبر نفس القضية ورممت جوهرة. لتثبيت: gem install wayback_machine_downloader. شغّل wayback_machine_downloader باستخدام عنوان url الأساسي لموقع الويب الذي تريد استرداده كمعلمة: wayback_machine_downloader http://example.comمعلومات اكثر: github.com/hartator/wayback_machine_downloader - Hartator
مساعدة خطوة بخطوة لمستخدمي ويندوز (win8.1 64bit بالنسبة لي) جديدة لروبي ، وهنا ما فعلت لجعله يعمل: 1) لقد ركبت rubyinstaller.org/downloads ثم قم بتشغيل "rubyinstaller-2.2.3-x64.exe" 2) قم بتنزيل الملف المضغوط github.com/hartator/wayback-machine-downloader/archive/...3) بفك الرمز البريدي في جهاز الكمبيوتر الخاص بي 4) البحث في قائمة ابدأ ويندوز "لبدء موجه الأوامر مع روبي" (أن يستمر) - Erb
5) اتبع تعليمات github.com/hartator/wayback_machine_downloader (ه ؛ .g: نسخ معجون هذا "gem install wayback_machine_downloader" إلى الموجه. ضرب دخول وسوف يقوم بتثبيت البرنامج ... ثم اتبع الإرشادات "الاستخدام"). 6) بمجرد التقاط موقع الويب الخاص بك ستجد الملفات في C: \ Users \ YOURusername \ websites - Erb


الأجوبة:


جربت طرقًا مختلفة لتنزيل موقع ، وأخيرًا عثرت على أداة تنزيل الجهاز - التي ذكرها Hartator من قبل (لذا تذهب جميع الاعتمادات إليه ، من فضلك) ، لكنني ببساطة لم ألاحظ تعليقه على السؤال. لتوفير الوقت ، قررت إضافة wayback_machine_downloader جوهرة كإجابة منفصلة هنا.

الموقع في http://www.archiveteam.org/index.php؟title=Restoring يسرد هذه الطرق للتنزيل من archive.org:

  • Wayback آلة تنزيلأداة صغيرة في Ruby لتنزيل أي موقع ويب من Wayback Machine. حرة ومفتوحة المصدر. اختياري!
  • اريك - الموقع الرئيسي يبدو لأسفل.
  • تنزيل التحميل ، خدمة ستقوم بتنزيل موقعك من جهاز Wayback Machine وإضافة حتى مكون إضافي لـ Wordpress. ليس حر.

54
2017-08-14 18:19



سبتمبر 2016: استخدمت Wayback Machine Downloader وعمل رائعًا! - itnAAnti
أكتوبر 2016 - لقد استخدمت أيضًا Wayback Machine Downloader. قام بعمل رائع! - YaDa
فبراير 2017: ايباك آلة-تحميل لا يزال أفضل خيار هناك. يعمل بشكل لا تشوبه شائبة. - Clément
كما كتبت "downloadback downloader" ، في php ، وتحميل الموارد ، وتعديل الروابط ، إلخ: gist.github.com/divinity76/85c01de416c541578342580997fa6acf - hanshenrik
ComicSans ، في الصفحة التي ربطتها ، ما هي أرشيف فريق الاستيلاء؟؟ - Pacerier


ويمكن القيام بذلك باستخدام سكربت شل مع النص wget.

الفكرة هي استخدام بعض من ميزات عنوان URL من آلة wayback:

  • http://web.archive.org/web/*/http://domain/* سوف قائمة جميع الصفحات المحفوظة من http://domain/ متكرر. ويمكن استخدامه لبناء فهرس للصفحات لتنزيل وتجنب الاستدلال لاكتشاف الروابط في صفحات الويب. لكل رابط ، يوجد أيضًا تاريخ الإصدار الأول والإصدار الأخير.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page سوف قائمة كل نسخة من http://domain/page للسنة YYYY. ضمن هذه الصفحة ، يمكن العثور على روابط محددة إلى إصدارات (مع طابع زمني دقيق)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page سيعود الصفحة غير المعدلة http://domain/page في الطابع الزمني المحدد. لاحظ ال هوية شخصية_ رمزية.

هذه هي الأساسيات لإنشاء برنامج نصي لتنزيل كل شيء من مجال معين.


9
2017-10-20 10:16



يجب عليك استخدام واجهة برمجة التطبيقات بدلاً من ذلك archive.org/help/wayback_api.php صفحات مساعدة ويكيبيديا للمحررين ، وليس للجمهور العام. لذلك تركز هذه الصفحة على الواجهة الرسومية ، والتي تم استبدالها وغير كافية لهذه المهمة. - Nemo
ربما يكون من الأسهل أن نقول فقط أن تأخذ URL (مثل http://web.archive.org/web/19981202230410/http://www.google.com/) و أضف id_ إلى نهاية "أرقام التواريخ". ثم ، ستحصل على شيء من هذا القبيل http://web.archive.org/web/19981202230410id_/http://www.google.com/. - haykam
يمكن أيضًا العثور على نص برمجي python: gist.github.com/ingamedeo/... - Amedeo Baragiola


هناك أداة مصممة خصيصا لهذا الغرض ، واريك: https://code.google.com/p/warrick/

انها تقوم على بروتوكول Memento.


3
2018-01-21 22:38



بقدر ما تمكنت من استخدام هذا (في مايو 2017) ، فإنه يسترد ما يحمله archive.is ، ويتجاهل إلى حد كبير ما هو في archive.org ؛ يحاول أيضًا الحصول على مستندات وصور من مخابئ Google / Yahoo ولكنه يفشل تمامًا. تم استنساخ Warrick عدة مرات على GitHub منذ إغلاق Google Code ، ربما هناك بعض الإصدارات الأفضل هناك. - Gwyneth Llewelyn