Jak działa Archivarix?

Wysłane przez: 2019-12-03

System Archivarix został zaprojektowany do pobierania i przywracania witryn, które nie są już dostępne z Archive.org oraz tych, które są obecnie online. Jest to główna różnica w stosunku do reszty „downloaderów” i „parserów witryn”. Celem Archivarix jest nie tylko pobranie, ale także przywrócenie strony internetowej w formie, która będzie dostępna na twoim serwerze.

Zacznijmy od modułu, który pobiera strony internetowe z archiwum internetowego. Są to serwery wirtualne zlokalizowane w Kalifornii. Ich lokalizację wybrano w taki sposób, aby uzyskać maksymalną możliwą prędkość połączenia z samym archiwum internetowym, ponieważ jego serwery znajdują się w San Francisco. Po wprowadzeniu danych w odpowiednim polu na stronie modułu https://pl.archivarix.com/restore/, wykonuje zrzut ekranu zarchiwizowanej witryny i zwraca się do interfejsu API Web Archive, aby poprosić o listę plików zawartych w określonym terminie odzyskiwania .

Po otrzymaniu odpowiedzi na żądanie system generuje komunikat z analizą odebranych danych. Użytkownik musi tylko nacisnąć przycisk potwierdzenia w otrzymanej wiadomości, aby rozpocząć pobieranie strony internetowej.

Korzystanie z interfejsu API Web Archive zapewnia dwie zalety w stosunku do bezpośredniego pobierania, gdy skrypt po prostu podąża za linkami witryny. Po pierwsze, wszystkie pliki tego odzyskiwania są natychmiast znane, możesz oszacować wielkość witryny i czas potrzebny do jej pobrania. Ze względu na charakter działania archiwum internetowego czasami działa on bardzo niestabilnie, dlatego możliwe jest zrywanie połączenia lub niekompletne pobieranie plików, dlatego algorytm modułu stale sprawdza integralność otrzymanych plików iw takich przypadkach próbuje pobrać zawartość, ponownie łącząc się z serwer archiwum internetowego. Po drugie, ze względu na specyfikę indeksowania stron internetowych przez Archiwum WWW, nie wszystkie pliki stron internetowych mogą mieć bezpośrednie linki, co oznacza, że ​​gdy spróbujesz pobrać stronę internetową, po prostu podążając za linkami, będą one niedostępne. Dlatego przywracanie za pomocą interfejsu API archiwum internetowego używanego przez Archivarix umożliwia przywrócenie maksymalnej możliwej ilości zarchiwizowanej zawartości strony internetowej dla określonej daty.

Po zakończeniu operacji moduł pobierania z Archiwum internetowego przesyła dane do modułu przetwarzania. Z otrzymanych plików tworzy stronę internetową odpowiednią do instalacji na serwerze Apache lub Nginx. Witryna działa w oparciu o bazę danych SQLite, więc aby rozpocząć, wystarczy przesłać ją na serwer i nie jest wymagana instalacja dodatkowych modułów, baz danych MySQL i tworzenie użytkowników. Moduł przetwarzania optymalizuje utworzoną stronę internetową; obejmuje optymalizację obrazu, a także kompresję CSS i JS. Może to znacznie przyspieszyć pobieranie przywróconej witryny, w porównaniu do oryginalnej witryny. Szybkość pobierania niektórych niezoptymalizowanych stron Wordpress z wieloma wtyczkami i nieskompresowanymi plikami multimedialnymi może znacznie wzrosnąć po przetworzeniu przez ten moduł. Oczywiste jest, że jeśli strona została wstępnie zoptymalizowana, nie spowoduje to znacznego wzrostu prędkości pobierania.

Moduł przetwarzania usuwa reklamy, liczniki i analizy, sprawdzając otrzymane pliki w obszernej bazie danych dostawców reklam i analiz. Usuwanie zewnętrznych linków i klikalnych kontaktów odbywa się po prostu za pomocą kodu sumy kontrolnej. Ogólnie rzecz biorąc, ten algorytm wykonuje dość wydajne czyszczenie strony internetowej z „śladów poprzedniego właściciela”, chociaż czasami nie wyklucza to potrzeby ręcznej korekty. Na przykład samodzielnie napisany skrypt Java przekierowujący użytkownika witryny do określonej witryny generującej przychody nie zostanie usunięty przez algorytm. Czasami musisz dodać brakujące zdjęcia lub usunąć niepotrzebne pozostałości, jako spamowaną księgę gości. Dlatego konieczne jest zatrudnienie redaktora powstałej witryny. I już istnieje. Nazywa się Archivarix CMS.

Jest to prosty i kompaktowy CMS przeznaczony do edycji stron internetowych stworzonych przez system Archivarix. Umożliwia wyszukiwanie i zamianę kodu w całej witrynie przy użyciu wyrażeń regularnych, edycję treści w edytorze WYSIWYG, dodawanie nowych stron i plików. Archivarix CMS może być używany razem z dowolnym innym CMS na jednej stronie internetowej.

Porozmawiajmy teraz o innym module używanym do pobierania istniejących witryn. W przeciwieństwie do modułu do pobierania stron internetowych z Archiwum internetowego, nie można przewidzieć, ile i które pliki należy pobrać, więc serwery modułu działają w zupełnie inny sposób. Pająk serwera podąża za wszystkimi linkami, które są obecne na stronie, którą zamierzasz pobrać. Aby skrypt nie wpadał w niekończący się cykl pobierania dowolnej automatycznie generowanej strony, maksymalna głębokość łącza jest ograniczona do dziesięciu kliknięć. A maksymalna liczba plików, które można pobrać ze strony internetowej, musi zostać wcześniej określona.

Aby uzyskać najbardziej kompletne pobieranie potrzebnej zawartości, w tym module wymyślono kilka funkcji. Możesz wybrać innego pająka usługi User-Agent, na przykład Chrome Desktop lub Googlebot. Polecający w celu obejścia maskowania - jeśli chcesz pobrać dokładnie to, co widzi użytkownik po zalogowaniu z wyszukiwania, możesz zainstalować Google, Yandex lub inną stronę polecającą. Aby zabezpieczyć się przed banowaniem przez IP, możesz pobrać stronę internetową za pomocą sieci Tor, podczas gdy IP pająka usługi zmienia się losowo w tej sieci. Inne parametry, takie jak optymalizacja obrazu, usuwanie reklam i analizy są podobne do parametrów modułu pobierania z Archiwum internetowego.

Po zakończeniu pobierania zawartość jest przenoszona do modułu przetwarzającego. Jego zasady działania są całkowicie podobne do działania ze stroną pobraną z wyżej opisanego archiwum internetowego.

Warto również wspomnieć o możliwości klonowania przywróconych lub pobranych stron internetowych. Czasami zdarza się, że podczas odzyskiwania wybrano inne parametry, niż się okazało na końcu konieczne. Na przykład usunięcie linków zewnętrznych było niepotrzebne, a niektóre linki zewnętrzne były potrzebne, a następnie nie trzeba ponownie zaczynać pobierania. Musisz tylko ustawić nowe parametry na stronie odzyskiwania i rozpocząć ponowne tworzenie witryny.

 

Wykorzystanie materiałów artykułu jest dozwolone tylko wtedy, gdy opublikowany jest link do źródła: https://pl.archivarix.com/blog/how-does-it-works/

Najnowsze wiadomości:
2020.02.14
Новая пятница, новые обновления!
Много нового и полезного было сделано в Archivarix CMS:
- В Поиске и Замене теперь можно фильтровать по дате урла.
- Теперь внешние ссылки со всех страниц сайта можно удалять нажатием одной кнопки. Анкоры сохраняются.
- Новый параметр ACMS_SAFE_MODE, который запрещает менять настройки Лоадера/CMS и загружать кастомные файлы, у импортов тоже запрещается импортировать настройки и кастомные файлы.
- JSON-файлы настроек Лоадера и CMS теперь можно скачать себе на компьютер и загрузить в CMS из файла на компьютере. Таким образом перенос настроек на другие сайты стал ещё проще.
- Создание кастомных правил стало удобнее, есть часто используемые шаблоны, которые можно выбрать.
- Новые кастомные файлы можно создать в файл менеджере без необходимости загружать файл.
- Дерево урлов для основного домена всегда идёт первым.
- Если вы скрываете дерево урлов для домена/поддомена, то эта настройка сохраняется во время работы с CMS.
- Вместо двух кнопок раскрыть/свернуть дерево урлов, теперь одна, которая умеет и то и другое.
- Создание нового урла упростилось и при создании можно сразу указать файл с компьютера.
- В мобильной вёрстке основная рабочая часть идёт первой.
- После каждой манипуляции с файлом, в базе обновляется его размер.
- Исправлена работа кнопок выборочных откатов истории.
- Исправлено создание новых урлов для поддоменов, которые содержат цифры в названии домена.
2020.02.07
Nowa porcja aktualizacji!
Teraz nie trzeba już nic zmieniać w kodzie źródłowym plików.
- Teraz możesz przesyłać strony na serwer, przesyłając na serwer tylko jeden skrypt z naszego Archivarix CMS.
- Aby zmienić coś w ustawieniach CMS, nie trzeba już otwierać jego kodu źródłowego. Możesz ustawić hasło lub dolne limity bezpośrednio w sekcji Ustawienia.
- Aby połączyć swoje liczniki, moduły śledzące, skrypty niestandardowe, w folderze .content.xxxxxx jest teraz używany osobny folder „obejmuje”. Możesz również przesyłać pliki niestandardowe bezpośrednio przez nowego menedżera plików w CMS. Dodanie liczników i danych analitycznych do wszystkich stron witryny stało się również wygodne i zrozumiałe.
- Importowanie obsługuje nową strukturę plików z ustawieniami i folder „zawiera”.
- Dodano skróty klawiaturowe do pracy w edytorze kodu.

Te i wiele innych ulepszeń w nowej wersji. Moduł ładujący został również zaktualizowany i działa z ustawieniami tworzonymi przez CMS.
2020.01.23
Kolejna mega aktualizacja Archivarix CMS!

Dodano bardzo przydatne narzędzia, które umożliwiają kliknięcie przycisku:
- wyczyść wszystkie zepsute linki wewnętrzne,
- usuń brakujące obrazy,
- ustaw rel = "nofollow" dla wszystkich linków zewnętrznych.

Teraz dodatkowe odzyskiwanie można zaimportować bezpośrednio z samego CMS. Możesz połączyć różne odzyskiwanie w jedną działającą witrynę.

Dla tych, którzy pracują z dużymi witrynami lub używają złego hostingu - wszystkie działania, które wcześniej mogły zostać zatrzymane po przekroczeniu limitu czasu twojego hostingu, zostaną teraz podzielone na części i będą automatycznie kontynuowane aż do ich zakończenia. Chcesz dokonać wymiany w kodzie 500 tysięcy plików? Zaimportować kilka gigabajtów odzyskiwania? Wszystko to jest teraz możliwe na każdym, nawet bardzo tanim hostingu. Limit czasu (domyślnie 30 sekund) można zmienić w parametrze ACMS_TIMEOUT.

Nasz moduł ładujący (index.php) działa teraz zarówno na protokołach http, jak i https, niezależnie od parametrów kompilacji. Możesz wymusić protokół, zmieniając wartość parametru ARCHIVARIX_PROTOCOL.
2020.01.07
Kolejna aktualizacja Archivarix CMS z dodaniem nowej funkcjonalności. Teraz każdą starą stronę można poprawnie przekonwertować na UTF-8 jednym kliknięciem. Filtrowanie wyszukiwania stało się jeszcze lepsze, ponieważ Teraz wyniki można filtrować według typu MIME.
2019.12.20
Wypuściliśmy długo oczekiwaną aktualizację Archivarix CMS. W nowej wersji, oprócz różnych ulepszeń i optymalizacji, dodano bardzo przydatną funkcję do dodatkowego filtrowania wyników wyszukiwania i pełnego wsparcia struktury drzewa adresów URL do odzyskiwania z dużą liczbą plików. Więcej informacji można znaleźć w dzienniku zmian w skrypcie Archivarix CMS .