Применение искинов - шоссе империализма (Стенгазета русификаторов ИТ)

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.



К вопросу об архивации форумов

Сообщений 1 страница 8 из 8

1

Помимо сохранения самых чудесных страниц в web.archive.org (и ещё нескольких подобных сервисах) можно сделать утилиту упаковки скачанного содержимого форума в .epub.
Закачать на какой-нибудь sourceforge и раздавать через rutracker.org. Это и публичность дополнительная, и хранить .epub-файлы многие наловчились (я пользуюсь программой Calibre, например)

Отредактировано Лис (2018-11-18 03:50:54)

0

2

Тут зарелизилась новая версия IPFS и теперь модно сайты бэкапить туда, а не только в web.archive.org

В отличие от .epub-файлов, такие статические копии сайтов можно рассматривать прямо в браузере

Отредактировано Лис (2018-11-18 01:39:12)

0

3

https://www.linux.org.ru/forum/general/15137253

формат WARC, используемый для хранения резервных копий веб-сайтов (к примеру, его использует Wayback Machine) и про софт для «записи» и «воспроизведения» веб-сайта. Для «воспроизведения» нашёл PyWB (ставится через pip), он поднимает локальный веб-сервер, на котором можно посмотреть сайты из WARC-файлов, входящих в коллекцию (коллекция собирается перед запуском сервера).

- Сайт «Webrecorder». Можно указать ссылку, дождаться загрузки содержимого, и скачать файл.
- Warcprox. Прокси-сервер, сохраняющий все посещённые страницы. Проблема в том, что HTTPS страницы сохраняются через MITM с сгенерированным сертификатом. Да и можно просто забыть посетить некоторые страницы. Годится для сохранения нескольких страниц.
- wget. Умеет сохранять в WARC. Удобно, а в Tails его можно даже через Tor пустить, чтобы иметь возможность сохранить заблокированный сайт. Но возникла проблема на сайте TV Tropes – на сохранённой странице не показывался контент «под катом», хотя при просмотре той же страницы на Wayback Machine всё работало (то есть дело, скорее всего, не в WARC). Можно ли как-то исправить эту проблему? Или поискать другой краулер?

0

4

web.archive.org загибается. Ну что за безответственные люди эти иностранцы?
https://forumupload.ru/uploads/0018/41/1a/34/473034.gif

0

5

https://en.wikipedia.org/wiki/Web_ARChive

ISO 28500:2009 = WARC 1.0 standard

ISO 28500:2017
https://iipc.github.io/warc-specificati … /warc-1.1/

Для FireFox есть AddOn для просмотра WARC-файлов:
https://mybrowseraddon.com/web-archive-viewer.html

Опции wget (начиная с версии 1.14 в 2012-м году) для создания WARC-файлов:
https://www.gnu.org/software/wget/manual/wget.html

‘--warc-file=file’
    Use file as the destination WARC file.

‘--warc-header=string’
    Use string into as the warcinfo record.

‘--warc-max-size=size’
    Set the maximum size of the WARC files to size.

‘--warc-cdx’
    Write CDX index files.

‘--warc-dedup=file’
    Do not store records listed in this CDX file.

‘--no-warc-compression’
    Do not compress WARC files with GZIP.

‘--no-warc-digests’
    Do not calculate SHA1 digests.

‘--no-warc-keep-log’
    Do not store the log file in a WARC record.

‘--warc-tempdir=dir’
    Specify the location for temporary files created by the WARC writer.

Cтатья c примером того, как надо запускать wget, чтобы получить копию сайта:
https://wiki.archiveteam.org/index.php/ … ARC_output

Про рекурсивное скачивание:
https://www.gnu.org/software/wget/manua … nload.html
https://www.gnu.org/software/wget/manua … tions.html

Про роботов:
https://www.gnu.org/software/wget/manua … usion.html

---

Для просмотра не аддоном:
https://github.com/webrecorder/replayweb.page
https://replayweb.page/
«No app to install, just go to the page and browse to your file. All processing is local.» (q)

Отредактировано Лис (2021-06-22 18:35:23)

0

6

$ wget --mirror https://plana.mybb.ru/  --no-warc-compression  --warc-file="plana" --recursive --level=5 --convert-links --page-requisites --wait 5 -e robots=off
...
$ du -b plana.warc
255 118 962 plana.warc
$ du -b plana.warc.gz
42 114 532 plana.warc.gz

[html]
<a href="https://en.wikipedia.org/wiki/Comparison_of_software_saving_Web_pages_for_offline_use">https://en.wikipedia.org/wiki/Comparison_of_software_saving_Web_pages_for_offline_use</a>
[/html]

Отредактировано Лис (2021-06-23 15:11:42)

0

7

Круто!
У меня такой BAT-файл скачивает объявления из бегущей строки трамвая
и помещает в папку tech-rataksa.ru
в файл с именем текущей даты.

Вместо полей PROXY, USER, PASSWORD
вставьте свои поля.
Это чтобы народ знал,
как в программе wget
подсоединяться через прокси-сервер.

Код:
for /F "tokens=1-4 usebackq delims=. " %%1 in (`date /t`) do set mydate=%%3.%%2.%%1

wget -e https_proxy=https://PROXY:3128/ --no-check-certificate --proxy-user=USER --proxy-password=PASSWORD https://tech-rataksa.ru/wp-content/uploads/today_ads.csv
move   /Y   today_ads.csv   tech-rataksa.ru
ren tech-rataksa.ru\today_ads.csv  %mydate%.txt

0

8

Кроме WARC есть ещё формат ZIM, читать про него в википедии (программа Kiwix):
https://ru.wikipedia.org/wiki/Kiwix

есть офлайн-читалка, можно сконвертировать WARC в ZIM чтобы ею читать:
https://github.com/openzim/warc2zim

Другие разные способы создания zim-файлов:
https://wiki.openzim.org/wiki/Build_your_ZIM_file

ZIM с диффами,
есть софт для регулярного архивирования
есть софт для отображения через web в локальной сети

Отредактировано Лис (2022-03-08 22:59:03)

0