Docker 형식 아카이빙 프로그램 설정법 혹은 추천?
헤놀에 도커로 올려서 아카이브좀 해볼라는데
Archivebox
wallabag 같은 도커들은 설치자체는 제대로되고 작동?도 합니다.
근데 설정이 문제인거 같은데 저장된 결과물들이 마음에 안드네요.
wallabag은 이미지도 제대로 저장이 안되고 사이트가 좀만 복잡해지면 에러를 뿜습니다.
텍스트만 저장되는? 그런 상황이네요.
Archivebox는 어떤 사이트를 해도 차단이 되었다면서 빈결과물만 저장이 됩니다.
구글링하니까 해결방법이 있는거 같긴한데 적용하는 방법을 모르겠네요.
혹시 요즘에 정상적으로 작동하시는 분이 있으면 팁좀 알 수 있을까요?
아니면 요즘 사용하기 좋다는 프로그램있다면 추천해주신다면 감사하겠습니다.
1등
purndal 2024.05.04. 00:16
궁금해서 잠시 보니... compose에..
### Example: Run PYWB in parallel and auto-import WARCs from ArchiveBox # pywb: # image: webrecorder/pywb:latest # entrypoint: /bin/sh -c '(wb-manager init default || test $$? -eq 2) && wb-manager add default /archivebox/archive/*/warc/*.warc.gz; wayback;' # environment: # - INIT_COLLECTION=archivebox # ports: # - 8080:8080 # volumes: # - ./data:/archivebox # - ./data/wayback:/webarchive
라는 것이 주석이 되어져 있네요.. 저 pywb 깃헙의 내용 번역이..
pywb 는 크고 작은 웹 아카이브를 최대한 정확하게 재생하기 위한 Python 3 웹 아카이브 툴킷입니다. 이제 툴킷에는 고품질 웹 아카이브를 생성하기 위한 새로운 기능도 포함되어 있습니다.
이 도구 세트는 Webrecorder 프로젝트의 기초를 형성할 뿐만 아니라 전통적인 "Wayback Machine" 기능을 포함하여 다른 웹 아카이브에서 사용되는 일반 웹 아카이브 도구 키트도 제공합니다.
인걸로 보아.. 파이썬으로 웹 페이지를 읽어오는 역활을 하는가봅니다. ㅎ.
purndal
흠 주석중에 추가를 해야하는 녀석들이 좀 있군요
cmt alert