OpenFoundry.org 封存

完整頁面清單

pages.tsv 中列舉了所有頁面

branch

main branch - 放置文件與網站 archive 的相關 script
gh-pages branch - 靜態化網站完整頁面與檔案

下載全站檔案

約 70GB（含 .git）；純靜態檔案約 36GB

約 36GB

➜ brew install git-lfs # mac brew 安裝 git LFS (其他作業系統參考: https://github.com/git-lfs/git-lfs#installing)
➜ git lfs install # 初始化 LFS
➜ git clone --single-branch -b gh-pages https://github.com/ocftw/openfoundry.org.git # 下載 gh-pages branch

鏡像網站製作流程

在 mac 上安裝 httrack

➜  ~ brew install httrack

建立基礎鏡像

./httrack.sh

binary 檔案的擷取策略

先只抓 html 網頁
接著再從 hts-cache/new.txt 中列舉 binary 檔案
sftp 進去主機找該檔案，下載後置入，於 httrack.sh 手動排除該路徑
再用 httrack_url_list.sh 抓取其餘的 binary 檔案

binary 檔案位置

/archived/*.zip
/wsw/dmdocuments/*.pdf
/of/MOST/103/*.pdf
/of/MOST/102_testing/*.pdf
/of/nsc_upload_dir/*.pdf
/of/public/tmp/nsc101-20130618/*.pdf
/of/public/download/* (120GB, 暫且不抓) //FIXME

詳細處理流程

請參考 commit history - main branch、gh-pages branch

使用 page_search_to_list.sh 搜尋問題頁面（如 "Page not found"）
使用 files_to_urls.sh 將檔案路徑轉換為 URL
使用 extract_media.sh 提取多媒體檔案清單
使用 httrack_url_list.sh 抓取清單列出的 URL 目標

授權

main branch 下的所有檔案以 CC0 釋出至公眾領域。
gh-pages 內的網頁、影像與多媒體檔案，依循 openfoundry.org 網站授權——除另有註明外，採用 CC BY-NC-ND 4.0 創用CC「姓名標示─非商業性─禁止改作 4.0 國際」授權及其後續版本授權釋出，請標明著作智慧財產權屬於中央研究院。

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitattributes		.gitattributes
LICENSE.txt		LICENSE.txt
delete_40x_files.sh		delete_40x_files.sh
export-titles-to-tsv.js		export-titles-to-tsv.js
extract_media.sh		extract_media.sh
file-mapping.json		file-mapping.json
httrack.sh		httrack.sh
httrack_url_list.sh		httrack_url_list.sh
non-html-content-scanner.js		non-html-content-scanner.js
page_search_to_list.sh		page_search_to_list.sh
pages.tsv		pages.tsv
readme.md		readme.md
run.log		run.log
unmapped-files.txt		unmapped-files.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

OpenFoundry.org 封存

完整頁面清單

branch

下載全站檔案

鏡像網站製作流程

binary 檔案位置

詳細處理流程

授權

About

Uh oh!

Releases

Packages

Languages

License

ocftw/openfoundry.org

Folders and files

Latest commit

History

Repository files navigation

OpenFoundry.org 封存

完整頁面清單

branch

下載全站檔案

鏡像網站製作流程

binary 檔案位置

詳細處理流程

授權

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages