arakawatomonori · yuiseki · Apr 26, 2020 · Apr 26, 2020 · Apr 26, 2020 · Apr 26, 2020
diff --git a/Makefile b/Makefile
@@ -21,9 +21,8 @@ clean:
 	rm -f www-data/index.json
 
 ###
-### crawler
+### 一番最初にwgetでクローリングをする
 ###
-
 .PHONY: wget
 wget:
 	# csv内の全ドメインをwww-data以下にミラーリングする
@@ -38,27 +37,70 @@ endif
 	cat ../tmp/urls.txt |xargs -I{} wget --force-directories --no-check-certificate {}
 	cd -
 
-# www-data内の巨大なファイルを削除する
+###
+### wgetで収集したwww-data内の巨大なファイルを削除する
+###
 .PHONY: remove-large-files
 remove-large-files:
 	./crawler/remove-large-files.sh
 
-# www-data内のHTMLとPDFをgrepで検索する
-# tmp/grep_コロナ.txt.tmp を生成する
+###
+### wgetで収集したwww-data内のHTMLとPDFをgrepで検索しgrep_コロナ.txt.tmpを生成する
+###
 .PHONY: grep
 grep: tmp/grep_コロナ.txt.tmp
 
 tmp/grep_コロナ.txt.tmp: remove-large-files
 	./crawler/grep.sh
 
-# grep結果を集計する
-# 複数のキーワードでgrepしているので重複があったりするのをuniqする
-# tmp/results.txt, tmp/urls.txt を生成する
-.PHONY: aggregate
-aggregate: tmp/results.txt
+###
+### grepの結果を集計する
+### 複数のキーワードでgrepしているので重複があったりするのをuniqしgrep_aggregate.txtを生成する
+###
+.PHONY: grep-aggregate
+aggregate: tmp/grep_aggregate.txt
+
+tmp/grep_aggregate.txt: grep
+	./crawler/grep-aggregate.sh
+
+###
+### grepの結果からURLのみを収集しmd5を計算しurls-md5.csvを生成する
+###
+.PHONY: urls-md5
+urls-md5: data/urls-md5.csv
+
+data/urls-md5.csv: tmp/grep_aggregate.txt
+	./crawler/urls-md5.sh
+
+###
+### URLの一覧すべてをwgetし機械学習できるテキストファイル形式にする
+###
+data/eval.csv: data/urls-md5.csv
+	./auto-ml/urls-md5-csv-to-eval-csv.sh
+
+###
+### これまでの回答を使って機械学習の訓練をしてモデルをつくる
+###
+data/model.pkl:
+	cd scripts-ml
+	sudo docker run --rm -v $(pwd)/../data:/data covid19surveyorml:latest -v train /data/auto-ml-vote.csv /data/model.pkl
+	cd -
+
 
-tmp/results.txt: grep
-	./crawler/aggregate.sh
+###
+### URLの一覧から生成したテキストファイルを機械学習で評価し結果を出力する
+###
+data/eval-result.csv: data/eval.csv
+	cd scripts-ml
+	sudo docker run --rm -v $(pwd)/../data:/data covid19surveyorml:latest eval /data/model.pkl --input_file /data/eval.csv > ../data/eval-result.csv
+	cd -
+
+###
+### 機械学習で評価した結果とURLのmd5を対応付けたファイルを生成する
+###
+data/eval-results-md5.csv: tmp/eval-result.csv
+	cat tmp/eval.csv|cut -d',' -f 1 > tmp/md5.csv
+	paste -d ' ' tmp/md5.csv tmp/eval-result.csv > data/eval-results-md5.csv
 
 # www-data/index.html, www-data/index.jsonを生成する
 .PHONY: publish

diff --git a/auto-ml/reduce-csv-to-auto-ml-csv.sh b/auto-ml/reduce-csv-to-auto-ml-csv.sh
@@ -11,8 +11,8 @@ main() {
         orgname=`echo $line| cut -d',' -f 1`
         prefname=`echo $line| cut -d',' -f 2`
         url=`echo $line| cut -d',' -f 3`
-        title=`echo $line| cut -d',' -f 4|sed s/\"/ /g`
-        desc=`echo $line| cut -d',' -f 5|sed s/\"/ /g`
+        title=`echo $line| cut -d',' -f 4|sed "s/\"/ /g"`
+        desc=`echo $line| cut -d',' -f 5|sed "s/\"/ /g"`
         echo "$title $desc, covid19_help"
     done < reduce.csv
 }

diff --git a/auto-ml/url-vote-reduce-for-auto-ml.sh b/auto-ml/url-vote-reduce-for-auto-ml.sh
@@ -19,8 +19,8 @@ get_row_by_url_with_label() {
     if [ $? -ne 0 ]; then
         return 1
     fi
-    title=$(get_title_by_res "$res")
-    desc=$(get_desc_by_res "$res" | remove_newline_and_comma)
+    title=$(get_title_by_res "$res"|sed "s/\"/ /g")
+    desc=$(get_desc_by_res "$res" | remove_newline_and_comma | sed "s/\"/ /g")
     echo "$title $desc, $label"
 }
 

diff --git a/auto-ml/urls-md5-csv-to-eval-csv.sh b/auto-ml/urls-md5-csv-to-eval-csv.sh
@@ -0,0 +1,36 @@
+#!/bin/bash
+set -e
+
+
+# 依存lib
+. ./lib/url-helper.sh
+. ./lib/string-helper.sh
+
+get_text_by_url() {
+    set +e
+    url=$1
+    res=$(wget -q -O - --tries=1 --timeout=5 --dns-timeout=5 --connect-timeout=5 --read-timeout=5 $url)
+    if [ $? -ne 0 ]; then
+        return 1
+    fi
+    title=$(get_title_by_res "$res"|sed "s/\"/ /g")
+    desc=$(get_desc_by_res "$res" | remove_newline_and_comma | sed "s/\"/ /g")
+    set -e
+    echo "$title $desc"
+}
+
+
+echo "" > ./data/eval.csv
+while read line;do
+    echo $line
+    md5=$(echo $line|cut -d',' -f 1)
+    url=$(echo $line|cut -d',' -f 2)
+    if [[ $url == "" ]]; then
+        continue
+    fi
+    text=$(get_text_by_url $url)
+    if [[ $text == "" ]]; then
+        continue
+    fi
+    echo "$md5,$text" >> ./data/eval.csv
+done < ./data/urls-md5.csv
diff --git a/crawler/grep-aggregate.sh b/crawler/grep-aggregate.sh
@@ -0,0 +1,7 @@
+#!/bin/bash
+set -e
+
+# ファイルを結合して一つにまとめる
+# ソートする
+# 重複を取り除く
+cat ./tmp/grep_コロナ_*.txt.tmp | sort | uniq > ./tmp/grep_aggregate.txt
diff --git a/crawler/aggregate.sh → crawler/urls-md5.sh b/crawler/aggregate.sh → crawler/urls-md5.sh
@@ -16,13 +16,9 @@ set -e
 # 依存lib
 . ./lib/url-helper.sh
 
-# ファイルを結合して一つにまとめる
-# ソートする
-# 重複を取り除く
-cat ./tmp/grep_コロナ_*.txt.tmp | sort | uniq > ./tmp/results.txt
 
 # result.txtからURLのみを抜き出す
-urls=$(cat ./tmp/results.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g')
+urls=$(cat ./tmp/grep-aggregate.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g')
 
 echo "" > ./tmp/urls.txt
 
@@ -34,7 +30,7 @@ done
 # sortしてuniqする
 sort < ./tmp/urls.txt | uniq > ./tmp/urls-uniq.txt
 
-echo "" > ./urls-md5.csv
+echo "" > ./data/urls-md5.csv
 
 for domain_and_path in `cat ./tmp/urls-uniq.txt`; do
     # domain=example.com
@@ -51,5 +47,5 @@ for domain_and_path in `cat ./tmp/urls-uniq.txt`; do
     # url=https://example.com/foo/bar.html
     url="$schema//$domain/$path"
     md5=`get_md5_by_url $url`
-    echo "$md5,$url" >> ./urls-md5.csv
+    echo "$md5,$url" >> ./data/urls-md5.csv
 done