-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
全対象URLをローカルで機械学習し、質問する前に選別する #204
base: master
Are you sure you want to change the base?
Conversation
This pull request is being automatically deployed with Vercel (learn more). 🔍 Inspect: https://vercel.com/arakawatomonori/covid19-surveyor/3r8jm1495 |
continue | ||
fi | ||
echo "$md5,$text" >> ./data/eval.csv | ||
done < ./data/urls-md5.csv |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
urls-md5.csvにある4万件のURLをすべてwgetして、テキストを抽出して、機械学習できるcsvに整える
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
set +e
と set -e
は get_text_by_url
の中でやってしまうのがよいと思いました。
ほかは致命的ではなさそうな指摘になります。
@@ -146,7 +163,7 @@ main() { | |||
#members_list="xUUL8QC8BUx xU011H85CM0Wx xUUQ99JY5Rx xU011C3YGDABx" | |||
for member in $members_list; do | |||
member_id=${member:1:-1} | |||
send_message $member_id | |||
echo `send_message $member_id` |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
いまさらなのだけれど send_message
という名前が分かりにくかった。
「なんでこれ引数がひとつなんだ? send_message(member_id, message)
じゃないの?」と思って、実装を読みに行ったら send_question(_from_queue)
みたいな内容だった。
という、レビューしました。
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
send_message
がなんでもやりすぎ問題。
send_message
が関数名から予想できない動きになっているのをどうにかしたい。
send_message() {
member_id = $1
message = $2
# ... メッセージ送信
}
send_question() {
member_id = $1
question = get_question
send_message($member_id, $question)
}
みたいに分けて、 send_question
の呼び出しになっているとよさそう。
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
change を suggest したい気はするのだけれど、動作環境や動かし方のドキュメント or テストがないので、動くコードを書けない。
### 機械学習で評価した結果とURLのmd5を対応付けたファイルを生成する | ||
### | ||
data/eval-results-md5.csv: tmp/eval-result.csv | ||
cat tmp/eval.csv|cut -d',' -f 1 > tmp/md5.csv |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
tmp/eval.csv
というファイルパスは意図通りですか?
他の eval.csv
は data/eval.csv
となっているようですが。
# result.txtからURLのみを抜き出す | ||
urls=$(cat ./tmp/results.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g') | ||
urls=$(cat ./tmp/grep-aggregate.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g') |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
今回の変更で tmp/results.txt
が tmp/grep-aggregate.txt
にリネームされたという解釈で合ってますか?
解釈が合っている前提でコメントすると、
# result.txtからURLのみを抜き出す
というコメント文も書き換えてほしいです。(要望)tmp/grep-aggregate.txt
というファイル自体はどこから出現する(生成される)ものなのでしょうか?(質問).dockerignore
ファイル内に書かれている/result.txt
という行も追随して変更しなくて大丈夫ですか?(疑問)
Note |
#209 マージされました。 👍 |
No description provided.