Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

全対象URLをローカルで機械学習し、質問する前に選別する #204

Draft
wants to merge 14 commits into
base: master
Choose a base branch
from

Conversation

yuiseki
Copy link
Member

@yuiseki yuiseki commented Apr 26, 2020

No description provided.

@vercel
Copy link

vercel bot commented Apr 26, 2020

This pull request is being automatically deployed with Vercel (learn more).
To see the status of your deployment, click below or on the icon next to each commit.

🔍 Inspect: https://vercel.com/arakawatomonori/covid19-surveyor/3r8jm1495
✅ Preview: https://covid19-surveyor-git-eval-all-url.arakawatomonori.now.sh

@yuiseki yuiseki requested review from takano32 and osoken April 26, 2020 10:21
continue
fi
echo "$md5,$text" >> ./data/eval.csv
done < ./data/urls-md5.csv
Copy link
Member Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

urls-md5.csvにある4万件のURLをすべてwgetして、テキストを抽出して、機械学習できるcsvに整える

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

入力データの urls-md5.csv の最後のほうが壊れているように見えるのは既出でしたっけ。

capt_20200427_221313_00

この PR に限った話ではないですが、各 .csv の各列が何を示しているか分かる情報が無いとコードレビューにも少し支障をきたすかな、というお気持ちがあります。

たとえば .csv であれば1行目に見出しとして各列の意味情報を入れておく(その上で .csv を読み取るプログラムは1行目の読み込みはスキップする)と分かりやすいです。このファイルの場合は hash,url という構造なのだな、ということは「雰囲気で」分かるのですが。

@yuiseki yuiseki changed the title 全対象URLをローカルで機械学習する 全対象URLをローカルで機械学習し、質問する前に選別する Apr 26, 2020
@yuiseki yuiseki requested a review from kobake April 26, 2020 10:24
Copy link
Member

@takano32 takano32 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

set +eset -eget_text_by_url の中でやってしまうのがよいと思いました。

ほかは致命的ではなさそうな指摘になります。

auto-ml/urls-md5-csv-to-eval-csv.sh Show resolved Hide resolved
auto-ml/urls-md5-csv-to-eval-csv.sh Outdated Show resolved Hide resolved
slack-bot/url-vote-map.sh Show resolved Hide resolved
@@ -146,7 +163,7 @@ main() {
#members_list="xUUL8QC8BUx xU011H85CM0Wx xUUQ99JY5Rx xU011C3YGDABx"
for member in $members_list; do
member_id=${member:1:-1}
send_message $member_id
echo `send_message $member_id`
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

いまさらなのだけれど send_message という名前が分かりにくかった。

「なんでこれ引数がひとつなんだ? send_message(member_id, message) じゃないの?」と思って、実装を読みに行ったら send_question(_from_queue) みたいな内容だった。

という、レビューしました。

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

send_message がなんでもやりすぎ問題。

send_message が関数名から予想できない動きになっているのをどうにかしたい。

send_message() {
  member_id = $1
  message = $2
  # ... メッセージ送信
}
send_question() {
  member_id = $1
  question = get_question
  send_message($member_id, $question)
}

みたいに分けて、 send_question の呼び出しになっているとよさそう。

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

change を suggest したい気はするのだけれど、動作環境や動かし方のドキュメント or テストがないので、動くコードを書けない。

### 機械学習で評価した結果とURLのmd5を対応付けたファイルを生成する
###
data/eval-results-md5.csv: tmp/eval-result.csv
cat tmp/eval.csv|cut -d',' -f 1 > tmp/md5.csv
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

tmp/eval.csv というファイルパスは意図通りですか?
他の eval.csvdata/eval.csv となっているようですが。

Comment on lines 20 to +21
# result.txtからURLのみを抜き出す
urls=$(cat ./tmp/results.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g')
urls=$(cat ./tmp/grep-aggregate.txt | cut -d':' -f 1 | sed -z 's/\.\/www-data\///g')
Copy link
Collaborator

@kobake kobake Apr 28, 2020

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

今回の変更で tmp/results.txttmp/grep-aggregate.txt にリネームされたという解釈で合ってますか?
解釈が合っている前提でコメントすると、

  • # result.txtからURLのみを抜き出す というコメント文も書き換えてほしいです。(要望)
  • tmp/grep-aggregate.txt というファイル自体はどこから出現する(生成される)ものなのでしょうか?(質問)
  • .dockerignore ファイル内に書かれている /result.txt という行も追随して変更しなくて大丈夫ですか?(疑問)

@takano32
Copy link
Member

Note
ほかの PR を Approve する前に #209 を入れたい。

@takano32
Copy link
Member

#209 マージされました。 👍

@vercel vercel bot requested a deployment to Preview April 30, 2020 06:52 Abandoned
@yuiseki yuiseki marked this pull request as draft July 17, 2021 02:45
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants