Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

広島県のHPからデータを自動収集 #9

Open
tatsuya1970 opened this issue Apr 11, 2020 · 5 comments
Open

広島県のHPからデータを自動収集 #9

tatsuya1970 opened this issue Apr 11, 2020 · 5 comments

Comments

@tatsuya1970
Copy link
Owner

tatsuya1970 commented Apr 11, 2020

改善詳細 / Details of Improvement

広島県のHPからデータを自動収集したい。

【現状】
現在、広島県のサイトから以下の方法で収集したデータをdata.jsonに反映し、デプロイしている。

data.jsonはこちら → https://github.com/tatsuya1970/covid19/blob/development/data/data.json

(1)陽性患者数
データ入手先:https://www.pref.hiroshima.lg.jp/soshiki/57/bukan-coronavirus.html
更新方法:目視してGiitHubのdata.jsonに手入力し、デプロイ。

(2)陽性患者の属性
データ入手先:https://www.pref.hiroshima.lg.jp/soshiki/57/bukan-coronavirus.html
更新方法:コマンドプロンプトでPythonのスクレイピングのプログラムを実行した結果をGitHubのdata.jsonにコピー&ペーストし、デプロイ。

プログラムはこちら(北海道のプログラムを改良):https://github.com/tatsuya1970/covid19scraping/blob/master/patients.py

(3)検査実施数
データ入手先:https://www.pref.hiroshima.lg.jp/soshiki/50/korona-kensazisseki.html
更新方法:目視してGiitHubのdata.jsonに手入力し、デプロイ。

(4)新型コロナ相談件
データ入手先:https://www.pref.hiroshima.lg.jp/soshiki/50/korona-soudan-kennsai.html
更新方法:目視してGiitHubのdata.jsonに手入力し、デプロイ。


【やりたいこと】
(1)(2)(3)(4)を自動収集 し、data.jsonファイルを作成。
デプロイは自動ではなく人間が実行する。

@mmorito
Copy link

mmorito commented Apr 13, 2020

@tatsuya1970
こちら、残作業は以下で合っていますでしょうか?

  • 残っている(1)(3)(4)のスクレイピングプログラムの追加
  • (1)(2)(3)(4)のスクレイピングプログラムの実行結果を1つのdata.jsonにマージして出力
  • data.jsonを定期更新する方法を考える
    • 参考リポジトリを踏襲するとGithub Actionsの定期実行でGithubへコミットする?

@tatsuya1970
Copy link
Owner Author

@mmorito
まさに、その通りです。

@mmorito
Copy link

mmorito commented Apr 16, 2020

収集対象 JsonのKey名 備考
陽性患者数 patients_summary 今出ているやつでOK?
陽性患者の属性 patients 今出ているやつでOK?
検査実施数 inspections_summary 新規作成
新型コロナ相談件 contacts 新規作成
退院患者数?? discharges_summary 新規作成?(どこから取得してきてどこで使ってるか分からない)

@tatsuya1970
Copy link
Owner Author

陽性患者数 patients_summary
Q: 今出ているやつでOK?
A:  いいえ。手作業でやってます。

陽性患者の属性  patients
Q: 今出ているやつでOK?
A: OKです。

退院患者数(discharges_summary)
Q: どこから入手しているか?
A:  広島県のHPから目視です。
https://www.pref.hiroshima.lg.jp/soshiki/57/bukan-coronavirus.html

Q:どこに使われてるか?
A:分からないですが、試しにこのkeyを削除すると全体が表示されなくなりますので残してます。

@mmorito
Copy link

mmorito commented Apr 17, 2020

@tatsuya1970
ご回答ありがとうございます!

陽性患者数 patients_summary

理解しました!小計の数値が合ってないですね。

退院患者数(discharges_summary)

こちらも理解しました!
詳細情報にある「3月11日退院」などの日付を目視で拾っているんですね!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants