Skip to content

项目数据集介绍(Chinese)

InfinityLoop edited this page Jan 31, 2021 · 1 revision

1. 实时确诊数据

1.1 数据集位置

https://github.com/swsoyee/2019-ncov-japan/blob/master/50_Data/byDate.csv

1.2 数据来源

数据来源:新型コロナウイルス 日本国内の最新感染状況マップ・感染者数(后简称 NewsDigest)的页面中部,点击 表で見る 即可查看当日统计表。请注意,该网站数字为实际人数,复发患者不算新增(而厚劳省和各个自治体的计算方法为复发也算新增)。

1.3 数据采集方式

  1. 在 AWS 上设定定时启动脚本,自动获取本项目的数据集和启动时的该网站表格中的数值进行差值比较;
  2. 如果存在差值,则自动向该项目提交数据更新类 Pull Request;
  3. Github Action 检测到该 Pull Request 包含数据类更改后,启动数据预处理生成网站所需要的数据格式后自动提交更新后,自动合并到 master 分支并且删除该数据更新类分支。
  4. 通过 CD 步骤自动部署到生产环境上,完成网站的实时数据更新。

1.4 数据修正

由于在表格中只方便获取当日差值,对于 NewsDigest 根据自治体数据对过去的数值进行订正的部分,需要每日进行数据核实手动修改。本项目所用的实时确诊项目基本与 NewsDigest 所发布数值完全一致。如存在差别,则需修改本项目的数据。

1.5 数据使用方式

1.5.1 首页第一列

右上角的感染者数(注意:该数值包含了钻石公主号确诊人数)。

1.5.2 首页第二列

  • 疫情地图标签 - 新增地图(表示模式为简易)中的每日新增人数(地图上的尖角柱状图);
  • 疫情地图标签 - 累计地图(表示模式为简易)中的感染者数(色块);
  • 疫情地图标签 - 动态(表示模式为详细)地图中的新增(气泡形)和累计(色块)感染者数;
  • 疫情地图标签 - 右侧感染表格中的新增、感染者数、感染推移、10万确诊数、Rt、倍加日数(默认隐藏,计划废除或需修改);
  • 疫情地图标签 - 右侧康复/死亡表格中的详情饼图(分母)计算;
  • 疫情地图标签 - 地图下方的现在患者总数的计算(分母);
  • 多维度比较标签 - 速报值与厚劳省的比较曲线中的速报值;
  • 感染者热图标签 - 每日新增热图和倍加时间热图;
  • 有效传染数标签 - Rt曲线图;
  • 通用底部 - 底部感染者数;

1.5.3 首页第三列

感染者推移标签下的所有内容。

2. 实时死亡数据

2.1 数据集位置

https://github.com/swsoyee/2019-ncov-japan/blob/master/50_Data/death.csv

2.2 数据来源

见1.2。

2.3 数据采集方式

见1.3。

2.4 数据修正

见1.4。

2.5 数据使用方式

2.5.1 首页第一列

右上角的死亡者数(注意:该数值包含了钻石公主号确诊人数)。

2.5.2 首页第二列

  • 疫情地图标签 - 右侧康复/死亡表格中的死亡、每百万人死亡数(预计变更为10万死亡数,同感染表格一致)
  • 疫情地图标签 - 地图下方的现在患者总数的计算(死亡人数被从分母中排除);
  • 多维度比较标签 - 速报值与厚劳省的比较曲线中的速报值;
  • 通用底部 - 底部死亡者数;

2.5.3 首页第三列

感染者推移标签下的所有内容。

3. 厚劳省每日汇总数据

3.1 数据集位置

基础数据:https://github.com/swsoyee/2019-ncov-japan/blob/master/50_Data/MHLW/summary.csv
咨询热线数据:https://github.com/swsoyee/2019-ncov-japan/blob/master/50_Data/MHLW/callCenter.csv

3.2 数据来源

在厚生劳动省的报道发表资料中,从5月9日之后会每日发布统一格式的PDF汇总报告,因此5月9日之后的数据可从列表中获取。在这之前的确诊PCR检测等厚劳省从各个省份收集而来的数据标准参差不齐,很难在完全统一的标准下进行数据汇总。由于本项目几乎是在疫情开始最初的时候就一致紧跟着所有数据,同时也收到过厚劳省数据分类标准变化、从公开到不公开、各种备注信息的影响,因此所有数据仅反应数据发表当时的状况,而不对过往数据进行订正。
如厚劳省在后一天的汇总中对昨天的数据进行了备注,说由于某些原因昨天的数值是不正确的,今天的数值是在矫正了昨天的数值后的新增数的。由于厚劳省不对昨天发表的PDF文档进行订正,因此该项目也不对过往数据进行额外处理。
也正因为如此,假设昨天发表的检测人数为+1000,今天订正昨天的正确检测人数为+500,而今天发表的检测人数为+300,则会在网站上看到检测人数为-200的现象发生。
实际:昨天 500 + 今天 300 = 800
发表:昨天 1000 + 今天 300 - 订正昨天(-500) = 800(网站显示为 +1000, -200)

3.3 数据采集方式

  1. 每日日本时间下午6点前后,厚生劳动省的报道发表资料页面会更新《新型コロナウイルス感染症の現在の状況と厚生労働省の対応について(令和x年x月x日版)》的消息内容;
  2. 在该页面中获得《【別紙1】各都道府県の検査陽性者の状況(空港検疫、チャーター便案件を除く国内事例)》的PDF地址加入到项目列表中;
  3. 运行 R 脚本 FetchSummary.R,数据会自动更新到基础数据 summary.csv
  4. 由于PDF文件中不包含检疫的数值,因此根据当日消息页面修改检疫数值。
  5. 执行 CreateTable.R 对数据预处理,以生成网站展示用的各类表格,从而减轻网站渲染压力。

3.4 数据修正

  1. 只收集当日发布的PDF表格中的数值,不根据备注中对昨日数据进行的订正进行修改。
  2. PDF表格中有单独一列 确认中 的数据,但是根据厚劳省本身提供的数值计算,会出现 阳性者 < 治疗中 + 康复者 + 死亡 + 确认中 的情况,因此不直接使用 确认中 的数值,而自行计算。
  3. 如果 阳性者 - ( 治疗中 + 康复者 + 死亡 )< 0,则假设负的人数为尚未康复人员,从 康复者 中减去负值,并将 确认中 设定为 0,但如果 阳性者 - ( 治疗中 + 康复者 + 死亡 )> 0,则将该值设为 确认中 的数值。因此本站的 确认中 数值和厚劳省发布的数值可能存在偏差。

3.5 数据使用方式

3.5.1 首页第一列

右上角的检测人数和康复人数(注意:该数值包含了钻石公主号确诊人数)。

3.5.2 首页第二列

  • 疫情地图标签 - 新增地图(表示模式为简易)中的现在感染人数(色块);
  • 疫情地图标签 - 重症地图(表示模式为简易)中的重症人数(色块);
  • 疫情地图标签 - 右侧检查表格中的所有数据;
  • 疫情地图标签 - 右侧康复/死亡表格中的康复数据和饼图的计算(注意:由于饼图的计算混合了实时数据和厚劳省数据,严格意义上来说两个数据集确诊人数的定义和数据收集时间标准不完全一样,不建议直接做加减计算,但由于没有更为优质的数据集只能进行折衷处理的混合处理。在确诊母数够大的情况下误差可忽略不计);
  • 疫情地图标签 - 地图下方的现在患者总数的计算(康复、死亡人数的分子计算);
  • 多维度比较标签 - 速报值与厚劳省的比较曲线中的速报值;
  • 多维度比较标签 - 基于厚劳省数据绘制的两个柱状图和右侧的雷达图(指标需要重新设计)
  • 通用底部 - 底部的PCR检测人数和康复人数;

3.5.3 首页第三列

  • PCR检测推移标签下的所有内容。
  • 康复者推移标签下的所有内容。
  • 咨询热线标签下的所有内容。