INSEE : Nombre de décés par mois en France et faux tableaux sur Facebook

J’ai pu voir un faux tableaux sur Facebook :

Pourquoi il est faux ? Si je fais un script pour chercher le nombre de mort sur les mois de Janvier :

sum_201701=0
sum_201801=0
sum_201901=0
sum_202001=0
for entry in *.csv
do
  echo "$entry"
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201701" | awk '{print $1}' > temp_201701.dat
  current_201701=$(cat temp_201701.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201801" | awk '{print $1}' > temp_201801.dat
  current_201801=$(cat temp_201801.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201901" | awk '{print $1}' > temp_201901.dat
  current_201901=$(cat temp_201901.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "202001" | awk '{print $1}' > temp_202001.dat
  current_202001=$(cat temp_202001.dat)
  if [ $current_201701 > 0 ]
  then
          echo "In file $entry (dead 201701) : $current_201701"
          let "sum_201701=sum_201701+current_201701"
  fi
  if [ $current_201801 > 0 ]
  then
          echo "In file $entry (dead 201801) : $current_201801"
          let "sum_201801=sum_201801+current_201801"
  fi
  if [ $current_201901 > 0 ]
  then
          echo "In file $entry (dead 201901) : $current_201901" 
          let "sum_201901=sum_201901+current_201901"
  fi
  if [ $current_202001 > 0 ]
  then
          echo "In file $entry (dead 202001) : $current_202001"
          let "sum_202001=sum_202001+current_202001"
  fi
done
echo "Sum dead 201701 : $sum_201701 "
echo "Sum dead 201801 : $sum_201801 "
echo "Sum dead 201901 : $sum_201901 "
echo "Sum dead 202001 : $sum_202001 "

Et si je fais un script pour faire pareil sur le mois de mars :

sum_201703=0
sum_201803=0
sum_201903=0
sum_202003=0
for entry in *.csv
do
  echo "$entry"
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201703" | awk '{print $1}' > temp_201703.dat
  current_201703=$(cat temp_201703.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201803" | awk '{print $1}' > temp_201803.dat
  current_201803=$(cat temp_201803.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "201903" | awk '{print $1}' > temp_201903.dat
  current_201903=$(cat temp_201903.dat)
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 6)}' | sort -n | uniq -c | grep "202003" | awk '{print $1}' > temp_202003.dat
  current_202003=$(cat temp_202003.dat)
  if [ $current_201703 > 0 ]
  then
          echo "In file $entry (dead 201703) : $current_201703"
          let "sum_201703=sum_201703+current_201703"
  fi
  if [ $current_201803 > 0 ]
  then
          echo "In file $entry (dead 201803) : $current_201803"
          let "sum_201803=sum_201803+current_201803"
  fi
  if [ $current_201903 > 0 ]
  then
          echo "In file $entry (dead 201903) : $current_201903" 
          let "sum_201903=sum_201903+current_201903"
  fi
  if [ $current_202003 > 0 ]
  then
          echo "In file $entry (dead 202003) : $current_202003"
          let "sum_202003=sum_202003+current_202003"
  fi
done
echo "Sum dead 201703 : $sum_201703 "
echo "Sum dead 201803 : $sum_201803 "
echo "Sum dead 201903 : $sum_201903 "
echo "Sum dead 202003 : $sum_202003 "

Le résultats pour Janvier :

deces-2017.csv
In file deces-2017.csv (dead 201701) : 68819
deces-2018.csv
In file deces-2018.csv (dead 201701) : 116
In file deces-2018.csv (dead 201801) : 60527
deces-2019.csv
In file deces-2019.csv (dead 201701) : 24
In file deces-2019.csv (dead 201801) : 81
In file deces-2019.csv (dead 201901) : 61147
deces-2020-m01.csv
In file deces-2020-m01.csv (dead 201701) : 6
In file deces-2020-m01.csv (dead 201801) : 4
In file deces-2020-m01.csv (dead 201901) : 20
In file deces-2020-m01.csv (dead 202001) : 47344
Deces_2020_M02.csv
In file Deces_2020_M02.csv (dead 201701) : 2
In file Deces_2020_M02.csv (dead 201801) : 6
In file Deces_2020_M02.csv (dead 201901) : 11
In file Deces_2020_M02.csv (dead 202001) : 9895
Deces_2020_M03.csv
In file Deces_2020_M03.csv (dead 201901) : 6
In file Deces_2020_M03.csv (dead 202001) : 336
Deces_2020_M04.csv
In file Deces_2020_M04.csv (dead 201901) : 4
In file Deces_2020_M04.csv (dead 202001) : 130
Deces_2020_M05.csv
In file Deces_2020_M05.csv (dead 201901) : 1
In file Deces_2020_M05.csv (dead 202001) : 68
Deces_2020_M06.csv
In file Deces_2020_M06.csv (dead 201801) : 1
In file Deces_2020_M06.csv (dead 201901) : 4
In file Deces_2020_M06.csv (dead 202001) : 63
Deces_2020_M07.csv
In file Deces_2020_M07.csv (dead 201701) : 1
In file Deces_2020_M07.csv (dead 201801) : 1
In file Deces_2020_M07.csv (dead 201901) : 3
In file Deces_2020_M07.csv (dead 202001) : 56
Deces_2020_M08.csv
In file Deces_2020_M08.csv (dead 201701) : 1
In file Deces_2020_M08.csv (dead 201901) : 1
In file Deces_2020_M08.csv (dead 202001) : 23
Deces_2020_M09.csv
In file Deces_2020_M09.csv (dead 201801) : 3
In file Deces_2020_M09.csv (dead 201901) : 3
In file Deces_2020_M09.csv (dead 202001) : 37
Sum dead 201701 : 68969 
Sum dead 201801 : 60623 
Sum dead 201901 : 61200 
Sum dead 202001 : 57952 

Le résultats pour Mars :

...
deces-2017.csv
In file deces-2017.csv (dead 201703) : 50817
deces-2018.csv
In file deces-2018.csv (dead 201703) : 116
In file deces-2018.csv (dead 201803) : 61072
deces-2019.csv
In file deces-2019.csv (dead 201703) : 17
In file deces-2019.csv (dead 201803) : 102
In file deces-2019.csv (dead 201903) : 54331
deces-2020-m01.csv
In file deces-2020-m01.csv (dead 201703) : 6
In file deces-2020-m01.csv (dead 201803) : 6
In file deces-2020-m01.csv (dead 201903) : 13
Deces_2020_M02.csv
In file Deces_2020_M02.csv (dead 201703) : 1
In file Deces_2020_M02.csv (dead 201803) : 5
In file Deces_2020_M02.csv (dead 201903) : 11
Deces_2020_M03.csv
In file Deces_2020_M03.csv (dead 201703) : 2
In file Deces_2020_M03.csv (dead 201803) : 4
In file Deces_2020_M03.csv (dead 201903) : 5
In file Deces_2020_M03.csv (dead 202003) : 48160
Deces_2020_M04.csv
In file Deces_2020_M04.csv (dead 201803) : 1
In file Deces_2020_M04.csv (dead 201903) : 8
In file Deces_2020_M04.csv (dead 202003) : 14001
Deces_2020_M05.csv
In file Deces_2020_M05.csv (dead 201903) : 3
In file Deces_2020_M05.csv (dead 202003) : 969
Deces_2020_M06.csv
In file Deces_2020_M06.csv (dead 201803) : 3
In file Deces_2020_M06.csv (dead 201903) : 2
In file Deces_2020_M06.csv (dead 202003) : 223
Deces_2020_M07.csv
In file Deces_2020_M07.csv (dead 201703) : 1
In file Deces_2020_M07.csv (dead 201803) : 5
In file Deces_2020_M07.csv (dead 201903) : 8
In file Deces_2020_M07.csv (dead 202003) : 126
Deces_2020_M08.csv
In file Deces_2020_M08.csv (dead 201703) : 1
In file Deces_2020_M08.csv (dead 201803) : 2
In file Deces_2020_M08.csv (dead 201903) : 4
In file Deces_2020_M08.csv (dead 202003) : 77
Deces_2020_M09.csv
In file Deces_2020_M09.csv (dead 201803) : 3
In file Deces_2020_M09.csv (dead 201903) : 3
In file Deces_2020_M09.csv (dead 202003) : 71
Sum dead 201703 : 50961 
Sum dead 201803 : 61203 
Sum dead 201903 : 54388 
Sum dead 202003 : 63627 

Ensuite si je cherche a controler mes sources via un article : https://www.liberation.fr/checknews/2020/05/11/est-il-vrai-qu-il-n-y-a-pas-plus-de-morts-en-france-au-premier-trimestre-2020-que-les-cinq-dernieres_1787936 (il est ecrit le 11/05/2020) donc il n’a pas les fichiers de Deces_2020_M05.csv à Deces_2020_M09.csv :

Il y a eu 62 570 décès en mars 2020, soit davantage que pour le même mois en 2019 (53 631 décès), 2018 (60 407), 2017 (50 251), 2016 (54 155), et 2015 (54 948).

COMPARAISON
Mois Valeur Libération Valeur mon script Faux tableaux sur Facebook
Mars 2020 62570 63627 60501
Mars 2019 53631 54388 54331
Mars 2018 60407 61203 61072
Mars 2017 50251 50961 50817

Les valeurs sont proches et mes valeurs sont supérieures donc je dirais que c’est bon. J’attends le controle de Luc 🙂

Ensuite si je fais pareil sur le mois de Janvier : https://factuel.afp.com/covid-19-ce-visuel-montrant-le-nombre-de-deces-en-france-de-janvier-avril-est-errone – tableau fait en mai 2020 donc il manque aussi des fichiers .

COMPARAISON
Mois Valeur AFTP Valeur mon script Faux tableaux sur Facebook
Janvier 2020 57000 57952 73404
Janvier 2019 60400 61200 80155
Janvier 2018 59774 60623 79753
Janvier 2017 68145 68969 84917

Les valeurs sont proches et mes valeurs sont supérieures donc je dirais que c’est bon. J’attends le contrôle de Luc 🙂

A suivre.

INSEE : Est-ce que mes chiffres sont bons ?

View Results

Chargement ... Chargement ...

INSEE : Fichiers des personnes décédées depuis 1970.

Le lien est ici : https://www.insee.fr/fr/information/4190491 . Je n’arrive pas à comprendre pourquoi les gens font des statistiques sur 2020 alors que la collecte des données est longue.

Quand je télécharge tous les fichiers et que je redirige sur un seul fichier j’ai :

wc -l *.csv
     27007 deces-1970.csv
    161020 deces-1971.csv
    336009 deces-1972.csv
    366041 deces-1973.csv
    380603 deces-1974.csv
    399310 deces-1975.csv
    408884 deces-1976.csv
    404775 deces-1977.csv
    421033 deces-1978.csv
    424987 deces-1979.csv
    437857 deces-1980.csv
    454545 deces-1981.csv
    453263 deces-1982.csv
    473523 deces-1983.csv
    464104 deces-1984.csv
    474632 deces-1985.csv
    476864 deces-1986.csv
    461802 deces-1987.csv
    457905 deces-1988.csv
    463082 deces-1989.csv
    546888 deces-1990.csv
    531676 deces-1991.csv
    540833 deces-1992.csv
    520435 deces-1993.csv
    561327 deces-1994.csv
    522052 deces-1995.csv
    579008 deces-1996.csv
    567669 deces-1997.csv
    461461 deces-1998.csv
    697193 deces-1999.csv
    570495 deces-2000.csv
    567112 deces-2001.csv
    549494 deces-2002.csv
    573623 deces-2003.csv
    537817 deces-2004.csv
    557036 deces-2005.csv
    535114 deces-2006.csv
    536333 deces-2007.csv
    553113 deces-2008.csv
    557242 deces-2009.csv
    551016 deces-2010.csv
    549116 deces-2011.csv
    579983 deces-2012.csv
    582619 deces-2013.csv
    569446 deces-2014.csv
    609628 deces-2015.csv
    603320 deces-2016.csv
    612927 deces-2017.csv
    620124 deces-2018.csv
    625373 deces-2019.csv
     60585 deces-2020-m01.csv
     53708 Deces_2020_M02.csv
     57270 Deces_2020_M03.csv
     70944 Deces_2020_M04.csv
     52008 Deces_2020_M05.csv
     47226 Deces_2020_M06.csv
     48414 Deces_2020_M07.csv
     47579 Deces_2020_M08.csv
  25354453 total

Soit 25.354.453 lignes … je vais enfin pouvoir tester MySQL avec une grande base. A noter que je pense que les fichies sont incompléts , j’ai pas retrouvé le nom de mon grand père mort en 1985.

A noter aussi le décalage dans la collecte, un petit script :

rm list2.dat
touch list2.dat
upperlim=2020
echo "Years" >> list2.dat
for ((i=1960; i<=upperlim; i++)); do echo "$i" >> list2.dat
done
echo "Init done"
i=0
for entry in *.csv
do
  echo "$entry"
  echo "Years $entry" > list.dat
  cat $entry | grep -v "sexe" | sed 's/""/"-"/g'| awk -F'\";\"'  '{print substr($7,1, 4)}' | sort -n | uniq -c | awk '{print $2 " " $1}' | sort -n  >> list.dat
  join -a1 -e0 -11 -21 -oauto  list2.dat list.dat > result.dat
  cp result.dat list2.dat
  let "i=i+1"
done
echo "Number of file $i"
cat result.dat | sed 's/ /\t/g' > result2.dat


Puis ensuite un petit graphique avec gnuplot :

set title "INSEE"
set key invert reverse Left outside
set key autotitle columnheader
set yrange [0:700000]
set auto x
unset xtics
set xtics nomirror rotate by -45 scale 0
set style data histogram
set style histogram rowstacked
set style fill solid border -1
set boxwidth 0.75
set terminal png size 2100,900; set output 'printme3.png';
rgb(r,g,b)=int(255*r)*65536+int(255*g)*256+int(255*b)
do for [i=1:58] {
   myrand=rand(int(rand(0)*i*100)+i*100)
   set style line i linecolor rgb rgb(rand(0),rand(0),rand(0))
}
plot 'result2.dat' using 2:xtic(1), for [i=3:58] '' using i ls i

On voit bien de décalage dans les fichiers …

Municipales 2020 à Biot : Quelques statistiques de l’INSEE

Il suffit de voir le lien : https://statistiques-locales.insee.fr/#c=report&chapter=compar&report=r01&selgeo1=com_courant.06018&selgeo2=fe.1

Et on y trouves :

En bref, petite diminution de la population et petite diminution du nombre de résidence principale. Un taux de chômage de 9,2% .