Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Faire la liste des fiches thématiques restantes #33

Closed
linogaliana opened this issue Dec 8, 2020 · 15 comments
Closed

Faire la liste des fiches thématiques restantes #33

linogaliana opened this issue Dec 8, 2020 · 15 comments

Comments

@linogaliana
Copy link
Contributor

In GitLab by @oliviermeslin on Apr 2, 2020, 17:27

Cette issue vise à faire la liste des fiches qui restent à rédiger. J'ai fait la liste des fiches auxquelles j'ai pensé, vous pouvez la compléter.

Il me semble qu'il y a de petites fiches assez spécialisées (exemple: joindre deux tables) et des fiches plus générales (exemple: intro à data.table).

Petites fiches:

  • une fiche sur l'encodage (cf Consacrer une section à l'encodage #28);
  • une fiche sur comment joindre des données (en dplyr et en data.table; base R aussi ou pas?);
  • une fiche sur comment faire un reshape en R (en tidyverse et en data.table);
  • une fiche sur comment faire des statistiques descriptives simples;
  • une fiche sur comment exporter un tableau vers odt/xls/csv (kable?).

Grosses fiches:

  • une fiche générale sur la manipulation de données avec le tidyverse (tidyr et dplyr);
  • une fiche générale sur les graphiques (les plots de Base R et ggplot2);
  • une fiche générale sur la manipulation de données textuelles (stringr, j'ai commencé à la rédiger);
  • une fiche générale sur la cartographie;
  • une fiche sur la connection à une base de données;
  • une fiche introductive à RMarkdown.

Autres:

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 2, 2020, 17:28

changed the description

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 2, 2020, 17:30

changed the description

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 2, 2020, 17:36

changed the description

@linogaliana
Copy link
Contributor Author

In GitLab by @linogaliana on Apr 4, 2020, 12:10

Tiens pour les jointures, il ne faut plus utiliser tidyr::gather lien

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 4, 2020, 12:21

Oui, de la même façon tidyr::spread, remplacé par pivot_wider. Plus de détails ici.

@linogaliana
Copy link
Contributor Author

In GitLab by @pierre-lamarche on Apr 13, 2020, 11:38

Plutôt que d'ouvrir une issue, je vais réagir ici : je me disais que la fiche sur les stats desc doit plutôt tendre vers une cheatsheet (et d'ailleurs il doit y en avoir déjà de très bien sans qu'on soit obligé de tout réinventer).
Par contre, une problématique très Insee : utiliser des données d'enquête (et d'ailleurs je pense qu'il faudrait éventuellement distinguer données pondérées - 1er niveau de difficulté - et données d'enquête - avec éventuellement tout le corpus inférentiel derrière. Je veux bien initier un premier jet, si vous trouvez cela pertinent.

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 13, 2020, 11:58

C'est une super idée. Quelques réactions:

  1. Sur les statistiques descriptives, il me semble qu'il faut veiller à faire quelque chose de cohérent avec la production de tableaux (en kable ou xtable ou autre chose), parce qu'en pratique les stat desc on les fait souvent pour les exporter.

  2. La question qui se pose alors est celle de la structure de la documentation: veut-on distinguer une fiche "Faire des stat desc" et une fiche "Réaliser des tableaux"? Je ne sais pas si en R les tâches "calculer des stat desc" et "exporter un joli tableau vers xls/html/pdf" sont distinctes ou pas. Spontanément, je verrais bien ceci:

    • une assez grosse fiche sur 'Réaliser des tableaux de statistiques descriptives'.
    • une fiche courte sur 'utiliser des données d'enquêtes', qui porterait surtout sur les questions de pondération/reconstitution de totaux (en gros le cours de sondages de l'Ensae).
  3. Je ne sais pas ce qui existe comme ressources en licence libre sur les stat desc, l'exploitation d'enquêtes et la réalisation de tableaux. Je pense qu'on peut créer une issue dont le premier post serait un recensement des sources existantes, et après on discuterait en détail du contenu et du plan.

@linogaliana
Copy link
Contributor Author

In GitLab by @pierre-lamarche on Apr 13, 2020, 12:41

Oui il y a effectivement deux sujets :

  • constitution de tableaux, rapports automatiques, etc. (et donc kable et xtable, mais pas seulement - ça dépend pas mal de ce qu'on veut sortir, puisque s'agissant des résultats économétriques, je citerais par exemple stargazer) ;
  • exploitation de données d'enquêtes. Une fiche plutôt courte, soit. Mais je pense qu'il faut bien distinguer l'estimation pondérée (et pour cela Hmisc est déjà une bonne boîte à outils), et l'inférence avec l'estimateur d'Horwitz-Thomson, estimation de variance et d'intervalle de confiance (et là on irait plutôt du côté du package survey). Par ailleurs, je pense qu'il y a des questions non triviales (comment j'estime un quantile ou un indice de Gini en présence de données pondérées) sur lesquelles on doit guider l'utilisateur (et pour le coup, sans faire du PROC.MEANS, donner au lecteur la méthode par défaut de SAS et son équivalent en R).
    Je fais l'inventaire des ressources, mais je pense surtout à la documentation des packages Hmisc et survey, et ceci.

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 13, 2020, 13:01

J'ai repéré par ailleurs les packages summarytools et skimr (mais je ne les connais pas). On peut peut-être tirer quelque chose du module 3 des formations du MTES.

@linogaliana : je crois me souvenir que tu m'as dit qu'il n'y a pas de package parfait pour faire des stat desc en R. Des suggestions?

@linogaliana
Copy link
Contributor Author

In GitLab by @linogaliana on Apr 13, 2020, 13:15

  • Les tableaux:

    • Statistiques descriptives: kable + kableExtra pour le html c'est sûr, jamais essayé pour latex
    • stargazer pour l'économétrie c'est très bien (\latex et html ce qui est cool) pour 95% des besoins. Je suis un peu fâché avec stargazer (comme @RLesur avec latex) car je suis tombé dans les 5% de besoins qui collaient pas avec stargazer (1) (faire une grosse table comparant plusieurs modèles ; ce qui a fait exploser la RAM d'AUS comme de la plateforme innovation à cause de summary). Donc, même si vous vous en fichez 😢, je profite de cet espace pour faire la pub pour mon 📦 tablelight que je compte mettre sur le CRAN lorsqu'il sera un peu plus stabilisé (dans un petit moment) et que j'aurais plus d'exemples de démonstration.
  • Pondération: Je connais peu les données d'enquêtes et les problématiques de sondage. De ce que je connais, Hmisc et survey m'apparaissent très bien. Pas questionr ?

(1) En plus stargazer c'est très moche quand on rentre dans la boîte noire pour essayer de le modifier. Je vous invite à regarder le code source de stargazer:::.stargazer.wrap. Et il y a 0 tests (heureusement qu'il y a une grosse communauté depuis le temps)

@linogaliana
Copy link
Contributor Author

In GitLab by @gillesfidani on Apr 20, 2020, 07:07

une micro fiche "trouver de l'aide sur R" ?

  1. depuis R (help, ?, ??, apropos, ...)

  2. à l'insee (rocket tchat, intranet LS2+référents)

  3. autres (comment chercher sur internet / SO)

pas certain de l'utilité

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 20, 2020, 07:16

@gillesfidani : il faut réfléchir à la forme, mais je pense que c'est une très bonne idée. L'objectif de la doc n'est pas de prévoir tous les cas, mais d'aider les agents à être autonomes avec R, donc ça me semble pertinent qu'on leur explique comment et où ils peuvent chercher de l'aide lorsqu'ils sont coincés.

@linogaliana
Copy link
Contributor Author

In GitLab by @gillesfidani on Apr 20, 2020, 07:27

@oliviermeslin : oui à 200% sur la forme, c'est juste une propo.

Mais j'ai peur que l'on s'oriente de + en + vers un bouquin classique sur R, ce qui n'est peut-être pas l'objectif de Benoit.

Arbitrage à faire (trop d'info tue l'info ?)

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Apr 20, 2020, 08:49

Effectivement. Mais on peut éviter cet écueil en faisant une fiche très courte (une page, deux grand max) sur "comment faire si vous êtes bloqués?". Et à nouveau, cette fiche sera adaptée au contexte de l'Insee.

@linogaliana
Copy link
Contributor Author

Des issues plus récentes listant les fiches thématiques restantes existent. Je ferme car ce n'est plus d'actualité

@linogaliana linogaliana added the duplicate This issue or pull request already exists label Jan 21, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant