Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fiche sur faire des tableaux de statistiques descriptives #317

Open
oliviermeslin opened this issue May 14, 2021 · 11 comments
Open

Fiche sur faire des tableaux de statistiques descriptives #317

oliviermeslin opened this issue May 14, 2021 · 11 comments

Comments

@oliviermeslin
Copy link
Contributor

oliviermeslin commented May 14, 2021

On pourrait ajouter une fiche sur "comment faire des tableaux de statistiques descriptives avec R".

Voici en vrac, et sans garantie de qualité, les packages que j'ai repérés qui permettent de faire des tableaux descriptifs :

@linogaliana
Copy link
Contributor

linogaliana commented May 15, 2021

@oliviermeslin tu parles du calcul des stats desc (et on se débrouille pour la mise en forme) ou des packages pour faire de beaux tableaux ?

Ceux qui font les deux :

De toute manière, c'est pas une fiche à entreprendre avant la V1 de juin

@maellefontaine2
Copy link

J'aimerais bien ressusciter cette vieille conversation car pour moi il y a un besoin important notamment des chargés d'étude.

Les derniers réticents à R, qui n'ont plus l'argument de "ça passe pas sur des données volumineuses", ont encore l'argument "et je fais comment ma proc freq / proc means / proc tabulate" ...
Et honnêtement, ce n'est pas complètement faux de dire que le code peut être un peu lourd pour faire un tableau qui ne semblait pourtant pas si compliqué. Ne serait-ce que pour ajouter les marges ou prendre en compte une pondération.

J'ai dans ma besace un support d'atelier dont le sujet était "faire des stat des avec R", et dont un des objectifs était de recenser les packages intéressants en la matière avec leurs avantages / inconvénients. J'ai surtout retenu les suivants : janitor, gtsummary, et un peu cross.table et tables.

Par ailleurs, comme ces packages ne cochaient jamais "toutes les cases en même temps", on a aussi développé un nouveau package avec Laurette Cretin (PSAR de Toulouse), qui s'appelle tabloid et qui devrait être bientôt sur InseeFrLab. Pour l'instant il est sur gitlab.insee.fr. L'atelier en question présentait aussi ce package et comment l'utiliser. Pour l'instant on a eu des retours assez positifs de chargés d'études d'équipes différentes, même si le package mériterait probablement encore des améliorations.

Les packages de pure mise en forme de tableaux (gt, kable, flextable) sont pour moi un peu un autre sujet même si ce n'est pas très loin. De toute façon gtsummary s'appuie sur gt et tabloid utilise kable, c'est déjà considérablement mieux que ce qu'on peut faire en R-base.

Tout ça pour dire qu'avec mon support d'atelier ça ne serait pas très coûteux pour moi d'initier une fiche utilitR, mais comme je n'ai jamais contribué à utilitR, il faut me dire comment faire ça bien.

@linogaliana
Copy link
Contributor

linogaliana commented Nov 23, 2023

Merci @maellefontaine2 pour ta proposition ! Est-ce que ton document d'atelier était un Rmd/qmd que tu peux mettre à dispo ici ou sur tchap ? ça permettrait de te dire en pratique comment transformer ça en fiche.

Le CONTRIBUTING propose un certain nombre de conseils pour les rédacteurs de fiche qui peuvent t"intéresser

@maellefontaine2
Copy link

maellefontaine2 commented Nov 24, 2023

Le support qmd de l'atelier a été mis par mes collègues à ce lien :
https://ateliers-r-sed-pays-de-la-loire.gitlab-pages.insee.fr/atelier-12-statistiques-descriptives/support_stat_des_R.html

Ca n'est pas vraiment dans l'esprit d'une fiche utilitR, mais ce que je veux dire c'est que comme j'ai les idées relativement au clair sur les différents packages évoqués grâce à la préparation de l'atelier, je peux me lancer dans une version martyre de fiche.

@maellefontaine2
Copy link

maellefontaine2 commented Nov 24, 2023

Merci pour le contributing, c'est bien noté pour l'aspect technique et la forme (je verrai si j'ai des difficultés à le mettre en pratique). Sur le fond, y a-t-il un plan type à respecter dès le début, ou bien j'ai carte blanche ?

Je proposerais bien quelque chose du type :

  • Introduction (quel besoin est couvert par la fiche : quelque part entre la manip de données et la dataviz)
  • Stats desc avec les syntaxes courantes (R-base, dplyr, data.table) -> en renvoyant en partie vers les fiches de manipulations de données et en présentant les limites
  • Packages dédiés à faire des stat des
    • panorama général, par exemple sous la forme d'un tableau dans lequel on coche des croix sur ce que ça sait gérer et ce que ça ne sait pas gérer (quel type de stat, pondération ou non, marges ou non, est-ce que ça produit un tableau joli ou non, flexibilité des objets en entrée ou en sortie ...), un score pour indiquer à quel point c'est utilisé par la communité (basé sur le nb de téléchargements par exemple), un score pour indiquer à quel point les contributeurs sont actifs (basé sur le nb de contributions depuis un an par exemple)
    • des exemples reproductibles de 2-3 packages bien choisis
  • un zoom sur tabloid quand il sera mis à dispo sur InseeFrLab

@linogaliana
Copy link
Contributor

franchement ça me paraît top comme plan !

@JulienBlasco
Copy link
Contributor

Merci pour cette proposition bienvenue !
Je me permets de mentionner l'issue #454 qui est la suite logique de ta proposition de fiche, à savoir formater et exporter des tableaux de statistiques. Elle n'en est au stade de la réflexion, mais il pourra être intéressant de soigner l'enchaînement entre les deux.

@acazaubiel
Copy link
Contributor

Hello,

Désolé, j'arrive tardivement, mais dans les Hauts-de-France, on recommande aux nouveaux utilisateurs de R (en anciens de SAS) l'utilisation du package descr. On s'appuie notamment sur le document suivant : https://teaching.slmc.fr/r/module3.html#calculer_des_statistiques_descriptives

Le plan me parait top !

@maellefontaine
Copy link

Bonjour, juste pour dire que je suis un peu passée sous un tunnel ces derniers mois mais j'espère bien retrouver du temps pour faire ce que j'avais dit que je ferais. Bon cela dit j'ai l'impression que le monde a survécu à l'absence d'une page pour faire des tableaux croisés :)
J'ai perdu un peu la connaissance fine des pages d'utilitR dernièrement, est-ce que quelqu'un peut me pointer des points de vigilance particuliers qu'il faut que j'aie quant à des risques de redondances avec d'autres pages ?

@linogaliana
Copy link
Contributor

Hello @maellefontaine ! Super de te réintéresser à utilitr ! Sur l'aspect tableau il ne s'est pas passé grand chose: les dernières évolutions sont liées à Arrow et DuckDB, c'est donc à un autre niveau que les tableaux

@maellefontaine2
Copy link

Est-ce qu'un de ces jours, quelqu'un qui est à l'aise avec ces manips aurait 20-30 min à m'accorder en visio (toujours un peu difficile de faire moins !) pour m'aider à faire le fork ? Je pensais m'en sortir seule mais force est de constater que je m'embourbe un peu. Je suis réactive sur Tchap pour trouver un créneau.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants