You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Je porte ceci a ton attention car je me dis que le dataset utilisé pour entraîner CamemBERT pourrait peut-être être utilisé pour améliorer belgpt2. Il s'agit d'OSCAR, un dataset multilingue, trouvable ici https://oscar-corpus.com/.
La version francaise contient 282Go de texte.
Je peux aider a préparer le dataset, si besoin
En te remerciant encore pour ton travail :)
The text was updated successfully, but these errors were encountered:
Bonjour,
Tout d'abord un grand merci pour le travail, c'est génial d'avoir un GPT en francais
Un autre modèle français, CamemBert (https://camembert-model.fr/), existe. Il est basé sur BERT de Facebook, mais ça n'est pas un vrai langage model (voir https://datascience.stackexchange.com/questions/74115/is-bert-a-language-model https://ai.stackexchange.com/questions/9141/can-bert-be-used-for-sentence-generating-tasks), il ne peut donc pas générer du texte par exemple.
Je porte ceci a ton attention car je me dis que le dataset utilisé pour entraîner CamemBERT pourrait peut-être être utilisé pour améliorer belgpt2. Il s'agit d'OSCAR, un dataset multilingue, trouvable ici https://oscar-corpus.com/.
La version francaise contient 282Go de texte.
Je peux aider a préparer le dataset, si besoin
En te remerciant encore pour ton travail :)
The text was updated successfully, but these errors were encountered: