Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Carregar pandas.DataFrame direto #27

Open
alvarofpp opened this issue Aug 2, 2019 · 4 comments
Open

Carregar pandas.DataFrame direto #27

alvarofpp opened this issue Aug 2, 2019 · 4 comments
Labels
question Further information is requested

Comments

@alvarofpp
Copy link
Member

alvarofpp commented Aug 2, 2019

Função

Transformar dataset em um dataframe. A função pd.read_csv() do pandas funciona com você passe diretamente uma url.

Para entender melhor

Digamos que você está fazendo algumas analises e, por qualquer motivo que seja, não quer baixar o arquivo. O pacote poderia ter um Mixin que integrasse algumas funções junto ao pandas.

Debate

Seria interessante debatermos isso, definirmos fluxo e outras coisas, pois podemos fazer várias novas funcionalidades a partir dessa integração, como:

  • Retornar um único DataFrame;
  • Retornar uma lista de DataFrames;
  • Retornar objetos que representam os atributos do dataset, para facilitar na decisão do que carregar direto na memória ou não;
  • etc.
@alvarofpp alvarofpp added the question Further information is requested label Aug 2, 2019
@alvarofpp alvarofpp added this to the Integração com o pandas milestone Aug 2, 2019
@itepifanio
Copy link
Member

Concordo com a facilidade de integração com o pandas. Como você tem pensado na parte do código @alvarofpp ? Eu acho que se a gente adicionar a opção de transformar os datasets em dataframe como flags de funções já implementadas talvez essas funções podem ficar com muitas responsabilidades e confusas de dar manutenção no futuro

@alvarofpp alvarofpp modified the milestones: Integração com o pandas, Versão 1.0.0 -> 2.0.0 Aug 8, 2019
@alvarofpp alvarofpp added this to the Integração com o pandas milestone Aug 8, 2019
@nymarya
Copy link
Member

nymarya commented Sep 24, 2019

Acho que ao invés de flags, ficaria melhor criar funções mesmo. Talvez ate os dois, mas acho flag muito "escondido", além de já existirem muitas flags.

@alvarofpp
Copy link
Member Author

Concordo com @nymarya, o melhor seria uma função especifica para isso. O lance é que se você passar uma url no read_csv ele já transforma em DataFrame. Só precisaríamos de uma função que o primeiro argumento fosse url e qualquer coisa posterior fosse kwargs, que seriam os parâmetros do read_csv.

@nymarya
Copy link
Member

nymarya commented Sep 25, 2019

Usando url será que dá certo? Imaginei algo como um dataset para cada pacote, sendo que um pacote pode ter mais de um arquivo e cada arquivo tem uma url.

Pela experiência que tive usando URL, acho mais seguro usar depois de baixar. A API da PRF tem apresentado uns problemas ultimamente porque o pessoa muda muito as urls. Também já tive problema por querer usar a URL e não ter internet. Talvez uma alternativa de baixar ou não na hora, ou só baixar se tiver com a conexão OK.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants