Tidy data

De Wikipedia, la enciclopedia libre

Los datos ordenados o 'tidy data'  son los que se obtienen a partir de un proceso llamado 'data tidying' u ordenamiento de datos.[1]​ Es uno de los procesos de limpieza importantes durante procesamiento de grandes datos o 'big data' y es un paso reconocido en la ciencia de datos. Los conjuntos de datos ordenados tienen una estructura que facilita el trabajo; son sencillos de manipular, modelar y visualizar. Conjuntos de datos 'tidy' están ordenados de tal manera que cada variable es una columna y cada observación (o caso) es una fila.[1][2]

Los datos ordenados proporcionan estándares y conceptos para los datos que limpian, y con el dato ordenado allí es ninguna necesidad de empezar de arañazo y reinventar métodos nuevos para los datos que limpian.

Características[editar]

Jeff Leek en su libro The Elements of Data Analytic resume las características de los datos ordenados con los siguientes puntos:[3]

  1. Cada variable que mides tiene que ser en una columna.
  2. Cada observación diferente de esa variable tiene  que ser en una fila diferente.
  3. Debe haber una tabla distinta para cada "clase" de variable.
  4. Si tienes múltiples tablas, debe existir una columna en cada tabla que permita enlazarlas.

Referencias[editar]

  1. a b Wickham, Hadley (1 de enero de 2014). «Tidy Data». Journal of Statistical Software 59 (10). doi:10.18637/JSS.V059.I10. Consultado el 9 de diciembre de 2018. 
  2. «Tidy data». Journal of Statistical Software VV (II). 
  3. Jeff Leek, The Elements of Data Analytic Style, Leanpub, 2015-03-02