Ir al contenido principal

Python para Data Science (Parte 1)

 


Introducción


En el último tiempo, Python se ha destacado como el lenguaje más usado para ciencia de datos, seguido de SQL y R. 
Además (junto a SQL) es el lenguaje recomendado para iniciarse en Data Science y ser el lenguaje mas buscado entre los profesionales de datos. A continuación vamos a ver por que elegir Python para la ciencia de datos


Entonces, por que elegir Python?

Python para Data Science, nos proporciona todas las herramientas necesarias para afrontar problemas complejos y su resolucóon (que abarca cuatro pasos principales: recolección y limpieza de datos, exploración de datos, modelado de datos y visualización de datos).

Contamos con poderosas bibliotecas estadísticas y numéricas como Pandas, Numpy, Matplotlib, SciPy, scikit-learn, etc. y bibliotecas avanzadas de Machine Learning como Tensorflow, PyBrain, etc.

Python es un lenguaje de programación de alto nivel basado en intérpretes que no solo es fácil de usar, sino que también equipa a los científicos de datos para implementar soluciones y, al mismo tiempo, siga los estándares de los algoritmos requeridos.

Las ventajas más populares que contamos con este lenguaje para Data Science son:

  • Es fácil de interpretar y aprender
  • Maneja de manera óptima diferentes estructuras de datos
  • Cuenta con librerias estáticas y de visualización de datos muy potentes

Bueno, aclarado brevemente porque utilizar python como nuestro lenguaje para comenzar con Data Science, empecemos a aprender lo básico del lenguaje.

Aclaración: para todo este tutorial vamos a estar utilizando Python 3.


Ambiente de trabajo

Antes que nada, si no viste el post anterior (acá), vamos a utilizar Google Colab para hacer nuestros ejercicios en Python, así que, si no lo viste aun, te recomiendo que le des un vistazo y te espero a la vuelta.

Python Básico 


Tipo de datos 


Python posee una serie de tipos de datos que nos definen un conjunto de valores con características, y propiedades determinadas, estos tipos de datos nos permiten manejar información.

Algo importante en Python es que todo se considera un objeto, por lo cual los tipos de datos serían las clases que definen las características y propiedades. Las variables definidas en nuestro código serían las instancias del tipo de dato que le hayamos asignado a cada una de ellas.

Tipo de datos Inmutables


Un tipo de dato inmutable es aquel que una vez creado o definido su estado o valor, no podrá ser modificado.


Numbers
  • Integers



  • Float



  • Complex Numbers


  • Booleans



Strings


Otro tipo básico de Python, e imprescindible, son las secuencias o cadenas de caracteres. Este tipo es conocido como string aunque su clase verdadera es str. Formalmente, un string es una secuencia inmutable de caracteres en formato Unicode.


Tuples

Una tupla es un conjunto ordenado e inmutable de elementos del mismo o diferente tipo (strings, tuples, lists, dictionaries, functions, file objects, y cualquier tipo de número), que sea inmutable hace que sea más eficiente que las listas en Python. 

Las tuplas se representan escribiendo los elementos entre paréntesis y separados por comas.


Tipo de datos mutables


Los tipos de datos mutables son el opuesto a los inmutables, es decir un tipo de dato mutable puede variar su valor, una vez creado o definido.


Listas

Si Superman seria un tipo de dato, sería sin dudas una lista. Las listas en Python son un tipo de dato muy poderoso.
En Python, las listas pueden contener una combinación de tipos de datos como strings, tuples, lists, dictionaries, functions, file objects, y cualquier tipo de número. 

Se puede acceder a cada elemento mediante un índice. (En Python, los índices comienzan con 0 en lugar de 1).

Las listas se representan escribiendo los elementos entre corchetes y separados por comas.





Diccionaries

Un diccionario dictionary es un contenedor que almacena pares de objetos - claves y valores. Este tipo de estructura es muy eficiente para realizar búsquedas de datos. 

Una restricción importante que poseen los diccionarios en Python, es que las llaves o claves deben ser un tipo de dato inmutable, la idea de esto es que las llaves no puedan ser variadas. Por otro lado, los valores asociados a dichas llaves, pueden ser cualquier tipo de dato permitido por Python, dando la posibilidad a ser variados una vez definidos.

Los diccionarios se representan escribiendo los elementos entre paréntesis y separados por comas.





Sets

Un Set es una colección desordenada de valores no repetidos. Los conjuntos (sets) de Python son análogos a los conjuntos matemáticos.

Si un mismo elemento es agregado al conjunto múltiples veces, se contabilizará solo una vez y el resto de las veces será ignorado. Los conjuntos no tienen un mismo elemento varias veces.



Estos tipos de datos son algunos de los más importantes y que en un futuro usaremos regularmente al trabajar en Python. En la próxima entrega hablaremos de funciones y métodos, así que, estén atentos y suscríbanse! 












Comentarios

Entradas populares de este blog

Bienvenidos a Mate con Data Science!

 Que tal? Mi nombre es Lucas y les presento mi blog << Mate con Data Science>>.  La idea de este blog, es aportar mis primeros pasos en Data Science, publicando lo que voy aprendiendo/tutoriales/noticias del mundo data science. 

Google Colab: Herramienta para Data Science

  Google  Colaboratory  es un entorno de máquinas virtuales basado en Jupyter Notebooks que permite el uso gratuito de las GPUs y TPUs de Google, con librerías como:  Scikit-learn ,  PyTorch ,  TensorFlow ,  Keras  y  OpenCV (y demás) . Disponible hasta el momento bajo  Python  2.7 y 3.6. Alto ahi, aclaremos primero que es Jupyter Notebooks:  "Es un entorno de trabajo interactivo que permite desarrollar código en Python (por defecto, aunque permite otros lenguajes también) de manera dinámica, a la vez que integrar en un mismo documento tanto bloques de código como texto, gráficas o imágenes. Es un SaaS utilizado ampliamente en análisis numérico, estadística y machine learning, entre otros campos de la informática y las matemáticas." Ahora si, continuamos con Google Colab. La principal ventaja que ofrece esta herramienta es que libera a nuestra máquina de tener que llevar a cabo un trabajo demasiado costoso tanto en tiempo como en potencia o incluso nos permite realizar ese tr