Aprendí a utilizar Python dentro de la universidad y actualmente me encuentro realizando un magister en ciencia de datos, donde la mayor parte del tiempo se ocupa Python. Junto con esto, he aprendido muchas cosas por mi propia cuenta como algoritmos de machine learning y las mejores practicas para programar. Esto es de suma importancia para trabajar en equipo y poder tener pair-programming.
Dentro de mis labores, está la de optimizar el código actual existente y poder tener mejoras en los tiempos de procesamientos de los diferentes ETL e ingesta de datos en las bases de datos.
Que utilizo y como lo utilizo
Dado que es un servicio gratuito y de codigo abierto, además de ser un excelente soporte para python. Cuenta con la integración de Git , lo que facilita la colaboración entre equipos y posee extensiones interesantes para el desarrollo.
Actualmente me encuentro utilizando Python 3.11 dado que es la versión estable más reciente. Además de contar con compatibilidad con los paquetes utilizados más comunes.
En caso de ser necesario deberé cambiar la versión de python para no tener problemas con las librerías a utilizar.
Para realizar consultas de SQL se utilizar SQLite, donde cargo la base de datos y realizo las consultas pertinentes para entregar lo necesario.
Librerías para analizar la data
Para realizar esto utilizo Pandas , BeautifulSoup y Openpyxl como herramientas principales.
Para realizar gráficos ocupo Matplotlib junto con Seaborn. De esta manera me aseguro de diferentes relaciones entre los datos.
Para realizar estos análisis, utilizo NumPy, Pandas y SciPy. En caso de ser necesario, utilizo Scikit-Learn o MLOps.
Todos estos pasos son necesarios para poder tener una estrategia con los datos y poder agregarles valor y tener un producto entregable de valor para el cliente final.
Practicas que realizo
Lo primero que hago cuando se me coloca una tarea, es entender la problemática para encontrar una solución. Siempre con una visión de negocio importante y con vista a la solución que se quiere entregar
Empiezo a programar pensando en la solución final y lo que se espera sacar de los datos. Importante ver lo que se quiere ahora y lo que se podría sacar en un futuro. De esta forma se optimiza el tiempo y la solución esperada.
Es de suma relevancia ir programando por partes para poder ejecutar trozos de codigo sin tener que ejecutar la totalidad. De esta forma se optimiza memoria y tiempo.
Se exporta lo realizado con python a un archivo para la utilización de las herramientas de visualización. Con estas se procede a realizar una presentación para evaluar la toma de resultados y gestionar. Este paso se mejora con la utilización de programas como Power BI, el cual sirve para poder explicar de manera rápida y concisa lo necesario.