¿QUE ES PANDAS?
La biblioteca de software de código abierto Pandas está diseñada específicamente para la manipulación y el análisis de datos en el lenguaje Python. Es potente, flexible y fácil de usar.
Gracias a Pandas, por fin se puede utilizar el lenguaje Python para cargar, alinear, manipular o incluso fusionar datos. El rendimiento es realmente impresionante cuando el código fuente del back-end está escrito en C o Python.
El nombre «Pandas» es en realidad una contracción del término «Panel Data» para series de datos que incluyen observaciones a lo largo de varios periodos de tiempo. La biblioteca se creó como herramienta de alto nivel para el análisis en Python.
Los creadores de Pandas pretenden que esta biblioteca evolucione hasta convertirse en la herramienta de análisis y manipulación de datos de código abierto más potente y flexible en cualquier lenguaje de programación.
Además del análisis de datos, Pandas se utiliza mucho para la «Data Wrangling«. Este término engloba los métodos de transformación de datos no estructurados para hacerlos procesables.
Por lo general, Pandas también destaca en el procesamiento de datos estructurados en forma de tablas, matrices o series temporales. También es compatible con otras bibliotecas de Python.
Ventajas De La Libreria Pandas
Pandas aporta varias ventajas. Esta biblioteca permite compensar fácilmente los datos que faltan.
Es una herramienta flexible, ya que las columnas pueden insertarse o eliminarse fácilmente dentro de los DataFrames. La alineación de los datos con las etiquetas puede automatizarse.
Otra gran ventaja es una potente herramienta de agrupación de datos que permite realizar operaciones de «split-apply-combine» sobre las series de datos para agregarlos o transformarlos.
Es muy fácil convertir datos indexados de forma diferente en otras estructuras de Python y NumPy en objetos DataFrame. Del mismo modo, los datos pueden indexarse u ordenarse mediante un sistema inteligente basado en etiquetas.
Los conjuntos de datos pueden fusionarse de forma intuitiva y reestructurarse con flexibilidad. Las herramientas de E/S simplifican la carga de datos desde archivos CSV, Excel o bases de datos, o la carga de datos en formato HDF5.
La funcionalidad de series temporales completa el cuadro, principalmente con la generación de intervalos de fechas, la conversión de frecuencias o el desplazamiento de ventanas estadísticas.
Uso De La Libreria en La Practica
# Importar la librería:
import pandas as pd
# Creación de una tabla de datos:
tabla = {
'Goleador': ['Haland', 'Salah', 'Kane', 'Bellingham', 'Cristiano Ronaldo','Messi','Mbappé','Borja Mayoral','Benzema','Vinicius'],
'Liga': ['Premier', 'Premier', 'Bundesliga', 'Liga 1', 'Saudi League','Mls','League one','Liga 1','Saudi League','Liga 1'],
'Goles': [14, 13, 18, 14, 16,15,12,11,13,15],
'Edad': [23, 31, 30, 20, 38,37,24,26,37,23]
}
df = pd.DataFrame(tabla)
# Imprimir el DataFrame
df
#Guardar en formato Excel
Utiliza el método to_excel para guardar el DataFrame en un archivo Excel.
# Guardar DataFrame en formato Excel
df.to_excel('nombre_archivo.xlsx', index=False)
Agrupación y Estadísticas:
Utiliza la función groupby para agrupar los datos por liga y calcular estadísticas específicas, como el promedio de goles por liga.
# Promedio de goles por liga
promedio_goles_por_liga = df.groupby('Liga')['Goles'].mean()
print(promedio_goles_por_liga)
Filtrado de Datos:
Filtra los datos para mostrar solo los goleadores que tienen más de 15 goles.
# Filtrar goleadores con más de 15 goles
goles_mas_15 = df[df['Goles'] > 15]
print(goles_mas_15)
Operaciones sobre Columnas:
Crea una nueva columna que indique si un goleador es mayor de 30 años.
# Crear columna de 'Mayor de 30'
df['Mayor_de_30'] = df['Edad'] > 30
print(df)
Selección de Datos Específicos:
Selecciona e imprime solo los goleadores de la Bundesliga.
# Goleadores de la Bundesliga
bundesliga_goleadores = df[df['Liga'] == 'Bundesliga']['Goleador']
print(bundesliga_goleadores)
Conteo de Valores:
Utiliza la función value_counts para contar cuántos goleadores hay en cada liga.
# Conteo de goleadores por liga
conteo_por_liga = df['Liga'].value_counts()
print(conteo_por_liga)
pytonCop
Comments