Librería Pandas — Marc Garcia. *Librería Numpy* (CC BY-SA)

Pandas é unha librería de Python que nos permite traballar con datos dunha maneira moi fácil e eficiente.

Imaxínate que tes unha gran cantidade de información, como as notas de todos os seus compañeiros en diferentes materias e en diferentes cursos Pandas axúdache a organizar, analizar e transformar estes datos de forma rápida.

Exemplos:

Notas de clase: Poderiamos usar pandas para calcular a media das notas de cada materia.

Deportes: Se queremos saber quen é o máximo goleador dun equipo de fútbol ao longo dunha tempada.

Redes sociais: Analizar cantos likes ou comentarios recibiu unha publicación.

Actividades de aprendizaxe

Actividade 1: Crear un DataFrame

◦ Obxectivo: Entender como crear e visualizar un DataFrame en pandas.
◦ Instrución: Crear e imprimir un DataFrame de alumnado e as cualificacións en matemáticas e historia.

Solución

Este é un programa en Python que podes executar en Google Colaboratory para crear e imprimir un DataFrame.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a crear un DataFrame.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos datos do DataFrame cambiando o valor ou a cantidade.

Explicación dos métodos de pandas:

pd.DataFrame(data)

Este método crea un DataFrame, que é unha estrutura de datos tabular (coma unha táboa). O argumento data que lle pasamos é un dicionario, onde as claves son os nomes das columnas e os valores son listas cos datos correspondentes. Así conseguimos organizar a información de maneira clara e manipulable dentro de pandas.

Este código crea unha táboa con nomes e notas de varios estudantes. A librería pandas permíteche manexar estes datos de maneira sinxela e clara.

Posibles actividades adicionais:

Crear un DataFrame con datos das túas películas ou cancións favoritas, incluíndo título e cualificación.

Código Python: DataFrame de cualificacións

# Importamos a librería pandas, que nos permite traballar con datos de maneira eficiente
import pandas as pd  

# Creamos un dicionario chamado 'data' que contén información sobre estudantes e as súas notas
data = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta'],  # Lista cos nomes dos estudantes
    'Matemáticas': [8.5, 9.0, 7.8, 9.2],  # Lista coas notas na materia de Matemáticas
    'Historia': [8.8, 7.6, 9.5, 8.9]  # Lista coas notas na materia de Historia
}

# Convertimos o dicionario nun DataFrame de pandas, que é unha estrutura de datos tabular (coma unha táboa)
df = pd.DataFrame(data)  

# Mostramos o DataFrame por pantalla para visualizar os datos nun formato tabular
print(df)

Actividade 2: Seleccionar datos

◦ Obxectivo: Aprender a seleccionar columnas específicas dun DataFrame.
◦ Instrución: Selecciona e imprime os datos da columna de notas de matemáticas, no DataFrame anterior. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.

Solución

Este é un programa en Python que podes executar en Google Colaboratory para seleccionar unha columna específica.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a realizar a selección da columna de matemáticas.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar coa instrución que selecciona a columna e cambiala por historia.

Explicación dos métodos de pandas:

df['Matemáticas']

Aquí estamos accedendo á columna chamada "Matemáticas" dentro do DataFrame df. Pandas permite seleccionar columnas empregando corchetes [] e o nome da columna entre comiñas. O resultado será unha serie de datos que contén só os valores desa columna.

Este método é útil cando queremos traballar cunha única columna sen ter que ver toda a táboa de datos.

Posibles actividades adicionais:

Seleccionar datos de diferentes columnas e crear gráficos simples.

Código Python: Selección dos datos da columna matemáticas

# Seleccionamos a columna "Matemáticas" do DataFrame e gardámola na variable 'matematicas'
matematicas = df['Matemáticas']  

# Mostramos por pantalla os valores da columna de Matemáticas
print(matematicas)

Actividade 3: Filtrar datos

◦ Obxectivo: Filtrar filas do DataFrame según certos criterios.
◦ Instrución: Filtrar os datos de alumnado cunha nota maior de 8 en matemáticas. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.

Solución

Este é un programa en Python que podes executar en Google Colaboratory para realizar un filtrado por nota de matemáticas.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a realizar un filtrado de datos.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar coa instrución de filtrado e cambiar o valor ou a columna de filtrado.

Explicación dos métodos de pandas:

df['Matemáticas'] > 8

Esta parte do código crea unha condición: seleccionamos só aquelas filas onde a columna "Matemáticas" ten un valor maior que 8.O resultado será unha lista de valores True ou False que indica que filas cumpren ou non esa condición.

df[df['Matemáticas'] > 8]

Aquí aplicamos o filtro ao DataFrame df, de xeito que só se conserven as filas onde a condición se cumpre.Isto significa que obtemos un novo DataFrame con só os estudantes que teñen máis de 8 en Matemáticas.

Posibles actividades adicionais:

Seleccionar datos de diferentes columnas e crear gráficos simples.

Código Python: Filtrado por nota>8 en matemáticas

# Filtramos os estudantes que teñen unha nota superior a 8 en Matemáticas  
filtro = df[df['Matemáticas'] > 8]  

# Mostramos por pantalla os estudantes que cumpren esta condición  
print(filtro)

Actividade 4: Agregar columnas calculadas

◦ Obxectivo: Agregar columnas novas ó DataFrame basadas en cálculos.
◦ Instrución: Obter o promedio de notas de cada estudante en ambas materias e engadilo como columna. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.

Solución

Este é un programa en Python que podes executar en Google Colaboratory para calcular o promedio de varias columnas e engadilo como columna nova.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a engadir columnas con datos calculados.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos valores do DataFrame e cambialos.

Explicación dos métodos de pandas:

df[['Matemáticas', 'Historia']]

Aquí seleccionamos dúas columnas do DataFrame: "Matemáticas" e "Historia". Isto permítenos traballar cos seus valores ao mesmo tempo para realizar cálculos.

mean(axis=1)

Aplicamos o método .mean() que calcula a media (promedio) dos valores das columnas seleccionadas. O parámetro axis=1 indica que queremos calcular a media por fila, é dicir, para cada estudante.

df['Promedio'] = ...

Gardamos o resultado do cálculo nunha nova columna chamada "Promedio" dentro do DataFrame. Isto permite que cada estudante teña automaticamente o seu promedio de notas calculado.

Este método é moi útil para engadir información relevante ao DataFrame sen modificar os datos orixinais.

Posibles actividades adicionais:

Calcular e agregar columnas con máximos, mínimos ou sumas.

Código Python: Cálculo do promedio de notas de cada estudante

# Agregamos unha nova columna chamada "Promedio" ao DataFrame
# Calculamos a media das notas en Matemáticas e Historia para cada estudante
df['Promedio'] = df[['Matemáticas', 'Historia']].mean(axis=1)  

# Mostramos por pantalla o DataFrame actualizado, agora coa columna de promedios incluída
print(df)

Actividade 5: Agregar filas calculadas

◦ Obxectivo: Agregar filas novas ó DataFrame basadas en cálculos.
◦ Instrución: Obter o promedio de notas de cada materia e engadilo como fila. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.

Solución

Este é un programa en Python que podes executar en Google Colaboratory para calcular o promedio de varias filas e engadilo como fila nova.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a engadir filas con datos calculados.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos valores do DataFrame e cambialos.

Explicación dos métodos de pandas:

df[['Matemáticas', 'Historia']].mean(axis=0): Calculamos a media dos valores de cada columna (axis=0 significa que operamos sobre as columnas).Isto xera unha serie cos promedios de Matemáticas e Historia.

pd.DataFrame([promedio_materias], index=['Promedio x Materia']):Convertimos a serie anterior nun DataFrame, para que teña unha estrutura similar á táboa orixinal.Engadimos un índice personalizado ('Promedio x Materia') para que apareza correctamente na táboa.

pd.concat([df, fila_promedio]): Usamos pd.concat() para combinar o DataFrame orixinal df coa nova fila de promedios. Desta maneira, fila_promedio pasa a ser a última fila da táboa.

Agora o DataFrame incluirá unha fila adicional cos promedios de cada materia

Posibles actividades adicionais:

Engadir máis estatísticas (como máximo, mínimo, etc.), podes facelo aplicando métodos como .max(), .min() ou .std().

Código Python: Calculando promedios en cada materia de todo o alumnado

# Calculamos o promedio das notas en cada materia (Matemáticas e Historia)
promedio_materias = df[['Matemáticas', 'Historia']].mean(axis=0)  

# Convertimos os resultados nun DataFrame para poder agregalos ao orixinal
fila_promedio = pd.DataFrame([promedio_materias], index=['Promedio x Materia'])  

# Usamos a función 'concat' para engadir a nova fila ao DataFrame orixinal
df = pd.concat([df, fila_promedio])  

# Mostramos o DataFrame actualizado, agora co promedio por materia como última fila
print(df)