Pandas é unha librería de Python que nos permite traballar con datos dunha maneira moi fácil e eficiente.
Imaxínate que tes unha gran cantidade de información, como as notas de todos os seus compañeiros en diferentes materias e en diferentes cursos Pandas axúdache a organizar, analizar e transformar estes datos de forma rápida.
Exemplos:
Notas de clase: Poderiamos usar pandas para calcular a media das notas de cada materia.
Deportes: Se queremos saber quen é o máximo goleador dun equipo de fútbol ao longo dunha tempada.
Redes sociais: Analizar cantos likes ou comentarios recibiu unha publicación.
Actividades de aprendizaxe
Actividade 1: Crear un DataFrame
◦ Obxectivo: Entender como crear e visualizar un DataFrame en pandas. ◦ Instrución: Crear e imprimir un DataFrame de alumnado e as cualificacións en matemáticas e historia.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a crear un DataFrame.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos datos do DataFrame cambiando o valor ou a cantidade.
Explicación dos métodos de pandas:
pd.DataFrame(data)
Este método crea un DataFrame, que é unha estrutura de datos tabular (coma unha táboa). O argumento data que lle pasamos é un dicionario, onde as claves son os nomes das columnas e os valores son listas cos datos correspondentes. Así conseguimos organizar a información de maneira clara e manipulable dentro de pandas.
Este código crea unha táboa con nomes e notas de varios estudantes. A librería pandas permíteche manexar estes datos de maneira sinxela e clara.
Posibles actividades adicionais:
Crear un DataFrame con datos das túas películas ou cancións favoritas, incluíndo título e cualificación.
Código Python: DataFrame de cualificacións
# Importamos a librería pandas, que nos permite traballar con datos de maneira eficiente
import pandas as pd
# Creamos un dicionario chamado 'data' que contén información sobre estudantes e as súas notas
data = {
'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta'], # Lista cos nomes dos estudantes
'Matemáticas': [8.5, 9.0, 7.8, 9.2], # Lista coas notas na materia de Matemáticas
'Historia': [8.8, 7.6, 9.5, 8.9] # Lista coas notas na materia de Historia
}
# Convertimos o dicionario nun DataFrame de pandas, que é unha estrutura de datos tabular (coma unha táboa)
df = pd.DataFrame(data)
# Mostramos o DataFrame por pantalla para visualizar os datos nun formato tabular print(df)
Actividade 2: Seleccionar datos
◦ Obxectivo: Aprender a seleccionar columnas específicas dun DataFrame. ◦ Instrución: Selecciona e imprime os datos da columna de notas de matemáticas, no DataFrame anterior. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a realizar a selección da columna de matemáticas.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar coa instrución que selecciona a columna e cambiala por historia.
Explicación dos métodos de pandas:
df['Matemáticas']
Aquí estamos accedendo á columna chamada "Matemáticas" dentro do DataFrame df. Pandas permite seleccionar columnas empregando corchetes [] e o nome da columna entre comiñas. O resultado será unha serie de datos que contén só os valores desa columna.
Este método é útil cando queremos traballar cunha única columna sen ter que ver toda a táboa de datos.
Posibles actividades adicionais:
Seleccionar datos de diferentes columnas e crear gráficos simples.
Código Python: Selección dos datos da columna matemáticas
# Seleccionamos a columna "Matemáticas" do DataFrame e gardámola na variable 'matematicas'
matematicas = df['Matemáticas']
# Mostramos por pantalla os valores da columna de Matemáticas
print(matematicas)
Actividade 3: Filtrar datos
◦ Obxectivo: Filtrar filas do DataFrame según certos criterios. ◦ Instrución: Filtrar os datos de alumnado cunha nota maior de 8 en matemáticas. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a realizar un filtrado de datos.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar coa instrución de filtrado e cambiar o valor ou a columna de filtrado.
Explicación dos métodos de pandas:
df['Matemáticas'] > 8
Esta parte do código crea unha condición: seleccionamos só aquelas filas onde a columna "Matemáticas" ten un valor maior que 8.O resultado será unha lista de valores True ou False que indica que filas cumpren ou non esa condición.
df[df['Matemáticas'] > 8]
Aquí aplicamos o filtro ao DataFrame df, de xeito que só se conserven as filas onde a condición se cumpre.Isto significa que obtemos un novo DataFrame con só os estudantes que teñen máis de 8 en Matemáticas.
Posibles actividades adicionais:
Seleccionar datos de diferentes columnas e crear gráficos simples.
Código Python: Filtrado por nota>8 en matemáticas
# Filtramos os estudantes que teñen unha nota superior a 8 en Matemáticas
filtro = df[df['Matemáticas'] > 8]
# Mostramos por pantalla os estudantes que cumpren esta condición
print(filtro)
Actividade 4: Agregar columnas calculadas
◦ Obxectivo: Agregar columnas novas ó DataFrame basadas en cálculos. ◦ Instrución: Obter o promedio de notas de cada estudante en ambas materias e engadilo como columna. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a engadir columnas con datos calculados.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos valores do DataFrame e cambialos.
Explicación dos métodos de pandas:
df[['Matemáticas', 'Historia']]
Aquí seleccionamos dúas columnas do DataFrame: "Matemáticas" e "Historia". Isto permítenos traballar cos seus valores ao mesmo tempo para realizar cálculos.
mean(axis=1)
Aplicamos o método .mean() que calcula a media (promedio) dos valores das columnas seleccionadas. O parámetro axis=1 indica que queremos calcular a media por fila, é dicir, para cada estudante.
df['Promedio'] = ...
Gardamos o resultado do cálculo nunha nova columna chamada "Promedio" dentro do DataFrame. Isto permite que cada estudante teña automaticamente o seu promedio de notas calculado.
Este método é moi útil para engadir información relevante ao DataFrame sen modificar os datos orixinais.
Posibles actividades adicionais:
Calcular e agregar columnas con máximos, mínimos ou sumas.
Código Python: Cálculo do promedio de notas de cada estudante
# Agregamos unha nova columna chamada "Promedio" ao DataFrame
# Calculamos a media das notas en Matemáticas e Historia para cada estudante
df['Promedio'] = df[['Matemáticas', 'Historia']].mean(axis=1)
# Mostramos por pantalla o DataFrame actualizado, agora coa columna de promedios incluída
print(df)
Actividade 5: Agregar filas calculadas
◦ Obxectivo: Agregar filas novas ó DataFrame basadas en cálculos. ◦ Instrución: Obter o promedio de notas de cada materia e engadilo como fila. En Colab, non é preciso que volvas crear o DataFrame, facéndoo no mesmo caderno, os programas execútanse tendo en conta as celdas previas.
O programa inclúe explicacións detalladas nos comentarios para que comprendas cada paso.
Executandoo en Colab, podes probar a engadir filas con datos calculados.
Non te preocupes por comprender o programa totalmente, só de entender o que fai.
Podes xogar cos valores do DataFrame e cambialos.
Explicación dos métodos de pandas:
df[['Matemáticas', 'Historia']].mean(axis=0): Calculamos a media dos valores de cada columna (axis=0 significa que operamos sobre as columnas).Isto xera unha serie cos promedios de Matemáticas e Historia.
pd.DataFrame([promedio_materias], index=['Promedio x Materia']):Convertimos a serie anterior nun DataFrame, para que teña unha estrutura similar á táboa orixinal.Engadimos un índice personalizado ('Promedio x Materia') para que apareza correctamente na táboa.
pd.concat([df, fila_promedio]): Usamos pd.concat() para combinar o DataFrame orixinal df coa nova fila de promedios. Desta maneira, fila_promedio pasa a ser a última fila da táboa.
Agora o DataFrame incluirá unha fila adicional cos promedios de cada materia
Posibles actividades adicionais:
Engadir máis estatísticas (como máximo, mínimo, etc.), podes facelo aplicando métodos como .max(), .min() ou .std().
Código Python: Calculando promedios en cada materia de todo o alumnado
# Calculamos o promedio das notas en cada materia (Matemáticas e Historia)
promedio_materias = df[['Matemáticas', 'Historia']].mean(axis=0)
# Convertimos os resultados nun DataFrame para poder agregalos ao orixinal
fila_promedio = pd.DataFrame([promedio_materias], index=['Promedio x Materia'])
# Usamos a función 'concat' para engadir a nova fila ao DataFrame orixinal
df = pd.concat([df, fila_promedio])
# Mostramos o DataFrame actualizado, agora co promedio por materia como última fila
print(df)