Tratamento de datos para prácticas
Titorial: Descarga, subida e análise de datos en Colab
1. Descargar o arquivo CSV de Kaggle
Para descargar un ficheiro de Kaggle, segue os pasos seguintes:
- Rexístrate ou inicia sesión en Kaggle.
- Busca un conxunto de datos interesante usando o buscador (exemplo: "movies dataset").
- Accede á páxina do conxunto de datos e fai clic en "Download" para obter o arquivo CSV.
2. Subir o arquivo a Google Colab
Unha vez descargado o ficheiro:
- Abre Google Colab.
- Selecciona "Subir arquivo" na sección de ficheiros situada á esquerda.
- Carga o teu ficheiro CSV ao contorno de Colab.
- Confirma que o ficheiro aparece na lista de ficheiros en Colab.
3. Cargar e visualizar o ficheiro CSV
Usa Python para cargar e explorar o ficheiro:
import pandas as pd
# Cargar o ficheiro CSV
df = pd.read_csv('/content/nome_do_teu_arquivo.csv') # Substitúe 'nome_do_teu_arquivo.csv' polo nome real
# Ver as primeiras filas para asegurar que os datos están correctamente cargados
print(df.head())
4. Seleccionar columnas importantes
Filtra só as columnas que che interesan:
# Seleccionar as columnas desexadas
columnas_interes = ['title', 'original_language', 'release_date', 'vote_average', 'vote_count']
df_seleccionado = df[columnas_interes]
# Comprobar o novo DataFrame
print(df_seleccionado.head())
5. Ordenar os datos por unha columna
Ordena os datos baseándose na puntuación ou calquera outra columna relevante:
# Ordenar segundo 'vote_average'
df_ordenado = df_seleccionado.sort_values(by='vote_average', ascending=False)
# Seleccionar as primeiras 500 filas
df_top_500 = df_ordenado.head(500)
# Comprobar o resultado
print(df_top_500.head())
6. Gardar o resultado
Finalmente, garda o DataFrame resultante nun novo ficheiro CSV:
# Gardar o DataFrame ordenado e filtrado nun novo arquivo CSV
df_top_500.to_csv('movies_top_500.csv', index=False)
# Opcional: descargar o ficheiro se estás en Google Colab
from google.colab import files
files.download('movies_top_500.csv')
Conclusión
Con este titorial, podes traballar con calquera conxunto de datos: descargar de Kaggle, subir a Google Colab, seleccionar, ordenar e limpar as filas ou columnas que máis che interesen. Estes pasos son esenciais para a análise exploratoria e preprocesamento en proxectos de intelixencia artificial.