Saltar navegación

Proceso de limpeza de datos

Tratamento de datos para prácticas

Titorial: Descarga, subida e análise de datos en Colab

1. Descargar o arquivo CSV de Kaggle

Para descargar un ficheiro de Kaggle, segue os pasos seguintes:

  1. Rexístrate ou inicia sesión en Kaggle.
  2. Busca un conxunto de datos interesante usando o buscador (exemplo: "movies dataset").
  3. Accede á páxina do conxunto de datos e fai clic en "Download" para obter o arquivo CSV.

2. Subir o arquivo a Google Colab

Unha vez descargado o ficheiro:

  1. Abre Google Colab.
  2. Selecciona "Subir arquivo" na sección de ficheiros situada á esquerda.
  3. Carga o teu ficheiro CSV ao contorno de Colab.
  4. Confirma que o ficheiro aparece na lista de ficheiros en Colab.

3. Cargar e visualizar o ficheiro CSV

Usa Python para cargar e explorar o ficheiro:

import pandas as pd

# Cargar o ficheiro CSV
df = pd.read_csv('/content/nome_do_teu_arquivo.csv')  # Substitúe 'nome_do_teu_arquivo.csv' polo nome real

# Ver as primeiras filas para asegurar que os datos están correctamente cargados
print(df.head())
        

4. Seleccionar columnas importantes

Filtra só as columnas que che interesan:

# Seleccionar as columnas desexadas
columnas_interes = ['title', 'original_language', 'release_date', 'vote_average', 'vote_count']
df_seleccionado = df[columnas_interes]

# Comprobar o novo DataFrame
print(df_seleccionado.head())
        

5. Ordenar os datos por unha columna

Ordena os datos baseándose na puntuación ou calquera outra columna relevante:

# Ordenar segundo 'vote_average'
df_ordenado = df_seleccionado.sort_values(by='vote_average', ascending=False)

# Seleccionar as primeiras 500 filas
df_top_500 = df_ordenado.head(500)

# Comprobar o resultado
print(df_top_500.head())
        

6. Gardar o resultado

Finalmente, garda o DataFrame resultante nun novo ficheiro CSV:

# Gardar o DataFrame ordenado e filtrado nun novo arquivo CSV
df_top_500.to_csv('movies_top_500.csv', index=False)

# Opcional: descargar o ficheiro se estás en Google Colab
from google.colab import files
files.download('movies_top_500.csv')
        

Conclusión

Con este titorial, podes traballar con calquera conxunto de datos: descargar de Kaggle, subir a Google Colab, seleccionar, ordenar e limpar as filas ou columnas que máis che interesen. Estes pasos son esenciais para a análise exploratoria e preprocesamento en proxectos de intelixencia artificial.