Análisis de Big Data

Ciencia de datos

Ofertas disponibles

$300.00

Precio inicial

N/A

Días promedio de entrega

Precio mínimo

Precio máximo

Días de entrega máx

Filter by Skill

Ordenar por

Disponible ahora (Ocultar freelancers ocupados)

Limpiar

Ofertas disponibles (1)

Marta García

Freelancer

Limpieza y preparación de datos (Python)

<p>Convierte conjuntos de datos desordenados e inconsistentes en datos limpios listos para análisis usando Python y Pandas. Este servicio de gestión de datos incluye: evaluación de datos, análisis de archivos de datos en bruto identificando problemas como valores faltantes, duplicados, inconsistencias de formato o problemas estructurales, definición de alcance que documenta los requisitos de limpieza y la estructura final de datos necesaria para análisis o aprendizaje automático, y limpieza de muestras de aprobación de un pequeño subconjunto de datos para su aprobación antes de procesar el conjunto completo de datos. Las operaciones de limpieza de datos incluyen: manejo de valores faltantes, identificación de patrones de datos ausentes y aplicación de estrategias apropiadas (eliminación, imputación con media/mediana, relleno hacia adelante), eliminación de duplicados detectando y eliminando filas duplicadas basadas en columnas clave o en todas las columnas, detección de valores atípicos identificando valores atípicos estadísticos usando el método IQR, puntuaciones Z o conocimiento del dominio con opciones para eliminar o limitar, conversión de tipos de datos asegurando que las columnas tengan tipos de datos correctos (fechas como fecha-hora), números como int/float, categorías como categóricas), y espacios en blanco y formateo limpiando espacios de recorte, estandarizando la mayúscula y eliminando caracteres especiales. La transformación de datos incluye: renombramiento de columnas que sustituye nombres de columnas poco claros por nombres descriptivos y estandarizados siguiendo convenciones de nombres, normalización de valores de valores (por ejemplo, EE.UU., Estados Unidos, EE. UU. → Estados Unidos) que asegure la consistencia, análisis sintáctico de fechas que convierta varios formatos de fechas (MM/DD/AAAAAA, DD-MM-YYYY) en objetos de fecha y hora consistentes, división de cadenas que separa campos combinados (nombre completo → nombre y apellido) en columnas distintas, y codificar variables categóricas convirtiendo datos categóricos a numéricos usando codificación one-hot o codificación de etiquetas para modelos de aprendizaje automático. La fusión y unión de datos incluye: combinar múltiples archivos, fusionar conjuntos de datos de hojas de Excel, archivos CSV o bases de datos usando claves comunes, operaciones de unión que realicen uniones internas, izquierdas, derechas o externas preservando o excluyendo registros no coincidentes según sea necesario, apilamiento vertical que concatena archivos con la misma estructura (por ejemplo, informes mensuales en un único conjunto de datos anual) y validación de relaciones para asegurar que las fusiones no creen duplicados ni pierdan registros inesperadamente. La reestructuración de datos incluye: pivotear convertir formato largo a formato ancho o viceversa para necesidades de análisis o reportes, agrupar datos por categorías y calcular estadísticas resumidas (suma, media, conteo), normalización escalando características numéricas a rango 0-1 o estandarizando a media=0, std=1 para aprendizaje automático, e ingeniería de características creando nuevas columnas calculadas a partir de datos existentes (edad desde la fecha de nacimiento, beneficio por ingresos y costes). La validación de calidad incluye: perfilado de datos que genera estadísticas resumen, conteos nulos, valores únicos para cada columna que entienden características de datos, comprobaciones de consistencia que validan reglas de negocio (fechas en un rango válido, porcentajes entre 0 y 100, campos requeridos rellenados), validación entre campos que asegure relaciones lógicas (fecha de finalización después de la fecha de inicio, total igual a suma de partes) y verificación de salida comparando muestras de datos limpiados con transformaciones de confirmación de fuente aplicadas correctamente. La documentación incluye: registro de limpieza que documente todas las transformaciones aplicadas (eliminaciones, imputaciones, fusiones) proporcionando transparencia y reproducibilidad, diccionario de datos que describa cada columna del conjunto de datos final con valores de tipo de datos, descripción y ejemplo, y informe de calidad que resume los problemas encontrados y cómo se resolvieron con recuentos antes y después de la limpieza. Los resultados entregados incluyen: conjunto de datos CSV/Excel listo para análisis de archivos limpio en formato solicitado con estructura y calidad consistentes, código documentado en Python script (.py) que realiza todas las operaciones de limpieza que permite la reejecución de datos actualizados, Cuaderno Jupyter (.ipynb) que muestra el proceso de limpieza paso a paso con explicaciones y visualizaciones, y copia de seguridad de datos originales en bruto preservada en archivos separados que garantiza la posibilidad de revisar decisiones. Las opciones avanzadas incluyen: pipeline automatizado que crea scripts reutilizables que limpian automáticamente nuevos archivos de datos con la misma estructura, reglas de validación de datos que definen comprobaciones que los datos futuros deben superar antes de ser aceptados en el sistema, y visualización que añade gráficos que muestren la distribución de datos, valores faltantes o comparaciones antes/después. Perfecto para analistas que reciben exportaciones de datos desordenadas de sistemas heredados o múltiples fuentes, científicos de datos preparando conjuntos de datos para entrenamiento de modelos de aprendizaje automático, equipos de inteligencia de negocio que consolidan datos de CRM, ERP y plataformas de marketing antes del análisis, y investigadores que limpian respuestas a encuestas o datos experimentales para análisis estadístico. *[Continuando con las ofrendas restantes 41-100...]*</p>

Ver detalles

Análisis de Big Data

Ofertas disponibles (1)

Limpieza y preparación de datos (Python)

Consentimiento de cookies

Cookies esenciales (siempre activas) Requerido

Cookies no esenciales