Blogs

Inicio / Blogs / 3 formas de transferir datos desde Amazon S3 a Redshift

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

3 formas de transferir datos de Amazon S3 a Redshift

Javería Rahim

Gerente Asociado SEO

3rd octubre, 2023

Con las redes sociales, los sensores y los dispositivos IoT dando vida a cada dispositivo, generamos volúmenes de datos todos los días. Más datos siempre es una buena noticia hasta que su factura de almacenamiento comienza a aumentar y se vuelve difícil de administrar. Se espera que los datos no estructurados aumenten a 175 mil millones de zettabytes para 2025. Si bien los servicios en la nube como Amazon S3 han permitido a las organizaciones administrar estos volúmenes masivos de datos cuando se trata de análisis, las soluciones de almacenamiento no son suficientes, y aquí es donde entra en escena el almacén de datos como Amazon Redshift.

Las empresas a menudo usan ambos servicios de Amazon en conjunto para administrar los costos y la agilidad de los datos o usan Amazon S3 como un área de preparación mientras construyen un almacén de datos en Amazon Redshift. Sin embargo, solo puede darse cuenta del verdadero potencial de ambos servicios si puede lograr una conexión perfecta de Amazon S3 a Redshift. Astera Centerprise es una solución sin código que puede ayudarlo a integrar ambos servicios sin problemas. Exploremos algunos beneficios de AWS Redshift y Amazon S3 y cómo puede conectarlos con facilidad.

Actualice la velocidad de consulta con AWS Redshift

AWS Redshift es un almacén de datos en la nube totalmente administrado implementado en los servicios de AWS. El almacén de datos ha sido diseñado para análisis complejos de gran volumen y puede ampliarse fácilmente para manejar petabytes de datos. Le permite extraer información significativa de sus datos, para que no deje sus decisiones a su instinto.

Hay varias razones por las que AWS Redshift puede agregar valor real a su arquitectura de datos:

  • Como un sólido almacén de datos en la nube, puede consultar grandes conjuntos de datos sin un retraso significativo.
  • Con una interfaz como MYSQL, el almacén de datos es fácil de usar, lo que facilita agregarlo a su arquitectura de datos.
  • Como está en la nube, puede escalarlo hacia arriba y hacia abajo fácilmente sin invertir en hardware.

Si bien AWS Redshift puede manejar sus necesidades de análisis de datos, no es una solución ideal para el almacenamiento y se debe principalmente a su estructura de precios. AWS Redshift le cobra por hora. Entonces, si bien los costos comienzan pequeños, pueden aumentar rápidamente.

Amazon S3 para almacenamiento

Si estás pensando en complementar Amazon S3 con Redshift, entonces la respuesta simple es que debería hacerlo. Amazon S3 es una opción de almacenamiento rápida, escalable y rentable para las organizaciones. Como almacenamiento de objetos, es especialmente una solución perfecta para almacenar datos no estructurados e históricos.

El almacenamiento en la nube ofrece una durabilidad del 99.9999 %, por lo que sus datos están siempre disponibles y seguros. Sus datos se replican en varias regiones para realizar copias de seguridad y sus puntos de acceso multirregionales garantizan que no enfrente ningún problema de latencia al acceder a los datos. Además, S3 proporciona funciones integrales de administración de almacenamiento para ayudarlo a controlar sus datos.

Técnicas para mover datos de Amazon S3 a Redshift   

Existen algunos métodos que puede utilizar para enviar datos desde Amazon S3 a Redshift. Puede aprovechar los comandos integrados, enviarlos a través de los servicios de AWS, o puede usar una herramienta de terceros como Astera Centerprise.   

  1. Comando COPIAR: El comando COPIAR es un comando integrado in Corrimiento al rojo. Puede usar esto para conectar el almacén de datos con otras fuentes sin necesidad de otras herramientas.  
  2. Servicios de AWS: Hay varios servicios de AWS, como AWS Glue y AWS Data Pipeline, que pueden ayudarlo a transferir datos.      
  3. Astera Centerprise: Es un extremo a extremo integración de datos plataforma que le permite enviar datos de diversas fuentes a almacenes de datos populares y destinos de bases de datos de su elección sin escribir una sola línea de código.      

Copie el comando para mover datos de Amazon S3 a Redshift   

Amazon Redshift está equipado con una opción que le permite copiar datos de Amazon S3 a Redshift con los comandos INSERT y COPY. El comando INSERTAR es mejor si desea agregar una sola fila. El comando COPY aprovecha el procesamiento paralelo, lo que lo hace ideal para cargar grandes volúmenes de datos.  

Puede enviar datos a Redshift a través del comando COPY de la siguiente manera. Sin embargo, antes de hacerlo, hay una serie de pasos que debes seguir:    

  1. Si ya tiene un clúster disponible, descargue los archivos a su computadora.    
  2. Cree un depósito en Amazon S3 y luego cargue datos en él.  
  3. Crear tablas.    
  4. Ejecute el comando COPIAR.  
Comando COPIAR de Amazon Redshift

Comando COPIAR de Amazon Redshift

La imagen de arriba muestra un comando básico. Debe proporcionar un nombre de tabla, una lista de columnas, una fuente de datos y credenciales. El nombre de la tabla en el comando es su tabla de destino. La lista de columnas especifica las columnas en las que Redshift va a asignar datos. Este es un parámetro opcional. La fuente de datos es la ubicación de su fuente; Este es un campo obligatorio. También debe especificar las credenciales de seguridad, el formato de datos y los comandos de conversión. El comando COPY solo permite algunas conversiones como EXPLICIT_IDS, FILLRECORD, NULL AS, TIME FORMAT, etc.  

Sin embargo, existen varias limitaciones asociadas con el traslado de datos de Amazon S3 a Redshift a través de este proceso. El comando COPY es mejor para la inserción masiva. Si quieres subir los datos uno por uno, esta no es la mejor opción.    

La segunda limitación de este enfoque es que no le permite aplicar ninguna transformación a los conjuntos de datos. Debe tener en cuenta las conversiones de tipos de datos que ocurren en segundo plano con el comando COPY.   

El comando COPY también restringe el tipo de fuentes de datos que puede transferir. Solo puede transferir JSON, AVRO y CSV. 

Mueva datos de Amazon S3 a Redshift con AWS Glue  

Datos ETL con AWS Glue Datos ETL con AWS Glue

Datos ETL con AWS Glue

AWS Glue es un servidor Herramienta ETL introducido por Amazon Web Services para mover datos entre los servicios de Amazon. Puedes usar Pegamento AWS para cambiar datos hacia y desde AWS Redshift. La herramienta ETL utiliza los comandos COPY y UNLOAD para lograr el máximo rendimiento. AWS Glue utiliza Amazon S3 como etapa de preparación antes de cargarlo en Redshift.  

Al usar AWS Glue, debe tener en cuenta una cosa. AWS Glue transmite credenciales de seguridad temporales cuando crea un trabajo. Estas credenciales caducan después de una hora y detienen sus trabajos a mitad de camino. Para abordar este problema, debe crear un rol de IAM independiente que se pueda asociar con el clúster de Redshift.  

Puede transferir datos con AWS Glue de la siguiente manera:   

  1. Lanzar el clúster de AWS Redshift.  
  2. Crear un usuario de base de datos para la migración.  
  3. Cree un rol de IAM y déle acceso a S3 
  4. Adjunte el rol de IAM al destino de la base de datos. 
  5. Agregar una nueva base de datos en AWS Glue.  
  6. Agregar nuevas tablas en la base de datos de AWS Glue.  
  7. Proporcione la ubicación de origen de Amazon s3 y los detalles de la columna de la tabla.  
  8. Crear un trabajo en AWS Glue.  
  9. Especifique el rol de IAM y Amazon S3 como orígenes de datos en los parámetros.  
  10. Elija la opción 'crear tablas en su objetivo de datos' y elija JDBC para el almacén de datos.  
  11. Ejecutar trabajo de AWS Glue.   

Si bien AWS Glue puede hacer el trabajo por usted, debe tener en cuenta las limitaciones asociadas con él. AWS Glue no es una herramienta ETL completa. Además, debe escribir transformaciones en Python o Scala. AWS Glue tampoco le permite probar transformaciones sin ejecutarlas en datos reales. AWS Glue solo admite conexiones JSBC y S3 (CSV).   

Mueva datos de Amazon S3 a Redshift con AWS Data Pipeline  

Transferir datos de Amazon S3 a Redshift

Envíe datos a Amazon Redshift con AWS Data Pipeline

AWS Data Pipeline es un servicio de Amazon especialmente diseñado que puede utilizar para transferir datos entre otras fuentes de Amazon, así como fuentes locales. Con Data Pipeline, puede crear canalizaciones de datos altamente confiables y tolerantes a fallas.   

El proceso contiene nodos de datos donde se almacenan sus datos, las actividades, los trabajos de EMR o las consultas SQL, y un cronograma cuando desea ejecutar el proceso. Entonces, por ejemplo, si desea enviar datos desde Amazon S3 a Redshift, debe: 

  •  DDefinir una canalización con S3DataNode,  
  • A Actividad de Hive para convertir sus datos en .csv,  
  • RedshiftCopyActivity para copiar sus datos de S3 a Redshift.   

Así es como puede crear una canalización de datos:   

  1. Crear una canalización. Utiliza la plantilla Copy to Redshift en la consola de AWS Data Pipeline.  
  2. Guarde y valide su tubería de datos. Puede guardarlo en cualquier momento durante el proceso. La herramienta le advierte si hay algún problema en su carga de trabajo. 
  3. Active su tubería y luego monitoree.  
  4. Puede eliminar su tubería una vez que se complete la transferencia.  

Mueva datos de Amazon S3 a Redshift con Astera Centerprise

Astera Centerprise le brinda una manera más fácil de enviar datos desde Amazon S3 a Redshift. La herramienta sin código viene con conectividad nativa a bases de datos y formatos de archivo populares. Le permite enviar datos desde cualquier fuente a cualquier destino sin escribir una sola línea de código. Con Astera Centerprise, todo lo que necesita hacer es arrastrar y soltar los conectores en el diseñador de canalización de datos y puede comenzar a crear canalizaciones de datos en poco tiempo. La plataforma también viene con visual mapeo de datos y una interfaz de usuario intuitiva que le brinda una visibilidad completa de sus flujos de datos.

Uso de Amazon S3 como área de ensayo para Amazon Redshift

Si está utilizando Amazon S3 como área de preparación para construir su almacén de datos en Amazon Redshift, entonces Astera Centerprise le ofrece una forma sencilla de enviar datos de forma masiva. Así es como puedes hacer eso:

  1. Arrastre y suelte el destino de la base de datos en el diseñador de canalización de datos y elija Amazon Redshift en el menú desplegable y luego proporcione sus credenciales para conectarse. Para usar Amazon S3 como área de preparación, simplemente haga clic en la opción y proporcione sus credenciales.
Amazon S3 a Redshift

Conexión a Amazon Redshift en Astera Centerprise

  1. Una vez que haya hecho eso, también puede elegir el tamaño del inserto a granel. Por ejemplo, si tiene un Excel con un millón de registros, puede enviarlo a Desplazamiento al rojo de Amazon en lotes de 10,000.
Amazon s3 a corrimiento al rojo

Selección del tamaño del lote para la inserción masiva en Amazon S3

Enriquezca sus datos antes de enviarlos desde Amazon S3 a Redshift

A diferencia del comando COPIAR, Astera Centerprise le permite procesar sus datos antes de enviarlos a Amazon Redshift, lo que garantiza una solidez gestión de la calidad de los datos. Astera Centerprise viene con transformaciones sofisticadas integradas que le permiten manejar los datos de la forma que desee. Ya sea que desee ordenar sus datos, filtrarlos o aplicar reglas de calidad de datos, puede hacerlo con la amplia biblioteca de transformaciones.

Lo que hace Astera Centerprise ¿la elección correcta?

Si bien existen otras alternativas, incluidas las herramientas de AWS, que le permiten enviar datos desde Amazon S3 a Redshift, Astera Centerprise le ofrece la forma más rápida y sencilla de realizar transferencias. El código libre herramienta de integración de datos :

  1. Fácil de usar: viene con una curva de aprendizaje mínima, lo que permite que incluso los usuarios nuevos comiencen a construir canalizaciones de datos en minutos
  2. Automatizado: con sus funciones de programación de trabajos, puede automatizar flujos de trabajo completos en función del tiempo o de activadores basados ​​en eventos.
  3. Calidad de datos: La herramienta viene con varias opciones listas para usar para limpiar, validar y perfilar sus datos, asegurando que solo los datos calificados lleguen al destino. También puede utilizar el generador de expresiones personalizadas para definir sus propias reglas.

¿Quiere cargar datos de Amazon S3 a Redshift? ¡Empieza aquí! Astera Centerprise ¡hoy!

También te puede interesar
AsteraGuía de calidad y gobernanza de los datos de seguros
Gobernanza de la información versus gobernanza de los datos: un análisis comparativo
Marco de calidad de datos: qué es y cómo implementarlo
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos