Introducción (análisis de los puntos débiles)

¿Se enfrenta a alguno de los siguientes retos como propietario de una plataforma de big data?

  • Los costes de almacenamiento se han disparado.El volumen de datos crece a un ritmo de 50% al año, y las soluciones tradicionales de almacenamiento HDFS requieren una ampliación constante de los servidores, lo que supone una pesada carga para la adquisición de hardware y los costes de funcionamiento y mantenimiento de las salas de servidores.
  • Desperdicio de recursos informáticos.Para hacer frente a picos informáticos ocasionales (por ejemplo, generación de informes a final de mes, auditoría anual), es necesario mantener un enorme clúster Hadoop/Spark durante un largo periodo de tiempo, lo que da lugar a una utilización media de la CPU inferior a 20% y a un grave despilfarro de recursos.
  • Cuellos de botella en la escalabilidad.El almacenamiento y la computación están estrechamente acoplados, cuando se amplía el almacenamiento, el nodo de computación debe ampliarse al mismo tiempo, la operación es compleja, y no es posible lograr elasticidad y escalabilidad independientes de los recursos.
  • Complejidad de las operaciones técnicas y de mantenimiento.Los clústeres autoconstruidos requieren un equipo profesional para realizar continuas actualizaciones de versión, resolución de problemas y ajuste del rendimiento, lo que tiene un alto umbral técnico y distrae la energía que debería dedicarse a la innovación del negocio de datos.

Resumen en una frase.Si está luchando contra el aumento de los costes de infraestructura de big data y las pesadas operaciones y tareas de mantenimiento, este artículo le proporcionará una solución completa basada en la arquitectura de separación de almacenamiento e informática de AliCloud para reducir los costes y aumentar la eficiencia.

Esquema y visión general de la arquitectura de la solución

diagrama de arquitectura

Solución de almacenamiento y computación de Big Data de bajo coste: la arquitectura de separación de almacenamiento de objetos OSS + computación reduce el coste 50% - LikaCloud

Visión general.

El núcleo de este programa es"Segregación de cuentas"junto con"Sin servidor". Todos los datos se depositan directamente en elAlmacenamiento de objetos AliCloud (OSS)aprovechando su capacidad ilimitada y sus capacidades de almacenamiento por niveles de bajo coste (estándar, baja frecuencia, archivo) como pedestal de almacenamiento persistente para los lagos de datos. Las tareas de cálculo son gestionadas por elInstancia elástica de contenedor (ECI)responder cantandoE-MapReduce sin servidoretc. se alojan en motores sin servidor, que solo se activan en segundos mientras se ejecuta la tarea, se pagan por la cantidad de recursos informáticos realmente utilizados (CPU/memoria/duración del tiempo de ejecución) y se liberan en cuanto finaliza la tarea. Todo el proceso se basa en eventos (por ejemplo, nuevos archivos cargados en OSS) y no hay necesidad de gestionar ningún servidor.

Propuesta de valor.Esta solución da en el clavo, al transformar el elevado coste fijo del clúster en un coste muy bajo de almacenamiento + coste de computación bajo demanda, el coste global puede reducirse en más de 50% y liberar por completo la presión del funcionamiento y el mantenimiento.

Productos básicos y componentes

  • Nombre del componente.​ ​Almacenamiento de objetos AliCloud (OSS)
    • Interpretar el papel.arquitectura integradaAlmacenamiento básico Piedra angular...con todos los datos.
    • Principales recomendaciones de configuración/selección.
      • Datos calientes a los que se accede con frecuencia.adopciónAlmacenamiento estándarTipo.
      • Datos de temperatura para visitas ocasionales.adopciónacceso de baja frecuenciaTipo de almacenamiento (bajo coste de acceso, coste de almacenamiento aún más bajo).
      • Datos fríos archivados/con copia de seguridad.adopciónarchivaroarchivo en fríoTipo de almacenamiento (menor coste).
      • Al configurar elNormas del ciclo de vidaEl sistema convierte automáticamente los datos de estándar -> baja frecuencia -> archivo para maximizar el ahorro de costes.
    • Por qué elegirlo.Proporciona 12 9s de persistencia de datos a 1/3 o menos del coste del almacenamiento en disco duro autoconstruido, ideal para arquitecturas de separación tienda-ordenador.
  • Nombre del componente.​ ​Instancia elástica de contenedor (ECI)
    • Interpretar el papel.​ ​Núcleo informático elástico a petición. Se utiliza para ejecutar tareas informáticas personalizadas en contenedores (por ejemplo, scripts Python, gestores de datos personalizados).
    • Principales recomendaciones de configuración/selección.
      • con respecto aA corto plazo, repentinade tareas computacionales (por ejemplo, ejecutar ETL durante 1-2 horas al día), se prefiere ECI.
      • Configurado según las especificaciones de vCPU y memoria necesarias para la tarea, admite instancias de tamaño reducido de 0,25 núcleos para evitar el desperdicio de recursos.
      • A través deevento desencadenante(por ejemplo, eventos de carga de archivos OSS) despierta automáticamente los recursos informáticos para una canalización totalmente automatizada.
    • Por qué elegirlo.Realmente hace realidad la "facturación por segundos y el escalado a la carta" de los recursos informáticos sin necesidad de reservar recursos, lo que mejora enormemente la utilización de los mismos.

Resumen de los beneficios del programa

  • ? El coste combinado es de 50%+.Con OSS de bajo coste para el almacenamiento y pago por uso para la informática, no hay necesidad de pagar por recursos ociosos, y el coste total de propiedad (TCO) se reduce drásticamente en comparación con los clusters fijos autoconstruidos.
  • ⚡ Resistencia extrema con escalado segundo a segundo.Ante una avalancha de datos o una demanda repentina de análisis, los recursos informáticos pueden ampliarse al instante sin necesidad de adquirirlos e implantarlos de antemano, lo que mejora enormemente la agilidad empresarial.
  • ? ️ Alta disponibilidad y ausencia de mantenimiento.Los servicios de infraestructura AliCloud proporcionan SLA de alta disponibilidad, eliminando la necesidad de preocuparse por los fallos y el mantenimiento de la infraestructura subyacente, y permitiendo al equipo centrarse en el propio desarrollo de los datos.
  • ? Apertura y compatibilidad.Totalmente compatible con el ecosistema de código abierto, los procedimientos de procesamiento de datos existentes pueden migrarse sin problemas para proteger la inversión en tecnología existente.

Escenarios de aplicación y clientes aplicables

  • Escenarios típicos de aplicación.
    • Tareas ETL cíclicas.Operaciones diarias o semanales de limpieza, transformación y carga de datos.
    • Consulta instantánea interactiva.Los analistas de datos inician tareas de consulta ocasionales en las que los recursos informáticos se crean con el inicio de la consulta y se liberan con su finalización.
    • Procesamiento basado en eventos.Por ejemplo, en cuanto se carga un nuevo archivo de registro en OSS, se activa inmediatamente la tarea de detección de anomalías o de generación de informes.
  • Características de los clientes aplicables.
    • propiedadPara tener en cuenta los costesde la empresa y del equipo.
    • Existe demanda calculadaPicos y valles claros(por ejemplo, escenarios con muchas tareas diurnas y pocas nocturnas).
    • desearCrear una plataforma de macrodatos desde ceroy empresas que no quieren crear un gran equipo de O&M.
    • en marchaTransformación digitalempresas tradicionales que buscan introducir capacidades de big data con unos costes mínimos de prueba y error.

Enlaces relacionados