Tecnología Double 11 Black: Big Data Computación en tiempo real a medida

era de los datos, la computación de datos grande ha penetrado en todos los ámbitos de la vida, los datos de precipitación de negocios, calculado para generar nuevo valor de negocio, grande la computación de datos sigue impulsando el negocio en este camino a seguir. 11 dobles electricidad proveedores, empresas y consumidores Detrás del carnaval, lo mismo no puede separarse del valor de la contribución de la informática de big data, especialmente la aplicación de una 'computación en tiempo real' cada vez más extensa.

En el mundo real, los datos se generan y recopilan continuamente y se calculan en tiempo real

Hacemos cifras, el valor comercial de los productos de la minería, el problema esencial es el problema de los datos. El mundo real, a menudo como datos de tiempo generados de forma continua, como los usuarios navegar por mercancía, una serie de clics del ratón, tendrá una serie de datos en segundo plano; de navegación para automóviles utilizando teléfonos móviles, localización GPS actualizada de vez en cuando, continuará generando datos de registro; los usuarios navegar por canales de noticias, búsqueda de canciones, cámaras de vigilancia capturar imágenes cronometrado cargado en el almacenamiento en la nube, vídeo en directo y así sucesivamente escena, Los datos generados detrás de esto se generan en sucesión, y los datos comerciales generados continuamente se recopilan en tiempo real para formar el flujo de datos.

Los datos en continuo, una vez recogido, pueden participar inmediatamente calculada, y los resultados calculados en las aplicaciones de negocio, que se calcula en tiempo real. cálculo de datos en tiempo real, de hecho, ya ha entrado en todos los aspectos de la vida de las personas, y como el pronóstico del tiempo, antes de que los hábitos de las personas La información diaria del pronóstico del tiempo recibida, y ahora puede ver pronósticos meteorológicos en tiempo real, al mismo tiempo que el pronóstico del tiempo será más preciso a medida que se acerca el tiempo, que es el monitoreo de las actualizaciones de adquisición de datos y los resultados de computación de datos en tiempo real.

De acuerdo con los intereses de la computación a medida, en tiempo real para hacer que el producto sea cada vez más comprensivo para los usuarios

Cada vez se crean más fuentes de datos en tiempo real, cada vez más volúmenes de datos crecen exponencialmente cada año, lo que es bueno para la informática en tiempo real, con más escenarios de aplicaciones, mejores efectos de aplicaciones y posiblemente Haga algunos cambios revolucionarios. Entonces, la informática de Big Data en tiempo real puede hacer?

En Netease, Koalahai dual sea 11, 618 Sea Amoy Festival y otras actividades, habrá una gran cantidad de pantalla grande de NetEase en tiempo real de las últimas ventas totales actuales, porcentaje de ventas de cada categoría de producto, tendencia de crecimiento de pedidos, ubicación activa del usuario , Todo tipo de dimensiones de información están constantemente latiendo en una pantalla. Cada usuario de cada orden de impacto será actualizaciones en tiempo real de la pantalla grande. Esta aplicación visual en tiempo real resulta, además de agregar una atmósfera de carnaval de comercio electrónico. , Es más fácil encontrar el valor de los datos, guiar las operaciones del mercado y respaldar las decisiones comerciales.

El control de riesgo financiero es otro escenario típico de computación en tiempo real. Frente al negocio sensible a los riesgos de los servicios financieros, no es suficiente visualizar los datos. Requiere que el sistema de computación de flujo pueda utilizar algunas reglas de coincidencia de modelos de riesgo. , Análisis en tiempo real de los datos masivos del comportamiento del usuario, el descubrimiento de anomalías, determinar el nivel de riesgo y tomar las medidas de control de riesgo apropiadas para automatizar la notificación de alarma para cambiar los procesos de negocio. Control de riesgo financiero financiero en tiempo real, los beneficios son Más rápido, más preciso, más amplio Otros Muchos escenarios informáticos basados ​​en eventos como Windchill resuelven cálculos en tiempo real.

tiempo real en el campo de aplicación también se ha recomendado muy profundamente. Ya sea recomendable noticias, música o recomendación de lecturas recomendadas, básicamente se han hecho mil mil caras, que cada uno recibió empujó contenido se adapta a las preferencias individuales de interés a. las preferencias de los intereses del usuario, a menudo a través de datos en tiempo real para calcular constantemente actualizada. a fuentes de noticias, por ejemplo, cuando un usuario hace clic en una sección de un mensaje de inserción, de hecho, detrás del producto en el tiempo para que el usuario haga en tiempo real de análisis de comportamiento, en tiempo real las actualizaciones de usuario preferencias de interés continúan para encontrar nuevos puntos de usuarios de interés, los usuarios se vuelven más conscientes de, y, finalmente, empujan contenido a los usuarios más interesados ​​en él. nuevo con recomendaciones de música, por ejemplo, si un usuario de un cierto periodo de tiempo unos cuantos primera colección de canciones tristes a través del análisis de datos en tiempo real, el sistema puede identificar esta información, y dirigida empujar algunas canciones para calmar los usuarios. este escenario sólo se calcula en tiempo real para resolver, sino también mejor encarna los valores calculados en tiempo real.

Se desarrollarán cada vez más escenarios informáticos en tiempo real, las personas en el futuro "todo está cambiando" se sentirán cada vez más profundas.

Desde "guardar antes de ir" hasta "contar mientras se guarda", la informática en tiempo real ya no teme a los datos "grandes"

La informática en tiempo real es tan buena, ¿qué se debe hacer en el nivel de realización ?, ¿cuáles son las dificultades y los desafíos que se deben abordar?

En primer lugar, mira a la arquitectura general, el cálculo de datos, nada menos que las tres cosas: la entrada de datos → cálculo de los datos de salida → modelo de computación tradicional a una base de datos, por ejemplo, los datos se almacenan en primer lugar en una tabla de datos, ejecutar una consulta por parte del usuario. calcula la operación de disparo de la base de datos, la base de datos y, finalmente, la salida después de la finalización del cálculo. este modelo 'después de que el primer recuento de depósito' en tiempo real escenario de computación grandes datos no funciona. queremos calcular los datos son 'grandes', resultado del cálculo datos de origen involucrados pueden ser cubiertos en los datos del pasado día, pueden ser cientos de miles de registros de datos. Si cada añadir algunos datos nuevos, todos los datos se considera vuelto a calcular de nuevo, por lo que el costo es muy grande, el efecto final será muy 'lenta', alcanzar el tiempo real efecto de enfoque más razonable es 'mantener el recuento de borde lateral', es decir, los datos en tiempo real los sistemas de computación, no necesariamente tienen que ser almacenados, puede estar directamente involucrado en el cálculo y el cálculo aquí es Los nuevos datos actuales en los resultados del cálculo de datos históricos previos hacen 'cálculo incremental', los mismos datos no están involucrados en el cálculo del cálculo repetido se completa, A continuación, guardar los resultados en conjunto, para uso comercial, la presión, entonces los datos almacenados mucho más pequeño, mientras que el 'grande' significa que los datos se complica por alto, es posible que necesite para calcular los diez millones de nuevos datos por segundo, esta cantidad no se calcula Stand-alone puede resistir, por lo que el big data de computación en tiempo real a ser resuelto es una serie de problemas técnicos bajo la arquitectura del sistema distribuido.

Distributed Computing desafíos reales muchos aspectos, incluyendo la adquisición de datos desde, para calcular la salida de todo el proceso se debe hacer bajo retardo, además del propio nodo se calcula utilizando el modelo de 'incremento cálculo', sino que también requiere un módulo de transmisión de datos de alta aguas arriba el papel de rendimiento, y la capacidad de datos de la caché en la memoria intermedia puede desempeñar un escenario de flujo de grande, los módulos de salida aguas abajo requeridos para la compresión de datos, de salida de lotes, optimizado para asegurar salida en tiempo real de la baja latencia esta premisa otras características de sistema de tiempo real presentado mayores requerimientos, tales como doble 11 0:00, cuando un gran número de consumidores se facturan al mismo tiempo, se vierte en la cantidad instantánea de los datos en tiempo real, sistema de computación es enorme, las necesidades del sistema La capacidad de procesar datos en paralelo, distribuir grandes cantidades de tráfico transitorio a cientos y cientos de nodos de cómputo y agregar los resultados de estos nodos para obtener un resultado general garantizado para un alto rendimiento Retrasado

El más desafiante desde el "cálculo por lotes" hasta el "cálculo incremental" es la precisión y la facilidad de uso

Los mismos desafíos clave que la baja latencia son la precisión. El modelo 'incremental' es diferente del modelo tradicional 'por lotes', por lo que no se puede copiar de la experiencia técnica pasada o habrá problemas de precisión. Cómo se agregan los datos nuevos a los resultados de cálculo anteriores, y en algunos escenarios, incluso es necesario eliminar algunos de los valores calculados de los resultados del cálculo anterior para garantizar la precisión del resultado final.

sistema distribuido de un fallo de nodo es muy común, en tiempo real capacidad de transmisión de recuperación de fallos del sistema de computación también es importante, ya que cuando se produce un fallo, el sistema debe ser rápida recuperación, o actualizar la salida del sistema puede estancado, en tiempo real no surge, mientras que el fracaso no puede ser destruido 'incremental de la computación' modelo, si no degenere en el modelo 'lote de computación' y no en los resultados en tiempo real, y es difícil asegurar la exactitud de los resultados.

De hecho, Netease plataforma de computación de gran flujo de datos para lograr el auto-estudio proceso de pereza, encontrado y superar las dificultades técnicas antes mencionadas. Netease plataforma de flujo de la computación pereza como una plataforma de productos, facilidad de uso, el aislamiento multi-arrendatario ha hecho una gran cantidad de trabajo en el cálculo en tiempo real, la facilidad de uso es un aspectos más discutibles.

</ s>

Para los desarrolladores, escribir un programa distribuido que escribir programa independiente será difícil, y escribir un programa de computación distribuida en tiempo real, será más difícil. Afortunadamente, hay algunos motores de código abierto cálculo del flujo de la industria para ayudar a completar una gran cantidad de trabajo para desarrollar puede utilizar estos motor de cálculo del flujo de corrientes de completar el desarrollo de tareas de computación, es posible que ya no tienen que preocuparse acerca de cómo distribuir tareas de computación a través de múltiples nodos de computación, cómo transmitir datos entre nodos de computación y otras cuestiones, solamente tenemos que centrarnos en el desarrollo de la lógica computacional, el cálculo de controlar el grado de paralelismo de las diferentes etapas de cálculo.

Para calcular el número de palabras de un artículo, por ejemplo, un contenido de programa de computación distribuida puede incluir tres partes, la primera es común para dividir unos pocos nodos de computación cada línea de texto en una sola palabra, el segundo paso es utilizar otro Algunos nodos de computación para contar el número de palabras (teniendo en cuenta la gran cantidad de datos, la necesidad de hacer aquí con una pluralidad de nodos de computación); un tercer paso es la computación nodo aguas arriba nodo calvario calcular un recuento de porción convergente el recuento total. Así, un escenario simple, la cantidad de código necesario para el desarrollo es de alrededor de 200 líneas. escenario real del negocio, el flujo de datos del nodo de computación mucho más que tres, mucho más complejo que el tipo de cálculo basado en la suma, incluso con máquinas de cómputo de flujo, el desarrollo del programa de cálculo distribuido en tiempo real es aún más difícil. mirar más lejos, incluso si se desarrolla, y la necesidad de tomar mucho tiempo para dedicar a la depuración, el mantenimiento y la otra plataforma de computación, una vez que el cómputo necesita un cambio , Todo el trabajo necesita volver a repetirse, este es un proceso más doloroso. Cómo hacer que el programa de cálculo de flujo sea más fácil de escribir, es en tiempo real Plataforma necesario para completar el desafío.

Y no se piense en la forma de resolver los sistemas de flujo de tiempo real aliviar el problema, miran el proceso de desarrollo de la informática, es la forma de resolver problemas similares. Se espera que la programación puede ser más fácil, por lo que cada vez más el lenguaje de programación de alto nivel fue inventado a cabo ; se espera que algunos de los datos se puede calcular fácilmente, y entonces no será una base de datos y el lenguaje SQL - Structured Query Language, a la gran época de los datos, basándose en cálculos complicados personas de programación motor todavía arrojan fuera de línea de computación por lotes, cuando se encontró problema, en última instancia, a través del lenguaje SQL se aplica a un sistema informático distribuido fuera de línea, resuelto el problema y ahora el rápido desarrollo de cálculo en tiempo real de ahora, si el lenguaje SQL también se puede utilizar para resolver este problema? la respuesta es sí, pero hay muchos Los detalles del problema deben ser analizados.

El flujo de datos en el cálculo del flujo en tiempo real se puede entender como una tabla de datos dinámicos

El fuera de línea antes mencionada y modelo de cálculo de la subasta modelo de cálculo por lotes en tiempo real es diferente, cuando cada función del lenguaje SQL y cálculo de flujo a granel y cálculo, que también requiere un cambio de la semántica en cantidades cálculo y el cálculo de flujo principal datos de diferencia de la computación se limita a la antigua, que calcula los datos es ilimitado constantemente recogido en el sistema. cuando se ha completado la función de consulta SQL en una serie de datos fuera de línea por encima de cálculo, la salida, esta consulta SQL también No termina, porque los datos fluyen constantemente, de acuerdo con la semántica del SQL fuera de línea, hasta que el SQL finalice, el cálculo no generará el resultado, que obviamente no es Cálculo de flujo del efecto deseado, por lo que la esencia del flujo de SQL debe ser definir una serie de tareas de cálculo de flujo, mientras que estas tareas se ejecutan mientras se genera el resultado del cálculo.

procesamiento fuera de línea es tablas de datos SQL estáticos, el flujo de datos de procesamiento de SQL de streaming, el cálculo de la semántica de SQL (tablas por ejemplo, suma, promedio, datos de conexión, etc.) actúa sobre el flujo de datos es razonable. Este problema tiene que ser entendido que una conversión conceptual: desconectado SQL es convertir tabla de datos estática a otra tabla de datos estáticos, y la transmisión de cálculo del flujo de datos en tiempo real, puede ser entendida como una tabla de datos dinámico (datos está creciendo tabla de animación) Diferentes momentos La tabla de datos es diferente, la implementación de SQL serán diferentes resultados de cálculo, los resultados de estos diferentes cálculos, como una presentación de diapositivas de película en la misma serie, obtenemos una tabla de resultados dinámica - streaming SQL que hacer es convertir a las tablas de datos dinámicos en otras tablas de datos dinámicos, por lo que la semántica de SQL corriente cálculo es más fácil de entender el problema que hay que resolver en el sistema de flujo de tiempo real se reduciría a una 'forma de aplicar las tablas de datos dinámicos Calcule 'arriba.

La optimización de Streaming SQL Engine es actualmente la dirección principal de los avances tecnológicos

Facilidad de uso, transmisión en tiempo real sistema informático, se puede utilizar para resolver el lenguaje SQL, las prácticas de producción Netease plataforma de flujo de la computación pereza también confirmó esta teoría. Los usuarios ya no necesitan aprender una variedad de computación interfaz de programación de motor, ya no tienen que depurar programa de computación distribuida, ya no tendrá que mantener su propio sistema de flujo de la informática, sólo tiene que funcionar en la plataforma fuera de la línea original para migrar a SQL en una plataforma de computación en directo corriente, podemos completar una lógica compleja cálculo en tiempo real.

trabajo del cliente se reduce en gran medida, la plataforma de flujo de tiempo real de la obra está destinada a ser aumentado, la parte más difícil es la forma en la consulta SQL en la lógica de cálculo real para lograr un soporte motor de cálculo de streaming SQL, similar al motor de base de datos papel, y como se mencionó anteriormente, esta motores de lógica computacional deben cumplir con el modelo de 'incremental de la informática'. mientras tanto, con el fin de hacer que los resultados del cálculo en tiempo real a una amplia variedad de escenarios de negocio, el motor de cálculo tiene que ser capaz de almacenar una variedad de papeles a tope , tales como datos, colas de mensajes, como el almacenamiento fuera de línea.

Duales 11 pantalla grande sólo grandes de datos informáticos transmisión en tiempo real de un escenario de aplicación, habrá más y más escenarios de tiempo real, tales como tiempo real, además de texto, imágenes, voz también se puede calcular en tiempo real, la máquina de aprendizaje en línea, redes tiempo real y otros datos en tiempo real y el tipo de escena en el cálculo del caudal en tiempo real es el crecimiento exponencial, y el motor de cálculo en tiempo real se enfrentan a un gran desafío por delante es también la evolución de los cálculos de flujo basados ​​en SQL se describen, será cada vez más en el flujo cálculo de propiedades específicas, tales como el disparador de salida, el procesamiento de datos obsoletos, ventana de datos se divide en una serie de reglas. motor SQL optimiza automáticamente el flujo de corriente es una dirección principal avance tecnológico, creo que el futuro de los cálculos de flujo en tiempo real con el avance de la tecnología, la aplicación se necesita un más amplio y profundo.


era de los datos, la computación de datos grande ha penetrado en todos los ámbitos de la vida, los datos de precipitación de negocios, calculado para generar nuevo valor de negocio, grande la computación de datos sigue impulsando el negocio en este camino a seguir. 11 dobles electricidad proveedores, empresas y consumidores detrás del carnaval, el mismo no puede ser separado calcular el valor de los datos grande trae contribución, en particular, es ampliamente aplicada en 'tiempo real computing'.

En el mundo real, los datos se generan y recopilan continuamente y se calculan en tiempo real

Hacemos cifras, el valor comercial de los productos de la minería, el problema esencial es el problema de los datos. El mundo real, a menudo como datos de tiempo generados de forma continua, como los usuarios navegar por mercancía, una serie de clics del ratón, tendrá una serie de datos en segundo plano; de navegación para automóviles utilizando teléfonos móviles, localización GPS actualizada de vez en cuando, continuará generando datos de registro; los usuarios navegar por canales de noticias, búsqueda de canciones, cámaras de vigilancia capturar imágenes cronometrado cargado en el almacenamiento en la nube, vídeo en directo y así sucesivamente escena, Los datos generados detrás de esto se generan en sucesión, y los datos comerciales generados continuamente se recopilan en tiempo real para formar el flujo de datos.

Los datos en continuo, una vez recogido, pueden participar inmediatamente calculada, y los resultados calculados en las aplicaciones de negocio, que se calcula en tiempo real. cálculo de datos en tiempo real, de hecho, ya ha entrado en todos los aspectos de la vida de las personas, y como el pronóstico del tiempo, antes de que los hábitos de las personas recibir información de pronóstico del tiempo una vez al día, ahora se puede ver en tiempo real la predicción meteorológica, predicción del tiempo mismo punto de tiempo será más precisa, ya que se acerca la hora, que es para controlar el efecto de la adquisición de datos de actualización y la computación de datos en tiempo real trae.

De acuerdo con los intereses de la computación a medida, en tiempo real para hacer que el producto sea cada vez más comprensivo para los usuarios

Cada vez son más las fuentes de datos en tiempo real, lo que aumenta el número de cantidades anuales de datos están creciendo exponencialmente, este mismo cálculo en tiempo real es buena, puede tener más escenarios, un mejor efecto de la aplicación, posiblemente Haga algunos cambios revolucionarios. Entonces, la informática de Big Data en tiempo real puede hacer?

Netease, Lahaina compra de prueba doble 11, 618 durante la ceremonia de Amoy mar y otras actividades, habrá una varias netease gran pantalla de visualización en tiempo real de las ventas totales fecha actual, la proporción de ventas de cada categoría de producto, la tendencia de crecimiento órdenes, los usuarios activos ubicación geográfica, etc. , la información sobre las diversas dimensiones están constantemente latiendo en una sola pantalla. cada usuario para cada orden será el impacto de cambios en tiempo real en la pantalla grande. este efecto visual de aplicaciones en tiempo real, además de la adición de un proveedor atmósfera de carnaval de electricidad , Más fácil de encontrar el valor de los datos, para guiar las operaciones del mercado, respaldando las decisiones comerciales.

control de riesgo financiero es otro de los escenarios tiempo real típicos. Este negocio de servicios financieros sensibles al riesgo, la única visualización de datos puede no es suficiente, se necesita fluir sistema capaz de adaptarse a las reglas de cómputo para utilizar algunos de los modelo de riesgo los beneficios del análisis en tiempo real del comportamiento de los usuarios de grandes cantidades de datos, eventos inusuales, para determinar el nivel de riesgo, y hacer que las medidas de control de riesgos apropiadas, para hacer una notificación de alerta automatizado, el cambio de los procesos de negocio. al hacer el cálculo en tiempo real de control de riesgo financiero, con lo que el Más rápido, más preciso, más amplio Otros Muchos escenarios informáticos basados ​​en eventos como Windchill resuelven cálculos en tiempo real.

tiempo real en el campo de aplicación también se ha recomendado muy profundamente. Ya sea recomendable noticias, música o recomendación de lecturas recomendadas, básicamente se han hecho mil mil caras, que cada uno recibió empujó contenido se adapta a las preferencias individuales de interés a. las preferencias de los intereses del usuario, a menudo a través de datos en tiempo real para calcular constantemente actualizada. a fuentes de noticias, por ejemplo, cuando un usuario hace clic en una sección de un mensaje de inserción, de hecho, detrás del producto en el tiempo para que el usuario haga en tiempo real de análisis de comportamiento, en tiempo real las actualizaciones de usuario preferencias de interés continúan para encontrar nuevos puntos de usuarios de interés, los usuarios se vuelven más conscientes de, y, finalmente, empujan contenido a los usuarios más interesados ​​en él. nuevo con recomendaciones de música, por ejemplo, si un usuario de un cierto periodo de tiempo unos cuantos primera colección de canciones tristes a través del análisis de datos en tiempo real, el sistema puede identificar esta información, y dirigida empujar algunas canciones para calmar los usuarios. este escenario sólo se calcula en tiempo real para resolver, sino también mejor encarna los valores calculados en tiempo real.

Se desarrollarán cada vez más escenarios informáticos en tiempo real, las personas en el futuro "todo está cambiando" se sentirán cada vez más profundas.

Desde "guardar antes de ir" hasta "contar mientras se guarda", la informática en tiempo real ya no teme a los datos "grandes"

La informática en tiempo real es tan buena, ¿qué se debe hacer en el nivel de realización ?, ¿cuáles son las dificultades y los desafíos que se deben abordar?

En primer lugar, mira a la arquitectura general, el cálculo de datos, nada menos que las tres cosas: la entrada de datos → cálculo de los datos de salida → modelo de computación tradicional a una base de datos, por ejemplo, los datos se almacenan en primer lugar en una tabla de datos, ejecutar una consulta por parte del usuario. calcula la operación de disparo de la base de datos, la base de datos y, finalmente, la salida después de la finalización del cálculo. este modelo 'después de que el primer recuento de depósito' en tiempo real escenario de computación grandes datos no funciona. queremos calcular los datos son 'grandes', resultado del cálculo datos de origen involucrados pueden ser cubiertos en los datos del pasado día, pueden ser cientos de miles de registros de datos. Si cada añadir algunos datos nuevos, todos los datos se considera vuelto a calcular de nuevo, por lo que el costo es muy grande, el efecto final será Es muy lento y no puede alcanzar el efecto en tiempo real. Es más razonable calcular los datos al ingresar al sistema informático en tiempo real, que no necesariamente necesita almacenarse primero, y puede estar directamente involucrado en el cálculo, y el cálculo aquí es los actuales nuevos datos antes de hacer cálculos en la computación 'gradual' de datos históricos, no repita los mismos datos que intervienen en el cálculo, después de la finalización del cálculo, A continuación, guardar los resultados en conjunto, para uso comercial, la presión, entonces los datos almacenados mucho más pequeño, mientras que el 'grande' significa que los datos se complica por alto, es posible que necesite para calcular los diez millones de nuevos datos por segundo, esta cantidad no se calcula stand-alone sostenible, por lo que la computación en tiempo real los datos de gran necesidad de resolver una serie de problemas técnicos en la arquitectura de sistemas distribuidos.

Distributed Computing desafíos reales muchos aspectos, incluyendo la adquisición de datos desde, para calcular la salida de todo el proceso se debe hacer bajo retardo, además del propio nodo se calcula utilizando el modelo de 'incremento cálculo', sino que también requiere un módulo de transmisión de datos de alta aguas arriba el papel de rendimiento, y la capacidad de datos de la caché en la memoria intermedia puede desempeñar un escenario de flujo de grande, los módulos de salida aguas abajo requeridos para la compresión de datos, de salida de lotes, optimizado para asegurar salida en tiempo real de la baja latencia esta premisa otras características de sistema de tiempo real presentado mayores requerimientos, tales como doble 11 0:00, cuando un gran número de consumidores se facturan al mismo tiempo, se vierte en la cantidad instantánea de los datos en tiempo real, sistema de computación es enorme, las necesidades del sistema tiene una gran capacidad para procesar datos en paralelo, una asignación razonable de tráfico a un gran número de instantáneas cientos de nodos de computación, los nodos y el resultado del cálculo de convergencia para calcular un conjunto junto con los resultados en el caso en que un alto rendimiento sigue siendo asegurar una baja Retrasado

El más desafiante desde el "cálculo por lotes" hasta el "cálculo incremental" es la precisión y la facilidad de uso

Y baja latencia mismo desafío clave es la precisión. Modelo de 'computación incremental' y el modelo tradicional de "lotes de computación' es diferente, por lo que no se puede copiar la experiencia técnica del pasado, de lo contrario no habrá problemas en términos de precisión. Necesidad de pensar con claridad Cómo se agregan los datos nuevos a los resultados de cálculo anteriores, y en algunos escenarios, incluso es necesario eliminar algunos de los valores calculados de los resultados del cálculo anterior para garantizar la precisión del resultado final.

sistema distribuido de un fallo de nodo es muy común, en tiempo real capacidad de transmisión de recuperación de fallos del sistema de computación también es importante, ya que cuando se produce un fallo, el sistema debe ser rápida recuperación, o actualizar la salida del sistema puede estancado, en tiempo real no surge, mientras que el fracaso no puede ser destruido 'incremental de la computación' modelo, si no degenere en el modelo 'lote de computación' y no en los resultados en tiempo real, y es difícil asegurar la exactitud de los resultados.

De hecho, Netease plataforma de computación de gran flujo de datos para lograr el auto-estudio proceso de pereza, encontrado y superar las dificultades técnicas antes mencionadas. Netease plataforma de flujo de la computación pereza como una plataforma de productos, facilidad de uso, el aislamiento multi-arrendatario ha hecho Mucho trabajo. Para la informática en tiempo real, la facilidad de uso es un aspecto más discutido.

</ s>

Para los desarrolladores, escribir un programa distribuido que escribir programa independiente será difícil, y escribir un programa de computación distribuida en tiempo real, será más difícil. Afortunadamente, hay algunos motores de código abierto cálculo del flujo de la industria para ayudar a completar una gran cantidad de trabajo para desarrollar puede utilizar estos motor de cálculo del flujo de corrientes de completar el desarrollo de tareas de computación, es posible que ya no tienen que preocuparse acerca de cómo distribuir tareas de computación a través de múltiples nodos de computación, cómo transmitir datos entre nodos de computación y otras cuestiones, solamente tenemos que centrarnos en el desarrollo de la lógica computacional, Controle las diferentes etapas computacionales del paralelismo informático.

Para calcular el número de palabras de un artículo, por ejemplo, un contenido de programa de computación distribuida puede incluir tres partes, la primera es común para dividir unos pocos nodos de computación cada línea de texto en una sola palabra, el segundo paso es utilizar otro Algunos nodos de computación para contar el número de palabras (teniendo en cuenta la gran cantidad de datos, la necesidad de hacer aquí con una pluralidad de nodos de computación); un tercer paso es la computación nodo aguas arriba nodo calvario calcular un recuento de porción convergente el recuento total. Así, un escenario simple, la cantidad de código necesario para el desarrollo es de alrededor de 200 líneas. escenario real del negocio, el flujo de datos del nodo de computación mucho más que tres, mucho más complejo que el tipo de cálculo basado en la suma, incluso con máquinas de cómputo de flujo, el desarrollo del programa de cálculo distribuido en tiempo real es aún más difícil. mirar más lejos, incluso si se desarrolla, y la necesidad de tomar mucho tiempo para dedicar a la depuración, el mantenimiento y la otra plataforma de computación, una vez que el cómputo necesita un cambio , Todo el trabajo necesita volver a repetirse, este es un proceso más doloroso. Cómo hacer que el programa de cálculo de flujo sea más fácil de escribir, es en tiempo real Plataforma necesario para completar el desafío.

Y no se piense en la forma de resolver los sistemas de flujo de tiempo real aliviar el problema, miran el proceso de desarrollo de la informática, es la forma de resolver problemas similares. Se espera que la programación puede ser más fácil, por lo que cada vez más el lenguaje de programación de alto nivel fue inventado a cabo ; se espera que algunos de los datos se puede calcular fácilmente, y entonces no será una base de datos y el lenguaje SQL - Structured Query Language, a la gran época de los datos, basándose en cálculos complicados personas de programación motor todavía arrojan fuera de línea de computación por lotes, cuando se encontró problema, en última instancia, a través del lenguaje SQL se aplica a un sistema informático distribuido fuera de línea, resuelto el problema y ahora el rápido desarrollo de cálculo en tiempo real de ahora, si el lenguaje SQL también se puede utilizar para resolver este problema? la respuesta es sí, pero hay muchos Los detalles del problema deben ser analizados.

El flujo de datos en el cálculo del flujo en tiempo real se puede entender como una tabla de datos dinámicos

El fuera de línea antes mencionada y modelo de cálculo de la subasta modelo de cálculo por lotes en tiempo real es diferente, cuando cada función del lenguaje SQL y cálculo de flujo a granel y cálculo, que también requiere un cambio de la semántica en cantidades cálculo y el cálculo de flujo principal datos de diferencia de la computación se limita a la antigua, que calcula los datos es ilimitado constantemente recogido en el sistema. cuando se ha completado la función de consulta SQL en una serie de datos fuera de línea por encima de cálculo, la salida, esta consulta SQL también No termina, porque los datos fluyen constantemente, de acuerdo con la semántica del SQL fuera de línea, hasta que el SQL finalice, el cálculo no generará el resultado, que obviamente no es Cálculo de flujo del efecto deseado, por lo que la esencia del flujo de SQL debe ser definir una serie de tareas de cálculo de flujo, mientras que estas tareas se ejecutan mientras se genera el resultado del cálculo.

procesamiento fuera de línea es tablas de datos SQL estáticos, el flujo de datos de procesamiento de SQL de streaming, el cálculo de la semántica de SQL (tablas por ejemplo, suma, promedio, datos de conexión, etc.) actúa sobre el flujo de datos es razonable. Este problema tiene que ser entendido que una conversión conceptual: desconectado SQL es convertir tabla de datos estática a otra tabla de datos estáticos, y la transmisión de cálculo del flujo de datos en tiempo real, puede ser entendida como una tabla de datos dinámico (datos está creciendo tabla de animación) Diferentes momentos La tabla de datos es diferente, la implementación de SQL serán diferentes resultados de cálculo, los resultados de estos diferentes cálculos, como una presentación de diapositivas de película en la misma serie, obtenemos una tabla de resultados dinámica - streaming SQL que hacer es convertir a las tablas de datos dinámicos en otras tablas de datos dinámicos, por lo que la semántica de SQL corriente cálculo es más fácil de entender el problema que hay que resolver en el sistema de flujo de tiempo real se reduciría a una 'forma de aplicar las tablas de datos dinámicos Calcule 'arriba.

La optimización de Streaming SQL Engine es actualmente la dirección principal de los avances tecnológicos

Facilidad de uso, transmisión en tiempo real sistema informático, se puede utilizar para resolver el lenguaje SQL, las prácticas de producción Netease plataforma de flujo de la computación pereza también confirmó esta teoría. Los usuarios ya no necesitan aprender una variedad de computación interfaz de programación de motor, ya no tienen que depurar programa de computación distribuida, ya no tendrá que mantener su propio sistema de flujo de la informática, sólo tiene que funcionar en la plataforma fuera de la línea original para migrar a SQL en una plataforma de computación en directo corriente, podemos completar una lógica compleja cálculo en tiempo real.

trabajo del cliente se reduce en gran medida, la plataforma de flujo de tiempo real de la obra está destinada a ser aumentado, la parte más difícil es la forma en la consulta SQL en la lógica de cálculo real para lograr un soporte motor de cálculo de streaming SQL, similar al motor de base de datos papel, y como se mencionó anteriormente, esta motores de lógica computacional deben cumplir con el modelo de 'incremental de la informática'. mientras tanto, con el fin de hacer que los resultados del cálculo en tiempo real a una amplia variedad de escenarios de negocio, el motor de cálculo tiene que ser capaz de almacenar una variedad de papeles a tope , Como datos, cola de mensajes, almacenamiento fuera de línea.

Duales 11 pantalla grande sólo grandes de datos informáticos transmisión en tiempo real de un escenario de aplicación, habrá más y más escenarios de tiempo real, tales como tiempo real, además de texto, imágenes, voz también se puede calcular en tiempo real, la máquina de aprendizaje en línea, redes tiempo real y otros datos en tiempo real y el tipo de escena en el cálculo del caudal en tiempo real es el crecimiento exponencial, y el motor de cálculo en tiempo real se enfrentan a un gran desafío por delante es también la evolución de los cálculos de flujo basados ​​en SQL se describen, será cada vez más en el flujo cálculo de propiedades específicas, tales como el disparador de salida, el procesamiento de datos obsoletos, ventana de datos se divide en una serie de reglas. motor SQL optimiza automáticamente el flujo de corriente es una dirección principal avance tecnológico, creo que el futuro de los cálculos de flujo en tiempo real con el avance de la tecnología, la aplicación Ven con profundidad, más extenso.

2016 GoodChinaBrand | ICP: 12011751 | China Exports