Double 11 technologie noir: calcul en temps réel de grandes quantités de données sur mesure

ère des données, grand informatique de données a pénétré dans tous les milieux, les données des précipitations d'affaires, calculées pour générer une nouvelle valeur commerciale, grande informatique de données continue à conduire l'entreprise dans cette voie à suivre. 11 doubles fournisseurs d'électricité, les entreprises et les consommateurs Derrière le carnaval, la même chose ne peut pas être séparée de la valeur de la contribution du big data computing, en particulier l'application de «calcul en temps réel» de plus en plus étendu.

Dans le monde réel, les données sont générées et collectées en continu et calculées en temps réel

Nous faisons des chiffres, la valeur commerciale des produits miniers, le problème essentiel est le problème des données. Le monde réel, souvent sous forme de données de temps générées en continu, tels que les utilisateurs naviguent la marchandise, une série de clics de souris, aura une série de données d'arrière-plan, la navigation automobile utilisant les téléphones mobiles, localisation GPS mis à jour de temps à autre, continuera à générer des données de journal, les utilisateurs de parcourir des fils de nouvelles, rechercher des chansons, des caméras de surveillance images chronométré de capture téléchargées sur le stockage en nuage, la vidéo en direct et ainsi de suite scène, Les données générées sont générées successivement et les données métier générées en continu sont collectées en temps réel pour former le flux de données.

les données de diffusion en continu, une fois collectées, peuvent participer immédiatement calculés et les résultats calculés dans les applications d'entreprise, qui est calculé en temps réel. calcul des données en temps réel en fait déjà entré dans tous les aspects de la vie des gens, et comme les prévisions météorologiques, avant que les habitudes des gens recevoir des informations de prévision météo une fois par jour, vous pouvez maintenant voir les prévisions météorologiques en temps réel, des prévisions météorologiques même point de temps sera plus précis à l'approche du temps, ce qui est de surveiller l'effet de l'acquisition de données de mise à jour et le calcul des données en temps réel apporte.

Selon les intérêts de l'informatique en temps réel sur mesure pour rendre le produit de plus en plus la compréhension des utilisateurs

De plus en plus de sources de données en temps réel, en augmentant le nombre de montants annuels de données augmentent de façon exponentielle, ce calcul en temps réel lui-même est bon, vous pouvez avoir plus de scénarios, un meilleur effet de l'application, le cas échéant Faire des changements révolutionnaires.Puis, le big data en temps réel peut faire?

Netease, essai Lahaina achat double 11, 618 au cours de la mer cérémonie Amoy et d'autres activités, il y aura un Netease plusieurs en temps réel sur grand écran affiche la date actuelle des ventes totales, la proportion des ventes de chaque catégorie de produits, les commandes tendance à la croissance, les utilisateurs actifs localisation géographique, etc. , des informations sur les différentes dimensions battent en permanence sur un seul écran. chaque utilisateur pour chaque commande sera l'impact des mises à jour en temps réel sur grand écran. cet effet visuel des applications en temps réel, en plus d'ajouter un fournisseur d'électricité atmosphère de carnaval , Plus facile de trouver la valeur des données, pour guider les opérations de marché, soutenir les décisions d'affaires.

le contrôle des risques financiers est un autre des scénarios de calcul en temps réel typiques. Ce risque services financiers sensibles affaires, le seul peut visualiser les données ne suffit pas, il a besoin de couler système informatique capable de règles correspondant à utiliser une partie du modèle de risque les avantages de l'analyse en temps réel du comportement des utilisateurs de grandes quantités de données, d'événements inhabituels, afin de déterminer le niveau de risque et prendre les mesures de contrôle des risques appropriés, de faire une notification d'alerte automatisée, l'évolution des processus d'affaires. en faisant le calcul en temps réel du contrôle des risques financiers, ce qui porte la plus rapide, plus précis, plus larges de nombreux autres contrôle des risques similaires tels scénarios informatiques en fonction des événements, l'informatique en temps réel peut résoudre.

informatique en temps réel dans le champ d'application a également été recommandé très profondément. Que recommandé nouvelles, la recommandation de la musique ou la lecture recommandée, ont essentiellement été fait mille mille visages, chacun a reçu poussé le contenu est adapté aux préférences individuelles d'intérêt a. les préférences de l'intérêt de l'utilisateur, souvent par le biais de données en temps réel pour calculer constamment mis à jour. à newsfeeds, par exemple, lorsqu'un utilisateur clique sur une section d'un message push, en fait, derrière le produit en temps pour l'utilisateur d'effectuer des analyses de comportement en temps réel, les mises à jour en temps réel utilisateur les préférences d'intérêt continuent de trouver de nouveaux points d'utilisateurs d'intérêt, les utilisateurs deviennent plus conscients, et enfin du contenu aux utilisateurs plus intéressés par lui. à nouveau avec des recommandations musicales, par exemple, si un utilisateur une certaine période de temps quelques première collection de chansons tristes grâce à l'analyse des données en temps réel, le système peut identifier ces informations et ciblée pousser quelques chansons pour apaiser les utilisateurs. ce scénario n'est calculé en temps réel pour résoudre, mais aussi incarne le mieux les valeurs calculées en temps réel.

De plus en plus de scénarios de calcul en temps réel seront développés, les gens dans le futur «tout change» se sentiront de plus en plus profonds.

De «sauvegarder avant d'aller» à «compter tout en économisant», l'informatique en temps réel n'a plus peur des «grandes» données

L'informatique en temps réel est-elle si bonne, que faut-il faire au niveau de la réalisation, quelles sont les difficultés et les défis à relever?

Tout d'abord, à partir de la structure globale de vue, le calcul des données, rien de moins que trois choses: entrée de données → calcul → sortie de données Le modèle de calcul traditionnel à la base de données, par exemple, est les premières données stockées dans une table de données Déclenchement du calcul de la base de données, la sortie finale de la base de données après l'achèvement du calcul de ce modèle préexistant dans les grands scénarios de calcul en temps réel ne fonctionnera pas, nous voulons calculer les données sont très grandes, un résultat de calcul Les données sources concernées peuvent être des données couvrant le jour passé, éventuellement des centaines de milliards d'enregistrements de données. Si chaque nouvelle donnée augmente, toutes les données sont recalculées, de sorte que les frais généraux sont très importants, le résultat final sera Il est très lent et ne peut pas atteindre l'effet en temps réel. Il est plus raisonnable de calculer les données en entrant dans le système informatique en temps réel, qui ne doit pas nécessairement être stocké en premier, et peut être directement impliqué dans le calcul. Les nouvelles données actuelles dans les résultats de calcul de données historiques précédentes font «calcul incrémental», les mêmes données ne sont pas impliqués dans le calcul des calculs répétés est terminée, Et puis enregistrer les résultats de calcul pour une utilisation professionnelle, puis la pression de stockage de données est beaucoup plus petite.En même temps, "grande" signifie que la concurrence des données est élevée, peut avoir besoin de calculer des dizaines de millions de nouvelles données par seconde, de sorte que le calcul Stand-alone peut résister, de sorte que l'informatique en temps réel de grandes données à résoudre est une série de problèmes techniques dans l'architecture du système distribué.

Calcul distribué réels problèmes de nombreux aspects, y compris l'acquisition de données à partir de, pour calculer la sortie de l'ensemble du processus doit être fait faible retard, en plus du nœud lui-même est calculée en utilisant le modèle « calcul incrément », mais nécessite également un module de transmission de données à haute amont le rôle du débit, et la capacité de données en cache dans la mémoire tampon peut jouer un grand scénario de flux, les modules de sortie en aval nécessaires pour la compression de données, la production par lots, optimisé pour assurer une sortie en temps réel de la faible latence de cette prémisse d'autres caractéristiques du système informatique en temps réel mis en avant des exigences plus élevées, comme la double 11 00h00, quand un grand nombre de consommateurs sont facturés en même temps, il est versé dans la quantité instantanée de données dans le système informatique en temps réel est énorme, les besoins du système il a une forte capacité à traiter des données en parallèle, une répartition raisonnable du trafic à un grand nombre de centaines instantanés des noeuds de calcul, les noeuds et le résultat du calcul de la convergence pour calculer un ensemble en même temps que les résultats dans le cas où un débit élevé est d'assurer encore faible retard.

« Lot informatique » au « calcul incrémentiel », le plus difficile est la précision et la facilité d'utilisation

Et une faible latence même défi clé est un modèle de précision. « Informatique supplémentaire » et le modèle de calcul par lots traditionnel « » est différent, donc vous ne pouvez pas copier l'expérience technique du passé, sinon il y aura des problèmes en termes de précision. Il faut penser clairement comment saisir de nouvelles données superposées sur les anciens calculs, même dans certains scénarios pour soutenir la suppression d'une partie des valeurs de calcul calculées à partir des résultats de l'ancien afin d'assurer l'exactitude du résultat final.

système distribué d'une défaillance d'un nœud est très fréquent, streaming en temps réel système informatique capacité de récupération de défaut est également important, car en cas de défaut, le système doit être une récupération rapide, ou mettre à jour la sortie du système peut stagner, en temps réel il ne se pose pas, alors que l'échec ne peut pas être détruit modèle « informatique supplémentaire », autrement dégénéré dans le modèle « informatique de traitement par lots » et non sur les résultats en temps réel, et il est difficile d'assurer l'exactitude des résultats.

En fait, Netease grande plate-forme informatique de flux de données pour atteindre processus Sloth auto-étude, rencontré et surmonter les difficultés techniques mentionnées ci-dessus. Plate-forme informatique de flux Netease Paresseux comme une plate-forme de produits, la facilité d'utilisation, l'isolement multi-locataire a fait beaucoup de travail sur le calcul en temps réel, la facilité d'utilisation est un des aspects plus discutables.

</ s>

Pour les développeurs, la rédaction d'un programme distribué que d'écrire le programme autonome sera difficile, et d'écrire en temps réel programme de calcul distribué, sera plus difficile. Heureusement, il y a un certain moteur open source de calcul du débit de l'industrie pour aider à achever beaucoup de travail pour développer peuvent utiliser ces flux moteur de calcul de flux achever le développement des tâches informatiques, ils ne doivent plus se préoccuper de la façon de répartir les tâches informatiques à travers plusieurs nœuds de calcul, comment transmettre des données entre les noeuds de calcul et d'autres questions, que nous devons nous concentrer sur le développement de la logique de calcul, Contrôlez différentes étapes de calcul du parallélisme informatique.

En prenant comme exemple le calcul du nombre de mots dans un article, le contenu d'un programme de calcul réparti peut comprendre trois parties: d'abord, plusieurs nœuds de calcul divisent chaque ligne de texte en mots un à un. Quelques noeuds de calcul pour compter le nombre de mots (en tenant compte de l'énorme quantité de données, il faut utiliser plus d'un noeud pour faire le calcul), la troisième étape est un noeud de calcul pour calculer les noeuds amont de chaque partie du compte Dans ce scénario le plus simple, la quantité de code à développer est d'environ 200. Dans les scénarios de gestion réels, il existe plus de trois nœuds de calcul par calcul, et le type de calcul est également beaucoup plus complexe que la sommation de base. Même avec le moteur de calcul de flux, le développement de programmes de calcul en temps réel distribués est encore plus difficile.En outre, même si le développement est terminé, mais aussi besoin de passer beaucoup de temps à déboguer, la maintenance de l'infrastructure informatique, etc. , Tout le travail doit être réitéré à nouveau, c'est un processus plus douloureux. Comment rendre le programme de calcul de flux plus facile à écrire, est en temps réel Plate-forme nécessaire pour compléter le défi.

Indépendamment de la facilité d'utilisation du système de calcul en continu en temps réel, voyons comment des problèmes similaires sont résolus dans le processus informatique: les gens veulent faciliter la programmation, de sorte que de plus en plus de langages de programmation de haut niveau ont été inventés. Les gens veulent simplifier les calculs de données, puis disposer d'une base de données et d'un langage SQL - un langage de requête structuré - à l'ère du big data, les gens ont encore du mal à utiliser le calcul en vrac. Problème et enfin résolu le problème en appliquant le langage SQL au système informatique déconnecté distribué. Alors que le développement rapide de l'informatique en temps réel peut de nos jours être résolu en SQL? La réponse est oui, mais il y a beaucoup Les détails du problème doivent être examinés.

Le flux de données dans le calcul de flux en temps réel peut être compris comme un tableau de données dynamique

Mentionné ci-dessus hors ligne et le modèle de calcul de calcul d'incrément de lot de modèle en temps réel est différent, lorsque chaque fonction en langage SQL et calcul du débit en vrac et le calcul, ce qui nécessite également un changement de la sémantique en des quantités de calcul et le calcul de flux principal données de différence de calcul est limitée à l'ancienne, qui calcule les données est illimitée en permanence recueillie dans le système. lorsque le rôle de requête SQL dans un certain nombre de données hors ligne ci-dessus calcul est terminé, la sortie, cette requête SQL aussi Il ne se termine pas, parce que les données circulent constamment, selon la sémantique du SQL hors ligne, jusqu'à ce que le SQL est fait, le calcul ne produira pas le résultat, ce qui n'est évidemment pas Calcul de flux de l'effet désiré, de sorte que l'essentiel du streaming SQL doit être de définir une série de tâches de calcul de flux, tandis que ces tâches sont exécutées tandis que la sortie du résultat de calcul.

Le traitement hors ligne est des tableaux statiques de données SQL, le flux de données en continu le traitement SQL, le calcul de la sémantique SQL (par exemple, somme, moyenne, tableaux de données de connexion, etc.) agit sur le flux de données est raisonnable. Ce problème doit être compris qu'un conversion conceptuelle: SQL hors ligne est de convertir la table de données statiques à une autre table de données statiques et calcul en temps réel en continu des flux de données, peut être comprise comme une table de données dynamiques (données augmente table d'animation) différents moments de cette fiche de données a un regard différent, exécutez SQL obtiendrait des résultats différents, ces différents résultats comme un film, comme un diaporama ensemble, nous obtenons une table dynamique des résultats - en continu SQL à faire est de convertir une tables de données dynamiques dans une autre tables de données dynamiques, de sorte que le flux de calcul sémantique SQL est plus facile de comprendre le problème à résoudre dans le système informatique de flux en temps réel serait réduit à un « comment mettre en œuvre des tableaux de données dynamiques Calculez 'up.

L'optimisation des moteurs de streaming SQL est actuellement la principale direction des percées technologiques

Facilité d'utilisation, diffusion en temps réel système informatique, peut être utilisé pour résoudre le langage SQL, les pratiques de production Netease plate-forme informatique de flux Sloth a également confirmé cette théorie. Les utilisateurs ne doivent plus apprendre une variété de calcul interface de programmation du moteur, plus besoin de débogage distribué programme informatique, plus besoin de maintenir leur propre système informatique de flux, il suffit de tourner sur la plate-forme hors ligne originale de migrer vers SQL sur une plate-forme informatique de flux en direct, nous pouvons compléter la logique de calcul en temps réel complexe.

travail client est considérablement réduit, la plate-forme flux en temps réel informatique de travail est lié à augmenter, la partie la plus difficile est de savoir comment la requête SQL dans la logique de calcul réel pour obtenir un support de moteur de calcul SQL streaming, similaire au moteur de base de données rôle, et comme indiqué précédemment, ces moteurs logiques de calcul doit être conforme au modèle « informatique supplémentaire ». Pendant ce temps, afin de rendre les résultats de calcul en temps réel à une grande variété de scénarios d'affaires, le moteur de calcul doit être en mesure de stocker une variété de rôles bout , Tels que les données, la file d'attente de messages, le stockage hors ligne.

Double 11 grand écran seulement les grandes données informatiques en streaming en temps réel d'un scénario d'application, il y aura de plus en plus des scénarios de calcul en temps réel, telles que l'informatique en temps réel en plus du texte, des images, la voix peut également calculer en temps réel, l'apprentissage automatique en ligne, la mise en réseau l'informatique en temps réel et d'autres données en temps réel et le type de scène dans le calcul des flux en temps réel est une croissance exponentielle, et le moteur de calcul en temps réel seront confrontés à un défi de taille est en avance aussi l'évolution des calculs de flux basés sur SQL sont décrites, il sera de plus en plus dans le flux calcul des propriétés spécifiques, telles que le déclencheur de sortie, le traitement des données périmées, fenêtre de données est divisé en une série de règles. moteur SQL optimise automatiquement le flux de courant est une direction de percée technologique importante, je crois que l'avenir des calculs de flux en temps réel avec l'avancement de la technologie, l'application Venez avec en profondeur, plus vaste.


ère des données, grand informatique de données a pénétré dans tous les milieux, les données des précipitations d'affaires, calculées pour générer une nouvelle valeur commerciale, grande informatique de données continue à conduire l'entreprise dans cette voie à suivre. 11 doubles fournisseurs d'électricité, les entreprises et les consommateurs Derrière le carnaval, la même chose ne peut pas être séparée de la valeur de la contribution du big data computing, en particulier l'application de «calcul en temps réel» de plus en plus étendu.

Dans le monde réel, les données sont générées et collectées en continu et calculées en temps réel

Nous faisons des chiffres, la valeur commerciale des produits miniers, le problème essentiel est le problème des données. Le monde réel, souvent sous forme de données de temps générées en continu, tels que les utilisateurs naviguent la marchandise, une série de clics de souris, aura une série de données d'arrière-plan, la navigation automobile utilisant les téléphones mobiles, localisation GPS mis à jour de temps à autre, continuera à générer des données de journal, les utilisateurs de parcourir des fils de nouvelles, rechercher des chansons, des caméras de surveillance images chronométré de capture téléchargées sur le stockage en nuage, la vidéo en direct et ainsi de suite scène, Les données générées sont générées successivement et les données métier générées en continu sont collectées en temps réel pour former le flux de données.

les données de diffusion en continu, une fois collectées, peuvent participer immédiatement calculés et les résultats calculés dans les applications d'entreprise, qui est calculé en temps réel. calcul des données en temps réel en fait déjà entré dans tous les aspects de la vie des gens, et comme les prévisions météorologiques, avant que les habitudes des gens recevoir des informations de prévision météo une fois par jour, vous pouvez maintenant voir les prévisions météorologiques en temps réel, des prévisions météorologiques même point de temps sera plus précis à l'approche du temps, ce qui est de surveiller l'effet de l'acquisition de données de mise à jour et le calcul des données en temps réel apporte.

Selon les intérêts de l'informatique en temps réel sur mesure pour rendre le produit de plus en plus la compréhension des utilisateurs

De plus en plus de sources de données en temps réel voient le jour, le nombre augmente: chaque année, la quantité de données augmente de façon exponentielle, ce qui est bon pour le calcul en temps réel. Faire des changements révolutionnaires.Puis, le big data en temps réel peut faire?

Dans Netease, Koalahai mer double 11, 618 Sea Amoy Festival et d'autres activités, il y aura un grand nombre de NetEase grand écran en temps réel affichage des dernières ventes totales actuelles, pourcentage des ventes de chaque catégorie de produit, tendance de croissance des commandes, emplacement actif de l'utilisateur , Toutes sortes de dimensions de l'information sont constamment sur un écran.Chaque utilisateur de chaque commande de l'impact sera mises à jour en temps réel sur le grand écran.Cette application visuelle en temps réel résultats, en plus d'ajouter une atmosphère de carnaval e-commerce , Plus facile de trouver la valeur des données, guider les opérations du marché, soutenir les décisions d'affaires.

Le contrôle des risques financiers est un autre scénario typique de l'informatique en temps réel.Sur les activités sensibles aux risques des services financiers, il est loin d'être suffisant pour visualiser les données: le système informatique de flux peut utiliser certaines règles de correspondance des modèles de risque , Analyse en temps réel des données de comportement de l'utilisateur massif, la découverte des anomalies, déterminer le niveau de risque, et prendre les mesures de contrôle des risques appropriés pour automatiser la notification d'alarme pour changer les processus d'affaires. Plus rapide, plus précis, plus large Beaucoup de scénarios informatiques axés sur les événements comme Windchill résolvent des calculs en temps réel.

informatique en temps réel dans le champ d'application a également été recommandé très profondément. Que recommandé nouvelles, la recommandation de la musique ou la lecture recommandée, ont essentiellement été fait mille mille visages, chacun a reçu poussé le contenu est adapté aux préférences individuelles d'intérêt a. les préférences de l'intérêt de l'utilisateur, souvent par le biais de données en temps réel pour calculer constamment mis à jour. à newsfeeds, par exemple, lorsqu'un utilisateur clique sur une section d'un message push, en fait, derrière le produit en temps pour l'utilisateur d'effectuer des analyses de comportement en temps réel, les mises à jour en temps réel utilisateur les préférences d'intérêt continuent de trouver de nouveaux points d'utilisateurs d'intérêt, les utilisateurs deviennent plus conscients, et enfin du contenu aux utilisateurs plus intéressés par lui. à nouveau avec des recommandations musicales, par exemple, si un utilisateur une certaine période de temps quelques première collection de chansons tristes grâce à l'analyse des données en temps réel, le système peut identifier ces informations et ciblée pousser quelques chansons pour apaiser les utilisateurs. ce scénario n'est calculé en temps réel pour résoudre, mais aussi incarne le mieux les valeurs calculées en temps réel.

De plus en plus de scénarios de calcul en temps réel seront développés, les gens dans le futur «tout change» se sentiront de plus en plus profonds.

De «sauvegarder avant d'aller» à «compter tout en économisant», l'informatique en temps réel n'a plus peur des «grandes» données

L'informatique en temps réel est-elle si bonne, que faut-il faire au niveau de la réalisation, quelles sont les difficultés et les défis à relever?

Tout d'abord, de la structure globale, le calcul des données, rien de moins que trois choses: entrée de données → calcul → sortie de données.Le modèle de calcul traditionnel à la base de données, par exemple, les premières données sont stockées dans un tableau de données, l'utilisateur par l'implémentation de la requête Déclenchement du calcul de la base de données, la sortie finale de la base de données après l'achèvement du calcul de ce modèle préexistant dans les grands scénarios de calcul en temps réel ne fonctionnera pas, nous voulons calculer les données sont très grandes, un résultat de calcul Les données sources concernées peuvent être des données couvrant le jour passé, éventuellement des centaines de milliards d'enregistrements de données. Si chaque nouvelle donnée augmente, toutes les données sont recalculées, de sorte que les frais généraux sont très importants, le résultat final sera Il est très lent et ne peut pas atteindre l'effet en temps réel. Il est plus raisonnable de calculer les données en entrant dans le système informatique en temps réel, qui ne doit pas nécessairement être stocké en premier, et peut être directement impliqué dans le calcul. Les nouvelles données actuelles dans les résultats de calcul de données historiques précédentes font «calcul incrémental», les mêmes données ne sont pas impliqués dans le calcul des calculs répétés est terminée, Et puis enregistrer les résultats de calcul pour une utilisation professionnelle, puis la pression de stockage de données est beaucoup plus petite.En même temps, "grande" signifie que la concurrence des données est élevée, peut avoir besoin de calculer des dizaines de millions de nouvelles données par seconde, de sorte que le calcul Stand-alone peut résister, donc l'informatique en temps réel big data à résoudre est une série de problèmes techniques dans l'architecture du système distribué.

Calcul distribué réels problèmes de nombreux aspects, y compris l'acquisition de données à partir de, pour calculer la sortie de l'ensemble du processus doit être fait faible retard, en plus du nœud lui-même est calculée en utilisant le modèle « calcul incrément », mais nécessite également un module de transmission de données à haute amont le rôle du débit, et la capacité de données en cache dans la mémoire tampon peut jouer un grand scénario de flux, les modules de sortie en aval nécessaires pour la compression de données, la production par lots, optimisé pour assurer une sortie en temps réel de la faible latence de cette prémisse d'autres caractéristiques du système informatique en temps réel mis en avant des exigences plus élevées, comme la double 11 00h00, quand un grand nombre de consommateurs sont facturés en même temps, il est versé dans la quantité instantanée de données dans le système informatique en temps réel est énorme, les besoins du système il a une forte capacité à traiter des données en parallèle, une répartition raisonnable du trafic à un grand nombre de centaines instantanés des noeuds de calcul, les noeuds et le résultat du calcul de la convergence pour calculer un ensemble en même temps que les résultats dans le cas où un débit élevé est d'assurer encore faible Retardé.

Le plus difficile du 'calcul par lots' au 'calcul incrémental' est la précision et la facilité d'utilisation

Les mêmes défis clés que la faible latence sont la précision: le modèle «incrémental» est différent du modèle «batch» traditionnel, il ne peut donc pas être copié à partir de l'expérience technique passée ou il y aura des problèmes de précision. Comment de nouvelles données sont ajoutées aux anciens résultats de calcul, et dans certains scénarios, il est même nécessaire de supprimer certaines des valeurs calculées des anciens résultats de calcul afin d'assurer l'exactitude du résultat final.

système distribué d'une défaillance d'un nœud est très fréquent, streaming en temps réel système informatique capacité de récupération de défaut est également important, car en cas de défaut, le système doit être une récupération rapide, ou mettre à jour la sortie du système peut stagner, en temps réel il ne se pose pas, alors que l'échec ne peut pas être détruit modèle « informatique supplémentaire », autrement dégénéré dans le modèle « informatique de traitement par lots » et non sur les résultats en temps réel, et il est difficile d'assurer l'exactitude des résultats.

En fait, Netease grande plate-forme informatique de flux de données pour atteindre processus Sloth auto-étude, rencontré et surmonter les difficultés techniques mentionnées ci-dessus. Plate-forme informatique de flux Netease Paresseux comme une plate-forme de produits, la facilité d'utilisation, l'isolement multi-locataire a fait beaucoup de travail sur le calcul en temps réel, la facilité d'utilisation est un des aspects plus discutables.

</ s>

Pour les développeurs, la rédaction d'un programme distribué que d'écrire le programme autonome sera difficile, et d'écrire en temps réel programme de calcul distribué, sera plus difficile. Heureusement, il y a un certain moteur open source de calcul du débit de l'industrie pour aider à achever beaucoup de travail pour développer peuvent utiliser ces flux moteur de calcul de flux achever le développement des tâches informatiques, ils ne doivent plus se préoccuper de la façon de répartir les tâches informatiques à travers plusieurs nœuds de calcul, comment transmettre des données entre les noeuds de calcul et d'autres questions, que nous devons nous concentrer sur le développement de la logique de calcul, calcul de contrôler le degré de parallélisme des différentes étapes de calcul.

Pour calculer le nombre de mots d'un article, par exemple, un contenu de programme informatique réparti peut comprendre trois parties, la première est commune à regrouper quelques noeuds de calcul de chaque ligne de texte dans un seul mot, la seconde étape consiste à utiliser une autre certains noeuds de calcul pour compter le nombre de mots (compte tenu de l'énorme quantité de données, la nécessité de faire ici avec une pluralité de noeuds de calcul), une troisième étape est le noeud noeud informatique en amont Calvaire calculer un nombre de partie convergente compte au total. Ainsi, un scénario simple, la quantité de code nécessaire pour développer est d'environ 200 lignes. scénario d'affaires réel, le flux de données de nœud de calcul beaucoup plus que trois, beaucoup plus complexe que le type de calcul par la somme, même avec des moteurs de calcul de flux, le développement du programme de calcul en temps réel distribué est encore plus difficile. regarder plus loin, même si développé, et la nécessité de prendre beaucoup de temps à consacrer à le débogage, la maintenance et d'autres cadres de calcul, une fois que le calcul doit changer , Tout le travail doit être réitéré à nouveau, c'est un processus plus douloureux. Comment rendre le programme de calcul de flux plus facile à écrire, est en temps réel Plate-forme nécessaire pour compléter le défi.

Indépendamment de la facilité d'utilisation du système de calcul en continu en temps réel, regardez comment des problèmes similaires sont résolus dans le processus informatique: les gens veulent faciliter la programmation, donc de plus en plus de langages de programmation de haut niveau ont été inventés. , on espère que certaines données peuvent être facilement calculés, puis il y aura une base de données et le langage SQL - langage de requête structurée, à la grande époque de données, en se fondant sur les personnes de programmation du moteur de calcul compliqué toss encore le calcul par lots hors ligne, quand il a rencontré Problème et enfin résolu le problème en appliquant le langage SQL au système informatique déconnecté distribué. Alors que le développement rapide de l'informatique en temps réel peut de nos jours être résolu en SQL? La réponse est oui, mais il y a beaucoup Les détails du problème doivent être examinés.

Le flux de données dans le calcul de flux en temps réel peut être compris comme un tableau de données dynamique

Mentionné ci-dessus, le modèle de calcul par lots hors ligne et les modèles de calcul incrémental en temps réel sont différents, lorsque le langage SQL, respectivement, et le calcul par lots et le calcul en continu, sa sémantique doivent également changer. La différence est que les données précédentes sont limitées, les données illimitées sont collectées en continu dans le système. Lorsqu'une requête SQL sur un groupe de données hors ligne ci-dessus, le calcul est terminé, les résultats de sortie, cette requête SQL Il ne se termine pas, parce que les données circulent constamment, selon la sémantique du SQL hors ligne, jusqu'à ce que le SQL est fait, le calcul ne produira pas le résultat, ce qui n'est évidemment pas Calcul de flux de l'effet désiré, de sorte que l'essentiel du streaming SQL doit être de définir une série de tâches de calcul de flux, tandis que ces tâches sont exécutées tandis que la sortie du résultat de calcul.

Le SQL hors ligne gère les fiches de données statiques, tandis que le SQL en flux gère les flux de données et la sémantique computationnelle de SQL (telles que les sommes, les moyennes, les jointures de tables de données, etc.) sont valides sur le flux de données. Le concept de conversion: SQL hors ligne est la table de données statiques dans une autre table de données statiques, et le calcul de flux en temps réel du flux de données peut être interprété comme une table de données dynamique (les données continueront à croître table de données dynamique) Différentes fois La table de données est différente, l'implémentation de SQL sera différents résultats de calcul, les résultats de ces différents calculs comme un diaporama de films dans la même série, nous avons eu une table de résultats dynamique - streaming SQL pour faire le travail est de convertir une table de données dynamique en une autre table de données dynamique, de sorte que le flux de la sémantique de calcul SQL plus facile à comprendre.Système de streaming informatique en temps réel pour résoudre le problème réduit Calculez 'up.

L'optimisation des moteurs de streaming SQL est actuellement la principale direction des percées technologiques

Facilité d'utilisation, diffusion en temps réel système informatique, peut être utilisé pour résoudre le langage SQL, les pratiques de production Netease plate-forme informatique de flux Sloth a également confirmé cette théorie. Les utilisateurs ne doivent plus apprendre une variété de calcul interface de programmation du moteur, plus besoin de débogage distribué programme informatique, plus besoin de maintenir leur propre système informatique de flux, il suffit de tourner sur la plate-forme hors ligne originale de migrer vers SQL sur une plate-forme informatique de flux en direct, nous pouvons compléter la logique de calcul en temps réel complexe.

travail client est considérablement réduit, la plate-forme flux en temps réel informatique de travail est lié à augmenter, la partie la plus difficile est de savoir comment la requête SQL dans la logique de calcul réel pour obtenir un support de moteur de calcul SQL streaming, similaire au moteur de base de données rôle, et comme indiqué précédemment, ces moteurs logiques de calcul doit être conforme au modèle « informatique supplémentaire ». Pendant ce temps, afin de rendre les résultats de calcul en temps réel à une grande variété de scénarios d'affaires, le moteur de calcul doit être en mesure de stocker une variété de rôles bout , telles que les données, les files d'attente de messages, tels que le stockage hors ligne.

Double 11 grand écran seulement les grandes données informatiques en streaming en temps réel d'un scénario d'application, il y aura de plus en plus des scénarios de calcul en temps réel, telles que l'informatique en temps réel en plus du texte, des images, la voix peut également calculer en temps réel, l'apprentissage automatique en ligne, la mise en réseau l'informatique en temps réel et d'autres données en temps réel et le type de scène dans le calcul des flux en temps réel est une croissance exponentielle, et le moteur de calcul en temps réel seront confrontés à un défi de taille est en avance aussi l'évolution des calculs de flux basés sur SQL sont décrites, il sera de plus en plus dans le flux calcul des propriétés spécifiques, telles que le déclencheur de sortie, le traitement des données périmées, fenêtre de données est divisé en une série de règles. moteur SQL optimise automatiquement le flux de courant est une direction de percée technologique importante, je crois que l'avenir des calculs de flux en temps réel avec l'avancement de la technologie, l'application il faut une plus profonde et plus large.

2016 GoodChinaBrand | ICP: 12011751 | China Exports