web-dev-qa-db-fra.com

dask-distributed

Comment utiliser tous les cœurs de processeur en utilisant Dask?

Comment voir la progression de la tâche Dask Compute?

Meilleur système de fichiers distribué pour une ferme de stockage Linux standard

Rechercher/Trouver un fichier et son contenu dans Hadoop

Pourquoi la partition RDBMS n'est-elle pas tolérante dans le théorème CAP et pourquoi est-elle disponible?

python dask DataFrame, support pour les lignes (trivialement parallélisables)

comment paralléliser de nombreuses comparaisons de chaînes (floues) à l'aide de apply in Pandas?

Dans quelle situation puis-je utiliser Dask au lieu d'Apache Spark?

Écriture de partitions Dask dans un seul fichier

dask dataframe comment convertir la colonne en to_datetime

Convertir Pandas dataframe en Dask dataframe

Dask peut-il paralléliser la lecture d'un fichier csv?

L'installation par défaut de Dask dans pip donne "ImportError: Aucun module nommé toolz"

Dask: Comment pourrais-je paralléliser mon code avec un dask retardé?

dask dataframe appliquer la méta

Stratégie de partitionnement efficace des trames de données dask

Données imbriquées dans Parquet avec Python

Comment paralléliser apply () sur Pandas Dataframes utilisant tous les cœurs d'une machine?

exemple simple de map_partitions dask

Débit d'air + céleri ou dask. Pour quoi, quand?

Comment forcer les types de parquet lors de la sauvegarde de pd.DataFrame?

Comment dois-je obtenir la forme d'une base de données Dask?

Une comparaison entre fastparquet et pyarrow?

Comparaison entre modin | Dask | Données.table | Pandas pour le traitement parallèle et les fichiers CSV de mémoire de mémoire

Un moyen efficace de lire des fichiers csv de 15 M lignes dans python

Application de Python function à Pandas grouped DataFrame - quelle est l'approche la plus efficace pour accélérer les calculs?

Meilleure façon d'agréger plusieurs fichiers journaux de plusieurs serveurs

FileSystemWatcher vs polling pour surveiller les modifications de fichiers

Memcached avec Windows et .NET

Comment copier une branche Git locale sur un dépôt distant

Service de verrouillage distribué

alternative à memcached qui peut persister sur le disque

Différence entre le cloud computing et l'informatique distribuée?

Utilisation de Zookeeper dans le monde réel

Recommandations de bus de service .net?

Services Web vs EJB vs RMI, avantages et inconvénients?

Quels problèmes d'évolutivité avez-vous rencontrés lors de l'utilisation d'un magasin de données NoSQL?

Calculez la médiane d'un milliard de nombres

Expliquer Apache ZooKeeper

Fragmentation horizontale ou verticale dans les systèmes de gestion de base de données distribuée (DDBMS)

Validation en deux phases

Impossible de commencer une transaction distribuée

Changer la taille du fichier fractionné dans Hadoop

Comment MPI_Scatter et MPI_Gather sont-ils utilisés à partir de C?

Méthode de réplication de la base de données sqlite sur plusieurs serveurs

Qu'entendons-nous par «centile supérieur» ou latence basée sur TP?

qu'est-ce que le port zookeeper et son utilisation?

akka ou une alternative similaire pour golang pour prendre en charge la simultanéité distribuée?

Comment écrire dans CSV en Spark

L'opération n'a pas pu être effectuée car OLE le fournisseur de base de données "SQLNCLI11" pour le serveur lié n'a pas pu commencer une transaction distribuée

Comment fonctionne la fonction d'agrégation Spark - aggregByKey?

Qu'est-ce qu'une tâche dans Spark? Comment le travailleur Spark exécute-t-il le fichier jar?

Kafka - Comment valider l'offset après chaque message en utilisant un consommateur de haut niveau?

Dans Apache Kafka, pourquoi ne peut-il pas y avoir plus d'instances de consommateurs que de partitions?

Convertir une chaîne simple d'une ligne en RDD dans Spark

Microservices: Que sont les terminaux intelligents et les tubes muets?

Quelle est la difference entre cache et persist?

Multitraitement Python avec un cluster distribué

Paxos vs deux phases commit

Concaténation de jeux de données de différents RDD dans Apache spark using scala

Comment décider de la taille du cluster Kafka

Le verrou fourni n'est pas valide. Soit le verrou a expiré, soit le message a déjà été supprimé de la file d'attente

Erreur Java Spark: la taille dépasse Integer.MAX_VALUE

Apache Spark vs Akka

"Cohérence éventuelle" vs "Cohérence finale forte" vs "Cohérence forte"?

Le moyen le plus simple d'installer les dépendances Python sur les nœuds exécuteurs Spark?

Spark - répartition () vs coalesce ()

Qu'est-ce qui détermine Kafka offset du consommateur?

Que sont les travailleurs, les exécuteurs, les cœurs dans le cluster Spark autonome?

Aplatissement des rangées dans l'étincelle

Découverte de service vs équilibrage de charge

Google Dataflow vs Apache Spark

Est-il possible d’ajouter des partitions à un sujet existant dans Kafka 0.8.2

Comment utiliser le consommateur multi-thread dans kafka 0.9.0?

Qu'est-ce que spark.driver.maxResultSize?

Comprendre la mise en cache, persister dans Spark

Décomposition de la structure imbriquée dans le cadre de données Spark

Déterminer le nombre optimal de partitions Spark en fonction des travailleurs, des cœurs et de la taille de DataFrame

pyspark: NameError: le nom 'spark' n'est pas défini

Signification de inter_op_parallelism_threads et intra_op_parallelism_threads

Flux tensoriel distribué: la différence entre la réplication dans le graphique et la réplication entre les graphiques

Comment fonctionne la formation asynchrone dans Tensorflow distribué?

paxos vs radeau pour l'élection du chef

Impossible d'enregistrer le modèle à l'aide de model.save après multi_gpu_model dans Keras

Pourquoi ESB est considéré comme mauvais dans l'architecture des microservices

2PC vs Sagas (transactions distribuées)

Comment configurer Jaeger avec elasticsearch?

Synchronisation des transactions entre la base de données et le producteur Kafka

Stratégies de parallélisation pour l'apprentissage en profondeur