成人精品一区二区三区电影 ,车上震动a级作爱视频

Maison

développement back-end

Golang

Traitement CSV volumineux à l'aide de Go

Linda Hamilton

Nov 27, 2024 am 12:54 AM

L'idée est?:

étant donné qu'un grand CSV factice (1 million de lignes) contient un échantillon de données client et effectue le traitement avec les objectifs ci-dessous?:

Extraire les données du CSV

Calculer combien de données/lignes

Regrouper combien de clients pour chaque ville

Trier les villes par nombre de clients du plus élevé au plus bas

Calculer le temps de traitement

Un exemple CSV des clients peut être téléchargé ici https://github.com/datablist/sample-csv-files

Charger et extraire des données

Apparemment, Go a une bibliothèque standard pour le traitement CSV. Nous n'avons plus besoin de dépendance tierce pour résoudre notre problème, ce qui est bien. La solution est donc assez simple?:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Ouvrez le fichier à partir du chemin indiqué
Charger le fichier ouvert sur le lecteur CSV
Contient tous les enregistrements/lignes CSV extraits dans une tranche d'enregistrements pour un traitement ultérieur

FieldsPerRecord est défini sur -1 car je souhaite ignorer la vérification des champs sur la ligne, car le nombre de champs ou de colonnes peut être différent dans chaque format

Dans cet état, nous sommes déjà en mesure de charger et d'extraire toutes les données du CSV et sommes prêts pour le prochain état de traitement. Nous pourrons également savoir combien de lignes dans CSV en utilisant la fonction len(records).

Regroupement du nombre total de clients dans chaque ville

Nous pouvons désormais parcourir les enregistrements et créer la carte contenant le nom de la ville et le nombre total de clients qui ressemble à ceci?:

["Jakarta": 10, "Bandung": 200, ...]

Les données de la ville dans la ligne CSV sont situées dans le 7ème index et le code ressemblera à ceci

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Si le plan de la ville n'existe pas, créez une nouvelle carte et définissez le total du client sur 1. Sinon, incrémentez simplement le nombre total de villes données.

Maintenant, nous avons la carte m contenant une collection de villes et le nombre de clients à l'intérieur. à ce stade, nous avons déjà résolu le problème du regroupement du nombre de clients pour chaque ville.

Trier le client total le plus élevé

J'ai essayé de trouver s'il existe une fonction dans la bibliothèque standard pour trier la carte mais malheureusement je ne l'ai pas trouvée. Tri possible uniquement pour la tranche car nous pouvons réorganiser l'ordre des données en fonction de la position de l'index. Alors oui, faisons une tranche de notre carte actuelle.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

Maintenant, comment l'avons-nous trié par CustomerCount du plus élevé au plus bas?? L’algorithme le plus courant pour cela utilise le bubble short. Bien que ce ne soit pas le plus rapide, il pourrait faire l'affaire.

Bubble Sort est l'algorithme de tri le plus simple qui fonctionne en échangeant à plusieurs reprises les éléments adjacents s'ils sont dans le mauvais ordre. Cet algorithme ne convient pas aux grands ensembles de données car sa complexité temporelle moyenne et dans le pire des cas est assez élevée.

Référence?: https://www.geeksforgeeks.org/bubble-sort-algorithm/

En utilisant notre tranche, il bouclera sur les données et vérifiera la valeur suivante de l'index et l'échangera si les données actuelles sont inférieures à l'index suivant. Vous pouvez vérifier l'algorithme de détail sur le site de référence.

Maintenant, notre processus de tri pourrait être comme ?a

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

à la fin de la boucle, la tranche finale nous donnera des données triées.

Calculer le temps de traitement

Calculer le temps de traitement est assez simple, nous obtenons l'horodatage avant et après l'exécution du processus principal du programme et calculons la différence. En Go, l'approche devrait être assez simple?:

["Jakarta": 10, "Bandung": 200, ...]

Le résultat

Exécutez le programme avec la commande

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Les informations imprimées indiqueraient le nombre de lignes, les données triées et le temps de traitement. Quelque chose comme ceci ci-dessous?:

Large CSV Processing Using Go

Comme prévu par les performances de Go, il a traité 1 million de lignes CSV en moins d'une seconde?!

Tous les codes complétés sont déjà publiés sur mon référentiel Github?:

https://github.com/didikz/csv-processing/tree/main/golang

Le?on apprise

Le traitement CSV dans Go est déjà disponible dans la bibliothèque standard, pas besoin d'utiliser une bibliothèque tierce
Le traitement des données est assez simple. Le défi était de savoir comment trier les données car il fallait le faire manuellement

Qu'est-ce qui vous vient à l'esprit??

Je pensais que ma solution actuelle pourrait être optimisée davantage car j'ai bouclé tous les enregistrements extraits au format CSV pour les mapper et si nous avons vérifié la source ReadAll(), elle a également une boucle pour créer la tranche basée sur le lecteur de fichier donné. De cette manière, des lignes de 1 Mil pourraient produire 2 x boucles pour des données de 1 Mil, ce qui n'est pas agréable.

Je pensais que si je pouvais lire les données directement à partir du lecteur de fichiers, cela n'aurait besoin que d'une seule boucle car je pourrais créer une carte directement à partir de celui-ci. Sauf que la tranche d'enregistrements sera utilisée ailleurs mais pas dans ce cas.

Je n'ai pas encore le temps de le comprendre, mais j'ai aussi pensé à certains inconvénients si je le fais manuellement?:

Il faudra probablement gérer davantage d'erreurs du processus d'analyse
Je ne sais pas dans quelle mesure cela réduira le temps de traitement pour considérer que la solution de contournement en vaudra la peine ou non

Bon codage?!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Afficher plus

Article chaud

Guide: Stellar Blade Enregistrer le fichier Emplacement / enregistrer le fichier perdu / ne pas enregistrer

4 Il y a quelques semaines By DDD

Oguri Cap Build Guide | Un joli Musume Derby

2 Il y a quelques semaines By Jack chen

Guide de construction d'Agnes Tachyon | Un joli Musume Derby

1 Il y a quelques semaines By Jack chen

Dune: Awakening - Planétologue avancé Procédure pas à pas

3 Il y a quelques semaines By Jack chen

Datez tout: guide relationnel de Dirk et Harper

4 Il y a quelques semaines By Jack chen

Afficher plus

Outils chauds

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

8637

Tutoriel Java

1783

Tutoriel CakePHP

1727

Tutoriel Laravel

1577

Tutoriel PHP

1442

Afficher plus

Related knowledge

Quelles sont les implications de la liaison statique de Go par défaut? Jun 19, 2025 am 01:08 AM

GO compile le programme dans un binaire autonome par défaut, la raison principale est la liaison statique. 1. Déploiement plus simple: aucune installation supplémentaire de bibliothèques de dépendances, ne peut être exécutée directement sur les distributions Linux; 2. 3. Prévisibilité et sécurité plus élevées: éviter les risques provoqués par les changements dans les versions externes de la bibliothèque et améliorer la stabilité; 4. Flexibilité de fonctionnement limitée: Impossible de mise à jour à chaud des bibliothèques partagées, et se recompiler et le déploiement sont nécessaires pour corriger les vulnérabilités de dépendance. Ces fonctionnalités sont adaptées aux outils CLI, aux microservices et à d'autres scénarios, mais des compromis sont nécessaires dans les environnements où le stockage est restreint ou repose sur une gestion centralisée.

Comment créer un canal tamponné dans Go? (par exemple, Make (Chan Int, 10)) Jun 20, 2025 am 01:07 AM

Pour créer un canal tampon dans GO, spécifiez simplement les paramètres de capacité dans la fonction de faire. Le canal tampon permet à l'opération d'envoi de stocker temporairement les données en cas de récepteur, tant que la capacité spécifiée n'est pas dépassée. Par exemple, Ch: = Make (Chanint, 10) crée un canal tampon qui peut stocker jusqu'à 10 valeurs entières; Contrairement aux canaux non frappés, les données ne seront pas bloquées immédiatement lors de l'envoi, mais les données seront temporairement stockées dans le tampon jusqu'à ce qu'elles soient enlevées par le récepteur; Lorsque vous l'utilisez, veuillez noter: 1. Le réglage de la capacité doit être raisonnable pour éviter les déchets de mémoire ou le blocage fréquent; 2. Le tampon doit empêcher l'accumulation de problèmes de mémoire indéfiniment dans le tampon; 3. Le signal peut être passé par le type de chantruct {} pour enregistrer les ressources; Les scénarios courants incluent le contr?le du nombre de modèles de concurrence et de consommation producteur et de différenciation

Comment GO Assure-t-il la sécurité de la mémoire sans gestion manuelle de la mémoire comme en C? Jun 19, 2025 am 01:11 AM

GoEnsuresMemorySafetywithoutmanual Management ThroughhroughAutomaticGarBageCollection, nopointeraRITHMetic, SafeConcurrency, AndruntimeCkecks.first, Go’sgarBageColEctorAutomAccilmatmestsunusedMemory, empêchant le sanddanglingpoiners.

Comment pouvez-vous utiliser GO pour les taches de programmation système? Jun 19, 2025 am 01:10 AM

GO est idéal pour la programmation système car il combine les performances des langages compilés tels que C avec la facilité d'utilisation et la sécurité des langages modernes. 1. En termes d'opérations de fichiers et de répertoires, le package OS de GO prend en charge la création, la suppression, le renommage et la vérification si les fichiers et les répertoires existent. Utilisez OS.Readfile pour lire l'intégralité du fichier dans une ligne de code, qui convient à l'écriture de scripts de sauvegarde ou d'outils de traitement de journal; 2. 3. En termes de réseau et de concurrence, le package net prend en charge la programmation TCP / UDP, la requête DNS et les ensembles originaux.

Comment appeler une méthode sur une instance de structure en Go? Jun 24, 2025 pm 03:17 PM

Dans le langage GO, l'appel d'une méthode de structure nécessite d'abord de définir la structure et la méthode qui lie le récepteur et l'accès à l'aide d'un numéro de point. Après avoir défini le rectangle de structure, la méthode peut être déclarée via le récepteur de valeur ou le récepteur de pointeur; 1. Utilisez le récepteur de valeur tel que Func (Rrectangle) Area () Int et appelez directement-le via rect.area (); 2. Si vous avez besoin de modifier la structure, utilisez le récepteur de pointeur tel que SetWidth (R * rectangle) de Func (R * R * 3. Lors de l'intégration de la structure, la méthode de structure intégrée sera améliorée et peut être appelée directement par la structure extérieure; 4. GO n'a pas besoin de forcer l'utilisation de Getter / Setter,

Que sont les interfaces en Go et comment les définir? Jun 22, 2025 pm 03:41 PM

Dans GO, une interface est un type qui définit le comportement sans spécifier l'implémentation. Une interface se compose de signatures de méthode, et tout type qui implémente ces méthodes satisfait automatiquement l'interface. Par exemple, si vous définissez une interface de haut-parleur contenant la méthode Speak (), tous les types qui implémentent la méthode peuvent être considérés comme haut-parleur. Les interfaces conviennent à la rédaction de fonctions communes, aux détails de l'implémentation abstrait et à l'utilisation d'objets simulés dans les tests. La définition d'une interface utilise le mot-clé d'interface et répertorie les signatures de la méthode, sans déclarer explicitement le type pour implémenter l'interface. Les cas d'utilisation courants incluent les journaux, le formatage, les abstractions de différentes bases de données ou services et des systèmes de notification. Par exemple, les types de chiens et de robots peuvent implémenter des méthodes Speak et les transmettre à la même Anno

Comment utiliser les fonctions de cha?ne à partir du package de cha?nes dans Go? (par exemple, Len (), Strings.Contains (), Strings.Index (), Strings.replaceAll ()) Jun 20, 2025 am 01:06 AM

Dans le langage GO, les opérations de cha?ne sont principalement implémentées via le package des cha?nes et les fonctions intégrées. 1.Strings.Contains () est utilisé pour déterminer si une cha?ne contient une sous-cha?ne et renvoie une valeur booléenne; 2.Strings.Index () peut trouver l'emplacement où la sous-cha?ne appara?t pour la première fois, et s'il n'existe pas, il renvoie -1; 3.Strings.ReplaceALL () peut remplacer toutes les sous-cha?nes correspondantes et peut également contr?ler le nombre de remplacements via des cha?nes.replace (); 4.Len () La fonction est utilisée pour obtenir la longueur des octets de la cha?ne, mais lors du traitement de l'Unicode, vous devez prêter attention à la différence entre les caractères et les octets. Ces fonctions sont souvent utilisées dans des scénarios tels que le filtrage des données, l'analyse de texte et le traitement des cha?nes.

Comment utiliser le package IO pour fonctionner avec des flux d'entrée et de sortie dans GO? Jun 20, 2025 am 11:25 AM

ThegoiopackageProvidesInterfacesLikeReaderAndWritertoHandlei / Ooperations UniformlyAcrossources.1.io.Reader'sreadMethoDenablesReadingFromvariousSourcesuchasFilesorHttpResponsses.2.Io.writer'swritethodfacilita

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Traitement CSV volumineux à l'aide de Go

Charger et extraire des données

Regroupement du nombre total de clients dans chaque ville

Trier le client total le plus élevé

Calculer le temps de traitement

Le résultat

Le?on apprise

Qu'est-ce qui vous vient à l'esprit??

Outils d'IA chauds

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds