国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ バックエンド開発 Golang Go を使用した大規(guī)模な CSV 処理

Go を使用した大規(guī)模な CSV 処理

Nov 27, 2024 am 12:54 AM

アイデアは次のとおりです:

大規(guī)模なダミー CSV (100 萬行) に顧客データのサンプルが含まれているとすると、以下の目標(biāo)で処理を?qū)g行します。

  • CSV からデータを抽出します
  • データ/行數(shù)を計算します
  • 各都市の顧客數(shù)をグループ化
  • 顧客數(shù)の多い順に都市を並べ替えます
  • 処理時間を計算する
顧客のサンプル CSV はここからダウンロードできます https://github.com/datablist/sample-csv-files

データのロードと抽出

どうやら Go には CSV 処理用の標(biāo)準(zhǔn)ライブラリがあるようです。問題を解決するためにサードパーティに依存する必要がなくなりました。これは素晴らしいことです。したがって、解決策は非常に簡単です:


  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
    指定されたパスからファイルを開きます
  1. 開いているファイルを CSV リーダーにロードします
  2. 抽出されたすべての CSV レコード/行の値を、後で処理できるようにレコード スライスに保持します
各形式でフィールドまたは列の數(shù)が異なる可能性があるため、行のフィールドチェックをスキップしたいため、FieldsPerRecord を -1 に設(shè)定します

この狀態(tài)では、CSV からすべてのデータをロードして抽出することができており、次の処理狀態(tài)に進む準(zhǔn)備ができています。また、関數(shù) len(records) を使用すると、CSV 內(nèi)の行數(shù)を知ることができます。

総顧客數(shù)を各都市にグループ化

これで、レコードを反復(fù)処理して、次のような都市名と総顧客數(shù)を含むマップを作成できるようになりました。


["Jakarta": 10, "Bandung": 200, ...]
CSV 行の都市データは 7 番目のインデックスにあり、コードは次のようになります


  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }
都市マップが存在しない場合は、新しいマップを作成し、顧客の合計を 1 に設(shè)定します。それ以外の場合は、指定された都市の合計數(shù)を増やすだけです。

これで、都市のコレクションとその中に含まれる顧客の數(shù)を含むマップ m ができました。この時點で、都市ごとに何人の顧客をグループ化するかという問題はすでに解決しています。

最大合計顧客の並べ替え

標(biāo)準(zhǔn)ライブラリにマップを並べ替える関數(shù)があるかどうか探してみましたが、殘念ながら見つかりませんでした。インデックス位置に基づいてデータの順序を並べ替えることができるため、スライスでのみソートが可能です。それでは、現(xiàn)在のマップからスライスを作成しましょう。


// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}
それでは、CustomerCount を最大値から最小値までどのように並べ替えたのでしょうか?このための最も一般的なアルゴリズムは、バブルショートを使用することです。最速ではありませんが、十分な仕事はできます。

バブル ソートは、隣接する要素の順序が間違っている場合に繰り返し入れ替えることで機能する最も単純な並べ替えアルゴリズムです。このアルゴリズムは、平均および最悪の場合の時間計算量が非常に高いため、大規(guī)模なデータセットには適していません。

參考: https://www.geeksforgeeks.org/bubble-sort-algorithm/

スライスを使用して、データをループし、インデックスの次の値をチェックし、現(xiàn)在のデータが次のインデックスより小さい場合はそれを交換します。詳細(xì)なアルゴリズムは參考サイトで確認(rèn)できます。

並べ替えプロセスは次のようになります

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

ループの終わりまでに、最後のスライスからソートされたデータが得られます。

処理時間の計算

処理時間の計算は非常に簡単で、プログラムのメイン処理の実行前後のタイムスタンプを取得し、その差分を計算します。 Go では、アプローチは十分に単純である必要があります。

["Jakarta": 10, "Bandung": 200, ...]

結(jié)果

コマンドでプログラムを?qū)g行します

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

出力されるのは、行數(shù)、ソートされたデータ、および処理時間です。以下はこのようなものです:

Large CSV Processing Using Go

期待通りの Go パフォーマンスで、100 萬行の CSV を 1 秒以內(nèi)に処理しました!

完成したコードはすべて私の Github リポジトリですでに公開されています:

https://github.com/didikz/csv-processing/tree/main/golang

學(xué)んだ教訓(xùn)

  • Go での CSV 処理は標(biāo)準(zhǔn)ライブラリですでに利用可能であるため、サードパーティのライブラリを使用する必要はありません
  • データの処理は非常に簡単です。課題は、手動で行う必要があるため、データを並べ替える方法を見つけることでした

何が思い浮かびますか?

CSV を抽出したすべてのレコードをループしてマップし、ReadAll() ソースでチェックすると、指定されたファイル リーダーに基づいてスライスを作成するループも含まれているため、現(xiàn)在のソリューションをさらに最適化できるかもしれないと考えていました。これにより、100 萬行で 100 萬のデータに対して 2 つのループが生成される可能性があり、これは好ましくありません。

ファイル リーダーから直接データを読み取ることができれば、そこからマップを直接作成できるため、必要なループは 1 つだけであると考えました。ただし、レコードのスライスは他の場所で使用されますが、この場合は使用されません。

まだそれを理解する時間がありませんが、手動で行う場合のマイナス面も考えました:

  • おそらく解析プロセスのさらに多くのエラーを処理する必要があります
  • この回避策が価値があるかどうかを考えるのに、処理時間の短縮にどれだけの意味があるかわかりません

コーディングを楽しんでください!

以上がGo を使用した大規(guī)模な CSV 処理の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

デフォルトでGoの靜的リンクの意味は何ですか? デフォルトでGoの靜的リンクの意味は何ですか? Jun 19, 2025 am 01:08 AM

プログラムをデフォルトでスタンドアロンのバイナリにコンパイルします。主な理由は靜的リンクです。 1.よりシンプルな展開:依存関係ライブラリの追加インストールは、Linux分布全體で直接実行できます。 2。バイナリサイズの大きい:すべての依存関係を含むと、ファイルサイズが増加しますが、構(gòu)築フラグまたは圧縮ツールを通じて最適化できます。 3.予測可能性とセキュリティの高まり:外部ライブラリバージョンの変更によってもたらされたリスクを避け、安定性を高めます。 4.制限された操作の柔軟性:共有ライブラリのホットアップデートはできません。依存関係の脆弱性を修正するには、再コンパイルと展開が必要です。これらの機能により、CLIツール、マイクロサービス、その他のシナリオに適していますが、ストレージが制限されているか、集中管理に依存している環(huán)境でトレードオフが必要です。

Cのような手動メモリ管理なしでメモリの安全性をどのように保証しますか? Cのような手動メモリ管理なしでメモリの安全性をどのように保証しますか? Jun 19, 2025 am 01:11 AM

guensuresmemorysafetywithoutwithoutmanagemationgarbagecolectrection、nopointerariThmetic、safeconcurrency、andruntimechecks.first、go’sgarbagecollectorectivative -sunusedmemory、rieksanddanglingpointers.second、itdidilowsepointe

GOでバッファーチャネルを作成するにはどうすればよいですか? (例えば、make(chan int、10)) GOでバッファーチャネルを作成するにはどうすればよいですか? (例えば、make(chan int、10)) Jun 20, 2025 am 01:07 AM

GOでバッファチャネルを作成するには、Make関數(shù)の容量パラメーターを指定するだけです。バッファチャネルは、指定された容量を超えない限り、受信機がない場合に送信操作が一時的にデータを保存できるようにします。たとえば、ch:= make(chanint、10)は、最大10個の整數(shù)値を保存できるバッファチャネルを作成します。バッファーされていないチャネルとは異なり、データは送信時にすぐにブロックされませんが、データはレシーバーによって奪われるまで一時的にバッファーに保存されます。それを使用する場合、注意してください。1。メモリの無駄や頻繁なブロックを避けるために、容量設(shè)定は妥當(dāng)でなければなりません。 2。バッファは、バッファーにメモリの問題が無期限に蓄積されないようにする必要があります。 3.信號は、リソースを保存するために、chantruct {}タイプを渡すことができます。一般的なシナリオには、並行性の數(shù)、生産者消費者モデル、および差別化の制御が含まれます

システムプログラミングタスクにGOにどのように使用できますか? システムプログラミングタスクにGOにどのように使用できますか? Jun 19, 2025 am 01:10 AM

GOは、Cなどのコンパイルされた言語のパフォーマンスと、最新言語の使いやすさとセキュリティを組み合わせているため、システムプログラミングに最適です。 1.ファイルとディレクトリの操作に関して、GOのOSパッケージは、ファイルとディレクトリが存在するかどうかの作成、削除、名前変更、チェックをサポートします。 OS.ReadFileを使用して、バックアップスクリプトまたはログ処理ツールの書き込みに適した1行のコードでファイル全體を読み取ります。 2。プロセス管理の観點から、OS/EXECパッケージのexec.command関數(shù)は、外部コマンドを?qū)g行し、出力をキャプチャし、環(huán)境変數(shù)を設(shè)定し、入力と出力フローをリダイレクトし、自動化ツールと展開スクリプトに適したプロセスライフサイクルを制御できます。 3。ネットワークと並行性の観點から、ネットパッケージはTCP/UDPプログラミング、DNSクエリ、オリジナルセットをサポートします。

GOの構(gòu)造インスタンスでメソッドを呼び出すにはどうすればよいですか? GOの構(gòu)造インスタンスでメソッドを呼び出すにはどうすればよいですか? Jun 24, 2025 pm 03:17 PM

GO言語では、構(gòu)造メソッドを呼び出すには、最初に構(gòu)造と受信機を結(jié)合する方法を定義し、ポイント番號を使用してアクセスする必要があります。構(gòu)造の長方形を定義した後、メソッドは値受信機またはポインターレシーバーを介して宣言できます。 1。func(rrectangle)領(lǐng)域()intなどの値受信機を使用し、rect.area()を介して直接呼び出します。 2.構(gòu)造を変更する必要がある場合は、FUNC(r*長方形)setWidth(...)などのポインターレシーバーを使用し、GOはポインターと値の変換を自動的に処理します。 3.構(gòu)造を埋め込むと、埋め込まれた構(gòu)造の方法が改善され、外側(cè)の構(gòu)造を介して直接呼び出すことができます。 4。GOは、Getter/Setterを使用する必要はありません。

GOのインターフェイスとは何ですか?また、それらを定義するにはどうすればよいですか? GOのインターフェイスとは何ですか?また、それらを定義するにはどうすればよいですか? Jun 22, 2025 pm 03:41 PM

Goでは、インターフェイスは、実裝を指定せずに動作を定義するタイプです。インターフェイスはメソッドシグネチャで構(gòu)成され、これらのメソッドを?qū)g裝する任意のタイプは、インターフェイスを自動的に満たします。たとえば、speak()メソッドを含むスピーカーインターフェイスを定義する場合、メソッドを?qū)g裝するすべてのタイプをスピーカーと見なすことができます。インターフェイスは、一般的な関數(shù)、抽象的な実裝の詳細(xì)、およびテストで模擬オブジェクトの使用に適しています。インターフェイスの定義は、インターフェイスキーワードを使用し、メソッドシグネチャをリストし、インターフェイスを?qū)g裝するためにタイプを明示的に宣言することはありません。一般的なユースケースには、ログ、フォーマット、さまざまなデータベースまたはサービスの抽象化、および通知システムが含まれます。たとえば、犬とロボットの両方のタイプは、話す方法を?qū)g裝し、それらを同じannoに渡すことができます

GOの文字列パッケージから文字列関數(shù)を使用するにはどうすればよいですか? (例えば、len()、strings.contains()、strings.index()、strings.replaceall()) GOの文字列パッケージから文字列関數(shù)を使用するにはどうすればよいですか? (例えば、len()、strings.contains()、strings.index()、strings.replaceall()) Jun 20, 2025 am 01:06 AM

GO言語では、文字列操作は主に文字列パッケージと組み込み関數(shù)を介して実裝されます。 1.Strings.Contains()は、文字列にサブストリングを含み、ブール値を返すかどうかを判斷するために使用されます。 2.Strings.index()は、サブストリングが初めて表示される場所を見つけることができ、存在しない場合は-1を返します。 3.Strings.ReplaceAll()は、一致するすべてのサブストリングを置き換えることができ、strings.replace()を介して交換の數(shù)も制御できます。 4.Len()関數(shù)は、文字列のバイトの長さを取得するために使用されますが、Unicodeを処理する場合は、文字とバイトの違いに注意を払う必要があります。これらの機能は、データフィルタリング、テキスト解析、文字列処理などのシナリオでよく使用されます。

IOパッケージを使用して、GOの入力ストリームと出力ストリームを使用するにはどうすればよいですか? IOパッケージを使用して、GOの入力ストリームと出力ストリームを使用するにはどうすればよいですか? Jun 20, 2025 am 11:25 AM

thegoiopackageProvidesInterfacesLikerEaderAnderandRitoHandlei/ooperationsUniformlyAcrossources.1.io.Reader'SreadMethodenablessablesSreadingSuourCessuchasfilesorhtttttttttts

See all articles