国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 后端開發(fā) Golang 使用 Go 處理大型 CSV

使用 Go 處理大型 CSV

Nov 27, 2024 am 12:54 AM

想法是:

給定一個大型虛擬 CSV(100 萬行)包含客戶數(shù)據(jù)樣本,并按照以下目標(biāo)進行處理:

  • 從 CSV 中提取數(shù)據(jù)
  • 計算有多少數(shù)據(jù)/行
  • 對每個城市的客戶數(shù)量進行分組
  • 按客戶數(shù)量從高到低對城市進行排序
  • 計算處理時間

客戶的 CSV 示例可以在此處下載 https://github.com/datablist/sample-csv-files

加載和提取數(shù)據(jù)

顯然 Go 有用于 CSV 處理的標(biāo)準庫。我們不再需要第三方依賴來解決我們的問題,這很好。所以解決方案非常簡單:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
  1. 從給定路徑打開文件
  2. 將打開的文件加載到 csv 閱讀器
  3. 將所有提取的 csv 記錄/行值保存到記錄切片中以供以后處理

FieldsPerRecord 設(shè)置為 -1,因為我想跳過對行的字段檢查,因為每種格式的字段或列數(shù)可能不同

在此狀態(tài)下,我們已經(jīng)能夠從 csv 加載和提取所有數(shù)據(jù),并準備好進入下一個處理狀態(tài)。我們還可以使用函數(shù) len(records) 知道 CSV 中有多少行。

將總客戶分組到每個城市

現(xiàn)在我們可以迭代記錄并創(chuàng)建包含城市名稱和總客戶的地圖,如下所示:

["Jakarta": 10, "Bandung": 200, ...]

csv 行中的城市數(shù)據(jù)位于第 7 個索引,代碼如下所示

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

如果城市地圖不存在,則創(chuàng)建新地圖并將客戶總數(shù)設(shè)置為1。否則只需增加給定城市的總數(shù)。

現(xiàn)在我們的地圖 m 包含城市的集合以及其中有多少客戶。至此我們已經(jīng)解決了每個城市有多少客戶的分組問題。

對總客戶數(shù)進行排序

我試圖找到標(biāo)準庫中是否有任何函數(shù)可以對地圖進行排序,但不幸的是我找不到它。排序僅適用于切片,因為我們可以根據(jù)索引位置重新排列數(shù)據(jù)順序。所以,是的,讓我們從當(dāng)前的地圖中切出一個切片。

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

現(xiàn)在我們?nèi)绾伟?CustomerCount 從最高到最低排序?最常見的算法是使用氣泡空頭。雖然它不是最快的,但它可以完成這項工作。

冒泡排序是最簡單的排序算法,如果相鄰元素的順序錯誤,它的工作原理是重復(fù)交換相鄰元素。該算法不適合大型數(shù)據(jù)集,因為其平均和最壞情況時間復(fù)雜度相當(dāng)高。

參考:https://www.geeksforgeeks.org/bubble-sort-algorithm/

使用我們的切片,它將循環(huán)數(shù)據(jù)并檢查索引的下一個值,如果當(dāng)前數(shù)據(jù)小于下一個索引,則交換它。詳細算法可以在參考網(wǎng)站查看。

現(xiàn)在我們的排序過程可能是這樣的

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

循環(huán)結(jié)束時,最后的切片將為我們提供排序后的數(shù)據(jù)。

計算處理時間

計算處理時間非常簡單,我們獲取執(zhí)行程序主進程之前和之后的時間戳并計算差值。在 Go 中,方法應(yīng)該足夠簡單:

["Jakarta": 10, "Bandung": 200, ...]

結(jié)果

使用命令運行程序

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

打印出來的是行數(shù)、排序數(shù)據(jù)和處理時間。像下面這樣:

Large CSV Processing Using Go

正如 Go 性能所預(yù)期的那樣,它在 1 秒內(nèi)處理了 100 萬行 csv!

所有已完成的代碼已發(fā)布在我的 Github 存儲庫上:

https://github.com/didikz/csv-processing/tree/main/golang

經(jīng)驗教訓(xùn)

  • Go 中的 CSV 處理已經(jīng)在標(biāo)準庫中可用,無需使用第 3 方庫
  • 處理數(shù)據(jù)非常簡單。面臨的挑戰(zhàn)是找出如何對數(shù)據(jù)進行排序,因為需要手動進行

想到什么?

我認為我當(dāng)前的解決方案可能可以進一步優(yōu)化,因為我循環(huán)提取了 csv 的所有記錄來映射,如果我們檢查 ReadAll() 源,它還有循環(huán)來根據(jù)給定的文件讀取器創(chuàng)建切片。這樣,1 百萬行可以為 1 百萬數(shù)據(jù)生成 2 個循環(huán),這不太好。

我想如果我可以直接從文件讀取器讀取數(shù)據(jù),它只需要 1 個循環(huán),因為我可以直接從中創(chuàng)建地圖。除了記錄切片將在其他地方使用,但在本例中不使用。

我還沒有時間弄清楚,但我也認為如果我手動完成會有一些缺點:

  • 可能需要處理更多解析過程中的錯誤
  • 我不確定它會減少多少處理時間來考慮解決方法是否值得

編碼快樂!

以上是使用 Go 處理大型 CSV的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

默認情況下,GO靜態(tài)鏈接的含義是什么? 默認情況下,GO靜態(tài)鏈接的含義是什么? Jun 19, 2025 am 01:08 AM

Go默認將程序編譯為獨立二進制文件,主要原因是靜態(tài)鏈接。1.部署更簡單:無需額外安裝依賴庫,可直接跨Linux發(fā)行版運行;2.二進制體積更大:包含所有依賴導(dǎo)致文件尺寸增加,但可通過構(gòu)建標(biāo)志或壓縮工具優(yōu)化;3.更高的可預(yù)測性與安全性:避免外部庫版本變化帶來的風(fēng)險,增強穩(wěn)定性;4.運行靈活性受限:無法熱更新共享庫,需重新編譯部署以修復(fù)依賴漏洞。這些特性使Go適用于CLI工具、微服務(wù)等場景,但在存儲受限或依賴集中管理的環(huán)境中需權(quán)衡取舍。

如何在GO中創(chuàng)建緩沖頻道? (例如,make(chan int,10)) 如何在GO中創(chuàng)建緩沖頻道? (例如,make(chan int,10)) Jun 20, 2025 am 01:07 AM

在Go中創(chuàng)建緩沖通道只需在make函數(shù)中指定容量參數(shù)即可。緩沖通道允許發(fā)送操作在沒有接收者時暫存數(shù)據(jù),只要未超過指定容量,例如ch:=make(chanint,10)創(chuàng)建了一個可存儲最多10個整型值的緩沖通道;與無緩沖通道不同,發(fā)送數(shù)據(jù)時不會立即阻塞,而是將數(shù)據(jù)暫存于緩沖區(qū)中,直到被接收者取走;使用時需注意:1.容量設(shè)置應(yīng)合理以避免內(nèi)存浪費或頻繁阻塞;2.需防止緩沖區(qū)無限堆積數(shù)據(jù)導(dǎo)致內(nèi)存問題;3.可用chanstruct{}類型傳遞信號以節(jié)省資源;常見場景包括控制并發(fā)數(shù)量、生產(chǎn)者-消費者模型及異

在沒有C中的手動內(nèi)存管理的情況下,如何確保內(nèi)存安全性? 在沒有C中的手動內(nèi)存管理的情況下,如何確保內(nèi)存安全性? Jun 19, 2025 am 01:11 AM

Goensuresmemorysafetywithoutmanualmanagementthroughautomaticgarbagecollection,nopointerarithmetic,safeconcurrency,andruntimechecks.First,Go’sgarbagecollectorautomaticallyreclaimsunusedmemory,preventingleaksanddanglingpointers.Second,itdisallowspointe

如何使用GO進行系統(tǒng)編程任務(wù)? 如何使用GO進行系統(tǒng)編程任務(wù)? Jun 19, 2025 am 01:10 AM

Go是系統(tǒng)編程的理想選擇,因為它結(jié)合了C等編譯型語言的性能與現(xiàn)代語言的易用性和安全性。1.文件與目錄操作方面,Go的os包支持創(chuàng)建、刪除、重命名及檢查文件和目錄是否存在,使用os.ReadFile可一行代碼讀取整個文件,適用于編寫備份腳本或日志處理工具;2.進程管理方面,通過os/exec包的exec.Command函數(shù)可執(zhí)行外部命令、捕獲輸出、設(shè)置環(huán)境變量、重定向輸入輸出流以及控制進程生命周期,適合用于自動化工具和部署腳本;3.網(wǎng)絡(luò)與并發(fā)方面,net包支持TCP/UDP編程、DNS查詢及原始套

如何在GO中的結(jié)構(gòu)實例上調(diào)用方法? 如何在GO中的結(jié)構(gòu)實例上調(diào)用方法? Jun 24, 2025 pm 03:17 PM

在Go語言中,調(diào)用結(jié)構(gòu)體方法需先定義結(jié)構(gòu)體和綁定接收者的方法,使用點號訪問。定義結(jié)構(gòu)體Rectangle后,可通過值接收者或指針接收者聲明方法;1.使用值接收者如func(rRectangle)Area()int,通過rect.Area()直接調(diào)用;2.若需修改結(jié)構(gòu)體,應(yīng)使用指針接收者如func(r*Rectangle)SetWidth(...),Go會自動處理指針與值的轉(zhuǎn)換;3.嵌入結(jié)構(gòu)體時,內(nèi)嵌結(jié)構(gòu)體的方法會被提升,可直接通過外層結(jié)構(gòu)體調(diào)用;4.Go無需強制使用getter/setter,字

GO中的接口是什么?如何定義它們? GO中的接口是什么?如何定義它們? Jun 22, 2025 pm 03:41 PM

在Go語言中,接口是一種定義行為而不指定實現(xiàn)方式的類型。接口由方法簽名組成,任何實現(xiàn)這些方法的類型都自動滿足該接口。例如,定義一個Speaker接口包含Speak()方法,則所有實現(xiàn)該方法的類型均可視為Speaker。接口適用于編寫通用函數(shù)、抽象實現(xiàn)細節(jié)和測試中使用mock對象。定義接口使用interface關(guān)鍵字并列出方法簽名,無需顯式聲明類型實現(xiàn)了接口。常見用例包括日志、格式化、不同數(shù)據(jù)庫或服務(wù)的抽象,以及通知系統(tǒng)等。例如,Dog和Robot類型均可實現(xiàn)Speak方法,并傳遞給同一個Anno

如何在GO中使用字符串軟件包中的字符串函數(shù)? (例如len(),strings.contains(),strings.index(),strings.replaceall()) 如何在GO中使用字符串軟件包中的字符串函數(shù)? (例如len(),strings.contains(),strings.index(),strings.replaceall()) Jun 20, 2025 am 01:06 AM

在Go語言中,字符串操作主要通過strings包和內(nèi)置函數(shù)實現(xiàn)。1.strings.Contains()用于判斷字符串是否包含子串,返回布爾值;2.strings.Index()可查找子串首次出現(xiàn)的位置,若不存在則返回-1;3.strings.ReplaceAll()能替換所有匹配的子串,還可通過strings.Replace()控制替換次數(shù);4.len()函數(shù)用于獲取字符串字節(jié)數(shù)長度,但處理Unicode時需注意字符與字節(jié)的區(qū)別。這些功能常用于數(shù)據(jù)過濾、文本解析及字符串處理等場景。

如何使用IO軟件包在GO中使用輸入和輸出流? 如何使用IO軟件包在GO中使用輸入和輸出流? Jun 20, 2025 am 11:25 AM

TheGoiopackageprovidesinterfaceslikeReaderandWritertohandleI/Ooperationsuniformlyacrosssources.1.io.Reader'sReadmethodenablesreadingfromvarioussourcessuchasfilesorHTTPresponses.2.io.Writer'sWritemethodfacilitateswritingtodestinationslikestandardoutpu

See all articles