97视频在线观看播放,国产md视频一区二区三区

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Ist es sinnvoll, für jedes Datum unterschiedliche Tabellen für dieselben Daten zu erstellen?

P粉665679053 2023-09-09 17:40:44

660

Ich habe eine MYSQL InnoDB-Tabelletable mit den folgenden Spalten (Tabellen- und Spaltennamen ge?ndert):

Datum (PK, Datum)
var_a (PK, FK, INT)
var_b (PK, FK, INT)
rel_ab(dezimal)

wobei rel_ab 是描述給定日期 2 個變量 var_a 和 var_b 之間關(guān)系的列。（var_a 和 var_b sich auf verschiedene Tabellen bezieht)

Daten werden jeden Tag stapelweise hochgeladen, insgesamt etwa 7 Millionen Zeilen pro Tag. Das Problem bestand darin, dass das Hochladen jedes neuen t?glichen Stapels bereits nach wenigen Wochen Stunden dauerte. Natürlich müssen wir unser Tischdesign verbessern. Hier finden Sie einige zus?tzliche Details zu unserem Formular.

Wir verwenden COMPRESSION="zlib".
Zus?tzlich zum zusammengesetzten Prim?rschlüssel erstellen wir auch den für den Fremdschlüssel erforderlichen Index in der Spalte var_a 和 var_b.
Wenn wir Daten aus dieser Tabelle extrahieren, verwenden Sie sie immer für ein bestimmtes Datum 的查詢 SELECT * FROM table WHERE date = . Die Auswahl dauert nur wenige Minuten.
Wir werden (mit ziemlicher Sicherheit) nie einen Grund haben, einen Eintrag aus der Tabelle zu l?schen, auf die var_a 和 var_b verweist.
Die Daten werden von der Pandas-Funktion df.to_sql('temp', con, if_exists='replace', index=False, method='multi') hochgeladen, wobei wir ?ignorieren“ einfügen temp< /code> auf df.to_sql('temp', con, if_exists='replace', index=False, method='multi') 上傳，我們在其中插入忽略 < code>temp 到 table，然后刪除 temp, dann temp l?schen.

Also habe ich vor, mindestens eines der folgenden Dinge zu tun:

Entfernen Sie die Fremdschlüsselbeschr?nkung für die Spalte var_a 和 var_b und verlassen Sie sich darauf, dass der Daten-Upload-Prozess alles richtig macht. Dies liegt daran, dass in unserem Anwendungsfall keiner der beiden Indizes die Abfragegeschwindigkeit tats?chlich verbessert.
Teilen Sie die Tabelle für jedes Datum in verschiedene Tabellen auf. Ich habe zum Beispiel eine Kolumne namens table_230501 的表，其中包含 var_a、var_b、rel_ab. Dies liegt daran, dass wir jeweils nur ein Datum ausw?hlen.

Ich wei?, dass die erste L?sung die Datenintegrit?t gef?hrden kann und die zweite L?sung unsere Architektur durcheinander bringen wird. Aufgrund meiner begrenzten Erfahrung habe ich auch noch nie von der zweiten Option geh?rt und kann online keine Beispiele für dieses Design finden. Sind diese Optionen eine sinnvolle L?sung? Beide erh?hen die Upload-Geschwindigkeit und reduzieren die Festplattennutzung, haben aber auch ihre Nachteile. Welche anderen M?glichkeiten gibt es sonst, die Upload-Geschwindigkeit zu erh?hen?

EDIT: Meins SHOW CREATE TABLE sollte so aussehen

CREATE TABLE table (
  date date NOT NULL,
  var_a int NOT NULL,
  var_b int NOT NULL,
  rel_ab decimal(19,16) NOT NULL,
  PRIMARY KEY (date,`var_a`,`var_b`),
  KEY a_idx (var_a),
  KEY b_idx (var_b),
  CONSTRAINT a FOREIGN KEY (var_a) REFERENCES other_table_a (var_a) ON DELETE RESTRICT ON UPDATE CASCADE,
  CONSTRAINT b FOREIGN KEY (var_b) REFERENCES other_table_b (var_b) ON DELETE RESTRICT ON UPDATE CASCADE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMPRESSION="zlib"

P粉665679053

Antworte allen(2)

P粉7812356892023-09-10 13:05:25 2 Etage

有一些潛在的解決方案可以幫助您提高 MySQL 表的上傳速度：

刪除 var_a 和 var_b 上的索引：由于您沒有使用這些索引來加速查詢，因此刪除它們可以幫助加快上傳過程。但是，如果您使用外鍵約束，通常建議在屬于外鍵的列上保留索引。

按日期對表進行分區(qū)：分區(qū)有助于提高查詢性能，因為它允許數(shù)據(jù)庫僅掃描給定查詢的相關(guān)分區(qū)。但是，它也會使維護和備份變得更加復雜，如果您的查詢已經(jīng)表現(xiàn)良好，則可能沒有必要。

使用批量插入方法：您可以嘗試使用批量插入方法，例如 LOAD DATA INFILE 或 MySQL 批量插入 API，而不是使用 df.to_sql 插入單獨的行。這比單獨插入要快，特別是如果您可以批量上傳數(shù)據(jù)而不是一次一行。

使用不同的壓縮算法：您當前正在使用 zlib 壓縮，但還有其他壓縮算法可能對您的數(shù)據(jù)更快或更有效。您可以嘗試嘗試不同的壓縮選項，看看它們是否可以提高上傳速度。

增加服務(wù)器資源：如果您有預(yù)算和資源，升級服務(wù)器硬件或增加服務(wù)器數(shù)量可能有助于提高上傳速度。這可能不是每個人都可行的選擇，但如果您已經(jīng)用盡其他選擇，則值得考慮。

就您建議的選項而言，刪除外鍵約束可能會導致數(shù)據(jù)完整性問題，因此我不推薦這種方法。如果您的查詢已經(jīng)遇到性能問題，則按日期分區(qū)可能是一個很好的解決方案，但如果您的查詢已經(jīng)快速運行，則可能沒有必要。

Wie +0

Antwort hinzufügen

P粉0989790482023-09-10 11:03:23 1 Etage

要加快上傳速度，請將其刪除。說真的，如果您所做的唯一一件事就是準確獲取某個日期文件中的內(nèi)容，為什么要將數(shù)據(jù)放入表中呢？（您的評論指出單個文件實際上是幾個文件。首先將它們組合起來可能是一個好主意。）

如果您確實需要表中的數(shù)據(jù)，讓我們討論這些...

在確定索引之前，我們必須查看所有主要查詢。
PK 中的列順序?qū)τ诩虞d和查詢都很重要。
分區(qū)可能有助于加載，但不太可能有助于查詢。例外：您會刪除“舊”數(shù)據(jù)嗎？
請?zhí)峁?code>顯示創(chuàng)建表；您提供的內(nèi)容可能遺漏了一些細微的內(nèi)容。
加載是如何完成的？一個巨大的加載數(shù)據(jù)？希望不是一次插入一行。我不知道熊貓是如何工作的。（也不知道其他 99 個“簡化”MySQL 訪問的軟件包是如何工作的。）請了解它的幕后功能。您可能必須繞過 Pandas 才能獲得更好的性能。批量加載的速度至少是逐行加載的 10 倍。
我在加載時還沒有看到需要臨時表。也許。如果您刪除 FK（如您所建議的），您可以執(zhí)行查詢來驗證其他表中 var_a 和 var_b 的存在。那就是“模擬FK”。
如果可行，請根據(jù) PK 對傳入數(shù)據(jù)進行排序。（這可能是經(jīng)濟增長緩慢的根源。）
有輔助鍵嗎？它們會影響加載速度。
我認為您的 FK 暗示了其他表的索引。
您是否正在向其他表添加新行？
“rel_ab (DECIMAL)”——多少位小數(shù)？確切的聲明是什么？如果是某種測量，您是否考慮過FLOAT？
現(xiàn)在其他表中有很多行。也就是說，您真的需要一個 4 字節(jié)的 INT 來引用它們嗎？切換到 3 字節(jié) MEDIUMINT [UNSIGNED] 每天至少可以節(jié)省 7MB。
您如何處理該 SELECT 中的 700 萬行？
無壓縮。在InnoDB中效率很低。 4 列中只有一列可能是可壓縮的。壓縮需要額外的buffer_pool_space。壓縮會占用大量CPU。對于 InnoDB，2 倍收縮是典型的。