


Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint Menggunakan PHP?
Nov 17, 2024 pm 07:42 PMCara Mengekstrak Teks daripada Word dan Fail Pejabat Lain dalam PHP
Mengambil semula teks daripada dokumen Microsoft Office, termasuk Word (.doc dan . docx), Excel (.xlsx) dan PowerPoint (.pptx), selalunya diperlukan untuk tugasan seperti mencari dalam kandungan dokumen.
Membaca Dokumen Word
Untuk Fail .doc, pendekatan fail binari boleh digunakan:
class DocxConversion{ // ... private function read_doc() { $fileHandle = fopen($this->filename, "r"); $line = @fread($fileHandle, filesize($this->filename)); $lines = explode(chr(0x0D),$line); $outtext = ""; foreach($lines as $thisline) { $pos = strpos($thisline, chr(0x00)); if (($pos !== FALSE)||(strlen($thisline)==0)) { } else { $outtext .= $thisline." "; } } $outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext); return $outtext; } // ... }
Untuk fail .docx, yang pada asasnya adalah fail zip yang mengandungi XML, anda perlu:
class DocxConversion{ // ... private function read_docx(){ $striped_content = ''; $content = ''; $zip = zip_open($this->filename); if (!$zip || is_numeric($zip)) return false; while ($zip_entry = zip_read($zip)) { if (zip_entry_open($zip, $zip_entry) == FALSE) continue; if (zip_entry_name($zip_entry) != "word/document.xml") continue; $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry)); zip_entry_close($zip_entry); }// end while zip_close($zip); $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content); $content = str_replace('</w:r></w:p>', "\r\n", $content); $striped_content = strip_tags($content); return $striped_content; } // ... }
Membaca Fail Excel
Ini boleh dilakukan dengan mengekstrak teks daripada fail "xl/sharedStrings.xml" dalam fail Excel:
class DocxConversion{ // ... function xlsx_to_text($input_file){ $xml_filename = "xl/sharedStrings.xml"; //content file name $zip_handle = new ZipArchive; $output_text = ""; if(true === $zip_handle->open($input_file)){ if(($xml_index = $zip_handle->locateName($xml_filename)) !== false){ $xml_datas = $zip_handle->getFromIndex($xml_index); $xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING); $output_text = strip_tags($xml_handle->saveXML()); }else{ $output_text .=""; } $zip_handle->close(); }else{ $output_text .=""; } return $output_text; } // ... }
Membaca PowerPoint Fail
Untuk mengekstrak teks daripada persembahan PowerPoint, buka setiap fail slaid (.xml) dalam bekas zip:
class DocxConversion{ // ... function pptx_to_text($input_file){ $zip_handle = new ZipArchive; $output_text = ""; if(true === $zip_handle->open($input_file)){ $slide_number = 1; //loop through slide files while(($xml_index = $zip_handle->locateName("ppt/slides/slide".$slide_number.".xml")) !== false){ $xml_datas = $zip_handle->getFromIndex($xml_index); $xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING); $output_text .= strip_tags($xml_handle->saveXML()); $slide_number++; } if($slide_number == 1){ $output_text .=""; } $zip_handle->close(); }else{ $output_text .=""; } return $output_text; } // ... }
Penggunaan
Untuk menggunakan kelas ini untuk penukaran fail, nyatakannya dengan laluan fail dan panggil kaedah convertToText():
$docObj = new DocxConversion("test.doc"); //$docObj = new DocxConversion("test.docx"); //$docObj = new DocxConversion("test.xlsx"); //$docObj = new DocxConversion("test.pptx"); echo $docText= $docObj->convertToText();
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint Menggunakan PHP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT
Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Phparrayshandledatacollectionsefficientlyusingindexedorassociativestructures; theareCreatedWithArray () atau [], AccessedViAkeys, ModifiedByAssignment, iteratedWithForeach, danManipulatedingingingingFuntionsLikeCount ()

Theobserverdesignpatternenablesautomaticnotificationofdependentobjectswhenasubject'sstatechanges.1) itdefinaone-to-manydependencybetweenobjects; 2) thesubjectmaintainsalistofobserversandnotifemmoninterfoninterface;

$ _Cookieisaphpsuperglobalforaccessingcookiessentbrowser; cookiesareSetusingsetCookie () sebelum ini, readvia $ _cooKie ['name'], updatedbyresendingwithnewvalues, anddeletedbysettingexpadexpadexpoadexpadexpadexpadexpadexpadexpoadtimestamp, denganSecureStorsiredTimeShamp, denganSecureStyCoREdingB, denganSsecureStoStoStAb

Useinterfacestodefinecontractsforunrelatedclasses,ensuringtheyimplementspecificmethods;2.Useabstractclassestosharecommonlogicamongrelatedclasseswhileenforcinginheritance;3.Usetraitstoreuseutilitycodeacrossunrelatedclasseswithoutinheritance,promotingD

B-treeindexesareBestFormostPhpapplications, astheysupportequalityandrangequeries, sorting, andareidealforcolumnsusedinwhere, gabungan, ororderbyclauses;

Ahli awam boleh diakses mengikut kehendak; 2. Ahli swasta hanya boleh diakses dalam kelas; 3. Ahli yang dilindungi boleh diakses dalam kelas dan subkelas; 4. Penggunaan rasional dapat meningkatkan keselamatan kod dan penyelenggaraan.

Menggunakan kaedah berorientasikan objek MySQLI: Mewujudkan sambungan, pernyataan kemas kini pra-proses, mengikat parameter, melaksanakan dan menyemak hasilnya, dan akhirnya menutup sumber. 2. Menggunakan kaedah prosedur MySQLI: Sambungkan ke pangkalan data melalui fungsi, sediakan penyataan, mengikat parameter, melakukan kemas kini, dan menutup sambungan selepas kesilapan memproses. 3. Gunakan PDO: Sambungkan ke pangkalan data melalui PDO, tetapkan mod pengecualian, pra-proses SQL, parameter mengikat, melakukan kemas kini, gunakan cubaan untuk mengendalikan pengecualian, dan akhirnya melepaskan sumber. Sentiasa gunakan pernyataan pra -proses untuk mengelakkan suntikan SQL, sahkan input pengguna, dan menutup sambungan dalam masa.

USETAteTimeFordatesInphp: createWitHnewDateTime (), formatWithFormat (), ModifyViaAdd () Ormodify (), setTimeZonesWithDateTimeZone, andCompareUsingOperatorsOrsOrsOrtersOrvals.
