Python を使用して CSDN Web クローラーを?qū)g行する場合、Web ページのタイトルをクロールするときは、常に正規(guī)表現(xiàn) (?<=\<title\>) を使用します。 ?(?=\< ; )
は CSDN では使用できません。CSDN ソース コードに移動(dòng)し、タイトルが改行されて
その結(jié)果、本來の正規(guī)表現(xiàn)が使えなくなりました そこで疑問が生じます このようなWebページのタイトルに改行が含まれているのですが 正規(guī)表現(xiàn)で抽出するにはどうすればよいでしょうか?
追記:
xpath メソッドや beautifulsoup メソッドは使用したくありません。必要なのは正規(guī)表現(xiàn)だけです。
CSDN 自體にはクローラー対策の仕組みがあり、タイトルをクロールできなかったのはこのクローラー対策のせいではありません
@caimaoy さんの方法を參考に、正規(guī)表現(xiàn)を
(?<=\<title\>)(?:.|\n) ?(?=\<)## に変更しました。 #、タイトルは完璧に抽出されています。皆様、改めてありがとうございました。
re.M 複數(shù)行モード
複數(shù)行のマッチングを自分で書く http://python3-cookbook.readt...