スクレイピングお勉強日記
「PythonによるWebスクレイピング」でスクレイピングを勉強中である.
とりあえず本通りにコード書いて実行して見たらこんなwarningがでてきた,
__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or
in a different virtual environment, it may use a different parser and behave differently.
まあ読んでみると
parserが指定されてないからとりあえず"lxml"にしといたよ.だいたい問題はないけど違う環境で動かしたら振る舞いが変わるかもよ
みたいなことが書いてあった.
まずparserだかlxmlってなんだ?
調べて見た.
parserとは構文解析するやつらしい.なるほど.
構文解析ツールがいくつかあってそれをbs4では指定できるけどしてねえぞ
って怒られてたわけですね.
それでlxmlはその一つというわけですか.
ということで
bsObj = BeautifulSoup(html.read(),"lxml")
赤文字部分を追加したらwarningは出なくなりました.
#調べた後で気づいたけど,本の注意書きのところにちゃんと書いてあった