Semalt:美しいスープでWebページからURLを抽出する

Beautiful Soupは、XMLおよびHTMLドキュメントの解析に使用される高レベルのPythonパッケージです。 Beautiful Soup Pythonライブラリは、ハイパーテキストマークアップ言語(HTML)から有用な情報を抽出するために使用される解析ツリーを作成します。このライブラリは、Python 2とPython 3の両方のバージョンで使用できます。

ほとんどの場合、ターゲットデータにアクセスしてWebページの一部としてのみ使用できることがわかります。このような場合、分析可能な形式でデータを抽出できるWebスクレイピング技術を使用する必要があります。これがBeautiful Soupライブラリの出番です。

必要条件

Beautiful Soupライブラリを使用するには、適切なモジュールが必要です。はじめに、マシンにPython 2.7プログラミング言語をインストールする必要があります。この投稿では、リクエストとBeautiful Soup 4を使用してWebサイトをスクレイピングし、すべてのURLを抽出する方法を学びます 。HTML解析は、特にBeautiful Soupの技術的な助けを借りて、自分で行うタスクです。

なぜ美しいスープを使うのですか?

Beautiful Soupは、2004年からWebサイトのスクレイピングとHTMLタグの解析に使用されているトップランクのPythonパッケージです。最近、Beautiful Soup 4が業界のBeautiful Soup 3に取って代わりました。 BS4は両方のPythonバージョンで機能するのに対し、BS3はPython 2.7でのみ機能することに注意してください。ライブラリは、次の組み込み機能で構成されています。

  • エンコーディング機能–必要な美しいSoupモジュールをマシンにインストールすれば、エンコーディングについて慌てる必要はありません。ライブラリは、入力をUnicodeに変換し、出力をUTF-8に変換するように自動化されています。
  • ナビゲーション機能– Beautiful Soupは、解析ツリーを検索、ナビゲート、変更するための使いやすいメソッドを提供します。

Beautiful Soupライブラリの使用方法

お使いのマシンにBeautiful Soupをインストールしたら、ライブラリの使用を開始できます。はじめに、Pythonコードの最初にbs4ライブラリをインポートします。コンテンツまたはURLをBeautiful Soupに渡して、Soupオブジェクトを作成します。ただし、ライブラリはそれ自体でターゲットWebページをフェッチしません。ここでは、そのタスクを手動で完了する必要があります。また、PythonとBeautiful Soupの組み合わせを使用して、好みのWebページを簡単に取得することもできます。

リクエストライブラリの役割

ページをこするには、まずダウンロードする必要があります。リクエストライブラリを使用してウェブページをダウンロードできます。リクエストライブラリは、ウェブサーバーに「GET」リクエストを送信することで機能します。これにより、優先ウェブページのHTMLコンテンツがダウンロードされます。

WebページからのURLの抽出

これで、Beautiful Soupライブラリに関する詳細情報が得られました。 BS4ライブラリとPythonの組み合わせにより、Webページをすばやく取得できます。ターゲットWebページからすべてのURLを抽出するには、「すべて検索」メソッドを使用します。このメソッドは、タグを持つ要素のコンパイルを提供します。 bs4から、Beautiful Soupとリクエストの両方をインポートします。コードを実行し、URLを抽出するWebサイトまたはWebページを入力します。

mass gmail