[Python][独学]スクレイピングに必要なHTMLの知識を知っておく。

Webページをスクレイピングするのにはある程度のHTML知識が必要になります。

とはいっても覚えることは少ないですし、ぱぱっとまとめておこうと思います。

目次
  • 要素と属性
  • head
  • body
  • p
  • h
  • a
  • href
  • id
  • img
  • ol
  • li

要素と属性

HTMLにも色々と語彙があるけどあんまりわかんなかったりします。例を参考にして確実にものにしちゃいましょう!

例えば以下のようなコードを見てみると、、、

<p>おいしいもの食べたい。</p>

<p>と</p>の間に文章が書かれています。

この時の<p>をpタグといい、<p>と</p>を含む全体を要素と呼びます。

そして、要素に追加情報を付与するのに属性を記述することになります。

追加情報とは例えば、要素を特定しやすくするidやclassなどを付与することを言います。

属性を記述をする場所はタグ内になります。

このような書き方が一般的です。では要素(タグ)や属性の種類についてみていきましょう。

headタグ

Webページの情報を記述する要素(タグ)になります。例えば文字コードを指定したり、どういうサイズにするのかなどを決めています。

headタグで記述した情報はWebページで実際に見られるものではありません。

私たちが普段見ているのは次で説明するbodyタグ内に記述されている情報になります。

bodyタグ

Webページのメインを記述する要素(タグ)です。このタグの内側にpタグやhタグなどを使って、記事の文書を書いています。

pタグ

一番使用率の高い要素(タグ)かもしれません。記事の文を記述するタグになります。私たちが目にする文は基本このpタグが使われています。文という意味の”paragraph”の頭をとってpタグと覚えましょう。

hタグ

見出しを表す要素(タグ)です、各節のタイトルみたいなものですね。

aタグ

外部参照リンクを貼りたいときに使われる要素(タグ)です。href属性とセットで使用されます。

href属性

要素にリンクを付与する属性です。<a>や<link>要素内で指定されることが多い。

スクレイピングするときに多いのが、href属性で指定されているリンクに飛んで、飛んだ先で情報をとることです。

<a href=”リンク先”>○○○</a> ←こんな形で設置されてます。

id属性

めちゃめちゃ文量のあるWebページ内だと、各パートにこのid属性が指定されたりしています。欲しい情報を検証するときにid=”○○○”とあれば○○○を指定して情報を取るべし。

imgタグ

ページに画像を設置したいときに使用される要素です。閉じるタグは使われません。

<img src=”画像の場所を指定”>

ol

番号付きのリストを作る要素です。<ol> は orderd listの略で、直訳すると並べられたリストということです。このタグ内に次で紹介でする<li>要素を記述する必要があります。

li

リストの各行の情報を表す要素です。<ol>要素とセットで使用されます。

<ol>
    <li>〇〇〇</li>
    <li>〇〇〇</li>
    <li>〇〇〇</li>
</ol>

目次などによく使われることが多いですね。

コメント

タイトルとURLをコピーしました