Data Science N009 Extracción de datos de una página web (HTML)

avatar
(Edited)

Cordiales Saludos

Pandas nos permite tomar las tablas de una página web. Creo que es una buena forma de extraer información actualizada y de primera mano. El científico de datos buscará la fuente de los datos por cuaquier medio dependiendo el caso de estudio. Como en la actualidad la información fluye mayormente en internet, debemos estar preparados para estos casos particulares.

En esta ocasión tomaré los datos de la publicación:Daily Twitter Data Reports as of October 18, 2021 - 3,281 hive tweets of the day De la cuenta @hive-data . Ya hemos trabajamos con esta fuente de datos en varias publicación.

Comencemos

Importamos pandas y conectamos nuestro DRIVE


9a.png

A continuación copiamos la dirección web de la página


9b.png

Colocamos la siguiente instrucción

#Dentro de las comillas pegamos la dirección web.
pd.read_html('  ')

df1 = pd.read_html('https://peakd.com/hive-197333/@hive-data/daily-twitter-data-reports-as-of-october-17-2021-2925-hive-tweets-of-the-day')

En esta ocación nos aparece el rror 403 del servidor. Esto se debe a que el servidor ha denegado la solicitud. Aprende del Error 403. No siempre ocurre pero muestro el error para que atequemos como podemos continuar con nuestra extracción de datos.


9c.png

Solucionaremos esto descargando la web a nuestro computador con el menú contextual dentro de la web (descargamos [Guardar como...]) y luego la subimos a nuestro DRIVE


9d.png

Copiamos la ruta de acceso


9e.png

pd.read_html('  ')

df = pd.read_html('/content/drive/MyDrive/Colab Notebooks/Data_Science/📊 Daily Twitter Data Reports as of October 18, 2021 🚀 3,281 hive tweets of the day 🚀 PeakD.htm')

Después de generar el Data Frame, podemos accesar a cada una de las tablas dentro de la web por medio de los subíndices comenzando por el cero.


9f.png

Aquí la capture original tomada de la web

9g.png

A continuación las tres ultimas tablas


9h.png

9i.png

9j.png

Todo lo tratado en esta publicación está en este Jupyter Notebook


separador001.png

Veamos este caso donde al colocar la dirección web no da el error 403.


9k.png

9l.png

Por útimo guardamos nuestro Data Frame con formato .csv para poder trabajar con el.


9m.png

Ahora todas las operaciones que hagamos las hacemos accesando a nuestro archivo .csv guardado

9n.png

Invitación Especial

Apreciada comunidad extiendo mi invitación, para todos los que hacemos vida en esta maravillosa comunidad, a participar con la etiqueta #Hive para promocionar nuestras publicaciones en la red social: #Twitter. Para más detalles puedes consultar la publicación de @hive-data


hive_twitter_400.gif
Fuente:


separador001.png

Entrega anterior

Operaciones matemáticas básicas y condicionales

Puedes practicar en esta web: PythonCumanés


separador001.png

Clases gratis de programación / Free programming classes

[ESP/ENG] Mi proyecto en Python/My project in Python.

Mi twitter
separador001.png


I started a Ko-fi Page! Ko-fi helps creators get support from fans of their work. Please support or follow my page! If you like what I do and feel in tune with my work in creating content for free programming courses and chess publications without any profit interest. Give me a coffee... I will be very grateful!
separador001.png
Todos a programar!
Rafael Aquino

#programming
#development
#gems



0
0
0.000
2 comments
avatar

follow me mate great content

0
0
0.000