什么是Google Colaboratory( 简称”Colab”)
上期介绍了什么是colab,本期我们实操一下,在colab上使用python的request库简单获取下shopify的某些公开接口数据
什么是request库?
Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。
request代码接入
首先在colab中导入http库
import requests
接着构建一个公共URL变量,后续可以随时更改网址
fronturl = 'https://XXXXXX.com'
这里我们尝试访问下shopify公开的product接口,限定为第一页,产品数量限制为5K
url = fronturl+'/products.json?page=1&limit=5000'
下面我们开始构建请求,为了保证访问顺利,需要在header上加上user-agent来模拟设备
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.request("GET", url, headers=headers)
rawdata = response.json()
product = rawdata['products']
最后打印下数据
print(product)
colab代码演示
执行结果
代码改进
虽然我们可以很直观看到数据,但一整行的呈现形式不够美观,有没有方法可以让数据结构化,看起来更直观?这时候就需要用到pandas库
什么是pandas库?
Pandas是基于NumPy的Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作,可以把Pandas看作是python版的Excel或者Table,Pandas 主要引入了两种新的数据结构:DataFrame 和 Series,DataFrame简称DF,可以快速的把数据按表格形式呈现
pandas代码接入
先引入pandas库,并把pandas作为pd变量
import pandas as pd
然后我们在最后的数据处理部分引入dataframe并打印出来
df = pd.DataFrame(product)
print(df)
最终代码演示
import requests
import pandas as pd
fronturl = 'https://XXXX.com'
url = fronturl+'/products.json?page=1&limit=5000'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.request("GET", url, headers=headers)
rawdata = response.json()
product = rawdata['products']
df = pd.DataFrame(product)
print(df)
最终一整行的长数据就变成了类似表格的结构化数据呈现出来
Comments NOTHING