以下是一个Python爬虫程序,用于从台湾虾皮商品网站抓取内容。该程序使用requests库发送HTTP请求,并使用BeautifulSoup库解析返回的HTML内容。
```python
import requests
from bs4 import BeautifulSoup
# 设置代理
proxy_host = 'www.duoip.cn'
proxy_port = 8000
proxy = f'http://{proxy_host}:{proxy_port}'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送GET请求
response = requests.get('https://www.pchome.com.tw/Shopping/Category/184357-AutoParts', headers=headers, proxies=proxy)
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 打印商品名称
for item in soup.find_all('a', {'class': 'product-title'}):
print(item.text)
```
- 导入requests和BeautifulSoup库。
- 设置代理服务器。这里我们使用的是免费的代理服务器www.duoip.cn,端口为8000。
- 设置请求头。这里我们模拟了一个Chrome浏览器的请求。
- 使用requests.get()函数发送GET请求,参数包括要抓取的网页URL、请求头和代理服务器信息。
- 使用BeautifulSoup库解析返回的HTML内容,找到所有class为"product-title"的a标签,这些标签通常包含商品名称。
- 打印每个商品的名称。
注意:在实际使用中,可能需要处理更多的异常情况,并且需要遵守网站的爬虫规则,避免被封IP。此外,使用免费的代理服务器可能会有一些限制,可能需要使用付费的代理服务,或者自己搭建代理服务器。