CLH blog AI CV Algorithm

爬虫实例-Spider Pro

2017-06-10
CLH

Crawler Project

爬虫问题的求解流程:

soure code


目标:百度百科Python词条相关词条网页-标题和简介

入口页:http://baike.baidu.com/item/Python

URL格式:词条页面URL:/item/Python

数据格式:

  1. 标题:<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd>
  2. 简介:<div class="lemma-summary"></div>

页面编码:UTF-8


上一篇 Python ClearWindow

Comments

Content