Crawler Project
爬虫问题的求解流程:
目标:百度百科Python词条相关词条网页-标题和简介
入口页:http://baike.baidu.com/item/Python
URL格式:词条页面URL:/item/Python
数据格式:
- 标题:
<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd> - 简介:
<div class="lemma-summary"></div>
页面编码:UTF-8
目标:百度百科Python词条相关词条网页-标题和简介
入口页:http://baike.baidu.com/item/Python
URL格式:词条页面URL:/item/Python
数据格式:
<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd> <div class="lemma-summary"></div>页面编码:UTF-8