不需要,搜索引擎中用的这种叫做通用爬虫,直接爬网页就行,不需要设置信息提取规则,即使要设置,提取的标题、关键词等信息直接通过Xpath表达式就行,一样的。
2016-10-14 16:23 回复了该问题看个人喜好用python还是anaconda,我这边课程喜欢直接用Python,目前版本是py3.5,pycharm是一个编辑器,ipython是一个 pyth...
2016-10-14 16:22 回复了该问题1、Anaconda相当于python跟一些库的集成版本。Scrapy是Python的一个框架。 2、Scrapy框架爬虫和一般的python环境爬虫基本实现原...
2016-10-14 16:20 回复了该问题如果用anaconda,不需要再按照py3.5。但是直播课程会直接采用py3.5讲解。
2016-10-14 16:13 回复了该问题如果做通用爬虫,整个网页一般不放在关系型数据库中,一般会提取网页的标题、关键词、描述信息等放在数据库中,其他信息以网页的形式存储在服务器中即可。
2016-10-14 16:11 回复了该问题