資料內(nèi)容:
、創(chuàng)建Scrapy項?
似乎所有的框架,開始的第?步都是從創(chuàng)建項?開始的,Scrapy也不例外。在這之前要說明的是Scrapy項?的創(chuàng)建、配置、運?……默認
都是在終端下操作的。不要覺得很難,其實它真的?常簡單,做填空題?已。如果實在是?法接受,也可以花點?思配置好Eclipse,在這
個萬能IDE下操作。推薦還是在終端操作?較好,雖然開始可能因為不熟悉?出現(xiàn)很多錯誤,錯多了,通過排錯印象深刻了,也就?然學會
了。打開Putty連接到Linux,開始創(chuàng)建Scrapy項?。執(zhí)?命令:
cd
cd code/scrapy/
scrapy startproject todayMovie
tree todayMovie
執(zhí)?結(jié)果如圖1所?。
圖1 創(chuàng)建todayMovie項?
tree命令將以樹形結(jié)構(gòu)顯??件?錄結(jié)構(gòu)。tree命令默認情況下是沒有安裝的,可以執(zhí)?命令apt-get install tree來安裝這個命令。
這?可以很清楚地看到todayMovie?錄下的所有??件和??錄。?此Scrapy項?todayMovie基本上完成了。按照Scrapy的提?信息,
可以通過Scrapy的Spider基礎(chǔ)模版順便建??個基礎(chǔ)的。相當于把填空題打印到試卷上,等待填空了。當然,也可以不?Scrapy命令建?
基礎(chǔ),如果?要體驗?下DIY也是可以的。這?我們還是怎么簡單怎么來吧,按照提?信息,在該終端中執(zhí)?命令:
cd todayMovie
scrapy genspider wuHanMovieSpider mtime.com
執(zhí)?結(jié)果如圖2所?。
圖2 創(chuàng)建基礎(chǔ)爬?
?此,?個最基本的項?已經(jīng)建?完畢了,它包含了?個Scrapy所需的基礎(chǔ)?件。到這?步可以說填空題已準備完畢,后?的?作就純粹
是填空了。圖2中第???字scrapy genspider是?個命令,也是Scrapy最常?的?個命令之?,它的使??法如圖3所?。
圖3 scrapy genspider命令幫助
因此,剛才的命令意思是使?scrapy genspider命令創(chuàng)建?個名字為wuHanMovieSpider的爬?腳本。這個腳本搜索的域為
mtime.com。
2、Scrapy?件介紹
Scrapy項?的所有?件都已經(jīng)到位了,如圖2所?,下?來看看各個?件的作?。?先最頂層的那個todayMovie?件夾是項?名,這個沒
什么好說的。
在第?層中是?個與項?同名的?件夾todayMovie和?個?件scrapy.cfg,這?與項?同名的?件夾todayMovie是模塊(也可以叫做包
的),所有的項?代碼都在這個模塊(?件夾或者叫包)內(nèi)添加。?scrapy.cfg?件,顧名思義它是整個Scrapy項?的配置?件。來看看這個
?件?有些什么。Scrapy.cfg?件內(nèi)容如下: