這裡大概整理一下目前寫完python的crawler筆記,大概使用了lxml, readability這兩個framework以及一個繁簡轉換的現成python程式,twisted打算等後面優化時再使用。 python常識 程式碼內含有中文時,在最上方加入編碼資訊:#coding: utf-8 import的三種方式 ``` from lxml import * import lxml.html as H # alias import urllib2, urllib ``` 若要參考外部 (external)的py檔案,直接把該程式檔放置相同目錄即可。例如下方的py檔案,我們可以import externalTest後,使用externalTest.test來呼叫 def test: print "hello world" 給與函式參數預設值 ``` def test(str=