Web Links Gatherer dengan Python

program sederhana ini digunakan untuk mengumpulkan link-link yang ada pada sebuah halaman web, bisa juga di kembangkan menjadi sebuah crawler.. ?

#!/usr/bin/python
#info: program untuk mendapatkan info link-link
#      yang terdapat dalam sebuah halaman web
#
# otoy(https://otoyrood.wordpress.com)
# 0x102010
 
from urllib import urlopen
import re,sys
 
peng = '''Penggunaan: python %s http://<alamat web> (jangan lupa http:// atau https://)
Contoh    : python %s https://otoyrood.wordpress.com''' %(sys.argv[0],sys.argv[0])
 
def main():
 if len(sys.argv) <=1:
 print peng
 sys.exit(1)
 urls=set()
 
 pat = re.compile('href="([http:|https:].*?)"')
 
 try:
 urlscn = urlopen(sys.argv[1]).read()
 except IOError:
 print peng
 sys.exit(1)
 print "[+]Gathering links from the web"
 
 for url in pat.findall(urlscn):
 urls.add(url)
 
fl = open("haslscan.txt","w")
 
for url in sorted(urls):
 hsl = '%s' % url,"\n"
 fl.writelines(hsl)
 
 fl.close()
 print "[+]Gathering links done"
 
if __name__ == "__main__" :
 main()

in action:

the result: