下载alexa每日更新的top-1m.csv.zip
上Alexa官网手动下载top-1m.csv.zip,或直接运行wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
如果发现amazonaws.com被屏蔽了,建议下载一个柿油门,在vbox虚拟机里运行之,破墙下载top-1m.csv.zip。
解压top-1m.csv.zip,并重命名
unzip top-1m_20161105.csv.zip
mv top-1m.csv top1m #反正csv也就是一个文本文件,去掉后缀名算了
找出.cn结尾(包括.com.cn,.net.cn等)的中国域名
sed -n -e "s/\,/ /g" -e "/\.cn$/p" top1m
统计.cn结尾(包括.com.cn,.net.cn等)的中国域名的个数
sed -n "/\.cn$/p" top1m | wc -l
找出.com.cn结尾的中国域名
sed -n -e "s/\,/ /g" -e "/\.com\.cn$/p" top1m
统计.com.cn结尾的中国域名的个数
sed -n "/\.com\.cn$/p" top1m | wc -l
找出纯.cn结尾(排除.com.cn,.net.cn等)的中国域名
sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3{print $1" "$2"."$3}'
统计纯.cn结尾(排除.com.cn,.net.cn等)的中国域名的个数
sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3{print $1" "$2"."$3}' | wc -l
列出前10000名中.cn结尾(包括.com.cn,.net.cn等)的中国域名
sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' '$1<10001 {if(NF==3){print $1" "$2"."$3}else if(NF==4){print $1" "$2"."$3"."$4}}'
列出前50000名中纯.cn结尾(排除.com.cn,.net.cn等)的中国域名
sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3 && $1<50001{print $1" "$2"."$3}'
找出.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)
sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2{print $1"."$2}'
#解释:-e "s/^.*\,//g"表示先替换掉开头的类似“998815,”之类的序号
#解释:-e "/\.cc$/p表示打印.cc结尾的行
#解释:awk -F '.' 'NF==2{print $1"."$2}'表示以点号分割,找出只有2列字段的行,并打印之
找出前缀为四个字符,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)
sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4{print $1"."$2}'
#解释:NF==2 && length($1)==4表示同时满足两个条件:字段列数为2;第一个字段的长度为4。
找出前缀为四个字母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)
sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4 && $1~/^[a-z]+$/{print $1"."$2}'
#解释:NF==2 && length($1)==4 && $1~/^[a-z]+$/表示同时满足3个条件:字段列数为2;第一个字段的长度为4;第一个字段只包含字母
找出前缀为四个汉语拼音声母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)
sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4 && $1~/^[bpmfdtnlgkhjqxrzcsyw]+$/{print $1"."$2}'
#解释:NF==2 && length($1)==4 && $1~/^[bpmfdtnlgkhjqxrzcsyw]+$/表示同时满足3个条件:字段列数为2;第一个字段的长度为4;第一个字段只包含汉语拼音声母
找出前缀为四个汉语拼音声母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名),并且展示排名
sed -n -e "s/\,/./g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==3 && length($2)==4 && $2~/^[bpmfdtnlgkhjqxrzcsyw]+$/{print $1" "$2"."$3}'
分析ctrl.cn的网站标题,以ctrl.cn为例
curl www.ctrl.cn | iconv -f `curl www.ctrl.cn|grep -o 'charset=.*"'|sed -e 's/charset=//g' -e 's/\"//g'|head -n 1` -t utf-8|grep '<title>'|sed -e 's/<title>//g' -e 's/<\/title>//g'