2020爬取美赛数学成绩

爬取美赛数学成绩
1.下载所有pdf

for ((i=1; i<=10000; i++))
do
    echo $i
    wget http://www.comap-math.com/mcm/2020Certs/$i.pdf
done

安装convert

sudo  apt-get install imagemagick

安装tesseract

sudo apt-get tesseract-ocr

4.输出csv

#!/bin/bash
a1="Outst"
a2="Final"
a3="Merit"
a4="Honor"
a5="Succe"
a6="Unsuc"

for ((i=1; i<=1000000; i++))
do
    convert $i.pdf jpg/$i.jpg
    tesseract jpg/$i.jpg txt/$i
    r1=$(cat txt/$i.txt | grep "$a1")
    if [[ "$r1" != "" ]]; then
        echo "$i O" >> all.csv
    fi
    r2=$(cat txt/$i.txt | grep "$a2")
    if [[ "$r2" != "" ]]; then
        echo "$i F" >> all.csv
    fi
    r3=$(cat txt/$i.txt | grep "$a3")
    if [[ "$r3" != "" ]]; then
        echo "$i M" >> all.csv
    fi
    r4=$(cat txt/$i.txt | grep "$a4")
    if [[ "$r4" != "" ]]; then
        echo "$i H" >> all.csv
    fi
    r5=$(cat txt/$i.txt | grep "$a5")
    if [[ "$r5" != "" ]]; then
        echo "$i S" >> all.csv
    fi
    r6=$(cat txt/$i.txt | grep "$a6")
    if [[ "$r6" != "" ]]; then
        echo "$i U" >> all.csv
    fi
done
cat all.csv | tr -s '[:blank:]' ',' > end.csv

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值