15 октября 2023 Bash curl awk sort uniq egrep white read


Если необходимо проверить большое количество ссылок на сайте то можно воспользоваться вот таким bash скрипт

site=http://127.0.0.1:8080

curl $site 2> /dev/null | egrep -o 'href="[^"]+"' | awk -F\" '{print $2}' | grep /catalog/ | sort | uniq | while read u; do 
curl  $site$u -o /dev/null -w "%{http_code} $u\n" -s 
done >> check-menu.txt 

Данный скрипт

  • скачивает главную страницу сайта: curl $site
  • затем  выбирает все ссылки href: egrep -o 'href="[^"]+"'
  • выбирает содержимое аттрибута href: egrep -o 'href="[^"]+"'
  • отбирает ссылки содержащие /catalog/: grep /catalog/
  • сортирует и отбирает только уникальные ссылки: sort| uniq
  • в цикле запрашивает кажду ссылку и сохраняет статус ссылки в файл check-menu.txt ;

11 октября 2023 13 октября 2023 Python url parse dict reduce


Однострочник для преобразования строки URL запроса в словь с данными ключ=значение

reduce(lambda a, x: {**a, **dict([x.split('=')])}, b.split('&'), dict())

Здесь три составные части, начнём с конца

python reduce parse url

dict() -  тут объявляется пустой словарь которые в будет пополняться результатами вычислений

request_body.split('&') - здесь тело строки запроса делится на лексемы состоящие из пары ключе/значение разделённых сиволом '='

lambda a, x: {**dict([x.split('=')]), **a} - здесь каждая лексема дробится по заделительному символу '=' добавляется в словарь соззданный в начале и возвращается результатом

у этого способа есть явный минус, он исключает дубирование пар ключей в теле запроса так как в славе ключи всегда уникальны


13 апреля 2021 22 апреля 2021 Bash bash curl check 404 | решать тесты

  • Зачем нужна опция -q при использования утилиты curl


Список ссылок размещён в файле /tmp/pdf.csv
 

for u in $(cat /tmp/pdf.csv); do 
curl -I $u 2> /dev/null | grep 'HTTP/1.1 404' -q && echo 404 `basename $u` || echo ok `basename $u`  
done