Скрипт проверки ссылок на сайте

15 октября 2023 Bash curl awk sort uniq egrep white read

Если необходимо проверить большое количество ссылок на сайте то можно воспользоваться вот таким bash скрипт

site=http://127.0.0.1:8080

curl $site 2> /dev/null | egrep -o 'href="[^"]+"' | awk -F\" '{print $2}' | grep /catalog/ | sort | uniq | while read u; do 
curl  $site$u -o /dev/null -w "%{http_code} $u\n" -s 
done >> check-menu.txt

Данный скрипт

скачивает главную страницу сайта: curl $site
затем выбирает все ссылки href: egrep -o 'href="[^"]+"'
выбирает содержимое аттрибута href: egrep -o 'href="[^"]+"'
отбирает ссылки содержащие /catalog/: grep /catalog/
сортирует и отбирает только уникальные ссылки: sort| uniq
в цикле запрашивает кажду ссылку и сохраняет статус ссылки в файл check-menu.txt ;

Удаление дублей файлов

13 октября 2023 Bash awk while read

Имеет большое количество файлов которые могут повторяться по содержимому и стоит задача оставить только уникальные файлы по содержимому. Для определения уникальности будем использовать контрольную сумму md5, а для автоматизации bash скрипт

#!/bin/bash

echo Чистка от дублей

x="" 

ls /tmp/base_1s-202* |sort  | while read f; do  
    _x=$(md5sum $f|awk '{print $1}')
    if [ $_x == "$x" ]; then 
        echo удаление $f  $_x
        rm $f 
    else 
        x=$_x
        echo сохранение $_x $f
    fi
done

Обработка в скриптах больших списков

11 октября 2023 13 октября 2023 Bash for read while git ls-files

Обычно я использую для обработки больлих списков следующую конструкцию

for x in $(git ls-files); do
du -sm "$x"
done

здесть создаётся локальная переменная в которой размещается результат операции find

Более оптимальная конструкция без использования локальной переменной через цикл while и read

git ls-files | while read x; 
do du -sm "$x"; 
done