Compter les longueurs de ligne dans un fichier à l'aide d'outils de ligne de commande

Question

Problème

Si j'ai un fichier long avec beaucoup de lignes de différentes longueurs, comment puis-je compter les occurrences de chaque longueur de ligne?

Exemple:

fichier.txt

this is a sample file with several lines of varying length

Fonctionnement count_line_lengths file.txt donnerait:

Length Occurences 1 1 2 2 4 3 5 1 6 2 7 2

Des idées?

Ignacio Vazquez-Abrams · Accepted Answer

count.awk:

{ print length($0); }

...

$ awk -f count.awk input.txt | sort | uniq -c 1 1 2 2 3 4 1 5 2 6 2 7

iruvar · Answer

Purement awk

awk '{++a[length()]} END{for (i in a) print i, a[i]}' file.txt 4 3 5 1 6 2 7 2 1 1 2 2

Adrian Fr&#252;hwirth · Answer

Utiliser les tableaux bash:

#!/bin/bash while read line; do ((histogram[${#line}]++)) done < file.txt echo "Length Occurrence" for length in "${!histogram[@]}"; do printf "%-6s %s
" "${length}" "${histogram[$length]}" done

Exemple d'exécution:

$ ./t.sh Length Occurrence 1 1 2 2 4 3 5 1 6 2 7 2

jfs · Answer

$ Perl -lne '$c{length($_)}++ }{ print qq($_ $c{$_}) for (keys %c);' file.txt

sortie

6 2 1 1 4 3 7 2 2 2 5 1

Maksym Ganenko · Answer

Pour ce faire, utilisez uniquement les utilitaires Unix de base:

$ printf "% s% s
" $ (pour la ligne dans $ (cat file.txt); ne printf $ line | wc -c; done | sort -n | uniq -c | sed -E "s/([ 0-9] +) [^ 0-9] + ([0-9] +)/\ 2\1 /") 1 1 2 2 4 3 5 1 6 2 7 2

Comment ça marche?

Voici le fichier source:

$ cat fichier.txt ceci est un échantillon fichier avec plusieurs lignes de de longueurs

Remplacez chaque ligne du fichier source par sa longueur:

$ pour ligne en $ (cat fichier.txt) faire printf $ line | wc -c; terminé 4 2 1 6 4 4 7 5 2 7 6

Triez et comptez le nombre d'occurrences de longueur:

$ pour la ligne dans $ (cat file.txt); faire printf $ line | wc -c; terminé | trier -n | uniq -c 1 1 2 2 3 4 1 5 2 6 2 7

Permutez et mettez en forme les nombres:

$ printf "% s% s
" $ (pour la ligne dans $ (cat file.txt); faire printf $ line | wc -c; fait | trier -n | uniq -c | sed -E "s/([0-9] +) [^ 0-9] + ([0-9] +)/\ 2\1 /") 1 1 2 2 4 3 5 1 6 2 7 2