Си в UNIX</i>

<i>2.18.</i>  Что означают описания?

    int i;            // целое.
    int *pi;          // указатель на целое.
    int *api[3];      // массив из 3х ук-лей на целые.
    int (*pai)[3];    // указатель на массив из 3х целых.
                      // можно описать как    int **pai;
    int fi();         // функция, возвращающая целое.
    int *fpi();       // ф-ция, возвр. ук-ль на целое.
    int (*pfi)();     // ук-ль на ф-цию, возвращающую целое.
    int *(*pfpi)();   // ук-ль на ф-цию, возвр. ук-ль на int.
    int (*pfpfi())(); // ф-ция, возвращающая указатель на
                      // "функцию, возвращающую целое".
    int (*fai())[3];  // ф-ция, возвр. ук-ль на массив
                      // из 3х целых. иначе ее
                      // можно описать как    int **fai();
    int (*apfi[3])(); // массив из 3х ук-лей на функции,
                      // возвращающие целые.

Переменные в Си описываются в формате их использования.  Так описание

    int (*f)();

означает, что f можно использовать в виде

    int value;
    value = (*f)(1, 2, 3 /* список аргументов */);

Однако из такого способа описания  тип  самой  описываемой  переменной  и  его  смысл
довольно  неочевидны.  Приведем прием (позаимствованный из журнала "Communications of
the ACM"), позволяющий прояснить смысл описания.  Описание на Си переводится в описа-
ние в стиле языка <i>Algol-68</i>.  Далее

    <i>ref</i>      ТИП    означает  "указатель на ТИП"
    <i>proc</i>()   ТИП              "функция, возвращающая ТИП"
    <i>array of</i> ТИП              "массив из элементов ТИПа"
    x:       ТИП              "x имеет тип ТИП"

Приведем несколько примеров, из которых ясен и способ преобразования:

    int (*f())();     означает
            (*f())()  :                    int
             *f()     :             proc() int
              f()     :         ref proc() int
              f       :  proc() ref proc() int

то есть <i>f</i> - функция, возвращающая указатель на функцию, возвращающую целое.

    int (*f[3])();    означает
            (*f[])()  :                      int
             *f[]     :               proc() int
              f[]     :           ref proc() int
              f       :  array of ref proc() int

<i>f</i> - массив указателей на функции, возвращающие целые.  Обратно: опишем <i>g</i>  как  указа-
тель  на функцию, возвращающую указатель на массив из 5и указателей на функции, возв-
ращающие указатели на целые.


<i>А. Богатырев, 1992-95                  - 91 -                               Си в UNIX</i>

           g          : ref p() ref array of ref p() ref int
          *g          :     p() ref array of ref p() ref int
         (*g)()       :         ref array of ref p() ref int
        *(*g)()       :             array of ref p() ref int
       (*(*g)())[5]   :                      ref p() ref int
      *(*(*g)())[5]   :                          p() ref int
     (*(*(*g)())[5])():                              ref int
    *(*(*(*g)())[5])():                                  int
                         int *(*(*(*g)())[5])();

В Си невозможны функции, возвращающие массив:

    proc() array of ...
            а только
    proc() ref array of ...

Само название типа (например, для использования в операции приведения  типа)  получа-
ется вычеркиванием имени переменной (а также можно опустить размер массива):

            g = ( int *(*(*(*)())[])() ) 0;


<i>2.19.</i>  Напишите функцию <i>strcat</i>(d,s), приписывающую строку s к концу строки d.
Ответ:

     char *<i>strcat</i>(d,s) register char *d, *s;
     {  while( *d ) d++;      /* ищем конец строки d */
        while( *d++ = *s++ ); /* strcpy(d, s)        */
        return (d-1);         /* конец строки        */
     }

Цикл, помеченный "<i>strcpy</i>" - это наиболее краткая запись операторов

        do{ char c;
            c = (*d = *s); s++; d++;
        } while(c != '\0');

На самом деле <i>strcat</i> должен по стандарту возвращать свой первый аргумент, как и функ-
ция <i>strcpy</i>:

     char *<i>strcat</i>(d,s) register char *d, *s;
     {  char *p = d;
        while( *d ) d++;
        strcpy(d, s); return p;
     }

Эти два варианта демонстрируют, что функция может быть реализована разными способами.
Кроме  того  видно,  что  вместо стандартной библиотечной функции мы можем определить
свою одноименную функцию, несколько отличающуюся поведением от стандартной (как возв-
ращаемое значение в 1-ом варианте).

<i>2.20.</i>  Напишите программу, которая объединяет и распечатывает две строки, введенные с
терминала.  Для  ввода  строк  используйте  функцию  <i>gets</i>(),  а  для их объединения -
<i>strcat</i>(). В другом варианте используйте
  <i>sprintf</i>(result,"<i>%s%s</i>",s1,s2);

<i>2.21.</i>  Модифицируйте предыдущую программу таким образом,  чтобы  она  выдавала  длину
(число  символов)  объединенной строки.  Используйте функцию <i>strlen</i>().  Приведем нес-
колько версий реализации <i>strlen</i>:

    /* При помощи индексации массива */


<i>А. Богатырев, 1992-95                  - 92 -                               Си в UNIX</i>

    int <i>strlen</i>(s) char s[];
    {   int length = 0;
        for(; s[length] != '\0'; length++);
        return (length);
    }
    /* При помощи продвижения указателя */
    int <i>strlen</i>(s) char *s;
    {   int length;
        for(length=0; *s; length++, s++);
        return length;
    }
    /* При помощи разности указателей */
    int <i>strlen</i>(register char *s)
    {   register char *p = s;
        while(*p) p++;   /* ищет конец строки */
        return (p - s);
    }

Разность двух указателей на один и тот же тип - целое число:

    если <i>TYPE</i> *p1, *p2;
    то  p2 - p1 = целое число штук <i>TYPE</i>
                  лежащих между p2 и p1
    если p2 = p1 + n
    то   p2 - p1 = n

Эта разность может быть и отрицательной если p2 &lt; p1, то есть p2 указывает  на  более
левый элемент массива.

<i>2.22.</i>  Напишите оператор Си, который обрубает строку s до длины n букв. Ответ:

    if( <i>strlen</i>(s) > n )
         s[n] = <i>'\0'</i>;

Первое сравнение вообще говоря излишне.  Оно написано лишь на тот случай, если строка
s  короче,  чем n букв и хранится в массиве, который также короче n, т.е. не имеет n-
ого элемента (поэтому в него нельзя производить запись признака конца).

<i>2.23.</i>  Напишите функции преобразования строки, содержащей изображение целого числа, в
само  это  число.  В  двух разных вариантах аргумент-адрес должен указывать на первый
байт строки; на последний байт. Ответ:

    #define <i>isdigit</i>(c) ('0' &lt;= (c) && (c) &lt;= '9')

    int <i>atoi</i>(s) register char *s;
    {   register int res=0, neg=0;
        for(;;s++){
            switch(*s){
            case ' ': case '\t': continue;
            case '-':            neg++;
            case '+':            s++;
            } break;
        }
        while(isdigit(*s))
            res = res * 10  +  *s++ - '0';
        return( neg ? -res : res );
    }

    int <i>backatoi</i>(s) register char *s;
    {   int res=0, pow=1;
        while(isdigit(*s)){


<i>А. Богатырев, 1992-95                  - 93 -                               Си в UNIX</i>

            res += (*s-- - '0') * pow;
            pow *= 10;
        }
        if(*s == '-') res = -res;
        return res;
    }


<i>2.24.</i>  Можно ли для занесения в массив s строки "hello" написать

            char s[6]; s = "hello";
                 или
            char s[6], d[] = "hello"; s = d;

Ответ: нет.  Массивы в Си нельзя присваивать целиком. Для пересылки массива байт надо
использовать функцию <i>strcpy</i>(s,d).  Здесь же мы пытаемся изменить <i>адрес</i> s (имя массива
- это адрес начала памяти, выделенной для хранения массива), сделав его равным адресу
безымянной  строки  "hello"  (или  массива  d во втором случае).  Этот адрес является
константой и не может быть изменен!
     Заметим однако, что описание массива с инициализацией вполне допустимо:

            char s[6] = "hello";
                    или
            char s[6] = { 'h', 'e', 'l', 'l', 'o', '\0' };
                    или
            char s[] = "hello";
                    или
            char s[] = { "hello" };

В этом случае компилятор резервирует память для хранения  массива  и  расписывает  ее
байтами  начального значения.  Обратите внимание, что строка в двойных кавычках (если
ее рассматривать как массив букв) имеет длину на единицу больше, чем написано букв  в
строке,  поскольку в конце массива находится символ '<i>\0</i>' - признак конца, добавленный
компилятором.  Если бы мы написали

            char s[5] = "hello";

то компилятор сообщил бы об ошибке, поскольку длины массива (5)  недостаточно,  чтобы
разместить  6 байт.  В третьей строке примера написано s[], чтобы компилятор сам пос-
читал необходимую длину массива.
     Наконец, возможна ситуация, когда массив больше, чем хранящаяся  в  нем  строка.
Тогда "лишнее" место содержит какой-то мусор (в static-памяти изначально - байты \0).

      char s[12] = "hello";
      содержит:     h e l l o \0 ? ? ? ? ? ?

В программах текстовой обработки под "длиной строки" обычно понимают количество  букв
в  строке  НЕ  считая  закрывающий  байт '<i>\0</i>'. Именно такую длину считает стандартная
функция <i>strlen</i>(s).  Поэтому следует различать  такие  понятия  как  "(текущая)  длина
строки"  и  "длина  массива,  в котором хранится строка": <i>sizeof</i>(s).  Для написанного
выше примера эти значения равны соответственно 5 и 12.
     Следует также отличать массивы от указателей:

            char *sp = "bye bye";
            sp = "hello";

будет вполне законно, поскольку в данном случае sp - не имя массива (т.е.  константа,
равная  адресу  начала  массива),  а  указатель (переменная, хранящая адрес некоторой
области памяти).  Поскольку указатель -  это  переменная,  то  ее  значение  изменять
можно:  в  данном  случае  sp  сначала содержала адрес безымянного массива, в котором
находится "bye bye"; затем мы занесли  в  sp  адрес  безымянного  массива,  хранящего


<i>А. Богатырев, 1992-95                  - 94 -                               Си в UNIX</i>

строку "hello".  Здесь не происходит копирования массива, а происходит просто присва-
ивание переменной sp нового значения адреса.
     Предостережем от возможной неприятности:

            char d[5]; char s[] = "abcdefgh";
            <i>strcpy</i>(d, s);

Длины массива d просто не хватит для хранения такой длинной  строки.   Поскольку  это
ничем не контролируется (ни компилятором, ни самой <i>strcpy</i>, ни вами явным образом), то
при копировании строки "избыточные" байты запишутся после  массива  d  поверх  других
данных, которые будут испорчены.  Это приведет к непредсказуемым эффектам.
     Некоторые возможности для контроля за длиной строк-аргументов вам  дают  функции
<i>strncpy</i>(d,s,len);  <i>strncat</i>(d,s,len); <i>strncmp</i>(s1,s2,len).  Они пересылают (сравнивают)
не более, чем len первых символов строки s (строк s1, s2).  Посмотрите  в  документа-
цию!  Напишите функцию <i>strncmp</i> (сравнение строк по первым len символам), посмотрев на
функцию <i>strncpy</i>:

    char *<i>strncpy</i>(dst, src, n)
         register char *dst, *src;
         register int n;
    {    char *save;
         for(save=dst; --n >= 0; )
             if( !(*dst++ = *src++)){
                 while(--n >= 0)
                    *dst++ = '\0';
                 return save;
             }
         return save;
    }

Отметьте, что <i>strncpy</i> обладает одним неприятным свойством: если n &lt;= <i>strlen</i>(src),  то
строка  dst  не  будет иметь на конце символа '\0', то есть будет находиться в некор-
ректном (не каноническом) состоянии.
     Ответ:

    int <i>strncmp</i>(register char *s1, register char *s2, register int n)
    {
            if(s1 == s2)
                    return(0);
            while(--n >= 0 && *s1 == *s2++)
                    if(*s1++ == '\0')
                            return(0);
            return((n &lt; 0)? 0: (*s1 - *--s2));
    }


<i>2.25.</i>  В чем ошибка?

    #include &lt;stdio.h>  /* для putchar */
    char s[] = "We don't need no education";
    main(){ while(*s) putchar(*s++); }

Ответ: здесь s - константа, к ней неприменима операция ++.  Надо написать

    char *s = "We don't need no education";

сделав s указателем на безымянный маccив. Указатель уже можно изменять.

<i>2.26.</i>  Какие из приведенных конструкций обозначают одно и то же?


<i>А. Богатырев, 1992-95                  - 95 -                               Си в UNIX</i>

    char a[]  = "";         /* пустая строка */
    char b[]  = "\0";
    char c    = '\0';
    char z[]  = "ab";
    char aa[] = { '\0' };
    char bb[] = { '\0', '\0' };
    char xx[] = { 'a', 'b' };
    char zz[] = { 'a', 'b', '\0' };
    char *ptr = "ab";


<i>2.27.</i>  Найдите ошибки в описании символьной строки:

    main() {
       char mas[] = {'s', 'o', 'r', 't'};  /* "sort" ? */
       printf("%s\n", mas);
    }

Ответ: строка должна кончаться '\0' (в нашем случае <i>printf</i> не обнаружив символа конца
строки  будет  выдавать и байты, находящиеся в памяти после массива mas, т.е. мусор);
инициализированный массив не может быть автоматическим - требуется <i>static</i>:

    main() {
       static char mas[] = {'s', 'o', 'r', 't', '\0'};
    }

Заметим, что

    main(){    char *mas = "sort";   }

законно, т.к. сама строка здесь хранится в  статической  памяти,  а  инициализируется
лишь указатель на этот массив байт.

<i>2.28.</i>  В чем ошибка?  Программа собирается из двух файлов: a.c и b.c командой

           <i>cc</i> a.c b.c <i>-o</i> ab
    a.c                         b.c
    ---------------------------------------------------
    int n = 2;                  extern int n;
    char s[] = "012345678";     extern char *s;
    main(){                     f(){
      f();                         s[n] = '+';
      printf("%s\n", s );       }
    }

Ответ: дело в том, что типы (<i>char *</i>) - указатель, и <i>char[]</i> - массив, означают одно  и
то же только при объявлении формального параметра функции:

    <i>f</i>(char *arg){...}    <i>f</i>(char arg[]){...}

это будет локальная переменная, содержащая указатель на <i>char</i> (т.е.  адрес  некоторого
байта  в  памяти).   Внутри функции мы можем изменять эту переменную, например arg++.
Далее, и (<i>char *</i>) и <i>char[]</i> одинаково  используются,  например,  оба  эти  типа  можно
индексировать: arg[i]. Но вне функций они объявляют разные объекты!  Так <i>char *</i>p; это
скалярная переменная, хранящая адрес (указатель):

      --------      -------
    p:|   *--|----->| '0' | char
      --------      | '1' | char
                      ...


<i>А. Богатырев, 1992-95                  - 96 -                               Си в UNIX</i>

тогда как <i>char</i> a[20]; это адрес начала массива (а вовсе не переменная):

                    -------
                  a:| '0' | char
                    | '1' | char
                      ...

В нашем примере в файле b.c мы объявили внешний массив s как переменную.   В  резуль-
тате  компилятор  будет  интерпретировать начало массива s как переменную, содержащую
указатель на <i>char</i>.

                    -------
                  s:| '0' |   \  это будет воспринято как
                    | '1' |   /  адрес других данных.
                    | '2' |
                      ...

И индексироваться будет уже ЭТОТ адрес!  Результат  -  обращение  по  несуществующему
адресу.  То, что написано у нас, эквивалентно

    char s[]  = "012345678";
    char **ss = s;      /* s - как бы "массив указателей"  */
         /* первые байты s интерпретируются как указатель: */
    char  *p  = ss[0];
         p[2] = '+';

Мы же должны были объявить в b.c

    extern char s[];  /* размер указывать не требуется */

Вот еще один аналогичный пример, который пояснит вам, что происходит (а заодно  пока-
жет порядок байтов в long).  Пример выполнялся на <i>IBM PC 80386</i>, на которой

           sizeof(char *) = sizeof(long) = 4


    a.c                       b.c
    ---------------------------------------------------
    char s[20] = {1,2,3,4};   extern char *s;
    main(){                   f(){
                                /*печать указателя как long */
      f();                       printf( "%08lX\n", s );
    }                         }

печатается 04030201.

<i>2.29.</i>  Что напечатает программа?

      static char str1[ ]  = "abc";
      static char str2[4];

      strcpy( str2, str1 );
      /* можно ли написать str2 = str1; ? */

      printf( str1 == str2 ? "равно":"не равно" );

Как надо правильно сравнивать строки? Что на самом деле сравнивается  в  данном  при-
мере?
     Ответ: сравниваются адреса массивов, хранящих строки. Так


<i>А. Богатырев, 1992-95                  - 97 -                               Си в UNIX</i>

    char str1[2];
    char str2[2];
    main(){
      printf( str1 &lt; str2 ? "&lt;":">");
    }

печатает <i>&lt;</i>, а если написать

    char str2[2];
    char str1[2];

то напечатается <i>></i>.

<i>2.30.</i>  Напишите программу, спрашивающую ваше имя до тех пор, пока вы его правильно не
введете. Для сравнения строк используйте функцию <i>strcmp</i>() (ее реализация есть в главе
"Мобильность").

<i>2.31.</i>  Какие значения возвращает функция <i>strcmp</i>() в следующей программе?

    #include &lt;stdio.h>
    main() {
      printf("%d\n", strcmp("abc", "abc")); /*   0 */
      printf("%d\n", strcmp("ab" , "abc")); /* -99 */
      printf("%d\n", strcmp("abd", "abc")); /*   1 */
      printf("%d\n", strcmp("abc", "abd")); /*  -1 */
      printf("%d\n", strcmp("abc", "abe")); /*  -2 */
    }


<i>2.32.</i>  В качестве итога предыдущих задач: помните, что в Си строки (а не адреса) надо
сравнивать как

    if( <i>strcmp</i>("abc", "bcd") &lt;  0) ... ;
    if( <i>strcmp</i>("abc", "bcd") == 0) ... ;
               вместо
    if( "abc" &lt;  "bcd" ) ... ;
    if( "abc" == "bcd" ) ... ;

и присваивать как

    char d[80], s[80];
    <i>strcpy</i>( d, s );      вместо    d = s;


<i>2.33.</i>  Напишите программу, которая сортирует по алфавиту и печатает следующие  ключе-
вые слова языка Си:

            int char double long
            for while if


<i>2.34.</i>  Вопрос не совсем про строки, скорее про цикл: чем плоха конструкция?

    char s[]  = "You're a smart boy, now shut up.";
    int i, len;
    for(i=0; i &lt; <i>strlen</i>(s); i++)
             putchar(s[i]);

Ответ: в соответствии с семантикой Си цикл развернется примерно в


<i>А. Богатырев, 1992-95                  - 98 -                               Си в UNIX</i>

            i=0;
    LOOP:   if( !(i &lt; strlen(s))) goto ENDLOOP;
              putchar(s[i]);
            i++;
            goto LOOP;
    ENDLOOP:         ;

Заметьте, что хотя длина строки s не меняется, <i>strlen</i>(s) вычисляется на КАЖДОЙ итера-
ции цикла, совершая лишнюю работу!  Борьба с этим такова:

    for(i=0, len=strlen(s); i &lt; len; i++ )
             putchar(s[i]);
        или
    for(i=0, len=strlen(s); len > 0; i++, --len )
             putchar(s[i]);

Аналогично, в цикле

    while( i &lt; strlen(s))...;

функция тоже будет вычисляться при каждой проверке условия! Это, конечно, относится к
любой функции, используемой в условии, а не только к <i>strlen</i>.  (Но, разумеется, случай
когда функция возвращает признак "надо ли продолжать  цикл"  -  совсем  другое  дело:
такая функция обязана вычисляться каждый раз).

<i>2.35.</i>  Что напечатает следующая программа?

    #include &lt;stdio.h>
    main(){
        static char str[] = "До встречи в буфете";
        char *pt;

        pt = str; puts(pt); puts(++pt);
        str[7] = '\0'; puts(str); puts(pt);
        puts(++pt);
    }


<i>2.36.</i>  Что напечатает следующая программа?

    main() {
        static char name[] = "Константин";
        char *pt;
        pt = name + strlen(name);
        while(--pt >= name)
             puts(pt);
    }


<i>2.37.</i>  Что напечатает следующая программа?

        char str1[] = "abcdef";
        char str2[] = "xyz";
        main(){
            register char *a, *b;
            a = str1; b = str2;
            while( *b )
                   *a++ = *b++;
            printf( "str=%s a=%s\n", str1, a );

            a = str1; b = str2;


<i>А. Богатырев, 1992-95                  - 99 -                               Си в UNIX</i>

            while( *b )
                   *++a = *b++;
            printf( "str=%s a=%s\n", str1, a );
        }

Ответ:

       str=xyzdef a=def
       str=xxyzef a=zef


<i>2.38.</i>  Что печатает программа?

    char *s;
    for(s = "Ситроен"; *s; s+= 2){
        putchar(s[0]); if(!s[1]) break;
    }
    putchar('\n');


<i>2.39.</i>  Что напечатает программа? Рассмотрите продвижение указателя  s,  указателей  -
элементов массива strs[]. Разберитесь с порядком выполнения операций. В каких случаях
++ изменяет указатель, а в каких - букву в строке? Нарисуйте себе картинку, изобража-
ющую  состояние указателей - она поможет вам распутать эти спагетти.  Уделите разбору
этого примера достаточное время!

    #include &lt;stdio.h>      /* определение NULL */
    /* Латинский алфавит: abcdefghijklmnopqrstuvwxyz */
    char *strs[] = {
      "abcd","ABCD","0fpx","159",
      "hello","-gop","A1479",NULL
    };
    main(){
      char c,      **s = strs,       *p;
      c = *++*s;   printf("#1 %d %c %s\n", s-strs, c, *s);
      c = **++s;   printf("#2 %d %c %s\n", s-strs, c, *s);
      c = **s++;   printf("#3 %d %c %s\n", s-strs, c, *s);
      c = ++**s;   printf("#4 %d %c %s\n", s-strs, c, *s);
      c = (**s)++; printf("#5 %d %c %s\n", s-strs, c, *s);
      c = ++*++*s; printf("#6 %d %c %s\n", s-strs, c, *s);
      c = *++*s++; printf("#7 %d %c %s %s\n",
                              s-strs, c, *s, strs[2]);
      c = ++*++*s++; printf("#8 %d %c %s %s\n",
                              s-strs, c, *s, strs[3]);
      c = ++*++*++s; printf("#9 %d %c %s\n", s-strs,c,*s);
      c = ++**s++;   printf("#10 %d %c %s\n",s-strs,c,*s);
      p = *s; c = ++*(*s)++;
      printf("#11 %d %c %s %s %s\n",s-strs,c,*s,strs[6],p);
      c = ++*((*s)++); printf("#12 %d %c %s %s\n",
                                s-strs, c, *s, strs[6]);
      c = (*++(*s))++; printf("#13 %d %c %s %s\n",
                                s-strs, c, *s, strs[6]);
      for(s=strs; *s; s++)
          printf("strs[%d]=\"%s\"\n", s-strs, *s);
      putchar('\n');
    }

Печатается:


<i>А. Богатырев, 1992-95                  - 100 -                              Си в UNIX</i>

    #1 0 b bcd               strs[0]="bcd"
    #2 1 A ABCD              strs[1]="ABCD"
    #3 2 A 0fpx              strs[2]="px"
    #4 2 1 1fpx              strs[3]="69"
    #5 2 1 2fpx              strs[4]="hello"
    #6 2 g gpx               strs[5]="iop"
    #7 3 p 159 px            strs[6]="89"
    #8 4 6 hello 69
    #9 5 h hop
    #10 6 i A1479
    #11 6 B 1479 1479 B1479
    #12 6 2 479 479
    #13 6 7 89 89

Учтите, что конструкция

    char *strs[1] = { "hello" };

означает, что в strs[0] содержится указатель на начальный байт  безымянного  массива,
содержащего строку "hello".  Этот указатель можно изменять!  Попробуйте составить еще
подобные примеры из *, ++, ().

<i>2.40.</i>  Что печатает программа?

    char str[25] = "Hi, ";
    char *<i>f</i>(char **s){ int cnt;
      for(cnt=0; **s != '\0'; (*s)++, ++cnt);
      return("ny" + (cnt && (*s)[-1] == ' ') + (!cnt));
    }
    void main(void){ char *s = str;
      if( *<i>f</i>(&s) == 'y') strcat(s,  "dude");
      else               strcat(s, " dude");
      printf("%s\n", str);
    }

Что она напечатает, если задать

    char str[25]="Hi,";   или    char str[25]="";


<i>2.41.</i>  В чем состоит ошибка? (Любимая ошибка начинающих)

      main(){
         char *buf;     /* или char buf[]; */
         <i>gets</i>( buf );
         <i>printf</i>( "%s\n", buf );
      }

Ответ: память под строку buf не выделена, указатель buf не проинициализирован и смот-
рит неизвестно куда. Надо было писать например так:

    char buf[80];
            или
    char mem[80], *buf = mem;

Обратите на этот пример <i>особое</i> внимание, поскольку, описав указатель (но  никуда  его
не направив), новички успокаиваются, не заботясь о выделении памяти для хранения дан-
ных. Указатель должен указывать на ЧТО-ТО, в чем можно хранить данные, а не "висеть",
указывая "пальцем в небо"! Запись информации по "висячему" указателю разрушает память
программы и приводит к скорому (но часто  не  немедленному  и  потому  таинственному)
краху.


<i>А. Богатырев, 1992-95                  - 101 -                              Си в UNIX</i>

     Вот программа, которая  также  использует  неинициализированный  указатель.   На
машине  <i>SPARCstation  20</i> эта программа убивается операционной системой с диагностикой
"Segmentation fault" (SIGSEGV).  Это как раз и значит обращение по указателю,  указы-
вающему "пальцем в небо".

    main(){
            int *iptr;
            int  ival  = *iptr;

            printf("%d\n", ival);
    }


<i>2.42.</i>  Для получения строки "Life is life" написана программа:

    main(){
        char buf[ 60 ];
        <i>strcat</i>( buf, "Life " );
        <i>strcat</i>( buf, "is "   );
        <i>strcat</i>( buf, "life"  );
        printf( "%s\n", buf );
    }

Что окажется в массиве buf?
Ответ: в начале массива окажется мусор, поскольку автоматический массив не  инициали-
зируется байтами '\0', а функция <i>strcat</i>() приписывает строки к концу строки. Для исп-
равления можно написать

            *buf = '\0';

перед   первым    <i>strcat</i>()-ом,    либо    вместо    первого    <i>strcat</i>()-а    написать
<i>strcpy</i>( buf, "Life " );

<i>2.43.</i>  Составьте макроопределение <i>copystr</i>(s1, s2) для копирования строки s2 в  строку
s1.

<i>2.44.</i>  Составьте макроопределение <i>lenstr</i>(s) для вычисления длины строки.
     Многие современные компиляторы сами обращаются с подобными короткими (1-3 опера-
тора)  стандартными функциями как с макросами, то есть при обращении к ним генерят не
вызов функции, а подставляют текст ее тела в место обращения.  Это  делает  объектный
код  несколько "толще", но зато быстрее. В расширенных диалектах Си и в Си++ компиля-
тору можно предложить обращаться так и с вашей функцией - для этого  функцию  следует
объявить как <i>inline</i> (такие функции называются еще "intrinsic").

<i>2.45.</i>  Составьте рекурсивную и нерекурсивную версии  программы  инвертирования  (зер-
кального отображения) строки:

            abcdef --> fedcba.


<i>2.46.</i>  Составьте функцию <i>index</i>(s, t), возвращающую номер первого вхождения символа  t
в строку s; если символ t в строку не входит, функция возвращает -1.
     Перепишите эту функцию с указателями, чтобы она возвращала указатель  на  первое
вхождение символа. Если символ в строке отсутствует - выдавать NULL.  В <i>UNIX System-V</i>
такая функция называется <i>strchr</i>.  Вот возможный ответ:

    char *<i>strchr</i>(s, c) register char *s, c;
    {    while(*s && *s != c) s++;
         return *s == c ? s : NULL;
    }


<i>А. Богатырев, 1992-95                  - 102 -                              Си в UNIX</i>

Заметьте, что p=<i>strchr</i>(s,'\0'); выдает указатель на конец строки.  Вот пример исполь-
зования:

    extern char *strchr();
    char *s = "abcd/efgh/ijklm";
    char *p = <i>strchr</i>(s, '/');
    printf("%s\n", p==NULL ? "буквы / нет" : p);
    if(p) printf("Индекс вхождения = s[%d]\n", p - s );


<i>2.47.</i>  Напишите  функцию  str<i>r</i>chr(),  указывающую  на  последнее  вхождение  символа.
Ответ:

    char *<i>strrchr</i>(s, c) register char *s, c;
    {     char *last = NULL;
          do if(*s == c) last = s; while(*s++);
          return last;
    }

Вот пример ее использования:

    extern char *strrchr();
    char p[] = "wsh";         /* эталон */
    main(argc, argv) char *argv[];{
        char *s = argv[1];    /* проверяемое имя */
        /* попробуйте вызывать
         * a.out csh
         * a.out /bin/csh
         * a.out wsh
         * a.out /usr/local/bin/wsh
         */
        char *base =
             (base = <i>strrchr</i>(s, '/')) ? base+1 : s;
        if( !strcmp(p, base))
             printf("Да, это %s\n" , p);
        else printf("Нет, это %s\n", base);

        /* еще более изощренный вариант: */
        if( !strcmp(p,(base=<i>strrchr</i>(s,'/')) ? ++base :
                                             (base=s))
          )  printf("Yes %s\n", p);
        else printf("No  %s\n", base);
    }


<i>2.48.</i>  Напишите макрос <i>substr</i>(to,from,n,len) который записывает  в  to  кусок  строки
from начиная с n-ой позиции и длиной len.  Используйте стандартную функцию <i>strncpy</i>.
Ответ:

    #define <i>substr</i>(to, from, n, len) <i>strncpy</i>(to, from+n, len)

или более корректная функция:


<i>А. Богатырев, 1992-95                  - 103 -                              Си в UNIX</i>

    char *<i>substr</i>(to, from, n, len) char *to, *from;
    {
       int lfrom = <i>strlen</i>(from);
       if(n &lt; 0 ){ len += n; n = 0; }
       if(n >= lfrom || len &lt;= 0)
            *to = '\0';  /* пустая строка */
       else{
            /* длина остатка строки: */
            if(len > lfrom-n) len = lfrom - n;
            <i>strncpy</i>(to, from+n, len);
            to[len] = '\0';
       }
       return to;
    }


<i>2.49.</i>  Напишите функцию, проверяющую, оканчивается ли строка на ".abc", и если нет  -
приписывающую  ".abc"  к концу.  Если же строка уже имеет такое окончание - ничего не
делать. Эта функция полезна для генерации имен файлов с  заданным  расширением.  Сде-
лайте расширение аргументом функции.
     Для сравнения конца строки s со строкой p следует использовать:

    int ls = <i>strlen</i>(s), lp = <i>strlen</i>(p);
    if(ls >= lp && !<i>strcmp</i>(s+ls-lp, p)) ...совпали...;


<i>2.50.</i>  Напишите функции вставки символа c в указанную позицию  строки  (с  раздвижкой
строки)  и  удаления  символа  в заданной позиции (со сдвижкой строки). Строка должна
изменяться "на месте", т.е. никуда не копируясь. Ответ:

    /* удаление */
    char <i>delete</i>(s, at) register char *s;
    {
            char c;
            s += at; if((c = *s) == '\0') return c;
            while( s[0] = s[1] ) s++;
            return c;
    }
    /* либо просто strcpy(s+at, s+at+1); */


    /* вставка */
    <i>insert</i>(s, at, c) char s[], c;
    {
            register char *p;
            s += at; p = s;
            while(*p) p++;  /* на конец строки */
            p[1] = '\0';    /* закрыть строку  */
            for( ; p != s; p-- )
                    p[0] = p[-1];
            *s = c;
    }


<i>2.51.</i>  Составьте программу удаления символа c из строки s в каждом случае,  когда  он
встречается.
Ответ:


<i>А. Богатырев, 1992-95                  - 104 -                              Си в UNIX</i>

    <i>delc</i>(s, c) register char *s; char c;
    {
       register char *p = s;
       while( *s )
         if( *s != c ) *p++ = *s++;
         else           s++;
       *p = '\0'; /* не забывайте закрывать строку ! */
    }


<i>2.52.</i>  Составьте программу удаления из строки  S1  каждого  символа,  совпадающего  с
каким-либо символом строки S2.

<i>2.53.</i>  Составьте функцию <i>scopy</i>(s,t), которая копирует строку s в t, при этом  символы
табуляции  и перевода строки должны заменяться на специальные двухсимвольные последо-
вательности "\n" и "\t".  Используйте <i>switch</i>.

<i>2.54.</i>  Составьте функцию, которая "укорачивает" строку, заменяя изображения  спецсим-
волов (вроде "\n") на сами эти символы ('\n').  Ответ:

    extern char *strchr();
    void <i>unquote</i>(s) char *s;
    {       static char from[] = "nrtfbae",
                        to  [] = "\n\r\t\f\b\7\33";
            char c, *p, *d;

            for(d=s; c = *s; s++)
                    if( c == '\\'){
                            if( !(c = *++s)) break;
                            p = <i>strchr</i>(from, c);
                            *d++ = p ? to[p - from] : c;
                     }else  *d++ = c;
            *d = '\0';
    }


<i>2.55.</i>  Напишите программу, заменяющую в строке S все вхождения подстроки P на  строку
Q, например:

         P = "ура"; Q = "ой";
         S = "ура-ура-ура!";
            Результат: "ой-ой-ой!"


<i>2.56.</i>  Кроме функций работы со строками (где предполагается, что массив байт заверша-
ется  признаком  конца '<i>\0</i>'), в Си предусмотрены также функции для работы с массивами
байт без ограничителя. Для таких функций необходимо явно указывать длину обрабатывае-
мого  массива.   Напишите функции: пересылки массива длиной n байт <i>memcpy</i>(dst,src,n);
заполнения массива символом c   <i>memset</i>(s,c,n);  поиска  вхождения  символа  в  массив
<i>memchr</i>(s,c,n); сравнения двух массивов               <i>memcmp</i>(s1,s2,n); Ответ:

    #define REG register
    char *<i>memset</i>(s, c, n) REG char *s, c;
    {    REG char *p = s;
         while( --n >= 0 ) *p++ = c;
         return s;
    }
    char *<i>memcpy</i>(dst, src, n)
          REG char *dst, *src;
          REG int n;
    {     REG char *d = dst;


<i>А. Богатырев, 1992-95                  - 105 -                              Си в UNIX</i>

          while( n-- > 0 ) *d++ = *src++;
          return dst;
    }
    char *<i>memchr</i>(s, c, n) REG char *s, c;
    {
          while(n-- && *s++ != c);
          return( n &lt; 0 ? NULL : s-1 );
    }
    int <i>memcmp</i>(s1, s2, n)
          REG char *s1, *s2; REG n;
    {
          while(n-- > 0 && *s1 == *s2)
            s1++, s2++;
          return( n &lt; 0 ? 0 : *s1 - *s2 );
    }

Есть такие стандартные функции.

<i>2.57.</i>  Почему лучше пользоваться стандартными функциями работы со строками и  памятью
(<i>strcpy</i>, <i>strlen</i>, <i>strchr</i>, <i>memcpy</i>, ...)?
     Ответ: потому, что они обычно реализованы поставщиками  системы  ЭФФЕКТИВНО,  то
есть  написаны не на Си, а на ассемблере с использованием специализированных машинных
команд и регистров. Это делает их более быстрыми.  Написанный Вами эквивалент  на  Си
может  использоваться для повышения мобильности программы, либо для внесения поправок
в стандартные функции.

<i>2.58.</i>  Рассмотрим программу, копирующую строку саму в себя:

    #include &lt;stdio.h>
    #include &lt;string.h>

    char string[] = "abcdefghijklmn";
    void main(void){
            memcpy(string+2, string, 5);
            printf("%s\n", string);
            exit(0);

Она печатает abababahijklmn.  Мы могли бы ожидать, что кусок длины 5 символов "abcde"
будет  скопирован как есть: ab[abcde]hijklmn, а получили ab[ababa]hijklmn - цикличес-
кое повторение первых двух символов строки... В чем  дело?  Дело  в  том,  что  когда
области  источника  (src)  и  получателя  (dst) перекрываются, то в некий момент *src
берется из УЖЕ перезаписанной ранее области, то  есть  испорченной!   Вот  программа,
иллюстрирующая эту проблему:


<i>А. Богатырев, 1992-95                  - 106 -                              Си в UNIX</i>

    #include &lt;stdio.h>
    #include &lt;string.h>
    #include &lt;ctype.h>

    char string[] = "abcdefghijklmn";
    char *src = &string[0];
    char *dst = &string[2];
    int n     = 5;

    void show(int niter, char *msg){
            register length, i;

            printf("#%02d %s\n", niter, msg);
            length = src-string;
            putchar('\t');
            for(i=0; i &lt; length+3; i++) putchar(' ');
            putchar('S');  putchar('\n');

            printf("\t...%s...\n", string);

            length = dst-string;
            putchar('\t');
            for(i=0; i &lt; length+3; i++) putchar(' ');
            putchar('D');  putchar('\n');
    }


    void main(void){
            int iter = 0;

            while(n-- > 0){
                    show(iter,   "перед");
                      *dst++ = toupper(*src++);
                    show(iter++, "после");
            }
            exit(0);
    }

Она печатает:


<i>А. Богатырев, 1992-95                  - 107 -                              Си в UNIX</i>

    #00 перед
               S
            ...abcdefghijklmn...
                 D
    #00 после
                S
            ...abAdefghijklmn...
                  D
    #01 перед
                S
            ...abAdefghijklmn...
                  D
    #01 после
                 S
            ...abABefghijklmn...
                   D
    #02 перед
                 S
            ...abABefghijklmn...
                   D
    #02 после
                  S
            ...abABAfghijklmn...
                    D
    #03 перед
                  S
            ...abABAfghijklmn...
                    D
    #03 после
                   S
            ...abABABghijklmn...
                     D
    #04 перед
                   S
            ...abABABghijklmn...
                     D
    #04 после
                    S
            ...abABABAhijklmn...
                      D

Отрезки НЕ перекрываются, если один из них лежит либо  целиком  левее,  либо  целиком
правее другого (n - длина обоих отрезков).

    dst        src                  src        dst
    ########   @@@@@@@@             @@@@@@@@   ########

       dst+n &lt;= src         или          src+n &lt;= dst
       dst &lt;= src-n         или          dst >= src+n

Отрезки перекрываются в случае

    ! (dst &lt;= src - n || dst >= src + n) =
      (dst >  src - n && dst &lt;  src + n)

При этом опасен только случай dst > src.  Таким образом опасная ситуация  описывается
условием

    src &lt; dst && dst &lt; src + n

(если dst==src, то вообще ничего не надо делать).  Решением является копирование  "от


<i>А. Богатырев, 1992-95                  - 108 -                              Си в UNIX</i>

хвоста к голове":

    void bcopy(register char *src, register char *dst,
               register int n){

            if(dst >= src){
                    dst += n-1;
                    src += n-1;
                    while(--n >= 0)
                            *dst-- = *src--;
            }else{
                    while(n-- > 0)
                            *dst++ = *src++;
            }
    }

Или, ограничиваясь только опасным случаем:

    void <i>bcopy</i>(register char *src, register char *dst,
               register int n){

            if(dst==src || n &lt;= 0) return;
            if(src &lt; dst && dst &lt; src + n) {
                    dst += n-1;
                    src += n-1;
                    while(--n >= 0)
                            *dst-- = *src--;
            }else   memcpy(dst, src, n);
    }

Программа

    #include &lt;stdio.h>
    #include &lt;string.h>
    #include &lt;ctype.h>

    char string[] = "abcdefghijklmn";
    char *src = &string[0];
    char *dst = &string[2];
    int n     = 5;

    void show(int niter, char *msg){
            register length, i;

            printf("#%02d %s\n", niter, msg);
            length = src-string;
            putchar('\t');
            for(i=0; i &lt; length+3; i++) putchar(' ');
            putchar('S');  putchar('\n');

            printf("\t...%s...\n", string);

            length = dst-string;
            putchar('\t');
            for(i=0; i &lt; length+3; i++) putchar(' ');
            putchar('D');  putchar('\n');
    }


<i>А. Богатырев, 1992-95                  - 109 -                              Си в UNIX</i>

    void main(void){
            int iter = 0;

            if(dst==src || n &lt;= 0){
                    printf("Ничего не надо делать\n");
                    return;
            }

            if(src &lt; dst && dst &lt; src + n) {
                    dst += n-1;
                    src += n-1;
                    while(--n >= 0){
                            show(iter,   "перед");
                              *dst-- = toupper(*src--);
                            show(iter++, "после");
                    }
            }else
                    while(n-- > 0){
                            show(iter,   "перед");
                              *dst++ = toupper(*src++);
                            show(iter++, "после");
                    }
            exit(0);
    }

Печатает


<i>А. Богатырев, 1992-95                  - 110 -                              Си в UNIX</i>

    #00 перед
                   S
            ...abcdefghijklmn...
                     D
    #00 после
                  S
            ...abcdefEhijklmn...
                    D
    #01 перед
                  S
            ...abcdefEhijklmn...
                    D
    #01 после
                 S
            ...abcdeDEhijklmn...
                   D
    #02 перед
                 S
            ...abcdeDEhijklmn...
                   D
    #02 после
                S
            ...abcdCDEhijklmn...
                  D
    #03 перед
                S
            ...abcdCDEhijklmn...
                  D
    #03 после
               S
            ...abcBCDEhijklmn...
                 D
    #04 перед
               S
            ...abcBCDEhijklmn...
                 D
    #04 после
              S
            ...abABCDEhijklmn...
                D

Теперь <i>bcopy</i>() - удобная функция для копирования и сдвига массивов, в частности  мас-
сивов указателей.  Пусть у нас есть массив строк (выделенных <i>malloc</i>-ом):

    char *lines[NLINES];

Тогда циклическая перестановка строк выглядит так:


<i>А. Богатырев, 1992-95                  - 111 -                              Си в UNIX</i>

    void <i>scrollUp</i>(){
            char *save = lines[0];
            bcopy((char *) lines+1, /* from */
                  (char *) lines,   /* to */
                  sizeof(char *) * (NLINES-1));
            lines[NLINES-1] = save;
    }
    void <i>scrollDown</i>(){
            char *save = lines[NLINES-1];
            bcopy((char *) &lines[0], /* from */
                  (char *) &lines[1], /* to */
                  sizeof(char *) * (NLINES-1));
            lines[0] = save;
    }

Возможно, что написание по аналогии функции для копирования массивов  элементов  типа
(void *) - обобщенных указателей - может оказаться еще понятнее и эффективнее.  Такая
функция - <i>memmove</i> - стандартно существует в <i>UNIX SVR4</i>.  Заметьте, что  порядок  аргу-
ментов в ней обратный по отношению к <i>bcopy</i>.  Следует отметить, что в SVR4 все функции
<i>mem...</i> имеют указатели типа (void *) и счетчик типа <i>size</i>_<i>t</i> - тип для количества  байт
(вместо <i>unsigned long</i>); в частности длина файла имеет именно этот тип (смотри систем-
ные вызовы <i>lseek</i> и <i>stat</i>).

    #include &lt;sys/types.h>

    void <i>memmove</i>(void *Dst, const void *Src,
                 register size_t n){

                register caddr_t src = (caddr_t) Src,
                                 dst = (caddr_t) Dst;

                if(dst==src || n &lt;= 0) return;
                if(src &lt; dst && dst &lt; src + n) {
                        dst += n-1;
                        src += n-1;
                        while(--n >= 0)
                                *dst-- = *src--;
                }else   memcpy(dst, src, n);
    }

<i>caddr</i>_<i>t</i> - это тип для указателей на БАЙТ, фактически  это  (unsigned char *).   Зачем
вообще понадобилось использовать <i>caddr</i>_<i>t</i>?  Затем, что для

    void *pointer;
    int n;

значение

    pointer + n

не определено и невычислимо, ибо <i>sizeof(void)</i> не имеет смысла - это не  0,  а  просто
ошибка, диагностируемая компилятором!

<i>2.59.</i>  Еще об опечатках: вот что бывает, когда вместо знака `='  печатается  `-'  (на
клавиатуре они находятся рядом...).


<i>А. Богатырев, 1992-95                  - 112 -                              Си в UNIX</i>

    #include &lt;stdio.h>
    #include &lt;strings.h>
    char *<i>strdup</i>(const char *s){
            extern void *<i>malloc</i>();
            return <i>strcpy</i>((char *)<i>malloc</i>(<i>strlen</i>(s)+1), s);
    }
    char *ptr;
    void <i>main</i>(int ac, char *av[]){
            ptr - <i>strdup</i>("hello"); /* подразумевалось ptr = ... */
            *ptr = 'H';
            <i>printf</i>("%s\n", ptr);
            <i>free</i>(ptr);
            <i>exit</i>(0);
    }

Дело в том, что запись (а часто и чтение) по <i>*</i>pointer, где pointer==<i>NULL</i>, приводит  к
аварийному прекращению программы. В нашей программе ptr осталось равным <i>NULL</i> - указа-
телем в никуда.  В операционной системе <i>UNIX</i> на машинах с аппаратной защитой  памяти,
страница  памяти,  содержащая  адрес <i>NULL</i> (0) бывает закрыта на запись, поэтому любое
обращение по записи в эту страницу вызывает прерывание от диспетчера памяти и аварий-
ное  прекращение процесса.  Система сама помогает ловить ваши ошибки (но уже во время
выполнения программы). Это ОЧЕНЬ частая ошибка - запись по  адресу  <i>NULL</i>.  MS  DOS  в
таких  случаях предпочитает просто зависнуть, и вы бываете вынуждены играть аккорд из
трех клавиш - Ctrl/Alt/Del, так и не поняв в чем дело.

<i>2.60.</i>  Раз уж речь зашла о функции <i>strdup</i> (кстати, это стандартная функция), приведем
еще одну функцию для сохранения строк.

    char *<i>savefromto</i>(register char *from, char *upto)
    {
            char *ptr, *s;

            if((ptr = (char *) <i>malloc</i>(upto - from + 1)) == NULL)
                    return NULL;

            for(s = ptr; from &lt; upto; from++)
                    *s++ = *from;

            *s = '\0';
            return ptr;
    }

Сам символ (*upto) не сохраняется, а заменяется на '\0'.

<i>2.61.</i>  Упрощенный аналог функции <i>printf</i>.


<i>А. Богатырев, 1992-95                  - 113 -                              Си в UNIX</i>

    /*
     * Машинно - независимый printf() (упрощенный вариант).
     * printf - Форматный Вывод.
     */
    #include &lt;stdio.h>
    #include &lt;ctype.h>
    #include &lt;varargs.h>
    #include &lt;errno.h>
    #include &lt;string.h>

    extern int errno;       /* код системной ошибки, формат %m */

    /* чтение значения числа */
    #define <i>GETN</i>(n,fmt)                      \
            n = 0;                           \
            while(isdigit(*fmt)){            \
                    n = n*10 + (*fmt - '0'); \
                    fmt++;                   \
            }


    void <i>myprintf</i>(fmt, va_alist)
           register char *fmt; va_dcl
    {
      va_list ap;
      char c, *s; int i;
      int width, /* минимальная ширина поля */
          prec,  /* макс. длина данного */
          sign,  /* выравнивание: 1 - вправо, -1 - влево */
          zero,  /* ширина поля начинается с 0 */
          glong; /* требуется длинное целое */

      va_start(ap);
      for(;;){
         while((c = *fmt++) != '%'){
           if( c == '\0' ) goto out;
           putchar(c);
         }
         sign = 1; zero = 0; glong = 0;
         if(*fmt == '-'){ sign = (-1); fmt++; }
         if(*fmt == '0'){ zero = 1; fmt++; }
         if(*fmt == '*'){
             width = va_arg(ap, int);
             if(width &lt; 0){ width = -width; sign = -sign; }
             fmt++;
         }else{
             GETN(width, fmt);
         }
         width *= sign;

         if(*fmt == '.'){
            if(*++fmt == '*'){
               prec = va_arg(ap, int); fmt++;
            }else{
               GETN(prec, fmt);
            }
         }else prec = (-1); /* произвольно */

         if( *fmt == 'l' ){
            glong = 1; fmt++;
         }


<i>А. Богатырев, 1992-95                  - 114 -                              Си в UNIX</i>

         switch(c = *fmt++){
         case 'c':
            putchar(va_arg(ap, int)); break;
         case 's':
            prStr(width, prec, va_arg(ap, char *)); break;
         case 'm':
            prStr(width, prec, strerror(errno));    break;
            /* strerror преобразует код ошибки в строку-расшифровку */
         case 'u':
            prUnsigned(width,
                      glong ? va_arg(ap, unsigned long) :
                              (unsigned long) va_arg(ap, unsigned int),
                      10 /* base */, zero); break;
         case 'd':
            prInteger(width,
                      glong ? va_arg(ap, long) : (long) va_arg(ap, int),
                      10 /* base */, zero);  break;
         case 'o':
            prUnsigned(width,
                      glong ? va_arg(ap, unsigned long) :
                              (unsigned long) va_arg(ap, unsigned int),
                      8 /* base */, zero);   break;
         case 'x':
            prUnsigned(width,
                      glong ? va_arg(ap, unsigned long) :
                              (unsigned long) va_arg(ap, unsigned int),
                      16 /* base */, zero);  break;
         case 'X':
            prUnsigned(width,
                      glong ? va_arg(ap, unsigned long) :
                              (unsigned long) va_arg(ap, unsigned int),
                      -16 /* base */, zero); break;
         case 'b':
            prUnsigned(width,
                      glong ? va_arg(ap, unsigned long) :
                              (unsigned long) va_arg(ap, unsigned int),
                      2 /* base */, zero);   break;
         case 'a':  /* address */
            prUnsigned(width,
                      (long) (char *) va_arg(ap, char *),
                      16 /* base */, zero);  break;
         case 'A':  /* address */
            prUnsigned(width,
                      (long) (char *) va_arg(ap, char *),
                      -16 /* base */, zero); break;
         case 'r':
            prRoman(width, prec, va_arg(ap, int)); break;
         case '%':
            putchar('%'); break;
         default:
            putchar(c);   break;
         }
      }
    out:
      va_end(ap);
    }


<i>А. Богатырев, 1992-95                  - 115 -                              Си в UNIX</i>

    /* --------------------------------------------------------- */
    int <i>strnlen</i>(s, maxlen) char *s;
    {
            register n;
            for( n=0; *s && n &lt; maxlen; n++, s++ );
            return n;
    }


    /* Печать строки */
    static <i>prStr</i>(width, prec, s) char *s;
    {
      int ln;         /* сколько символов выводить */
      int toLeft = 0; /* к какому краю прижимать   */

      if(s == NULL){ pr( "(NULL)", 6); return; }

      /* Измерить длину и обрубить длинную строку.
       * Дело в том, что строка может не иметь \0 на конце, тогда
       * strlen(s) может привести к обращению в запрещенные адреса */
      ln = (prec > 0 ? strnlen(s, prec) : strlen(s));

      /* ширина поля */
      if( ! width ) width = (prec > 0 ? prec : ln);
      if( width &lt; 0){ width = -width; toLeft = 1; }
      if( width > ln){
            /* дополнить поле пробелами */
            if(toLeft){ pr(s, ln); prSpace(width - ln, ' ');  }
            else      { prSpace(width - ln, ' '); pr(s, ln);  }
      }     else      { pr(s, ln);                            }
    }


    /* Печать строки длиной l */
    static <i>pr</i>(s, ln) register char *s; register ln;
    {
      for( ; ln > 0 ; ln-- )
        putchar( *s++ );
    }


    /* Печать n символов c */
    static <i>prSpace</i>(n, c) register n; char c;{
      for( ; n > 0 ; n-- )
        putchar( c );
    }


    /* --------------------------------------------------------- */
    static char *ds;

    /* Римские цифры */
    static <i>prRoman</i>(w,p,n){
            char bd[60];
            ds = bd;
            if( n &lt; 0 ){ n = -n; *ds++ = '-'; }
            prRdig(n,6);
            *ds = '\0';
            prStr(w, p, bd);
    }


<i>А. Богатырев, 1992-95                  - 116 -                              Си в UNIX</i>

    static <i>prRdig</i>(n, d){
            if( !n ) return;
            if( d ) prRdig( n/10, d - 2);
            tack(n%10, d);
    }


    static <i>tack</i>(n, d){
            static char im[] = "  MDCLXVI";
                    /* ..1000 500 100 50 10 5 1 */
            if( !n ) return;
            if( 1 &lt;= n && n &lt;= 3 ){
                    repeat(n, im[d+2]); return;
            }
            if( n == 4 )
                    *ds++ = im[d+2];
            if( n == 4 || n == 5 ){
                    *ds++ = im[d+1]; return;
            }
            if( 6 &lt;= n && n &lt;= 8 ){
                    *ds++ = im[d+1];
                    repeat(n - 5, im[d+2] );
                    return;
            }
            /* n == 9 */
            *ds++ = im[d+2]; *ds++ = im[d];
    }


    static <i>repeat</i>(n, c) char c;
    {       while( n-- > 0 ) *ds++ = c;      }


    /* --------------------------------------------------------- */
    static char aChar = 'A';

    static <i>prInteger</i>(w, n, base, zero) long n;
    {
            /* преобразуем число в строку */
            char bd[128];
            int neg = 0;    /* &lt; 0 */

            if( n &lt; 0 ){ neg = 1; n = -n; }

            if( base &lt; 0 ){ base = -base; aChar = 'A'; }
            else          {               aChar = 'a'; }

            ds = bd; prUDig( n, base ); *ds = '\0';
            /* Теперь печатаем строку */
            prIntStr( bd, w, zero, neg );
    }


<i>А. Богатырев, 1992-95                  - 117 -                              Си в UNIX</i>

    static <i>prUnsigned</i>(w, n, base, zero) unsigned long n;
    {
            char bd[128];

            if( base &lt; 0 ){ base = -base; aChar = 'A'; }
            else          {               aChar = 'a'; }

            ds = bd; prUDig( n, base ); *ds = '\0';
            /* Теперь печатаем строку */
            prIntStr( bd, w, zero, 0 );
    }


    static <i>prUDig</i>( n, base ) unsigned long n;
    {
            unsigned long aSign;

            if((aSign = n/base ) > 0 )
                    prUDig( aSign, base );
            aSign = n % base;
            *ds++ = (aSign &lt; 10 ? '0' + aSign : aChar + (aSign - 10));
    }


    static <i>prIntStr</i>( s, width, zero, neg ) char *s;
    {
      int ln;         /* сколько символов выводить */
      int toLeft = 0; /* к какому краю прижимать   */

      ln = strlen(s);            /* длина строки s */

      /* Ширина поля: вычислить, если не указано явно */
      if( ! width ){
            width = ln;  /* ширина поля    */
            if( neg )   width++;         /* 1 символ для минуса */
      }
      if( width &lt; 0 ){ width = -width; toLeft = 1; }

      if( ! neg ){  /* Положительное число */
        if(width > ln){
            if(toLeft){ pr(s, ln);              prSpace(width - ln, ' ');  }
            else      { prSpace(width - ln, zero ? '0' : ' '); pr(s, ln);  }
        }   else      { pr(s, ln);                                         }

      }else{        /* Отрицательное число */
        if(width > ln){
            /* Надо заполнять оставшуюся часть поля */

            width -- ; /* width содержит одну позицию для минуса */
            if(toLeft){ putchar('-'); pr(s, ln); prSpace(width - ln, ' ');  }
            else{
                    if( ! zero ){
                            prSpace(width - ln, ' '); putchar('-'); pr(s,ln);
                    } else {
                            putchar('-'); prSpace(width - ln, '0'); pr(s, ln);
                    }
            }
        }   else    {       putchar('-'); pr(s, ln);   }
      }
    }


<i>А. Богатырев, 1992-95                  - 118 -                              Си в UNIX</i>

    /* --------------------------------------------------------- */
    <i>main</i>(){
            int i, n;
            static char s[] = "Hello, world!\n";
            static char p[] = "Hello, world";
            long t = 7654321L;

            myprintf( "%%abc%Y\n");
            myprintf( "%s\n",        "abs" );
            myprintf( "%5s|\n",       "abs" );
            myprintf( "%-5s|\n",      "abs" );
            myprintf( "%5s|\n",       "xyzXYZ" );
            myprintf( "%-5s|\n",      "xyzXYZ" );
            myprintf( "%5.5s|\n",     "xyzXYZ" );
            myprintf( "%-5.5s|\n",    "xyzXYZ" );
            myprintf( "%r\n",       444 );
            myprintf( "%r\n",       999 );
            myprintf( "%r\n",       16 );
            myprintf( "%r\n",       18 );
            myprintf( "%r\n",       479 );
            myprintf( "%d\n",  1234 );
            myprintf( "%d\n",  -1234 );
            myprintf( "%ld\n",  97487483 );
            myprintf( "%2d|%2d|\n",   1, -3 );
            myprintf( "%-2d|%-2d|\n", 1, -3 );
            myprintf( "%02d|%2d|\n",   1, -3 );
            myprintf( "%-02d|%-2d|\n", 1, -3 );
            myprintf( "%5d|\n",   -12 );
            myprintf( "%05d|\n",  -12 );
            myprintf( "%-5d|\n",  -12 );
            myprintf( "%-05d|\n", -12 );


            for( i = -6; i &lt; 6; i++ )
                 myprintf( "width=%2d|%0*d|%0*d|%*d|%*d|\n", i,
                   i,  123,  i, -123, i,  123, i, -123);
            myprintf( "%s at location %a\n", s, s );
            myprintf( "%ld\n", t );
            n = 1; t = 1L;
            for( i=0; i &lt; 34; i++ ){
         myprintf( "for %2d   |%016b|%d|%u|\n\t |%032lb|%ld|%lu|\n",
                          i,       n, n, n,           t,  t,  t );
                    n *= 2;
                    t *= 2;
            }
            myprintf( "%8x %8X\n", 7777, 7777 );
            myprintf( "|%s|\n", p );
            myprintf( "|%10s|\n", p );
            myprintf( "|%-10s|\n", p );
            myprintf( "|%20s|\n", p );
            myprintf( "|%-20s|\n", p );
            myprintf( "|%20.10s|\n", p );
            myprintf( "|%-20.10s|\n", p );
            myprintf( "|%.10s|\n", p );
    }


<i>А. Богатырев, 1992-95                  - 119 -                              Си в UNIX</i>

         Выдача этой программы:
    %abcY
    abs
      abs|
    abs  |
    xyzXYZ|
    xyzXYZ|
    xyzXY|
    xyzXY|
    CDXLIV
    CMXCIX
    XVI
    XVIII
    CDLXXIX
    1234
    -1234
    97487483
     1|-3|
    1 |-3|
    01|-3|
    1 |-3|
      -12|
    -0012|
    -12  |
    -12  |
    width=-6|123   |-123  |123   |-123  |
    width=-5|123  |-123 |123  |-123 |
    width=-4|123 |-123|123 |-123|
    width=-3|123|-123|123|-123|
    width=-2|123|-123|123|-123|
    width=-1|123|-123|123|-123|
    width= 0|123|-123|123|-123|
    width= 1|123|-123|123|-123|
    width= 2|123|-123|123|-123|
    width= 3|123|-123|123|-123|
    width= 4|0123|-123| 123|-123|
    width= 5|00123|-0123|  123| -123|
    Hello, world!
     at location 400980
    7654321
    for  0   |0000000000000001|1|1|
             |00000000000000000000000000000001|1|1|
    for  1   |0000000000000010|2|2|
             |00000000000000000000000000000010|2|2|
    for  2   |0000000000000100|4|4|
             |00000000000000000000000000000100|4|4|
    for  3   |0000000000001000|8|8|
             |00000000000000000000000000001000|8|8|
    for  4   |0000000000010000|16|16|
             |00000000000000000000000000010000|16|16|
    for  5   |0000000000100000|32|32|
             |00000000000000000000000000100000|32|32|
    for  6   |0000000001000000|64|64|
             |00000000000000000000000001000000|64|64|
    for  7   |0000000010000000|128|128|
             |00000000000000000000000010000000|128|128|
    for  8   |0000000100000000|256|256|
             |00000000000000000000000100000000|256|256|
    for  9   |0000001000000000|512|512|
             |00000000000000000000001000000000|512|512|
    for 10   |0000010000000000|1024|1024|


<i>А. Богатырев, 1992-95                  - 120 -                              Си в UNIX</i>

             |00000000000000000000010000000000|1024|1024|
    for 11   |0000100000000000|2048|2048|
             |00000000000000000000100000000000|2048|2048|
    for 12   |0001000000000000|4096|4096|
             |00000000000000000001000000000000|4096|4096|
    for 13   |0010000000000000|8192|8192|
             |00000000000000000010000000000000|8192|8192|
    for 14   |0100000000000000|16384|16384|
             |00000000000000000100000000000000|16384|16384|
    for 15   |1000000000000000|32768|32768|
             |00000000000000001000000000000000|32768|32768|
    for 16   |10000000000000000|65536|65536|
             |00000000000000010000000000000000|65536|65536|
    for 17   |100000000000000000|131072|131072|
             |00000000000000100000000000000000|131072|131072|
    for 18   |1000000000000000000|262144|262144|
             |00000000000001000000000000000000|262144|262144|
    for 19   |10000000000000000000|524288|524288|
             |00000000000010000000000000000000|524288|524288|
    for 20   |100000000000000000000|1048576|1048576|
             |00000000000100000000000000000000|1048576|1048576|
    for 21   |1000000000000000000000|2097152|2097152|
             |00000000001000000000000000000000|2097152|2097152|
    for 22   |10000000000000000000000|4194304|4194304|
             |00000000010000000000000000000000|4194304|4194304|
    for 23   |100000000000000000000000|8388608|8388608|
             |00000000100000000000000000000000|8388608|8388608|
    for 24   |1000000000000000000000000|16777216|16777216|
             |00000001000000000000000000000000|16777216|16777216|
    for 25   |10000000000000000000000000|33554432|33554432|
             |00000010000000000000000000000000|33554432|33554432|
    for 26   |100000000000000000000000000|67108864|67108864|
             |00000100000000000000000000000000|67108864|67108864|
    for 27   |1000000000000000000000000000|134217728|134217728|
             |00001000000000000000000000000000|134217728|134217728|
    for 28   |10000000000000000000000000000|268435456|268435456|
             |00010000000000000000000000000000|268435456|268435456|
    for 29   |100000000000000000000000000000|536870912|536870912|
             |00100000000000000000000000000000|536870912|536870912|
    for 30   |1000000000000000000000000000000|1073741824|1073741824|
             |01000000000000000000000000000000|1073741824|1073741824|
    for 31   |10000000000000000000000000000000|-2147483648|2147483648|
             |10000000000000000000000000000000|-2147483648|2147483648|
    for 32   |0000000000000000|0|0|
             |00000000000000000000000000000000|0|0|
    for 33   |0000000000000000|0|0|
             |00000000000000000000000000000000|0|0|
        1e61     1E61
    |Hello, world|
    |Hello, world|
    |Hello, world|
    |        Hello, world|
    |Hello, world        |
    |          Hello, wor|
    |Hello, wor          |
    |Hello, wor|


<i>2.62.</i>  Рассмотрим программу суммирования векторов:


<i>А. Богатырев, 1992-95                  - 121 -                              Си в UNIX</i>

    int A[1024], B[1024], C[1024];
            ...
    for(i=0; i &lt; 1024; i++) C[i] = A[i] + B[i];

А почему бы не

    for(i=1024-1; i >=0 ; --i) ...;

А почему бы не в произвольном порядке?

    foreach i in (0..1023) ...;

Данный пример показывает, что некоторые операции обладают  врожденным  паралеллизмом,
ведь  все 1024 сложений можно было бы выполнять параллельно!  Однако тупой компилятор
будет складывать их именно в том порядке, в котором вы ему велели.  Только самые сов-
ременные  компиляторы на многопроцессорных системах умеют автоматически распараллели-
вать такие циклы. Сам язык <i>Си</i> не содержит средств указания параллельности (разве  что
снова - библиотеки и системные вызовы для этого).


<i>А. Богатырев, 1992-95                  - 122 -                              Си в UNIX</i>

        3.  Мобильность и машинная зависимость программ. Проблемы с русскими буквами.
     Программа считается мобильной, если она без каких-либо  изменений  ее  исходного
текста (либо после настройки некоторых констант при помощи <i>#define</i> и <i>#ifdef</i>) трансли-
руется и работает на разных типах машин  (с  разной  разрядностью,  системой  команд,
архитектурой, периферией) под управлением операционных систем одного семейства. Заме-
тим, что мобильными могут быть только исходные тексты программ, объектные модули  для
разных процессоров, естественно, несовместимы!

<i>3.1.</i>  Напишите программу, печатающую размер типов  данных  <i>char</i>,  <i>short</i>,  <i>int</i>,  <i>long</i>,
<i>float</i>, <i>double</i>, (<i>char *</i>) в байтах.  Используйте для этого встроенную операцию sizeof.

<i>3.2.</i>  Составьте мобильную программу, выясняющую значения следующих величин для  любой
машины, на которой работает программа:
1)   Наибольшее допустимое знаковое целое.
2)   Наибольшее беззнаковое целое.
3)   Наибольшее по абсолютной величине отрицательное целое.
4)   Точность значения |x|, отличающегося от 0, где x - вещественное число.
5)   Наименьшее значение e, такое что машина различает числа 1 и 1+e (для  веществен-
     ных чисел).

<i>3.3.</i>  Составьте мобильную программу, выясняющую  длину  машинного  слова  ЭВМ  (число
битов в переменной типа <i>int</i>). Указание: для этого можно использовать битовые сдвиги.

<i>3.4.</i>  Надо ли писать в своих программах определения

    #define <i>EOF</i>  (-1)
    #define <i>NULL</i> ((char *) 0)   /* или ((void *)0) */

Ответ: НЕТ. Во-первых, эти константы уже определены в include-файле, подключаемом  по
директиве

    #include &lt;stdio.h>

поэтому правильнее написать именно эту директиву. Во-вторых, это было бы просто  неп-
равильно:  конкретные  значения  этих  констант на данной машине (в данной реализации
системы) могут быть другими! Чтобы придерживаться тех соглашений, которых придержива-
ются  все  стандартные  функции  данной  реализации, вы ДОЛЖНЫ брать эти константы из
&lt;stdio.h>.
По той же причине следует писать

     #include &lt;fcntl.h>
     int fd = <i>open</i>( имяФайла, <i>O</i>_<i>RDONLY</i>); /* <i>O</i>_<i>WRONLY</i>, <i>O</i>_<i>RDWR</i> */
            вместо
     int fd = <i>open</i>( имяФайла, 0);        /* 1,        2      */


<i>3.5.</i>  Почему может завершаться по защите памяти следующая программа?

    #include &lt;sys/types.h>
    #include &lt;stdio.h>
    <i>time</i>_<i>t</i> t;
    extern <i>time</i>_<i>t time</i>();
          ...
    t = <i>time</i>(0);
    /* узнать текущее время в секундах с 1 Янв. 1970 г.*/

Ответ: дело в том, что прототип системного вызова <i>time</i>() это:

            time_t <i>time</i>( time_t *t );

то есть аргумент должен быть указателем.  Мы же вместо указателя написали в  качестве


<i>А. Богатырев, 1992-95                  - 123 -                              Си в UNIX</i>

аргумента  0  (типа int).  На машине <i>IBM PC AT 286</i> указатель - это 2 слова, а целое -
одно.  Недостающее слово будет взято из стека произвольно.  В результате <i>time</i>() полу-
чает в качестве аргумента не нулевой указатель, а мусор. Правильно будет написать:

            t = <i>time</i>(NULL);
      либо (по определению time())
                <i>time</i>( &t );


а еще более корректно так:

            t = <i>time</i>((time_t *)NULL);

Мораль: везде, где требуется нулевой указатель, следует писать <i>NULL</i> (или явное приве-
дение нуля к типу указателя), а не просто 0.

<i>3.6.</i>  Найдите ошибку:

       void f(x, s) long x; char *s;
       {
           printf( "%ld %s\n", x, s );
       }
       void main(){
           f( 12, "hello" );
       }

Эта программа работает на <i>IBM PC 386</i>, но не работает на <i>IBM PC 286</i>.
     Ответ. Здесь возникает та же проблема, что и в примере про <i>sin</i>(12). Дело в  том,
что  <i>f</i>  требует  первый аргумент типа <i>long</i> (4 байта на <i>IBM PC 286</i>), мы же передаем ей
<i>int</i> (2 байта). В итоге в x попадает неверное значение;  но  более  того,  недостающие
байты отбираются у следующего аргумента - s. В итоге и адрес строки становится непра-
вильным, программа обращается по несуществующему адресу и падает.   На  <i>IBM PC 386</i>  и
<i>int</i> и <i>long</i> имеют длину 4 байта, поэтому там эта ошибка не проявляется!
     Опять-таки, это повод для использования прототипов функций (когда вы  прочитаете
про них - вернитесь к этому примеру!). Напишите прототип

            void <i>f</i>(long x, char *s);

и ошибки не будет.
     В данном примере мы использовали тип <i>void</i>, которого  не  сушествовало  в  ранних
версиях  языка  Си.  Этот  тип  означает, что функция не возвращает значения (то есть
является "процедурой" в смысле языков <i>Pascal</i> или <i>Algol</i>).  Если мы  не  напишем  слово
<i>void</i>  перед  <i>f</i>,  то компилятор будет считать функцию <i>f</i> возвращающей целое (<i>int</i>), хотя
эта функция ничего не возвращает (в ней нет оператора <i>return</i>).  В большинстве случаев
это не принесет вреда и программа будет работать.  Но зато если мы напишем

       int x = f((long) 666, "good bye" );

то x получит непредсказуемое значение. Если же <i>f</i> описана как <i>void</i>, то написанный опе-
ратор заставит компилятор сообщить об ошибке.
     Тип (<i>void *</i>) означает указатель на что угодно (понятно, что к  такому  указателю
операции  [],  *,  -> неприменимы: сначала следует явно привести указатель к содержа-
тельному типу "указатель на тип"). В частности, сейчас  стало  принято  считать,  что
функция  динамического выделения памяти (memory allocation) <i>malloc</i>() (которая отводит
в куче<i>|</i>= область памяти заказанного размера и выдает указатель на нее) имеет прототип:

____________________
   <i>|</i>- В данной книге слова "указатель" и "ссылка"  употребляются  в  одном  и  том  же
смысле.   Если  вы  обратитесь  к  языку <i>Си++</i>, то обнаружите, что там эти два термина
(pointer и reference) означают разные понятия (хотя и сходные).
____________________


<i>А. Богатырев, 1992-95                  - 124 -                              Си в UNIX</i>

    void *<i>malloc</i>(unsigned size); /* size байт */
    char      *s = (char *)      <i>malloc</i>( strlen(buf)+1 );
    struct ST *p = (struct ST *) <i>malloc</i>( sizeof(struct ST));
                                  /* или sizeof(*p) */

хотя раньше принято было char *<i>malloc</i>();

<i>3.7.</i>  Поговорим про оператор <i>sizeof</i>.  Отметим распространенную ошибку,  когда  <i>sizeof</i>
принимают  за  функцию.   Это  не так! <i>sizeof</i> вычисляется компилятором при трансляции
программы, а не программой во время выполнения. Пусть

       char a[] = "abcdefg";
       char *b  = "hijklmn";

Тогда

       <i>sizeof</i>(a)    есть 8  (байт \0 на конце - считается)
       <i>sizeof</i>(b)    есть 2  на <i>PDP-11</i> (размер указателя)
       <i>strlen</i>(a)    есть 7
       <i>strlen</i>(b)    есть 7

Если мы сделаем

       b = "This ia a new line";
       <i>strcpy</i>(a, "abc");

то все равно

       <i>sizeof</i>(b) останется равно 2
       <i>sizeof</i>(a)                 8

Таким образом <i>sizeof</i> выдает количество зарезервированной  для  переменной  памяти  (в
байтах), независимо от текущего ее содержимого.
     Операция <i>sizeof</i> применима даже к выражениям. В этом  случае  она  сообщает  нам,
каков будет размер у результата этого выражения.  Само выражение при этом не вычисля-
ется, так в

    double f(){ printf( "Hi!\n"); return 12.34; }
    main(){
            int x = 2; long y = 4;
            printf( "%u\n", sizeof(x + y + f()));
    }

будет напечатано значение, совпадающее с <i>sizeof</i>(double), а фраза "Hi!" не будет напе-
чатана.
     Когда оператор <i>sizeof</i> применяется к переменной (а не к  имени  типа),  можно  не
писать круглые скобки:

    <i>sizeof</i>(<i>char *</i>);   но   <i>sizeof</i> x;


<i>3.8.</i>  Напишите объединение, в котором может храниться  либо  указатель,  либо  целое,
либо действительное число.  Ответ:

    union all{
          char *s; int i; double f;
____________________
   <i>|</i>= "Куча" (heap, pool) - область статической памяти, увеличивающаяся по мере надоб-
ности, и предназначенная как раз для хранения динамически отведенных данных.


<i>А. Богатырев, 1992-95                  - 125 -                              Си в UNIX</i>

    } x;
    x.i = 12  ; printf("%d\n", x.i);
    x.f = 3.14; printf("%f\n", x.f);
    x.s = "Hi, there"; printf("%s\n", x.s);
    printf("int=%d double=%d (char *)=%d all=%d\n",
       sizeof(int), sizeof(double), sizeof(char *),
       sizeof x);

В данном примере вы обнаружите, что размер переменной x равен максимальному из разме-
ров типов <i>int</i>, <i>double</i>, <i>char *</i>.
     Если вы хотите использовать одну и ту же переменную для хранения  данных  разных
типов, то для получения мобильной программы вы должны пользоваться только объединени-
ями и никогда не привязываться к длине слова и представлению  этих  типов  данных  на
конкретной  ЗВМ! Раньше, когда программисты не думали о мобильности, они писали прог-
раммы, где в одной переменой типа <i>int</i> хранили в зависимости от нужды то целые  значе-
ния,  то  указатели  (это было на машинах <i>PDP</i> и <i>VAX</i>).  Увы, такие программы оказались
непереносимы на машины, на которых  sizeof(<i>int</i>) != sizeof(<i>char *</i>),  более  того,  они
оказались  весьма  туманны  для понимания их другими людьми.  Не следуйте этому стилю
(такой стиль американцы называют "poor style"), более того,  всеми  силами  избегайте
его!
     Сравните два примера, использующие два стиля программирования.  Первый стиль  не
так плох, как только что описанный, но все же мы рекомендуем использовать только вто-
рой:

    /* СТИЛЬ ПЕРВЫЙ: ЯВНЫЕ ПРЕОБРАЗОВАНИЯ ТИПОВ */
    typedef void *PTR; /* универсальный указатель */
    struct a { int x, y;    PTR pa; } A;
    struct b { double u, v; PTR pb; } B;
    #define Aptr(p) ((struct a *)(p))
    #define Bptr(p) ((struct b *)(p))
    PTR ptr1, ptr2;
    main(){
        ptr1 = &A; ptr2 = &B;
        Bptr(ptr2)->u = Aptr(ptr1)->x = 77;
        printf("%f %d\n", B.u, A.x);
    }


    /* СТИЛЬ ВТОРОЙ: ОБ'ЕДИНЕНИЕ   */
    /* предварительное объявление: */
    extern struct a; extern struct b;
    /* универсальный тип данных:   */
    typedef union everything {
        int i; double d; char *s;
        struct a *ap; struct b *bp;
    } ALL;
    struct a { int x, y;    ALL pa; } A;
    struct b { double u, v; ALL pb; } B;
    ALL ptr1, ptr2, zz;
    main(){
        ptr1.ap = &A; ptr2.bp = &B; zz.i = 77;
        ptr2.bp->u = ptr1.ap->x = zz.i;
        printf("%f %d\n", B.u, A.x);
    }


<i>3.9.</i>  Для выделения классов символов (например цифр), следует пользоваться  макросами
из include-файла &lt;ctype.h> Так вместо

      if( '0' &lt;= c   &&    c &lt;= '9' ) ...


<i>А. Богатырев, 1992-95                  - 126 -                              Си в UNIX</i>

следует использовать

      #include &lt;ctype.h>
           .....
      if(<i>isdigit</i>(c)) ...

и вместо

      if((c >='a' &&  c &lt;= 'z') || (c >= 'A' && c &lt;= 'Z')) ...

надо

      if(<i>isalpha</i>(c)) ...

Дело в том, что сравнения &lt; и > зависят от расположения  букв  в  используемой  коди-
ровке.  Но  например,  в  кодировке  <i>КОИ-8</i>  русские буквы расположены НЕ в алфавитном
порядке.  Вследствие этого, если для

            char c1, c2;
               c1 &lt; c2

то это еще не значит, что буква c1 предшествует букве c2 в алфавите! Лексикографичес-
кое сравнение требует специальной перекодировки букв к "упорядоченной" кодировке.
     Аналогично, сравнение

            if( c >= 'а' && c &lt;= 'я' )

скорее всего не даст ожидаемого результата.  Макроопределения же в &lt;ctype.h>  исполь-
зуют массив флагов для каждой буквы кодировки, и потому не зависят от порядка букв (и
работают быстрее). Идея реализации такова:

    extern unsigned char _ctype[];  /*массив флагов*/
    #define US(c)  (sizeof(c)==sizeof(char)?((c)&0xFF):(c))
    /* подавление расширения знакового бита */
            /* Ф Л А Г И */
    #define _U  01  /* uppercase: большая буква    */
    #define _L  02  /* lowercase: малая буква      */
    #define _N  04  /* number:    цифра            */
    #define _S 010  /* space:     пробел           */
                    /* ... есть и другие флаги ... */
    #define <i>isalpha</i>(c) ((_ctype+1)[US(c)] & (_U|_L)   )
    #define <i>isupper</i>(c) ((_ctype+1)[US(c)] &  _U       )
    #define <i>islower</i>(c) ((_ctype+1)[US(c)] &     _L    )
    #define <i>isdigit</i>(c) ((_ctype+1)[US(c)] &        _N )
    #define <i>isalnum</i>(c) ((_ctype+1)[US(c)] & (_U|_L|_N))
    #define <i>tolower</i>(c) ((c) + 'a' - 'A' )
    #define <i>toupper</i>(c) ((c) + 'A' - 'a' )

где массив _<i>ctype</i>[] заполнен заранее (это проинициализированные статические данные) и
хранится в стандартной библиотеке Си.  Вот его фрагмент:

    unsigned char _<i>ctype</i>[256 /* размер алфавита */ + 1] = {
     /* EOF   код (-1)        */       0,
                  ...
     /* '1'   код  061 0x31   */      _N,
                  ...
     /* 'A'   код 0101 0x41   */      _U,
                  ...
     /* 'a'   код 0141 0x61   */      _L,
                  ...
    };


<i>А. Богатырев, 1992-95                  - 127 -                              Си в UNIX</i>

Выигрыш в скорости получается вот почему: если мы определим<i>|</i>-

    #define <i>isalpha</i>(c) (((c) >= 'a' && (c) &lt;= 'z') || \
                        ((c) >= 'A' && (c) &lt;= 'Z'))

то этот оператор состоит из 7 операций. Если же мы используем  <i>isalpha</i>  из  &lt;ctype.h>
(как  определено  выше)  -  мы  используем только две операции: индексацию и проверку
битовой маски <i>&</i>.  Операции _<i>ctype</i>+1 и _<i>U</i>|_<i>L</i> вычисляются до констант еще при  компиля-
ции, и поэтому не вызывают генерации машинных команд.
     Определенные выше <i>toupper</i> и <i>tolower</i> работают верно лишь в  кодировке  <i>ASCII|</i>=,  в
которой все латинские буквы расположены подряд и по алфавиту.  Обратите внимание, что
<i>tolower</i> имеет смысл применять только к большим буквам, а <i>toupper</i> - только  к  малень-
ким:

    if( <i>isupper</i>(c) )  c = <i>tolower</i>(c);

Существует еще черезвычайно полезный макрос <i>isspace</i>(c), который можно было бы опреде-
лить как

    #define <i>isspace</i>(c) (c==' ' ||c=='\t'||c=='\f'|| \
                        c=='\n'||c=='\r')
            или
    #define <i>isspace</i>(c) (<i>strchr</i>(" \t\f\n\r",(c)) != NULL)

На самом деле он, конечно, реализован через флаги в _<i>ctype</i>[].   Он  используется  для
определения  символов-пробелов,  служащих  заполнителями  промежутков  между  словами
текста.
     Есть еще два нередко используемых макроса: <i>isprint</i>(c), проверяющий, является  ли
c  ПЕЧАТНЫМ  символом,  т.е. имеющим изображение на экране; и <i>iscntrl</i>(c), означающий,
что символ c является управляющим, т.е. при его выводе на терминал ничего не  изобра-
зится,  но терминал произведет некоторое действие, вроде очистки экрана или перемеще-
ния курсора в каком-то направлении.  Они нужны, как правило, для отображения управля-
ющих ("контроловских") символов в специальном печатном виде, вроде <i>^A</i> для кода '\01'.
     Задание: исследуйте кодировку  и &lt;ctype.h> на  вашей  машине.  Напишите  функцию
лексикографического сравнения букв и строк.
     Указание: пусть буквы имеют такие коды (это не соответствует реальности!):

      буква:      а   б   в   г   д   е
      код:        1   4   2   5   3   0

      нужно:      0   1   2   3   4   5

Тогда идея функции <i>Ctou</i> перекодировки к упорядоченному алфавиту такова:

        unsigned char UU[] = { 5, 0, 2, 4, 1, 3 };
        /* в действительности - 256 элементов: UU[256] */

        <i>Ctou</i>(c) unsigned char c; { return UU[c]; }

        int <i>strcmp</i>(s1, s2) char *s1, *s2; {
            /* Проигнорировать совпадающие начала строк */
            while(*s1 && *s1 == *s2) s1++, s2++;
            /* Вернуть разность [не]совпавших символов  */
            return <i>Ctou</i>(*s1) - <i>Ctou</i>(*s2);
____________________
   <i>|</i>- Обратите внимание, что символ <i>\</i> в конце строки макроопределения  позволяет  про-
должить макрос на следующей строке, поэтому макрос может состоять из многих строк.
   <i>|</i>= <i>ASCII</i> - American Standard Code for Information Interchange - наиболее  распрост-
раненная в мире кодировка (Американский стандарт).


<i>А. Богатырев, 1992-95                  - 128 -                              Си в UNIX</i>

        }

Разберитесь с принципом формирования массива UU.

<i>3.10.</i>  В современных UNIX-ах с поддержкой различных языков таблица <i>ctype</i>  загружается
из  некоторых  системных файлов - для каждого языка своя.  Для какого языка - выбира-
ется по содержимому переменной окружения <i>LANG</i>.  Если переменная не задана - использу-
ется значение "<i>C</i>", английский язык.  Загрузка таблиц должна происходить явно, вызовом

            ...
            <i>#include</i> &lt;locale.h>
            ...
            main(){
                    <i>setlocale</i>(<i>LC</i>_<i>ALL</i>, "");
                    ...
                    все остальное
                    ...
            }


<i>3.11.</i>  Вернемся к нашей любимой проблеме со знаковым битом у типа <i>char</i>.

    #include &lt;stdio.h>
    #include &lt;locale.h>
    #include &lt;ctype.h>

    int main(int ac, char *av[]){
            char c;
            char *string = "абвгдежзиклмноп";

            setlocale(LC_ALL, "");

            for(;c = *string;string++){
    #ifdef DEBUG
                    printf("%c %d %d\n", *string, *string, c);
    #endif
                    if(isprint(c)) printf("%c - печатный символ\n", c);
            }
            return 0;
    }

Эта программа неожиданно печатает

    % a.out
    в - печатный символ
    з - печатный символ

И все.  В чем дело???
Рассмотрим к примеру символ 'г'. Его код '\307'.  В операторе

    c = *string;

Символ c получает значение -57 (десятичное), которое ОТРИЦАТЕЛЬНО.  В системном файле
/usr/include/ctype.h макрос <i>isprint</i> определен так:

    #define isprint(c)      ((_ctype + 1)[c] & (_P|_U|_L|_N|_B))

И значение c используется в нашем случае как  отрицательный  индекс  в  массиве,  ибо
индекс  приводится  к  типу <i>int</i> (<i>signed</i>). Откуда теперь извлекается значение флагов -
нам неизвестно; можно только с уверенностью сказать, что НЕ из массива _<i>ctype</i>.


<i>А. Богатырев, 1992-95                  - 129 -                              Си в UNIX</i>

Проблему решает либо использование

    isprint(c & 0xFF)

либо

    isprint((<i>unsigned char</i>) c)

либо объявление в нашем примере

    <i>unsigned</i> char c;

В первом случае мы явно приводим <i>signed</i> к <i>unsigned</i> битовой операцией, обнуляя  лишние
биты.   Во втором и третьем - <i>unsigned char</i> расширяется в <i>unsigned int</i>, который оста-
нется положительным. Вероятно, второй путь предпочтительнее.

<i>3.12.</i>  Итак, снова напомним, что русские буквы <i>char</i>, а не <i>unsigned char</i> дают  отрица-
тельные индексы в массиве.

    char c = 'г';
    int x[256];

            ...x[c]...            /* индекс &lt; 0 */
            ...x['г']...

Поэтому байтовые индексы должны быть либо <i>unsigned char</i>, либо <i>& 0xFF</i>.  Как в  следую-
щем примере:

    /* Программа преобразования символов в файле: транслитерация
                      <i>tr</i> abcd prst  заменяет строки
                      xxxxdbcaxxxx -> xxxxtrspxxxx
       По мотивам книги М.Дансмура и Г.Дейвиса.
    */
    #include &lt;stdio.h>

    #define ASCII 256 /* число букв в алфавите ASCII */
    /* BUFSIZ определено в stdio.h */
    char mt[ ASCII ];       /* таблица перекодировки */

    /* начальная разметка таблицы */
    void <i>mtinit</i>(){
            register int i;
            for( i=0; i &lt; ASCII; i++ )
                    mt[i] = (char) i;
    }


<i>А. Богатырев, 1992-95                  - 130 -                              Си в UNIX</i>

    int <i>main</i>(int argc, char *argv[])
    {
            register char *tin, *tout; /* unsigned char */
            char buffer[ BUFSIZ ];

            if( argc != 3 ){
                    fprintf( stderr, "Вызов: %s что наЧто\n", argv[0] );
                    return(1);
            }
            tin  = argv[1]; tout = argv[2];

            if( strlen(tin) != strlen(tout)){
                    fprintf( stderr, "строки разной длины\n" );
                    return(2);
            }

            mtinit();
            do{
                    mt[ (*tin++) & 0xFF ]  = *tout++;
                    /*   *tin - имеет тип char.
                     *   & 0xFF подавляет расширение знака
                     */
            } while( *tin );

            tout = mt;
            while( fgets( buffer, BUFSIZ, stdin ) != NULL ){
                    for( tin = buffer; *tin; tin++ )
                            *tin = tout[ *tin & 0xFF ];
                    fputs( buffer, stdout );
            }
            return(0);
    }


<i>3.13.</i>

    int main(int ac, char *av[]){
            char c = 'г';
            if('a' &lt;= c && c &lt; 256)
                    printf("Это одна буква.\n");
            return 0;
    }

Увы, эта программа не печатает НИЧЕГО. Просто потому, что <i>signed char</i> в сравнении  (в
операторе <i>if</i>) приводится к типу <i>int</i>.  А как целое число - русская буква отрицательна.
Снова  решением  является  либо  использование  везде  (c & 0xFF),  либо   объявление
<i>unsigned char</i> c.   В частности, этот пример показывает, что НЕЛЬЗЯ просто так сравни-
вать две переменные типа <i>char</i>. Нужно принимать предохранительные меры  по  подавлению
расширения знака:

    if((ch1 & 0xFF) &lt; (ch2 & 0xFF))...;

Для <i>unsigned char</i> такой проблемы не будет.

<i>3.14.</i>  Почему неверно:


<i>А. Богатырев, 1992-95                  - 131 -                              Си в UNIX</i>

    #include &lt;stdio.h>
    main(){
            char c;

            while((c = getchar()) != EOF)
                    putchar(c);
    }

Потому что c описано как <i>char</i>, в то время как <i>EOF</i> - значение типа <i>int</i> равное (-1).
     Русская буква "Большой твердый знак" в кодировке КОИ-8 имеет код '\377'  (0xFF).
Если  мы подадим на вход этой программе эту букву, то в сравнении <i>signed char</i> со зна-
чением знакового целого <i>EOF</i>, c будет приведено тоже к знаковому целому -  расширением
знака.   0xFF  превратится  в (-1), что означает, что поступил символ <i>EOF</i>. Сюрприз!!!
Посему данная программа будет делать вид, что в любом файле с большим русским твердым
знаком после этого знака (и включая его) дальше ничего нет. Что есть досадное заблуж-
дение.
     Решением служит ПРАВИЛЬНОЕ объявление <i>int</i> c.

<i>3.15.</i>  Изучите поведение программы

    #define TYPE char

    void f(TYPE c){
            if(c == 'й') printf("Это буква й\n");
            printf("c=%c c=\\%03o c=%03d c=0x%0X\n", c, c, c, c);
    }

    int main(){
            f('г'); f('й');
            f('z'); f('Z');
            return 0;
    }

когда TYPE определено как <i>char</i>, <i>unsigned char</i>, <i>int</i>.  Объясните  поведение.  Выдачи  в
этих трех случаях таковы (int == 32 бита):

    c=г c=\37777777707 c=-57 c=0xFFFFFFC7
    Это буква й
    c=й c=\37777777712 c=-54 c=0xFFFFFFCA
    c=z c=\172 c=122 c=0x7A
    c=Z c=\132 c=090 c=0x5A

    c=г c=\307 c=199 c=0xC7
    c=й c=\312 c=202 c=0xCA
    c=z c=\172 c=122 c=0x7A
    c=Z c=\132 c=090 c=0x5A

    и снова как 1 случай.

Рассмотрите альтернативу

            if(c == (unsigned char) 'й') printf("Это буква й\n");

где предполагается, что знак у русских букв и у c НЕ расширяется.   В  данном  случае
фраза  'Это буква й' не печатается ни с типом <i>char</i>, ни с типом <i>int</i>, поскольку в срав-
нении c приводится к типу <i>signed int</i> расширением знакового бита  (который  равен  1).
Слева получается отрицательное число!
     В таких случаях вновь следует писать

            if((unsigned char)c == (unsigned char)'й') printf("Это буква й\n");


<i>А. Богатырев, 1992-95                  - 132 -                              Си в UNIX</i>

<i>3.16.</i>  Обычно возникают проблемы при написании функций с переменным  числом  аргумен-
тов.   В языке Си эта проблема решается использованием макросов <i>va</i>_<i>args</i>, не зависящих
от соглашений о вызовах функций на данной машине, и использующих эти  макросы  специ-
альных   функций.   Есть  два  стиля  оформления  таких  программ:  с  использованием
&lt;varargs.h> и &lt;stdarg.h>.  Первый был продемонстрирован в  первой  главе  на  примере
функции <i>poly</i>().  Для иллюстрации второго приведем пример функции трассировки, записы-
вающей собщение в файл:

    #include &lt;stdio.h>
    #include &lt;stdarg.h>
    void <i>trace</i>(char *fmt, <i>...</i>) {
        <i>va</i>_<i>list</i> args;
        static FILE *fp = NULL;

        if(fp == NULL){
           if((fp = fopen("TRACE", "w")) == NULL) return;
        }
        <i>va</i>_<i>start</i>(args, fmt);
        /* второй аргумент: арг-т после которого
         * в заголовке функции идет <i>...</i> */
        <i>vfprintf</i>(fp, fmt, args); /* библиотечная ф-ция */
        fflush(fp);     /* вытолкнуть сообщение в файл */
        <i>va</i>_<i>end</i>(args);
    }


    main(){ trace( "%s\n", "Go home.");
            trace( "%d %d\n", 12, 34);
    }

Символ `...' (троеточие) в заголовке функции обозначает переменный (возможно  пустой)
список  аргументов.  Он  должен  быть  самым последним, следуя за всеми обязательными
аргументами функции.
     Макрос <i>va</i>_<i>arg</i>(args,type), извлекающий из  переменного  списка  аргументов  `<i>...</i>'
очередное  значение типа type, одинаков в обоех моделях.  Функция <i>vfprintf</i> может быть
написана через функцию <i>vsprintf</i> (в действительности обе функции - стандартные):

    int <i>vfprintf</i>(FILE *fp, const char *fmt, <i>va</i>_<i>list</i> args){
        /*static*/ char buffer[1024]; int res;
        res = <i>vsprintf</i>(buffer, fmt, args);
        <i>fputs</i>(buffer, fp); return res;
    }

Функция <i>vsprintf</i>(str,fmt,args); аналогична функции <i>sprintf</i>(str,fmt,...) -  записывает
преобразованную по формату строку в байтовый массив str, но используется в контексте,
подобном приведенному.  В конец сформированной строки <i>sprintf</i> записывает '\0'.

<i>3.17.</i>  Напишите функцию <i>printf</i>, понимающую форматы <i>%c</i> (буква), <i>%d</i> (целое), <i>%o</i>  (вось-
меричное),  <i>%x</i>  (шестнадцатеричное),  <i>%b</i>  (двоичное),  <i>%r</i> (римское), <i>%s</i> (строка), <i>%ld</i>
(длинное целое).  Ответ смотри в приложении.

<i>3.18.</i>  Для того, чтобы один и тот же исходный текст программы транслировался на  раз-
ных  машинах  (в разных системах), приходится выделять в программе системно-зависимые
части.  Такие части должны по-разному выглядеть на разных машинах, поэтому их  оформ-
ляют в виде так называемых "условно компилируемых" частей:

    <i>#ifdef</i> XX
            ... вариант1
    <i>#else</i>
            ... вариант2
    <i>#endif</i>


<i>А. Богатырев, 1992-95                  - 133 -                              Си в UNIX</i>

Эта директива препроцессора ведет себя следующим образом: если макрос с именем XX был
определен
    <i>#define</i> XX
то в программу подставляется вариант1, если же нет - вариант2. Оператор <i>#else</i> не обя-
зателен  - при его отсутствии вариант2 пуст. Существует также оператор <i>#ifndef</i>, кото-
рый подставляет вариант1 если макрос XX <i>не</i> определен.  Есть еще и  оператор  <i>#elif</i>  -
else if:

    <i>#ifdef</i> макро1
      ...
    <i>#elif</i>  макро2
      ...
    <i>#else</i>
      ...
    <i>#endif</i>

Определить макрос можно не только при помощи <i>#define</i>, но и при помощи ключа  компиля-
тора, так

    <i>cc -D</i>XX file.c ...

соответствует включению в начало файла file.c директивы

    <i>#define</i> XX

А для программы

    main(){
    #ifdef XX
            printf( "XX = %d\n", XX);
    #else
            printf( "XX undefined\n");
    #endif
    }

ключ

    <i>cc -D</i>"XX=2" file.c ...

эквивалентен заданию директивы

    <i>#define</i> XX 2

Что будет, если совсем не задать ключ <i>-D</i> в данном примере?
     Этот прием используется в частности в тех случаях,  когда  какие-то  стандартные
типы или функции в данной системе носят другие названия:

    <i>cc -D</i>void=int ...
    <i>cc -D</i>strchr=index ...

В некоторых системах компилятор автоматически  определяет  специальные  макросы:  так
компиляторы в <i>UNIX</i> неявно подставляют один из ключей (или несколько сразу):

            <i>-D</i>M_UNIX
            <i>-D</i>M_XENIX
            <i>-D</i>unix
            <i>-D</i>M_SYSV
            <i>-D</i>__SVR4
            <i>-D</i>USG
            ... бывают и другие


<i>А. Богатырев, 1992-95                  - 134 -                              Си в UNIX</i>

Это позволяет программе "узнать", что ее компилируют для системы  <i>UNIX</i>.   Более  под-
робно про это написано в документации по команде <i>cc</i>.

<i>3.19.</i>  Оператор <i>#ifdef</i> применяется в include-файлах, чтобы исключить повторное  вклю-
чение одного и того же файла.  Пусть файлы aa.h и bb.h содержат

           aa.h                        bb.h
    #include "cc.h"                 #include "cc.h"
    typedef unsigned long ulong;    typedef int cnt_t;

А файлы cc.h и 00.c содержат

           cc.h                        00.c
           ...                      #include "aa.h"
    struct II { int x, y; };        #include "bb.h"
           ...                      main(){ ... }

В этом случае текст файла cc.h будет вставлен в 00.c <i>дважды</i>: из aa.h и из  bb.h.  При
компиляции  00.c  компилятор  сообщит "Переопределение структуры II".  Чтобы include-
файл не подставлялся еще раз, если он уже однажды  был  включен,  придуман  следующий
прием - следует оформлять файлы включений так:

    /* файл   cc.h */
    #ifndef  _CC_H
    # define _CC_H  /* определяется при первом включении */
            ...
            struct II { int x, y; };
            ...
    #endif /* _CC_H */

Второе и последующие включения такого файла будут подставлять  пустое  место,  что  и
требуется.    Для   файла   &lt;sys/types.h>   было   бы  использовано  макроопределение
_<i>SYS</i>_<i>TYPES</i>_<i>H</i>.

<i>3.20.</i>  Любой макрос можно отменить, написав директиву

        <i>#undef</i> имяМакро

Пример:

    #include &lt;stdio.h>
    <i>#undef</i> M_UNIX
    <i>#undef</i> M_SYSV
    main() {
            putchar('!');
    <i>#undef</i>  putchar
    <i>#define</i> putchar(c) printf( "Буква '%c'\n", c);
            putchar('?');

    <i>#if</i> defined(M_UNIX) || defined(M_SYSV)
    /* или просто <i>#if</i> M_UNIX */
            printf("Это UNIX\n");
    <i>#else</i>
            printf("Это не UNIX\n");
    <i>#endif</i> /* UNIX */
    }

Обычно <i>#undef</i> используется именно для переопределения макроса,  как  <i>putchar</i>  в  этом
примере (дело в том, что <i>putchar</i> - это макрос из &lt;stdio.h>).
     Директива <i>#if</i>, использованная нами,  является  расширением  оператора  <i>#ifdef</i>  и
подставляет текст если выполнено указанное условие:


<i>А. Богатырев, 1992-95                  - 135 -                              Си в UNIX</i>

    <i>#if</i>  defined(MACRO)  /* равно <i>#ifdef</i>(MACRO)  */
    <i>#if</i> !defined(MACRO)  /* равно <i>#ifndef</i>(MACRO) */
    <i>#if</i> VALUE > 15       /* если целая константа
                            <i>#define</i> VALUE 25
                            больше 15 (==, !=, &lt;=, ...) */
    <i>#if</i> COND1 || COND2   /* если верно любое из условий */
    <i>#if</i> COND1 && COND2   /* если верны оба условия      */

Директива <i>#if</i> допускает использование в качестве аргумента довольно  сложных  выраже-
ний, вроде

    <i>#if</i> !defined(M1) && (defined(M2) || defined(M3))


<i>3.21.</i>  Условная компиляция может использоваться для трассировки программ:

    #ifdef DEBUG
    # define DEBUGF(body)   \
    {                       \
            body;           \
    }
    #else
    # define DEBUGF(body)
    #endif

    int f(int x){   return x*x; }
    int main(int ac, char *av[]){
            int x = 21;
            DEBUGF(x = f(x); printf("%s equals to %d\n", "x", x));
            printf("x=%d\n", x);
    }

При компиляции

    <i>cc -DDEBUG</i> file.c

в выходном потоке программы будет присутствовать отладочная выдача.   При  компиляции
без <i>-D</i>DEBUG этой выдачи не будет.

<i>3.22.</i>  В языке <i>C++</i> (развитие языка <i>Си</i>) слова <i>class</i>, <i>delete</i>,  <i>friend</i>,  <i>new</i>,  <i>operator</i>,
<i>overload</i>,  <i>template</i>,  <i>public</i>, <i>private</i>, <i>protected</i>, <i>this</i>, <i>virtual</i> являются зарезервиро-
ванными (ключевыми).  Это может вызвать небольшую проблему при переносе текста  прог-
раммы на <i>Си</i> в систему программирования <i>C++</i>, например:

    #include &lt;termio.h>
      ...
    int fd_tty = 2;   /* stderr */
    struct <i>termio</i> old, new;
    <i>ioctl</i> (fd_tty, TCGETA, &old);
    new = old;
    new.c_lflag |= ECHO | ICANON;
    <i>ioctl</i> (fd_tty, TCSETAW, &new);
      ...

Строки, содержащие имя переменной (или функции) <i>new</i>, окажутся  неправильными  в  <i>C++</i>.
Проще всего эта проблема решается переименованием переменной (или функции).  Чтобы не
производить правки во всем тексте, достаточно переопределить имя при помощи директивы
<i>define</i>:


<i>А. Богатырев, 1992-95                  - 136 -                              Си в UNIX</i>

    #define <i>new    new</i>_<i>modes</i>
      ... старый текст ...
    #undef <i>new</i>

При переносе программы на <i>Си</i> в <i>C++</i> следует также учесть, что в <i>C++</i> для каждой функции
должен  быть  задан прототип, прежде чем эта функция будет использована (<i>Си</i> позволяет
опускать прототипы для многих функций, особенно возвращающих значения типов  <i>int</i>  или
<i>void</i>).


<i>А. Богатырев, 1992-95                  - 137 -                              Си в UNIX</i>

        4.  Работа с файлами.
     Файлы представляют собой области памяти на внешнем носителе (как правило магнит-
ном диске), предназначенные для:
-    хранения данных, превосходящих по объему память компьютера (меньше,  разумеется,
     тоже можно);
-    долговременного хранения информации (она сохраняется при выключении машины).

В <i>UNIX</i> и в <i>MS DOS</i> файлы не имеют  предопределенной  структуры  и  представляют  собой
просто  линейные  массивы  байт.   Если вы хотите задать некоторую структуру хранимой
информации - вы должны позаботиться об этом в своей программе сами.  Файлы отличаются
от обычных массивов тем, что
-    они могут изменять свой размер;
-    обращение к элементам этих массивов производится не при помощи операции индекса-
     ции [], а при помощи специальных системных вызовов и функций;
-    доступ к элементам файла происходит в так  называемой  "позиции  чтения/записи",
     которая  автоматически продвигается при операциях чтения/записи, т.е. файл прос-
     матривается последовательно.  Есть, правда, функции для произвольного  изменения
     этой позиции.

Файлы имеют имена и организованы в иерархическую древовидную структуру из каталогов и
простых  файлов.  Об  этом и о системе именования файлов прочитайте в документации по
<i>UNIX</i>.

<i>4.1.</i>  Для работы с каким-либо файлом наша программа должна открыть этот файл -  уста-
новить  связь  между  именем  файла и некоторой переменной в программе.  При открытии
файла в ядре операционной системы выделяется  "связующая"  структура  <i>file</i>  "открытый
файл", содержащая:
f_offset:
     указатель позиции чтения/записи, который в дальнейшем мы  будем  обозначать  как
     RWptr.  Это  <i>long</i>-число,  равное  расстоянию в байтах от начала файла до позиции
     чтения/записи;
f_flag:
     режимы открытия файла: чтение, запись, чтение и запись, некоторые дополнительные
     флаги;
f_inode:
     расположение файла на диске (в <i>UNIX</i> - в виде ссылки на <i>I-узел</i> файла<i>|</i>-);
и кое-что еще.
     У каждого процесса имеется таблица открытых им файлов -  это  массив  ссылок  на
упомянутые  "связующие"  структуры<i>|</i>=.   При  открытии  файла  в  этой  таблице  ищется
____________________
   <i>|</i>- <i>I-узел</i> (I-node, индексный узел) - своеобразный "паспорт", который есть у каждого
файла (в том числе и каталога). В нем содержатся:

      - длина файла                  <i>long</i>   di_size;
      - номер владельца файла        <i>int</i>    di_uid;
      - коды доступа и тип файла     <i>ushort</i> di_mode;
      - время создания и последней модификации
                    <i>time</i>_<i>t</i> di_ctime, di_mtime;
      - начало таблицы блоков файла  <i>char</i>   di_addr[...];
      - количество имен файла        <i>short</i>  di_nlink;
      и.т.п.

Содержимое некоторых полей этого паспорта можно узнать  вызовом  <i>stat</i>().  Все  I-узлы
собраны  в  единую  область в начале файловой системы - так называемый <i>I-файл</i>. Все I-
узлы пронумерованы, начиная с номера 1.  Корневой каталог (файл  с  именем  "<i>/</i>")  как
правило имеет I-узел номер 2.
   <i>|</i>= У каждого процесса в <i>UNIX</i> также есть свой "паспорт".  Часть этого паспорта нахо-
дится в таблице процессов в ядре ОС, а часть - "приклеена" к самому процессу,  однако
не  доступна  из программы непосредственн