25 декабря 2009 г.

Получение по 1 уникальной ссылке от Вебмастера Яндекса.

Не знаю как у кого, но я столкнулся с такой проблемой - хотел проанализировать тИЦ и другие параметры ссылающихся страниц на мой сайт.

Т.к. текстовый файл, представляемый webmaster.yandex.ru, не отличается оригинальностью (все ссылки в куче), приходится его обрабатывать ручками.

А так как я не программист, написать кауйнить программу на делфи мне не представляется возможным. Разве что комунить заплатить $10 за создание подобной.

Поэтому привожу свою инструкцию по манипуляциям со ссылками от Яндекс-мастера с использованием Microsoft Office Excel + текстовый редактор EditPlus

1. Удаление дубликатов

1.1. Экспортирую текстовый файл с данными о ссылках из : вебмастер яндекс (webmaster.yandex.ru) → мои сайты → Входящие ссылки → Внешние → "Загрузить"

1.2. Открываю в текстовом редакторе текстовый файл с ссылками полученным по п.1.

1.3. Выделяю ВСЕ и копирую (ctr+с)

1.4. Открываю Microsoft Office Excel и вставляю данные из буфера обмена (см. п.1.3) - получаю таблицу с 3-мя столбцами A,B,C (нам из нее нужны по 1 ссылке с каждого домена, приоритет "главная")

1.5. В самое начало добавляю строку (добавить строки) и заголовки столбцов: A1="ссылка", B1= "донор" , С1 = "анкор"

1.6. Добавляю столбец "D" с заголовком "индекс" все в нем ячейки заполняю данными "0000-" (если у вас 60000 строк с ссылками, то все ячейки в столбце "D" должны быть заполнены "0000-" - для чего, см. ниже п. 1.11.)

1.7. Сортируем все данные по столбцу "B", ПО УБЫВАНИЮ .

1.8. Копируем весь столбец "B" в пустой столбец "E" и обзываем столбец "E" всместо "донор" => "домен донора"

1.9. Выделяем все данные в столбце D и E, копируем (ctr+с) и вставляем в текстовый редактор (я работаю с EditPlus)

1.10. В текстовом редакторе производим замену "/" на "/+перевод строки"

1.11. Производим сортировку ПО УБЫВАНИЮ (без учета прописных и заглавных букв => важно!, чтобы отсортированные данные соответствовали данным в Excel ) и Удаляем все строки, кроме тех что начинаются с "0000-"

1.12. Удаляем в конце урлов донора "/" ( Ctr+H => найти: "/" заменить на: "" ничего )

1.13. Выделяю в текстовом файле ВСЕ, копирую (ctr+с), становлюсь в Excel на ячейку D2 и вставляю данные (CTR+v)

1.14. Удаляю столбец D по ненадобности

1.15. ВАЖНО! Сделайте сортировку столбца "D - домен донора" по убыванию (сортировать в пределах указанного выделения) потому как результаты сортировки в текстовом редакторе могут отличаться от сортировки в Excel'е
1.16 сохраняю книгу *.xls

2. Использование функции "Итоги" и логических "ЕСЛИ" в Excel

2.1. Курсор ставлю на ячейку "D1"

2.2. Выбираю в меню: Данные => Итоги => выбираем пункты: "При каждом изменении в: домен донора", "Операция: Количество", "Добавить итоги по: домен донора". Жмем "ОК"

2.3. Сохраняем книгу *.xls: "Файл => Сохранить как => новое имя", чтобы не потереть исходный файл.

2.4. Курсор ставлю на ячейку "E2" и вставьте там функцию: "=ЕСЛИ(ЕНЕТЕКСТ(D2);B1)"

2.5. Скопируйте ячейку "E2" и проставьте копию функции по всему столбцу E до конца Листа. В конечном итоге вы получите в результате данные ячейки "E" равным "Ложь" или будет отображаться ОДНА УНИКАЛЬНАЯ ССЫЛКА С ДОМЕНА.

2.6. Копируете ВЕСЬ СТОЛБЕЦ "E", переходите на "Лист 2", Выбираете ячейку "A1", жмете правую кнопку мышки и выбираете: "Специальная вставка => значения => ОК "

2.6. Сортируете в "Лист 2" столбец A, удаляете все строки с "ЛОЖЬ" и получаете по 1 уникальной ссылке с домена.

В результате проделанных манипуляций мы получаем по 1 уникальной ссылке с каждого домена, НО!! Их количество не будет совпадать с данными Яндекса которые приводятся в "Внешних ссылок: ...., ссылающихся сайтов: ...." ( вебмастер яндекс (webmaster.yandex.ru) → мои сайты → Входящие ссылки → Внешние → ) И дело тут наверное в том, что некоторые ссылки Яндекса склеиваются по основному домену.

Определить, какие склеены сложно, но можно, примерно так:

к примеру: cat.x-sms.net + all.x-sms.net
или www.vipublog.com + my.vipublog.com и т.д.

Подобные ссылки можно отсортировать и удалить, используя в Excel "формат => условное форматирование", предварительно разделив домены по “.”, отсортировать загнав их части в соответствующие столбцы.