Регулярные выражения в Notepad++

·

Друзья! Тут просто подборка разных полезных регулярок для обработки текста и html-кода в Notepad++.

  1. Удалить все html-теги, оставить только текст:
    [<].*?>
    
  2. В списке ссылок вида <a href=»LINK»>TITLE</a> удалить все html-теги, оставить только ссылки:
  3. ^[^"]+.([^"]+).*
    заменить на:
    $1
  4. В том же самом списке оставить только тайтлы:
    </?[^>]*.
  5. Удалить пустые строки из файла — уже встроено в саму программу. Смотрите скриншот:
    XelUW
  6. Удалить строки с заданным количеством вхождения определенного символа. (Мне это понадобилось, когда нужно было очистить большой список ссылок на товары, 45 тыс. позиций, от ссылок на категории. Друг от друга они отличались общим количеством слешей — в категориях было 5, а в товарах — 6)
    ^([^/]*/){5}[^/]*$
    разъяснение:
    ^     начало строки
    (     начало группы
    [^/]* любой символ кроме слеша, 0 или более раз
    /     слеш
    ){5} закончить и повторить группу 5 раз
    [^/]* любой символ кроме слеша, 0 или более раз
    $     конец строки
  7. Удалить весь текст между двумя определенными символами (в данном примере, между двух кавычек):
    "([^"]*)"
  8. Удалить все html-теги с определенным атрибутом. Например, мы хотим удалить все теги (и содержимое тегов), у которых совпадает класс, или инлайн-стили
    <td class="nowrap">([^<]*)</td> - то есть, задаем искомую строку, внутри которой может быть произвольный текст. Текст оформляем, как ([^<]*) - любые символы, кроме символа открытия (или закрытия) тега. 
    
  9. Удалить все теги, внутри которых содержатся только числа:
    <td>(\d+)</td>

    В данном примере выражение \d+ означает любую цифры от 0 до 9 любое количество раз

  10. Удалить заданное количество символов от начала строки (данный пример удаляет первые 9 символов):
    ^.{0,9}

Аналогично можно использовать следующие наборы выражений:

. — Один произвольный символ
^ — Начало строки
$ — Конец строки
\s — Пробел
\S — Не пробел
\w — Буква, цифра или символ подчёркивания _
\d — Любая цифра
\D — Любой символ, кроме цифр
[0-9] — Любая цифра
[a-z] — Любая буква от a до z (весь латинский набор символов) в нижнем регистре
[A-Z] — Любая буква от a до z в ВЕРХНЕМ регистре
[a-zA-Z] — Любая буква от a до z в произвольном регистре
[a-Z] — Любая буква от a до z в произвольном регистре
* — Повторение. Означает, что предшествующий символ может повторяться (0 или более раз)
.* — Любой набор символов. Например, условие <p> .*</p> — найдет все, что между тегами <p> </p>
(^.*$) — Любой текст между началом и концом строки
([0-9][0-9]*.) — Любое двухзначное число
\n\r — Пустая строка
^\s*$ — Пустая строка с пробелом
^[ ]*$ — Ищет пустые строки, содержащие пробел.

Список будет регулярно пополняться. Какие-то дополнительные ситуации разбираются в комментариях.

Поделиться записью:
Агентство Romapad
Агентство Romapad
Работаем с 2009 года. Реализовано более 400 проектов. Слаженная команда профессионалов. Создание и администрирование сайтов. Техническая поддержка. Помощь новичкам.
Подпишитесь на рассылку новостей
Отправляя заявку, вы даете согласие на обработку персональных данных
Комментарии к публикациям
Похожие статьи
Прокрутить вверх
Оставьте Ваши контакты,
и мы с Вами свяжемся

Отправляя заявку, вы даете согласие на
обработку персональных данных
Заявка отправлена!
Ожидайте звонка менеджера.

Nullam quis risus eget urna mollis ornare vel eu leo. Aenean lacinia bibendum nulla sed 

Join our newsletter and get 20% discount
Promotion nulla vitae elit libero a pharetra augue