Преобразование текстов в тензоры для глубокого обучения

Простой шаблон для преобразования текстовых данных в тензорный формат

Эта статья покажет вам, как подготовить текст для приложений на основе нейронных сетей. Учитывая объем текстовых данных, мы применим следующий процесс

сопоставление слов текста (токена) с индексом
создание специальных токенов для конца предложения, заполнения и символов вне словаря
преобразование терминов в словаре в тензоры

Словарь организует наши данные в парах ключ:значение, где ключом будет термин, а значением будет целочисленный индекс, связанный с этим термином. Будут специальные жетоны, которые будут иметь эти характеристики

__PAD__: обозначает символ заполнения.
‹/e›: указывает на конец строки (конец предложения)
__UNK__: указывает на символ вне словаря, не принадлежащий словарю.

Эта работа будет очень полезной, поскольку она предоставит шаблон для создания входных данных для нашего генератора данных(который мы здесь не будем рассматривать)в простом и эффективном виде. способ.

Набор данных

Мы будем использовать набор данных, предоставленный Sklearn, 20newsgroups, чтобы иметь быстрый доступ к массиву текстовых данных. В демонстрационных целях я буду использовать только образец из 10 текстов, но пример можно распространить на любое количество текстов.

К этим текстам мы применим простую функцию предварительной обработки, чтобы очистить предложения от стоп-слов и специальных символов.

Процесс

Функция предварительной обработки

Следующая функция будет использоваться для нашей предварительной обработки

Эту функцию можно использовать для решения любой задачи обработки естественного языка, поэтому не стесняйтесь использовать ее и редактировать по своему усмотрению.

Создание словаря

Работа со словарем позволяет нам сопоставить термин с индексом. Индекс будет элементом, который будет преобразован в тензор.

Вывод будет следующим

От текста к тензору

Мы напишем функцию, которая будет использовать словарь для создания числового представления терминов. Эти числа будут включены в список и будут представлять тензоры, которые мы будем использовать в задаче глубокого обучения.

В этом примере мы не будем использовать TensorFlow, PyTorch или Numpy, чтобы объяснить, как работает этот процесс.

Начнем с функции text_to_tensor.

Теперь мы можем приступить к использованию нашего тензора для создания batch_generator и модели глубокого обучения, такой как LSTM.

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

материалы по теме:

Новые материалы

Журналы Py № 2: Если, Элиф, Иначе?

У меня такое чувство, будто я давно ничего не писал, хотя прошло два дня с тех пор, как я опубликовал свою первую историю. В любом случае, сегодня произошло много всего, так что приступим...

Работа в Реакции

Я изучаю React в Bloc прямо сейчас. До сих пор я изо всех сил пытался понять темы. Тем не менее, я только что закончил проблему, над которой некоторое время размышлял, и хочу записать свой..

Нужен ли банкам искусственный интеллект, чтобы кардинально изменить свою работу?

Почему необходимо использовать искусственный интеллект в банковской сфере? Существенное использование многочисленных инноваций ИИ, таких как машинное обучение , глубокое обучение и..

Какую последнюю статью вы считаете стоящей поделиться?

Я люблю читать качественные статьи. Не стесняйтесь делиться своей работой.

Преобразование CoreML, позволяющее использовать Fast-Neural-Style-Transfer на iOS и MacOS.

Как использовать Fast-Neural-Style-Transfer на iOS Преобразованная модель: GitHub — john-rocky/CoreML-Models: Преобразованный зоопарк моделей CoreML...

ИИ в правоохранительных органах: мощный инструмент с двойной природой

Искусственный интеллект (ИИ) революционизирует правоохранительную деятельность, предлагая инновационные тактики расследования, повышая достоверность доказательств и оптимизируя процессы. Тем..

Autoencoder Average Distance — классический способ, используемый внутри Microsoft для выявления сходства…

Среднее расстояние автоэнкодера (AAD) использует более простой подход для определения расстояния между двумя наборами данных. Нейронный автоэнкодер может преобразовать любой элемент данных в..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Tech Java Development Front End Development Algorithms Typescript Tutorial HTML Computer Science Data Learning ChatGPT Programming Languages CSS Javascript Tips Statistics NLP Code Business Computer Vision Neural Networks Learning To Code Golang Education React Native