Сделать собственную нейросетку или даже искусственный интеллект стало невероятно просто. Самое главное, что вам понадобится, это данные — бесчисленные массивы маркированных и аннотированных данных, отобранных замечательными исследовательскими группами и компаниями, понявшими, что демократизация данных — необходимый шаг по ускорению появления ИИ.
На русском языке очень мало информации об открытых датасетах, поэтому пришлось перевести несколько источников, чтобы разобраться, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.
Важно помнить, что хорошая производительность на датасете не гарантирует, что и в реальных продуктовых сценариях. Большинство разработчиков забывают, что при создании новых ИИ-решений или продуктов самое сложное — не алгоритмы, а сбор и маркирование коллекции данных. Стандартные датасеты могут использоваться для валидации или в качестве отправной точки построения более специализированного решения.
Этот список открытых датасетов и перевод мнений о них облегчит вам жизнь. Так что теперь вы не можете позволить себе ничего не знать о мире ИИ.
Пояснения:
📜 Классика — наиболее известные и легендарные датасеты в сфере ИИ. Трудно найти инженера или исследователя, который о них не слышал.
🛠 Полезные — они настолько близки к реальным задачам, насколько это возможно для отобранных и очищенных датасетов. Также они обычно подходят для использования в коммерческих продуктах и исследовательских проектах.
📚 Академический базовый уровень — эти датасеты широко используются в академической среде в качестве бенчмарков и исходных точек для исследований в сфере машинного обучения и ИИ. Также они могут с разной степенью успешности применяться для проверки алгоритмов.
🗿 Ветераны – датасеты разного назначения, которые уже давно используются в индустрии.
Компьютерное зрение
- 📚 📜 🗿 MNIST: один из самых востребованных наборов для проверки работоспособности. Есть датасеты 25x25, отцентрованные (centered), рукописные чёрно-былые цифры. Но если что-то работает на данных MNIST, то ещё не означает, что это вообще работает.
- 📜 🗿 CIFAR 10 & CIFAR 100: цветные изображения 32x32. Сегодня используется нечасто, но может быть хорошим вариантов для проверки работоспособности.
- 🛠 📚 📜 ImageNet: де-факто является датасетом изображений для проверки новых алгоритмов. У многих компаний, создающих API для работы с изображениями, в REST-интерфейсах используются лейблы, подозрительно похожие на 1000-категорийную иерархию WordNet из ImageNet.
- LSUN: распознавание сцен с многочисленными вспомогательными задачами (определение конфигурации помещений, предсказание заметности и так далее) и associated competition.
- 📚 PASCAL VOC: обычная сегментация/классификация изображений. Не слишком полезно для создания реальных аннотаций к изображениям, но прекрасно подходит в качестве стартовой точки.
- 📚 SVHN: номера домов из Google Street View. Можно воспринимать как циклический MNIST в реальной жизни.
- MS COCO: обычный датасет для распознавания/описания изображений, с associated competition.
- 🛠 Visual Genome: очень подробная визуальная база знаний с глубоким описанием, состоит из ~100 тыс. изображений.
- 🛠 📚 📜 🗿 Labeled Faces in the Wild: вырезанные фрагменты лиц (с помощью Viola-Jones), помеченные идентификатором имён. Каждый человек представлен подмножеством из двух изображений, поэтому набор часто используется для обучения систем сопоставления лиц.
Естественные языки
- 🛠 📚 Text Classification Datasets из Zhang et al., 2015: обширный набор из восьми датасетов для классификации текста. Это наиболее часто используемые исходные данные для новых систем текстовой классификации. Размер образцов — от 120 тыс. до 3,6 млн, диапазон проблем — от двоичных до 14 класса. Датасеты взяты из DBPedia, Amazon, Yelp, Yahoo!, Sogou и AG.
- 🛠 📚 WikiText: большой свод данных для языкового моделирования из статей Википедии, собранный Salesforce MetaMind.
- 🛠 Question Pairs: первый датасет Quora, содержит дублирующиеся и семантически аналогичные лейблы.
- 🛠 📚 SQuAD: Stanford Question Answering — широко используемый датасет, состоящий из ответов на вопросы и объяснений прочитанного (reading comprehension), где каждый ответ на вопрос представляет собой промежуток (span) или фрагмент текста.
- CMU Q/A Dataset: сгенерированные вручную фактоидные пары «вопрос-ответ» рейтингом сложности из статей Википедии.
- 🛠 Maluuba Datasets: сложные, сгенерированные людьми датасеты для исследований в сфере распознавания структурированных естественных языков.
- 🛠 📚 Billion Words: большой датасет для языкового моделирования общего назначения. Часто используется для обучения распределённых словарных представлений (distributed word representations), наподобие word2vec или GloVe.
- 🛠 📚 Common Crawl: выборка из веба петабайтного масштаба — чаще всего используется для обучения встраиванию слов (word embeddings). Из Amazon S3 можно пользоваться бесплатно. Также полезен в качестве сетевого датасета, поскольку представляет собой выборку данных WWW.
- 📚 📜 bAbi: синтетический датасет, содержащий ответы на вопросы и объяснение прочитанного (reading comprehension) из Facebook AI Research (FAIR).
- 📚 The Children’s Book Test (скачать): базовые данные, состоящие из пар (вопросы + контекст/ответы), извлечённые из детских книг, доступных в рамках Проекта Гутенберг. Удобен для обучения в сфере «вопрос-ответ», для понимания прочитанного и фактоидного поиска.
- 📚 📜 🗿 Stanford Sentiment Treebank: стандартный датасет взаимосвязей (sentiment) с тщательно составленными аннотациями в каждом узле каждого дерева парсинга взаимосвязей.
- 📜 🗿 20 Newsgroups: один из классических датасетов для классификации текстов, обычно используется в роли бенчмарка для чистой классификации или для валидации любых алгоритмов IR/индексирования.
- 📜 🗿 Reuters: старый датасет, предназначенный чисто для классификации и содержащий новостные тексты. Часто используется в качестве пособия при обучении специалистов.
- 📜 🗿 IMDB: старый, относительно маленький датасет для классификации двоичных взаимосвязей (binary sentiment). Растерял популярность из-за бенчмарков на основе литературных произведений вместо более крупных датасетов.
- 📜 🗿 UCI’s Spambase: старый классический датасет, содержащий тексты из спам-писем. Является частью известного репозитория UCI Machine Learning Repository. Учитывая особенности подбора данных, может быть интересен как исходная платформа для обучения персонализированных спам-фильтров.
Речь
Большинство датасетов по распознаванию речи являются проприетарными — они имеют большую ценность для собиравших их компаний. А большинство датасетов, находящихся в открытом доступе, довольно стары.
- 📚 🗿 2000 HUB5 English: датасет англоязычной речи, который совсем недавно был использован в исследовательской работе Baidu Deep Speech.
- 📚 LibriSpeech: около 500 часов начитки аудиокниг, в исполнении разных людей. Данные организованы по главам книг, содержат текст и записи.
- 🛠 📚 VoxForge: датасет, содержащий аудиозаписи на английском с акцентом. Полезен для тех случаев, когда ваш продукт должен уверенно распознавать разные акценты и интонации.
- 📚 📜 🗿 TIMIT: датасет для распознавания англоязычной речи.
- 🛠 CHIME: датасет, содержащий записи с чистым звуком, фоновым шумом и искажениями. Представляет собой подборку почти 9000 записей 4 разных людей в различных шумных местах.
- TED-LIUM: аудиозаписи 1495 выступлений на TED с полной расшифровкой.
Системы рекомендаций и ранжирования
- 📜 🗿 Netflix Challenge: первый основной датасет в стиле Kaggle. Доступен только неофициально, поскольку есть проблемы с конфиденциальностью.
- 🛠 📚 📜 MovieLens: обзоры фильмов — часто используется для коллаборативной фильтрации.
- Million Song Dataset: большой open source-датасет Kaggle, насыщенный метаданными. Хороший вариант для тех, кто экспериментирует с гибридными системами рекомендаций.
- 🛠 Last.fm: датасет с музыкальными рекомендациями. Есть доступ к соответствующей соцсети и другим метаданным, полезен для гибридных систем.
Сети и графы
- 📚 Amazon Co-Purchasing и Amazon Reviews: данные, собранные из раздела «Пользователи, купившие это, также выбирают…» на Amazon, а также обзоры сопутствующих товаров. Хорош для экспериментов рекомендательными системами в соцсетях.
- Friendster Social Network Dataset: до того, как превратиться в игровой сайт, Friendster выпустил анонимизированные данные в виде списка друзей для 103 750 348 пользователей.
Геопространственные данные
- 🛠 📜 OpenStreetMap: векторные картографические данные для всей планеты, с бесплатной лицензией. Включает в себя старую версию данных TIGER Бюро переписи США.
- 🛠 Landsat8: спутниковые снимки всей поверхности Земли, обновляются каждые несколько недель.
- 🛠 NEXRAD: допплеровское радарное сканирование состояния атмосферы в США.
❗️Люди часто думают, что решение проблем, связанных с одним датасетом, равнозначно тщательному продумыванию всего своего продукта. Используйте эти датасеты для валидации или проверки своих идей, но не забывайте тестировать или прототипировать работу вашего продукта, и добудьте новые, более достоверные данные, которые помогут отточить ваш продукт. Успешные компании, чей бизнес построен на данных, обычно уделяют много внимания сбору новых, проприетарных данных, позволяющих повысить производительность без увеличения рисков.
Ваш пост поддержали следующие Инвесторы Сообщества "Добрый кит":
archibald116, shuler, semasping, arturio777, vika-teplo, galinakim
Поэтому я тоже проголосовал за него!
Узнать подробности о сообществе можно тут:
Разрешите представиться - Кит Добрый
Правила
Инструкция по внесению Инвестиционного взноса
Вы тоже можете стать Инвестором и поддержать проект!!!
Если Вы хотите отказаться от поддержки Доброго Кита, то ответьте на этот комментарий командой "!нехочу"
dobryj.kit теперь стал Делегатом! Ваш голос важен для всего сообщества!!!
Поддержите нас на странице https://golos.io/~witnesses, вот так:
@randall + и подписка. Думаю будет полезно чуть позже.