#datasets — oanor

Gene Expression API

Functional-genomics experiments as an API — powered by NCBI GEO (Gene Expression Omnibus), the largest public repository of gene-expression data. GEO archives expression series and curated datasets from microarray and high-throughput-sequencing experiments across every organism. Search experiments by keyword and optionally by organism, and look up any series or dataset to get its metadata: title, summary, assay type (expression profiling by array or by sequencing), organism, number of samples, platform and the publication behind it. From β-cell stress studies to cancer transcriptomics across human and mouse, it turns the GEO archive into a simple search-and-fetch API for transcriptomics, bioinformatics and research-data discovery. A gene-expression / functional-genomics dataset repository — distinct from sequence (ENA), variant (ClinVar, dbVar), structure (PDB) and ontology databases. Open data from NCBI GEO (public domain).

api.oanor.com/geodatasets-api

DataCite API

DataCite como API — el registro global de DOIs (Identificadores de Objetos Digitales) para resultados de investigación. Mientras que Crossref registra DOIs para artículos de revistas, DataCite registra y describe DOIs para datos de investigación, software, muestras, tesis, preprints, modelos, imágenes y otros resultados, de repositorios como Zenodo, Dryad y miles de instituciones. /v1/search?query=climate realiza búsquedas de texto completo en el registro y se puede acotar por tipo de recurso (type=dataset, software, text, image, audiovisual, collection, model y más), devolviendo cada DOI con su título, tipo, creadores, editorial y año de publicación. /v1/doi?id=10.5281/zenodo.3509134 devuelve los metadatos completos de un solo DOI: título, tipo de recurso, creadores, editorial, año de publicación, descripción, materias, versión, licencia y fecha de registro. Los DOIs tienen el formato 10.5281/zenodo.3509134 (Zenodo) o 10.5061/dryad.xxxx (Dryad). Ideal para herramientas de descubrimiento y citación de datos de investigación, repositorios de datos y gestión de referencias, funciones de citación de software y flujos de trabajo de reproducibilidad. Los metadatos son CC0 de DataCite. Este es el registro de DOIs de datos de investigación y software — distinto del índice de DOIs de artículos de revistas (Crossref) y de los servicios de preprints y acceso abierto.

api.oanor.com/datacite-api

BioStudies API

BioStudies as an API, powered by EMBL-EBI — the database that holds the descriptions of biological studies and links their data together across EBI resources, including imaging (BioImage Archive), functional genomics (ArrayExpress), proteomics, and the literature (Europe PMC). Each study has an accession, a title and abstract, the collection it belongs to and links to its underlying data and publications. /v1/search?query=covid searches the studies and returns each match's accession (e.g. S-EPMC8017430), title, author, study type, release date and link/file counts. /v1/study?id=S-EPMC8017430 returns a study's metadata — its accession, the collection it belongs to (such as EuropePMC, ArrayExpress or BioImages), title, abstract, release date, authors and the number of linked resources. Accessions look like S-EPMC8017430 or S-BSST123; get one from the search endpoint. Ideal for research-data discovery, linking literature to its underlying datasets, systematic reviews and reproducibility tooling. Data from EMBL-EBI BioStudies (public). This is a studies and datasets metadata index — distinct from the sequence (UniProt, ENA), structure (PDB, EMDB), variant (ClinVar) and ontology databases.

api.oanor.com/biostudies-api

Hugging Face API

Hugging Face Hub como API — o registro central e aberto de modelos de machine learning e conjuntos de dados que impulsiona grande parte do ecossistema moderno de IA. Esta API encapsula o hub público huggingface.co em JSON limpo. /v1/models pesquisa os modelos do Hub e permite filtrar por tarefa (pipeline_tag — ex.: text-generation, text-to-image, image-classification, automatic-speech-recognition, sentence-similarity) e por biblioteca (transformers, diffusers, sentence-transformers, …), ordenados por downloads, curtidas, última modificação, data de criação ou pontuação de tendência — cada modelo retornado com seu id, autor, tarefa, biblioteca, contagem de downloads e curtidas, licença, tags e timestamps. /v1/model?id=google-bert/bert-base-uncased retorna os metadados completos de um único modelo. /v1/datasets pesquisa conjuntos de dados de ML da mesma forma, e /v1/dataset?id=ILSVRC/imagenet-1k retorna os metadados de um único conjunto de dados. Os IDs estão no formato org/nome (obtenha-os dos endpoints de pesquisa). Ideal para ferramentas de ML e MLOps, sites de descoberta e comparação de modelos, leaderboards e dashboards de IA, e assistentes de IA que recomendam modelos. Os dados vêm do Hugging Face Hub público (gratuito para uso). Este é o hub de modelos e conjuntos de dados de IA/ML — distinto de registros de pacotes de software (npm, PyPI, Maven, NuGet) e índices de artigos acadêmicos (arXiv).

api.oanor.com/huggingface-api

MGnify API

MGnify como API, impulsado por EMBL-EBI, el recurso gratuito más grande del mundo para el análisis y archivo de datos de secuenciación del microbioma, y la hermana metagenómica de PRIDE (proteómica) y MetaboLights (metabolómica). MGnify alberga decenas de miles de estudios públicos de metagenómica y metabarcoding que abarcan el microbioma intestinal humano, ambientes marinos y de agua dulce, suelos, aguas residuales, el entorno construido y comunidades asociadas a hospedadores. Busque estudios por palabra clave, obteniendo el acceso de MGnify de cada estudio (MGYS...), nombre, resumen, bioma, recuento de muestras y el BioProject de secuenciación de origen; lea los metadatos completos de un estudio, incluidos su nombre y resumen, clasificación del bioma, número de muestras, centro de envío, estado público, origen de los datos y fecha de última actualización; y navegue por el árbol de clasificación de biomas estilo GOLD, desde raíz:Asociado al hospedador:Humano:Sistema digestivo hasta raíz:Ambiental:Acuático:Marino, con recuentos de muestras y estudios por bioma, para descubrimiento por entorno. Ideal para investigación en microbioma y genómica ambiental, reutilización de conjuntos de datos y metaanálisis, pipelines de bioinformática y enseñanza. Los accesos de estudio tienen el formato MGYS00006862. Datos de EMBL-EBI MGnify.

api.oanor.com/mgnify-api

EU Open Data API

El portal de datos abiertos de la Unión Europea como API, impulsado por data.europa.eu — el punto único de acceso oficial a más de 1.8 millones de conjuntos de datos abiertos publicados por las instituciones de la UE y recolectados de los portales nacionales de datos abiertos de los 27 estados miembros (incluyendo data.gov.uk, data.gouv.fr y GovData Alemania). Busque conjuntos de datos en todos los temas — energía, salud, transporte, medio ambiente, agricultura, economía, justicia y más — con filtros opcionales por formato de archivo y por país editor, obteniendo el identificador de cada conjunto de datos, título y descripción en inglés, editor, portal de origen, país, formatos disponibles, número de recursos, fecha de última modificación y licencia; lea los metadatos completos de un conjunto de datos junto con todas sus distribuciones descargables (título, formato y URL directa de cada distribución), además de categorías, palabras clave, idiomas y cobertura temporal; y explore facetas de descubrimiento para cualquier consulta — los formatos de archivo más comunes y los países que publican conjuntos de datos coincidentes. Ideal para periodismo de datos, aplicaciones cívico-tecnológicas y de tecnología gubernamental, investigación, análisis de mercado y políticas, y cualquier herramienta que necesite encontrar y descargar información del sector público europeo. Los identificadores de conjuntos de datos provienen de los resultados de búsqueda; los títulos y descripciones se devuelven en inglés cuando están disponibles. Datos de data.europa.eu (las licencias varían por conjunto de datos; la mayoría son CC-BY o dominio público).

api.oanor.com/eudata-api

MetaboLights API

MetaboLights como API, impulsado por EMBL-EBI — el repositorio abierto más importante del mundo para experimentos de metabolómica (espectroscopia de RMN y espectrometría de masas) y un recurso hermano de PRIDE para proteómica. Busque estudios públicos de metabolómica por palabra clave (devolviendo el acceso, título, descripción y organismo de cada estudio); lea los metadatos completos de un estudio, incluido su resumen, estado, fechas de envío y publicación, descriptores de diseño del estudio, factores experimentales, los ensayos analíticos con su tipo de medición, tecnología y plataforma, los contribuyentes y sus roles, las publicaciones vinculadas con DOI e identificadores de PubMed, remitentes, recuento de muestras, URL de descarga FTP y licencia de datos; inspeccione el flujo de trabajo analítico — cada protocolo con su nombre, tipo, descripción y parámetros (recolección de muestras, extracción, cromatografía, espectroscopia de RMN/MS, transformación de datos e identificación de metabolitos); y enumere los organismos y partes de organismos estudiados con sus términos de ontología. Ideal para investigación en metabolómica y biología de sistemas, reutilización de conjuntos de datos y metaanálisis, tuberías bioinformáticas y herramientas que integran evidencia experimental. Los accesos de estudio se ven como MTBLS1. Datos de EMBL-EBI MetaboLights.

api.oanor.com/metabolights-api

PRIDE API

The PRIDE proteomics archive as an API, powered by the EMBL-EBI PRIDE Archive — the world's largest public repository of mass-spectrometry proteomics data and a founding member of ProteomeXchange. Search the public proteomics experiments by keyword (returning each project's accession, title, organisms, diseases and instruments); read a project's full metadata including its description, keywords, organisms and organism parts, mass-spectrometry instruments, software, the protein modifications identified, sample- and data-processing protocols, submitters, affiliations and the linked publication (DOI and PubMed); list a project's data files with their category, format, size and a direct download link; and explore facets — the diseases, organisms, instruments, experiment types, software and countries represented across matching projects — for discovery. Ideal for proteomics and systems-biology research, dataset reuse and meta-analysis, bioinformatics pipelines, and tools that integrate experimental evidence. Project accessions look like PXD000001. Data from EMBL-EBI.

api.oanor.com/pride-api