#datasets — oanor

API de Expresión Génica

Experimentos de genómica funcional como una API — impulsada por NCBI GEO (Gene Expression Omnibus), el repositorio público más grande de datos de expresión génica. GEO archiva series de expresión y conjuntos de datos curados de experimentos de microarreglos y secuenciación de alto rendimiento en todos los organismos. Busque experimentos por palabra clave y opcionalmente por organismo, y consulte cualquier serie o conjunto de datos para obtener sus metadatos: título, resumen, tipo de ensayo (perfil de expresión por microarreglo o por secuenciación), organismo, número de muestras, plataforma y la publicación detrás de él. Desde estudios de estrés de células β hasta transcriptómica del cáncer en humanos y ratones, convierte el archivo GEO en una API simple de búsqueda y obtención para transcriptómica, bioinformática y descubrimiento de datos de investigación. Un repositorio de conjuntos de datos de expresión génica / genómica funcional — distinto de las bases de datos de secuencia (ENA), variantes (ClinVar, dbVar), estructura (PDB) y ontología. Datos abiertos de NCBI GEO (dominio público).

api.oanor.com/geodatasets-api

API de DataCite

DataCite como API: el registro global de DOIs (Identificadores de Objetos Digitales) para resultados de investigación. Mientras que Crossref registra DOIs para artículos de revistas, DataCite registra y describe DOIs para datos de investigación, software, muestras, disertaciones, preprints, modelos, imágenes y otros resultados, de repositorios como Zenodo, Dryad y miles de instituciones. /v1/search?query=climate realiza búsquedas de texto completo en el registro y se puede acotar por tipo de recurso (type=dataset, software, text, image, audiovisual, collection, model y más), devolviendo cada DOI con su título, tipo, creadores, editorial y año de publicación. /v1/doi?id=10.5281/zenodo.3509134 devuelve los metadatos completos de un solo DOI: título, tipo de recurso, creadores, editorial, año de publicación, descripción, materias, versión, licencia y fecha de registro. Los DOIs se ven como 10.5281/zenodo.3509134 (Zenodo) o 10.5061/dryad.xxxx (Dryad). Ideal para herramientas de descubrimiento y citación de datos de investigación, repositorios de datos y gestión de referencias, funciones de citación de software y flujos de trabajo de reproducibilidad. Los metadatos son CC0 de DataCite. Este es el registro de DOIs de datos de investigación y software, distinto del índice de DOIs de artículos de revistas (Crossref) y de servicios de preprints y acceso abierto.

api.oanor.com/datacite-api

API de BioStudies

BioStudies como API, impulsado por EMBL-EBI — la base de datos que contiene las descripciones de estudios biológicos y enlaza sus datos a través de los recursos de EBI, incluyendo imágenes (BioImage Archive), genómica funcional (ArrayExpress), proteómica y la literatura (Europe PMC). Cada estudio tiene un acceso, un título y resumen, la colección a la que pertenece y enlaces a sus datos subyacentes y publicaciones. /v1/search?query=covid busca en los estudios y devuelve el acceso de cada coincidencia (ej. S-EPMC8017430), título, autor, tipo de estudio, fecha de publicación y recuentos de enlaces/archivos. /v1/study?id=S-EPMC8017430 devuelve los metadatos de un estudio — su acceso, la colección a la que pertenece (como EuropePMC, ArrayExpress o BioImages), título, resumen, fecha de publicación, autores y el número de recursos enlazados. Los accesos tienen el formato S-EPMC8017430 o S-BSST123; obtenga uno del endpoint de búsqueda. Ideal para el descubrimiento de datos de investigación, vinculación de literatura con sus conjuntos de datos subyacentes, revisiones sistemáticas y herramientas de reproducibilidad. Datos de EMBL-EBI BioStudies (público). Este es un índice de metadatos de estudios y conjuntos de datos — distinto de las bases de datos de secuencias (UniProt, ENA), estructuras (PDB, EMDB), variantes (ClinVar) y ontologías.

api.oanor.com/biostudies-api

API de Hugging Face

El Hugging Face Hub como API: el registro central y abierto de modelos y conjuntos de datos de aprendizaje automático que impulsa gran parte del ecosistema moderno de IA. Esta API envuelve el hub público huggingface.co en JSON limpio. /v1/models busca los modelos del Hub y te permite filtrar por tarea (pipeline_tag — p. ej., text-generation, text-to-image, image-classification, automatic-speech-recognition, sentence-similarity) y por biblioteca (transformers, diffusers, sentence-transformers, …), ordenados por descargas, me gusta, última modificación, fecha de creación o puntuación de tendencia — cada modelo devuelto con su id, autor, tarea, biblioteca, recuento de descargas y me gusta, licencia, etiquetas y marcas de tiempo. /v1/model?id=google-bert/bert-base-uncased devuelve los metadatos completos de un solo modelo. /v1/datasets busca conjuntos de datos de ML de la misma manera, y /v1/dataset?id=ILSVRC/imagenet-1k devuelve los metadatos de un solo conjunto de datos. Los ids tienen la forma org/nombre (tómalos de los endpoints de búsqueda). Ideal para herramientas de ML y MLOps, sitios de descubrimiento y comparación de modelos, tableros de clasificación y paneles de IA, y asistentes de IA que recomiendan modelos. Los datos provienen del Hugging Face Hub público (gratuito para usar). Este es el centro de modelos y conjuntos de datos de IA/ML, distinto de los registros de paquetes de software (npm, PyPI, Maven, NuGet) y los índices de artículos académicos (arXiv).

api.oanor.com/huggingface-api

API de MGnify

MGnify como API, impulsado por EMBL-EBI, el recurso gratuito más grande del mundo para el análisis y archivo de datos de secuenciación del microbioma, y la hermana metagenómica de PRIDE (proteómica) y MetaboLights (metabolómica). MGnify alberga decenas de miles de estudios públicos de metagenómica y metabarcoding que abarcan el microbioma intestinal humano, ambientes marinos y de agua dulce, suelos, aguas residuales, el entorno construido y comunidades asociadas a hospedadores. Busque estudios por palabra clave, obteniendo el acceso de MGnify de cada estudio (MGYS...), nombre, resumen, bioma, recuento de muestras y el BioProject de secuenciación de origen; lea los metadatos completos de un estudio, incluidos su nombre y resumen, clasificación del bioma, número de muestras, centro de envío, estado público, origen de los datos y fecha de última actualización; y navegue por el árbol de clasificación de biomas estilo GOLD, desde raíz:Asociado al hospedador:Humano:Sistema digestivo hasta raíz:Ambiental:Acuático:Marino, con recuentos de muestras y estudios por bioma, para descubrimiento por entorno. Ideal para investigación del microbioma y genómica ambiental, reutilización de conjuntos de datos y metaanálisis, pipelines de bioinformática y enseñanza. Los accesos de estudio se ven como MGYS00006862. Datos de EMBL-EBI MGnify.

api.oanor.com/mgnify-api

API de Datos Abiertos de la UE

El portal de datos abiertos de la Unión Europea como API, impulsado por data.europa.eu — el punto único de acceso oficial a más de 1.8 millones de conjuntos de datos abiertos publicados por las instituciones de la UE y recopilados de los portales nacionales de datos abiertos de los 27 estados miembros (incluyendo data.gov.uk, data.gouv.fr y GovData Alemania). Busque conjuntos de datos en todos los temas — energía, salud, transporte, medio ambiente, agricultura, economía, justicia y más — con filtros opcionales por formato de archivo y por país editor, obteniendo el identificador de cada conjunto de datos, título y descripción en inglés, editor, portal de origen, país, formatos disponibles, número de recursos, fecha de última modificación y licencia; lea los metadatos completos de un conjunto de datos junto con todas sus distribuciones descargables (título, formato y URL directa de cada distribución), además de categorías, palabras clave, idiomas y cobertura temporal; y explore facetas de descubrimiento para cualquier consulta — los formatos de archivo más comunes y los países que publican conjuntos de datos coincidentes. Ideal para periodismo de datos, aplicaciones cívico-tecnológicas y de tecnología gubernamental, investigación, análisis de mercado y políticas, y cualquier herramienta que necesite encontrar y descargar información del sector público europeo. Los identificadores de conjuntos de datos provienen de los resultados de búsqueda; los títulos y descripciones se devuelven en inglés cuando están disponibles. Datos de data.europa.eu (las licencias varían por conjunto de datos; la mayoría son CC-BY o dominio público).

api.oanor.com/eudata-api

API de MetaboLights

MetaboLights como API, impulsado por EMBL-EBI — el repositorio abierto más importante del mundo para experimentos de metabolómica (espectroscopia de RMN y espectrometría de masas) y un recurso hermano de PRIDE para proteómica. Busque estudios públicos de metabolómica por palabra clave (devolviendo el acceso, título, descripción y organismo de cada estudio); lea los metadatos completos de un estudio, incluido su resumen, estado, fechas de envío y publicación, descriptores de diseño del estudio, factores experimentales, los ensayos analíticos con su tipo de medición, tecnología y plataforma, los contribuyentes y sus roles, las publicaciones vinculadas con DOI e identificadores de PubMed, remitentes, recuento de muestras, URL de descarga FTP y licencia de datos; inspeccione el flujo de trabajo analítico — cada protocolo con su nombre, tipo, descripción y parámetros (recolección de muestras, extracción, cromatografía, espectroscopia de RMN/MS, transformación de datos e identificación de metabolitos); y enumere los organismos y partes de organismos estudiados con sus términos de ontología. Ideal para investigación en metabolómica y biología de sistemas, reutilización de conjuntos de datos y metaanálisis, tuberías de bioinformática y herramientas que integran evidencia experimental. Los accesos de estudio se ven como MTBLS1. Datos de EMBL-EBI MetaboLights.

api.oanor.com/metabolights-api

API PRIDE

El archivo de proteómica PRIDE como una API, impulsado por el Archivo PRIDE de EMBL-EBI, el repositorio público más grande del mundo de datos de proteómica por espectrometría de masas y miembro fundador de ProteomeXchange. Busque experimentos públicos de proteómica por palabra clave (devolviendo el acceso, título, organismos, enfermedades e instrumentos de cada proyecto); lea los metadatos completos de un proyecto, incluida su descripción, palabras clave, organismos y partes de organismos, instrumentos de espectrometría de masas, software, las modificaciones de proteínas identificadas, protocolos de procesamiento de muestras y datos, remitentes, afiliaciones y la publicación vinculada (DOI y PubMed); enumere los archivos de datos de un proyecto con su categoría, formato, tamaño y un enlace de descarga directa; y explore facetas (las enfermedades, organismos, instrumentos, tipos de experimento, software y países representados en los proyectos coincidentes) para el descubrimiento. Ideal para investigación en proteómica y biología de sistemas, reutilización de conjuntos de datos y metaanálisis, tuberías de bioinformática y herramientas que integran evidencia experimental. Los accesos de proyecto tienen el formato PXD000001. Datos de EMBL-EBI.

api.oanor.com/pride-api