Data Analysis

48 skills in this category

A comprehensive reference guide for ClickHouse database development. Provides SQL patterns for table design (MergeTree engines), query optimization techniques, data insertion patterns, materialized views, and common analytics queries including time series analysis, funnel analysis, and cohort analysis.

ClickhouseDatabaseAnalytics+3

analyzing-financial-statements

This skill calculates key financial ratios and metrics from financial statement data for investment analysis

Financial AnalysisRatiosInvestment+3

creating-financial-models

This skill provides an advanced financial modeling suite with DCF analysis, sensitivity testing, Monte Carlo simulations, and scenario planning for investment decisions

FinanceValuationDcf+3

backtesting-frameworks

A comprehensive guide for building robust backtesting frameworks for trading strategies. Covers common biases (look-ahead, survivorship, overfitting), implementation patterns including event-driven and vectorized backtesters, walk-forward optimization, Monte Carlo analysis, and performance metrics calculation.

TradingBacktestingQuantitative Finance+3

spark-optimization

A comprehensive reference guide for optimizing Apache Spark jobs. Covers partitioning strategies, join optimization (broadcast, sort-merge, bucket joins), caching patterns, memory configuration, shuffle reduction techniques, and data format optimization with practical PySpark code examples.

SparkData EngineeringPerformance+3

dbt-transformation-patterns

A comprehensive reference guide for dbt (data build tool) analytics engineering. It covers model organization using the medallion architecture (staging, intermediate, marts layers), testing strategies, documentation practices, incremental model patterns, and common dbt commands. Ideal for data engineers building transformation pipelines.

DbtAnalytics EngineeringData Transformation+3

risk-metrics-calculation

A comprehensive reference guide for calculating portfolio risk metrics. Provides Python code patterns for Value at Risk (VaR), Conditional VaR, Sharpe ratio, Sortino ratio, maximum drawdown, and other risk measurements used in portfolio management and risk monitoring systems.

Risk MetricsPortfolio ManagementQuantitative Finance+3

ml-pipeline-workflow

This skill provides comprehensive documentation and best practices for building production MLOps pipelines. It covers the full ML lifecycle including data preparation, model training, validation, and deployment strategies with guidance on using orchestration tools like Airflow, Dagster, and Kubeflow.

MlopsMachine LearningPipeline+3

Backtesting Frameworks

A comprehensive quantitative finance skill for building robust backtesting systems for trading strategies. It covers event-driven and vectorized backtesters, walk-forward optimization, Monte Carlo analysis, and risk metrics including VaR, CVaR, Sharpe ratio, and drawdown analysis.

Quantitative FinanceBacktestingTrading Strategies+3

Data Storytelling

A comprehensive business analytics skill that teaches data storytelling techniques, KPI dashboard design patterns, and business analysis methodologies. It provides frameworks, templates, and example code for creating compelling data narratives and effective dashboards, but contains no executable scripts - all content is educational reference material.

Data VisualizationBusiness IntelligenceKpi Dashboards+3

Airflow Dag Patterns

A comprehensive data engineering skill that teaches production-ready Apache Airflow DAG patterns including TaskFlow API, dynamic DAG generation, sensors, branching logic, and error handling. Also covers dbt transformation patterns, Spark optimization techniques, and data quality frameworks with Great Expectations.

Data EngineeringAirflowEtl+3

A comprehensive skill for working with Excel spreadsheets (.xlsx, .xlsm, .csv, .tsv) including creating new files with formulas and formatting, reading/analyzing data with pandas, editing existing files while preserving formulas, and recalculating formula values using LibreOffice. Includes industry-standard financial modeling conventions.

SpreadsheetExcelXlsx+3

Comprehensive spreadsheet creation, editing, and analysis with support for formulas, formatting, data analysis, and visualization. When Claude needs to work with spreadsheets (.xlsx, .xlsm, .csv, .tsv, etc) for: (1) Creating new spreadsheets with formulas and formatting, (2) Reading or analyzing data, (3) Modify existing spreadsheets while preserving formulas, (4) Data analysis and visualization in spreadsheets, or (5) Recalculating formulas

SpreadsheetExcelData Analysis+2

Fred Economic Data

A comprehensive tool for accessing Federal Reserve Economic Data (FRED), providing 800,000+ economic time series including GDP, unemployment, inflation, and interest rates. Includes a Python client library with automatic retry/caching and extensive API documentation for economic research and financial analysis.

EconomicsFinanceData Analysis+3

A comprehensive spreadsheet toolkit for working with Excel and CSV files. It enables creating and editing spreadsheets with formulas, formatting, and data analysis using openpyxl and pandas, with automatic formula recalculation through LibreOffice integration.

SpreadsheetExcelCsv+3

Scientific Visualization

This skill helps researchers create publication-ready scientific figures with proper formatting for major journals like Nature, Science, and Cell. It provides colorblind-friendly color palettes, multi-panel layout tools, statistical visualization helpers, and export utilities that ensure figures meet journal-specific resolution and format requirements.

Scientific VisualizationMatplotlibSeaborn+3

A documentation skill that teaches how to use Zarr, a Python library for storing large N-dimensional arrays with chunking and compression. It covers array creation, storage backends (local, cloud, memory), compression codecs, parallel computing with Dask, and integration with NumPy and Xarray for scientific computing workflows.

PythonScientific ComputingData Storage+3

A comprehensive reference skill for Vaex, a high-performance Python library for processing and analyzing large tabular datasets (billions of rows) that exceed available RAM. Covers DataFrame operations, data loading, filtering, aggregations, machine learning pipelines, visualization, and performance optimization strategies.

Data AnalysisPythonBig Data+3

This skill provides comprehensive documentation and guidance for using UMAP (Uniform Manifold Approximation and Projection), a fast dimensionality reduction technique for visualization and machine learning. It covers installation, parameter tuning, supervised/unsupervised learning, clustering preprocessing with HDBSCAN, and advanced features like Parametric UMAP and inverse transforms.

Machine LearningDimensionality ReductionVisualization+3

This skill provides comprehensive documentation and examples for using the seaborn Python library for statistical data visualization. It covers core plotting functions (scatter, line, distribution, categorical, regression, and matrix plots), the modern objects interface API, multi-plot grids, theming, and best practices for creating publication-quality figures.

Data VisualizationPythonSeaborn+3

A comprehensive reference skill for the Polars DataFrame library, providing documentation on data operations, pandas migration patterns, I/O operations, and performance best practices. Designed for users working with in-memory data processing tasks.

PolarsDataframeData Processing+3

This skill provides comprehensive guidance for using Plotly, a Python library for creating interactive, publication-quality data visualizations. It covers 40+ chart types including scatter plots, bar charts, 3D surfaces, and geographic maps, along with styling, export options, and Dash integration for web applications.

Data VisualizationPythonPlotly+3

This skill provides expert guidance on using matplotlib for data visualization in Python. It covers both pyplot and object-oriented interfaces, includes comprehensive reference documentation for plot types, styling, and troubleshooting, plus ready-to-use template scripts for creating publication-quality figures.

MatplotlibData VisualizationPython+3

A comprehensive documentation skill for Dask, a Python library for parallel and distributed computing. It provides detailed reference guides for working with larger-than-memory datasets using DataFrames, Arrays, Bags, and Futures, along with scheduler selection and best practices for performance optimization.

DaskParallel ComputingData Processing+3

Model interpretability and explainability using SHAP (SHapley Additive exPlanations). Use this skill when explaining machine learning model predictions, computing feature importance, generating SHAP plots (waterfall, beeswarm, bar, scatter, force, heatmap), debugging models, analyzing model bias or fairness, comparing models, or implementing explainable AI. Works with tree-based models (XGBoost, LightGBM, Random Forest), deep learning (TensorFlow, PyTorch), linear models, and any black-box model.

Machine LearningModel InterpretabilityExplainability+3

Machine learning in Python with scikit-learn. Use when working with supervised learning (classification, regression), unsupervised learning (clustering, dimensionality reduction), model evaluation, hyperparameter tuning, preprocessing, or building ML pipelines. Provides comprehensive reference documentation for algorithms, preprocessing techniques, pipelines, and best practices.

Machine LearningScikit LearnPython+3

Comprehensive toolkit for creating, analyzing, and visualizing complex networks and graphs in Python. Use when working with network/graph data structures, analyzing relationships between entities, computing graph algorithms (shortest paths, centrality, clustering), detecting communities, generating synthetic networks, or visualizing network topologies. Applicable to social networks, biological networks, transportation systems, citation networks, and any domain involving pairwise relationships.

Graph AnalysisNetwork SciencePython+3

Python library for working with geospatial vector data including shapefiles, GeoJSON, and GeoPackage files. Use when working with geographic data for spatial analysis, geometric operations, coordinate transformations, spatial joins, overlay operations, choropleth mapping, or any task involving reading/writing/analyzing vector geographic data. Supports PostGIS databases, interactive maps, and integration with matplotlib/folium/cartopy. Use for tasks like buffer analysis, spatial joins between datasets, dissolving boundaries, clipping data, calculating areas/distances, reprojecting coordinate systems, creating maps, or converting between spatial file formats.

GeopandasGeospatialGis+3

Datacommons Client

Work with Data Commons, a platform providing programmatic access to public statistical data from global sources. Use this skill when working with demographic data, economic indicators, health statistics, environmental data, or any public datasets available through Data Commons. Applicable for querying population statistics, GDP figures, unemployment rates, disease prevalence, geographic entity resolution, and exploring relationships between statistical entities.

Data CommonsStatisticsPublic Data+3

This skill should be used for time series machine learning tasks including classification, regression, clustering, forecasting, anomaly detection, segmentation, and similarity search. Use when working with temporal data, sequential patterns, or time-indexed observations requiring specialized algorithms beyond standard ML approaches. Particularly suited for univariate and multivariate time series analysis with scikit-learn compatible APIs.

Time SeriesMachine LearningPython+3