test_md_header_text_splitter_preserve_headers_2() — langchain Function Reference

Architecture documentation for the test_md_header_text_splitter_preserve_headers_2() function in test_text_splitters.py from the langchain codebase.

Function python LangChainCore Runnables

Entity Profile

LangChainCore→ Runnables→ test_md_header_text_splitter_preserve_headers_2() — langchain Function Reference

Dependency Diagram

graph TD
  074bb29b_c2c7_c112_b22e_3037567e31ea["test_md_header_text_splitter_preserve_headers_2()"]
  6d6b8ad4_1cfe_fbb0_e58e_76a50487c135["test_text_splitters.py"]
  074bb29b_c2c7_c112_b22e_3037567e31ea -->|defined in| 6d6b8ad4_1cfe_fbb0_e58e_76a50487c135
  style 074bb29b_c2c7_c112_b22e_3037567e31ea fill:#6366f1,stroke:#818cf8,color:#fff

Relationship Graph

Source Code

libs/text-splitters/tests/unit_tests/test_text_splitters.py lines 1417–1460

def test_md_header_text_splitter_preserve_headers_2() -> None:
    """Test markdown splitter by header: Preserve Headers."""
    markdown_document = (
        "# Foo\n\n"
        "    ## Bar\n\n"
        "Hi this is Jim\n\n"
        "Hi this is Joe\n\n"
        "### Boo \n\n"
        "Hi this is Lance\n\n"
        "## Baz\n\n"
        "Hi this is Molly\n"
        "    ## Buz\n"
        "# Bop"
    )
    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
    ]
    markdown_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=headers_to_split_on,
        strip_headers=False,
    )
    output = markdown_splitter.split_text(markdown_document)
    expected_output = [
        Document(
            page_content="# Foo  \n## Bar  \nHi this is Jim  \nHi this is Joe",
            metadata={"Header 1": "Foo", "Header 2": "Bar"},
        ),
        Document(
            page_content="### Boo  \nHi this is Lance",
            metadata={"Header 1": "Foo", "Header 2": "Bar", "Header 3": "Boo"},
        ),
        Document(
            page_content="## Baz  \nHi this is Molly",
            metadata={"Header 1": "Foo", "Header 2": "Baz"},
        ),
        Document(
            page_content="## Buz",
            metadata={"Header 1": "Foo", "Header 2": "Buz"},
        ),
        Document(page_content="# Bop", metadata={"Header 1": "Bop"}),
    ]
    assert output == expected_output

Domain

LangChainCore

Subdomains

Runnables

Defined In

libs/text-splitters/tests/unit_tests/test_text_splitters.py

Source

View on GitHub

Frequently Asked Questions

What does test_md_header_text_splitter_preserve_headers_2() do?

test_md_header_text_splitter_preserve_headers_2() is a function in the langchain codebase, defined in libs/text-splitters/tests/unit_tests/test_text_splitters.py.

Where is test_md_header_text_splitter_preserve_headers_2() defined?

test_md_header_text_splitter_preserve_headers_2() is defined in libs/text-splitters/tests/unit_tests/test_text_splitters.py at line 1417.

Analyze Your Own Codebase

Get architecture documentation, dependency graphs, and domain analysis for your codebase in minutes.

Try Supermodel Free